基于Word2vec的文档分类方法

被引:9
|
作者
陈杰
陈彩
梁毅
机构
[1] 北京工业大学信息学部
关键词
文档向量; 文档特征提取; 文档分类; TF-IDF; word2vec;
D O I
10.15888/j.cnki.csa.006055
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高.
引用
收藏
页码:159 / 164
页数:6
相关论文
共 6 条
  • [1] 基于Word2Vec的一种文档向量表示
    唐明
    朱磊
    邹显春
    [J]. 计算机科学, 2016, 43 (06) : 214 - 217+269
  • [2] 基于信息增益与信息熵的TFIDF算法
    李学明
    李海瑞
    薛亮
    何光军
    [J]. 计算机工程, 2012, 38 (08) : 37 - 40
  • [3] 信息检索用户查询语句的停用词过滤
    熊文新
    宋柔
    [J]. 计算机工程, 2007, (06) : 195 - 197
  • [4] 基于机器学习的文本分类技术研究进展
    苏金树
    张博锋
    徐昕
    [J]. 软件学报, 2006, (09) : 1848 - 1859
  • [5] Web挖掘中的降维和分类方法研究[D]. 孙建涛.清华大学. 2005
  • [6] EXTENDED BOOLEAN INFORMATION-RETRIEVAL
    SALTON, G
    FOX, EA
    WU, H
    [J]. COMMUNICATIONS OF THE ACM, 1983, 26 (11) : 1022 - 1036