基于扩展短文本词特征向量的分类研究

被引:9
作者
孟涛
王诚
机构
[1] 南京邮电大学通信与信息工程学院
关键词
短文本; Word2vec模型; 词嵌入; 改进后的特征权重算法; 语义相关度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
由于短文本的文档长度较短,短文本中词语的共现信息非常匮乏,造成短文本信息稀疏性问题。信息稀疏性也成为了传统主题模型在短文本上难以取得突破性进展的瓶颈之一。针对短文本分类,充分利用短文本中的每一个词语并解决其稀疏性成为关键。为了解决这一问题,基于Word2vec模型对短文本进行词嵌入扩展以解决其稀疏性,并将词向量转换成概率语义分布来测量语义关联性;针对短文本扩展后的特征向量,利用改进后的特征权重算法并引入语义相关度去处理扩展后的词特征向量。该方法可以区分出扩展后的短文本中词的重要程度,以便获得更准确的语义相关性。短文本分类研究采用KNN算法分类,实验结果表明,通过在外部语料集上学习得到的语义相关性扩展来处理短文本特征,可以有效提高短文本的分类效果。
引用
收藏
页码:57 / 62
页数:6
相关论文
共 9 条
[1]   基于SVM的高维混合特征短文本情感分类 [J].
王义真 ;
郑啸 ;
后盾 ;
胡昊 .
计算机技术与发展, 2018, 28 (02) :88-93
[2]   基于粗糙集与统计学习理论的样本分类算法 [J].
刘文军 ;
郑国义 ;
张小琼 .
模糊系统与数学, 2015, 29 (01) :183-190
[3]   用于大数据分类的KNN算法研究 [J].
耿丽娟 ;
李星毅 .
计算机应用研究, 2014, 31 (05) :1342-1344+1373
[4]   基于信息增益与信息熵的TFIDF算法 [J].
李学明 ;
李海瑞 ;
薛亮 ;
何光军 .
计算机工程, 2012, 38 (08) :37-40
[5]  
Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification[J] . Peng Wang,Bo Xu,Jiaming Xu,Guanhua Tian,Cheng-Lin Liu,Hongwei Hao. Neurocomputing . 2015
[6]  
Effectively classifying short texts by structured sparse representation with dictionary filtering[J] . Longwen Gao,Shuigeng Zhou,Jihong Guan. Information Sciences . 2015
[7]  
Short text classification based on strong feature thesaurus[J] . Bing-kun Wang,Yong-feng Huang,Wan-xia Yang,Xing Li. Journal of Zhejiang University SCIENCE C . 2012 (9)
[8]  
Text Classification from Labeled and Unlabeled Documents using EM.[J] . Kamal Nigam,Andrew Kachites Mccallum,Sebastian Thrun,Tom Mitchell. Machine Learning . 2000 (2-3)
[9]  
A Web Search Engine-Based Approach to Measure Semantic Similarity between Words .2 Danushka Bollegala,Yutaka Matsuo,Mitsuru Ishizuka. IEEE Transactions on Knowledge and Data Engineering . 2011