利用《知网》和领域关键词集扩展方法的短文本分类研究

被引:16
作者
李湘东 [1 ,2 ]
曹环 [1 ]
丁丛 [1 ]
黄莉 [3 ]
机构
[1] 武汉大学信息管理学院
[2] 武汉大学信息资源研究中心
[3] 武汉大学图书馆
关键词
短文本分类; 关键词集; LDA; 特征扩展; 知网;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的】实现短文本特征扩展,提高短文本分类性能。【方法】按照特征词和隐含主题两种特征粒度,分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集。利用概率主题模型提取待分类文本的主题概率分布,将概率大于某一阈值的主题对应的关键词扩展到待分类文本中。借助《知网》计算待分类文本与各领域关键词集的语义相似度。【结果】与LDA模型的短文本分类算法相比,本文提出的分类算法在复旦语料、Sogou语料和微博语料上的MacroF1分别平均提高4.9%、5.9%和4.2%,在MicroF1上分别平均提高4.6%、6.2%和2.8%。而与VSM的短文本分类算法相比,本文方法在各语料上都提高13%以上。且实验证明结合领域高频词和主题核心词的特征扩展方法的分类性能优于仅使用领域高频词或主题核心词进行特征扩展的方法。【局限】短文本中存在很多《知网》未收录的特征词,无法利用《知网》计算相似度,影响分类效果。【结论】本文方法能有效提高短文本分类性能。
引用
收藏
页码:31 / 38
页数:8
相关论文
共 10 条
[1]   基于主题本体扩展特征的短文本分类 [J].
湛燕 ;
陈昊 .
河北大学学报(自然科学版), 2014, 34 (03) :307-311
[2]   基于语义与最大匹配度的短文本分类研究 [J].
孙建旺 ;
吕学强 ;
张雷瀚 .
计算机工程与设计, 2013, 34 (10) :3613-3618
[3]   基于LDA高频词扩展的中文短文本分类 [J].
胡勇军 ;
江嘉欣 ;
常会友 .
现代图书情报技术, 2013, (06) :42-48
[4]   一种基于维基百科的中文短文本分类算法 [J].
赵辉 ;
刘怀亮 .
图书情报工作, 2013, 57 (11) :120-124
[5]   基于语义的KNN短文本分类算法研究 [J].
张素智 ;
刘婧姣 .
郑州轻工业学院学报(自然科学版), 2012, 27 (06) :1-4
[6]   文本分类性能评价研究 [J].
奉国和 .
情报杂志, 2011, 30 (08) :66-70
[7]   基于领域词语本体的短文本分类 [J].
宁亚辉 ;
樊兴华 ;
吴渝 .
计算机科学, 2009, 36 (03) :142-145
[8]   一种基于特征扩展的中文短文本分类方法 [J].
王细薇 ;
樊兴华 ;
赵军 .
计算机应用, 2009, 29 (03) :843-845
[9]   基于本体论和词汇语义相似度的Web服务发现 [J].
吴健 ;
吴朝晖 ;
李莹 ;
邓水光 .
计算机学报, 2005, (04) :595-602
[10]  
基于《〈知网〉》词汇语义相关度计算的消歧方法[J]. 李生琦,田巧燕,汤承.情报学报. 2009 (05)