基于领域词语本体的短文本分类

被引:39
作者
宁亚辉
樊兴华
吴渝
机构
[1] 重庆邮电大学计算机科学与技术研究所
关键词
短文本; 本体; 知网; 文本分类; 语义; 义元;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
短文本自身长度较短,描述概念能力弱,常用文本分类方法都不太适用于短文本分类。提出了基于领域词语本体的短文本分类方法。首先抽取领域高频词作为特征词,借助知网从语义方面将特征词扩展为概念和义元,通过计算不同概念所包含相同义元的信息量来衡量词的相似度,从而进行分类。对比实验表明,该方法在一定程度上弥补了短文本特征不足的缺点,且提高了准确率和召回率。
引用
收藏
页码:142 / 145
页数:4
相关论文
共 3 条
[1]   中文词语语义相似度计算——基于《知网》2000 [J].
李峰 ;
李芳 .
中文信息学报, 2007, (03) :99-105
[2]   一种高性能的两类中文文本分类方法 [J].
樊兴华 ;
孙茂松 .
计算机学报, 2006, (01) :124-131
[3]  
一种改进的增量贝叶斯分类算法 .2 马后锋,樊兴华. 仪器仪表学报 . 2007