基于Wikipedia的短文本语义相关度计算方法

被引:16
作者
王荣波 [1 ]
谌志群 [1 ]
周建政 [2 ]
李治 [2 ]
高飞 [1 ]
机构
[1] 杭州电子科技大学认知与智能计算研究所
[2] 天格科技(杭州)有限公司
关键词
短文本; Wikipedia; 相关度计算; 自然语言处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
语义相关度计算是自然语言处理领域的研究热点。现有的以文本相似度计算代替文本相关度计算的方法存在不足之处。提出从语形相似性和组元相关性两个方面来综合度量短文本之间的语义相关性,并提出2个以Wikipedia作为外部知识库的短文本相关度计算算法:最大词语关联法和动态组块法。在一个网络短文本测试集上对算法进行测评。实验结果表明,该算法与典型相似度计算算法比较,在正确率方面提高了20%以上。
引用
收藏
页码:82 / 85+92 +92
页数:5
相关论文
共 14 条
[1]   Mining meaning from Wikipedia [J].
Medelyan, Olena ;
Milne, David ;
Legg, Catherine ;
Witten, Ian H. .
INTERNATIONAL JOURNAL OF HUMAN-COMPUTER STUDIES, 2009, 67 (09) :716-754
[2]  
基于中文维基百科的语义知识挖掘相关研究.[D].李赟.北京邮电大学.2009, 03
[3]  
短文本语言计算的关键技术研究.[D].龚才春.中国科学院研究生院(计算技术研究所).2008, 08
[4]  
基于中文维基百科的词语相关度计算.[J].谌志群;高飞;曾智军;.情报学报.2012, 12
[5]   基于本体的语义相似度和相关度计算研究综述 [J].
刘宏哲 ;
须德 .
计算机科学, 2012, 39 (02) :8-13
[6]   基于文档相关度计算的网页预测模型 [J].
朱鲲鹏 ;
魏芳 .
计算机应用与软件, 2012, 29 (02) :109-112+189
[7]   基于Wikipedia的语义相关度计算 [J].
刘军 ;
姚天昉 .
计算机工程, 2010, 36 (19) :42-43+46
[8]   面向短文本的动态组合分类算法 [J].
闫瑞 ;
曹先彬 ;
李凯 .
电子学报, 2009, 37 (05) :1019-1024
[9]   一种适应短文本的相关测度及其应用 [J].
何海江 .
计算机工程, 2009, 35 (06) :88-90+96
[10]   一种基于主题的概率文档相关模型 [J].
贾西平 ;
彭宏 ;
郑启伦 ;
石时需 .
计算机科学, 2008, (10) :178-180+218