一种基于概率主题模型的命名实体链接方法

被引:30
作者
怀宝兴
宝腾飞
祝恒书
刘淇
机构
[1] 中国科学技术大学计算机科学与技术学院
基金
安徽省自然科学基金; 国家杰出青年科学基金;
关键词
命名实体链接; 概率主题模型; 维基百科;
D O I
10.13328/j.cnki.jos.004642
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
命名实体链接(named entity linking,简称NEL)是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等.该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力.然而,实体数量的激增给实体消歧等带来了巨大挑战,使得当前的命名实体链接技术越来越难以满足人们对链接准确率的要求.考虑到文档中的词和实体往往具有不同的语义主题(如"苹果"既能表示水果又可以是某电子品牌),而同一文档中的词与实体应当具有相似的主题,因此提出在语义层面对文档进行建模和实体消歧的思想.基于此设计一种完整的、基于概率主题模型的命名实体链接方法.首先,利用维基百科(Wikipedia)构建知识库;然后,利用概率主题模型将词和命名实体映射到同一个主题空间,并根据实体在主题空间中的位置向量,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体;最后,在真实的数据集上进行大量实验,并与标准方法进行对比.实验结果表明:所提出的框架能够较好地解决了实体歧义问题,取得了更高的实体链接准确度.
引用
收藏
页码:2076 / 2087
页数:12
相关论文
共 4 条
[1]   一种基于词语搭配的语义消歧方法 [J].
郑杰 ;
茅于杭 .
清华大学学报(自然科学版), 2001, (03) :117-120
[2]  
Probabilistic Inference Using Markov Chain Monte Carlo Methods .2 Radford M Neal. Technical Report CRG-TR-93-1 . 1993
[3]  
Extracting Company Names from Text .2 Rau L. F. Proceedings of the7th IEEEConference on Artificial Intelligence Applications . 1991
[4]  
Discovering relations among named entities from large corpora .2 Hasegawa T,Sekine S,Grishman R. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics . 2004