双语影视知识图谱的构建研究

被引:33
作者
王巍巍
王志刚
潘亮铭
刘阳
张江涛
机构
[1] 清华大学计算机科学与技术系知识工程实验室
基金
法国国家科研署;
关键词
影视本体; 双语; 知识图谱;
D O I
10.13209/j.0479-8023.2016.022
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出一种双语影视知识图谱(BMKG)的构建流程。通过半自动化的方法构建了双语影视本体(BMO),将各个影视数据源对齐到BMO,以保持异构数据源的语义描述一致性。在知识链接方面,在充分挖掘和利用领域特征的基础上,采用基于Word2Vec和TFIDF两种向量模型的实体相似度计算方法,使相似度特征增加一倍,大大提升了模型的链接效果。在实体匹配方面,提出基于相似度传播算法的实体匹配算法,并利用影视数据源之间的内在联系,克服了跨语言实体之间计算相似度的语言障碍。实验结果表明,当阈值取到0.75以上时,实体匹配的准确率都能达到90%左右。此外,还建立了影视知识图谱共享平台,并提供开放性的数据访问和查询接口。
引用
收藏
页码:25 / 34
页数:10
相关论文
共 7 条
[1]   面向非结构化文本的开放式实体属性抽取 [J].
曾道建 ;
来斯惟 ;
张元哲 ;
刘康 ;
赵军 .
江西师范大学学报(自然科学版), 2013, 37 (03) :279-283+305
[2]   开放式文本信息抽取 [J].
赵军 ;
刘康 ;
周光有 ;
蔡黎 .
中文信息学报, 2011, 25 (06) :98-110
[3]   多民族语言本体知识库构建技术 [J].
赵小兵 ;
邱莉榕 ;
赵铁军 .
中文信息学报, 2011, (04) :71-74
[4]   领域本体的构建方法研究 [J].
张文秀 ;
朱庆华 .
图书与情报, 2011, (01) :16-19+40
[5]  
区域医疗本体知识库构建及其语义应用.[D].宣腾.电子科技大学.2013, 01
[6]  
基于Web结构的表格信息抽取研究.[D].刘颖.合肥工业大学.2012, 03
[7]  
WordNet.[J].George A. Miller.Communications of the ACM.1995, 11