基于知识图谱的Web信息抽取系统

被引:16
作者
王辉 [1 ]
郁波 [2 ]
洪宇 [3 ]
肖仰华 [2 ]
机构
[1] 上海电力学院经济与管理学院
[2] 复旦大学计算机科学技术学院
[3] 东华大学计算机科学与技术学院
基金
上海市自然科学基金;
关键词
知识图谱; 多领域; Web信息抽取; 网页自动标注; 容错; 包装器归纳框架;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP393.092 [];
学科分类号
081203 ; 0835 ; 080402 ;
摘要
为实现多领域海量网页信息的有效抽取,以中文知识图谱CN-DBpedia为基础设计Web信息抽取系统。基于知识图谱对网页数据项进行自动标注,建立具有容错能力的包装器归纳框架,从包含错误的标注集中归纳学习出正确的包装器。实验结果表明,该系统的准确率和召回率均高于传统人工标注方法,可显著降低网页信息抽取过程中的人力成本,灵活运用于大规模、多领域的网页信息抽取任务。
引用
收藏
页码:118 / 124
页数:7
相关论文
共 7 条
[1]   基于依存分析的开放式中文实体关系抽取方法 [J].
李明耀 ;
杨静 .
计算机工程, 2016, 42 (06) :201-207
[2]   知识图谱构建技术综述 [J].
刘峤 ;
李杨 ;
段宏 ;
刘瑶 ;
秦志光 .
计算机研究与发展, 2016, 53 (03) :582-600
[3]   Web信息抽取技术综述 [J].
陈钊 ;
张冬梅 .
计算机应用研究, 2010, 27 (12) :4401-4405
[4]   Web数据管理研究综述 [J].
孟小峰 .
计算机研究与发展 , 2001, (04) :385-395
[5]  
Hierarchical Wrapper Induction for Semistructured Information Sources[J] . Ion Muslea,Steven Minton,Craig A. Knoblock.Autonomous Agents and Multi-Agent Systems . 2001 (1)
[6]   Learning Information Extraction Rules for Semi-Structured and Free Text [J].
Stephen Soderland .
Machine Learning, 1999, 34 :233-272
[7]  
Wrapper Induction for Information Extraction. N Kushmerick, DS Weld, RB Doorenbos. Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence(IJCAI297) . 1997