基于扩展领域模型的有名属性抽取

被引:12
作者
王宇 [1 ,2 ]
谭松波 [1 ]
廖祥文 [1 ,2 ]
曾依灵 [1 ,2 ]
机构
[1] 中国科学院计算技术研究所
[2] 中国科学院研究生院
关键词
信息抽取; 属性抽取; 有名属性; 扩展领域模型; 网页视觉分析;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中分离出一个可以完全自动化的信息抽取子任务,即有名属性抽取任务.在多个领域的数据集上进行的统计表明,这个子任务覆盖了60%以上的待抽取属性,因此它在整个信息抽取中占有重要地位.并给出了一种基于扩展领域模型的有名属性抽取方法,实验结果表明,这种方法的准确率接近或大于80%,召回率大于90%.
引用
收藏
页码:1567 / 1573
页数:7
相关论文
共 7 条
[1]   基于结果模式的Deep Web数据抽取 [J].
马安香 ;
张斌 ;
高克宁 ;
齐鹏 ;
张引 .
计算机研究与发展, 2009, 46 (02) :280-288
[2]   针对模板生成网页的一种数据自动抽取方法(英文) [J].
杨少华 ;
林海略 ;
韩燕波 .
软件学报, 2008, (02) :209-223
[3]   一种全自动生成网页信息抽取Wrapper的方法 [J].
梅雪 ;
程学旗 ;
郭岩 ;
张刚 ;
丁国栋 .
中文信息学报, 2008, (01) :22-29
[4]   一种基于树结构的Web数据自动抽取方法 [J].
胡东东 ;
孟小峰 .
计算机研究与发展, 2004, (10) :1607-1613
[5]   Building intelligent Web applications using lightweight wrappers [J].
Sahuguet, A ;
Azavant, F .
DATA & KNOWLEDGE ENGINEERING, 2001, 36 (03) :283-316
[6]  
Efficient string matching[J] . Alfred V. Aho,Margaret J. Corasick.Communications of the ACM . 1975 (6)
[7]  
A hierarchical approach to wrapper induction .2 Ion Muslea,Steve Minton,Craig Knoblock. Proceedings of the Third International Conference on Autonomous Agents . 1999