基于扩展领域模型的有名属性抽取

被引：12

作者：

王宇 ^{[1
,2
]}

谭松波 ^{[1
]}

廖祥文 ^{[1
,2
]}

曾依灵 ^{[1
,2
]}

机构：

[1] 中国科学院计算技术研究所

[2] 中国科学院研究生院

来源：

计算机研究与发展 | 2010年 / 09期

关键词：

信息抽取; 属性抽取; 有名属性; 扩展领域模型; 网页视觉分析;

D O I：

暂无

中图分类号：

TP393.09 [];

学科分类号：

080402 ;

摘要：

网页信息抽取是互联网挖掘的重要课题.为了自动化抽取过程,最新的研究利用特定领域的特征,通过机器学习方法对信息抽取过程进行统一建模.但是,对领域特征的依赖使得这类方法难以推广到其他领域中去.因此,对信息抽取问题进行了分析,从中分离出一个可以完全自动化的信息抽取子任务,即有名属性抽取任务.在多个领域的数据集上进行的统计表明,这个子任务覆盖了60%以上的待抽取属性,因此它在整个信息抽取中占有重要地位.并给出了一种基于扩展领域模型的有名属性抽取方法,实验结果表明,这种方法的准确率接近或大于80%,召回率大于90%.

引用

页码：1567 / 1573

页数：7

共 7 条

[1] 基于结果模式的Deep Web数据抽取 [J].

马安香 ;

张斌 ;

高克宁 ;

齐鹏 ;

张引 .

计算机研究与发展, 2009, 46 (02) :280-288

[2] 针对模板生成网页的一种数据自动抽取方法(英文) [J].

杨少华 ;

林海略 ;

韩燕波 .

软件学报, 2008, (02) :209-223

[3] 一种全自动生成网页信息抽取Wrapper的方法 [J].

梅雪 ;

程学旗 ;

郭岩 ;

张刚 ;

丁国栋 .

中文信息学报, 2008, (01) :22-29

[4] 一种基于树结构的Web数据自动抽取方法 [J].

胡东东 ;

孟小峰 .

计算机研究与发展, 2004, (10) :1607-1613

[5] Building intelligent Web applications using lightweight wrappers [J].

Sahuguet, A ;

Azavant, F .

DATA & KNOWLEDGE ENGINEERING, 2001, 36 (03) :283-316

[6]

Efficient string matching[J] . Alfred V. Aho,Margaret J. Corasick.Communications of the ACM . 1975 (6)

[7]

A hierarchical approach to wrapper induction .2 Ion Muslea,Steve Minton,Craig Knoblock. Proceedings of the Third International Conference on Autonomous Agents . 1999

← 1 →