正则表达式在Web信息抽取中的应用

被引：45

作者：

胡军伟

秦奕青

张伟

机构：

[1] 北京信息科技大学计算机学院

来源：

北京信息科技大学学报(自然科学版) | 2011年 / 26卷 / 06期

关键词：

Web信息抽取; 正则表达式; 匹配; 替换; 提取;

D O I：

10.16508/j.cnki.11-5866/n.2011.06.014

中图分类号：

TP393.09 [];

学科分类号：

080402 ;

摘要：

针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web信息抽取的过程中。

引用

页码：86 / 89

页数：4

共 8 条

[1]

基于XML的Web信息抽取研究与实现.[D].轩艳艳.武汉理工大学.2008, 09

[2] 基于Boost.Regex的网页信息抽取 [J].

吴鹏飞 ;

马凤娟 .

电脑编程技巧与维护, 2009, (15) :49-52+63

[3] 正则表达式及其在信息抽取中的应用 [J].

张静 ;

张妍 .

电脑知识与技术, 2009, 5 (15) :3867-3868

[4] 基于Web的信息抽取技术研究综述 [J].

蒲筱哥 .

现代情报, 2007, (10) :215-219

[5] 基于DOM的Web信息抽取 [J].

崔继馨 ;

张鹏 ;

杨文柱 .

河北农业大学学报, 2005, (03) :90-93

[6] 基于XPath的Web信息抽取的设计与实现 [J].

杨文柱 ;

徐林昊 ;

陈少飞 ;

郝亚南 ;

李天柱 .

计算机工程, 2003, (16) :82-83+113

[7] A brief survey of Web data extraction tools [J].

Laender, AHF ;

Ribeiro-Neto, BA ;

da Silva, AS ;

Teixeira, JS .

SIGMOD RECORD, 2002, 31 (02) :84-93

[8]

C#字符串和正则表达式参考手册.[M].[法]FrancoisLiger等著;刘乐亭译;.清华大学出版社.2003,

← 1 →