正则表达式在Web信息抽取中的应用

被引:45
作者
胡军伟
秦奕青
张伟
机构
[1] 北京信息科技大学计算机学院
关键词
Web信息抽取; 正则表达式; 匹配; 替换; 提取;
D O I
10.16508/j.cnki.11-5866/n.2011.06.014
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
针对基于HTML结构的信息抽取方法,提出了正则表达式的处理方法。利用正则表达式的匹配、替换和提取等功能,重点讨论了正则表达式在Web信息抽取过程中的应用。正则表达式已成功的应用在数据搜集、页面优化、规则学习和信息抽取等整个Web信息抽取的过程中。
引用
收藏
页码:86 / 89
页数:4
相关论文
共 8 条
[1]  
基于XML的Web信息抽取研究与实现.[D].轩艳艳.武汉理工大学.2008, 09
[2]   基于Boost.Regex的网页信息抽取 [J].
吴鹏飞 ;
马凤娟 .
电脑编程技巧与维护, 2009, (15) :49-52+63
[3]   正则表达式及其在信息抽取中的应用 [J].
张静 ;
张妍 .
电脑知识与技术, 2009, 5 (15) :3867-3868
[4]   基于Web的信息抽取技术研究综述 [J].
蒲筱哥 .
现代情报, 2007, (10) :215-219
[5]   基于DOM的Web信息抽取 [J].
崔继馨 ;
张鹏 ;
杨文柱 .
河北农业大学学报, 2005, (03) :90-93
[6]   基于XPath的Web信息抽取的设计与实现 [J].
杨文柱 ;
徐林昊 ;
陈少飞 ;
郝亚南 ;
李天柱 .
计算机工程, 2003, (16) :82-83+113
[7]   A brief survey of Web data extraction tools [J].
Laender, AHF ;
Ribeiro-Neto, BA ;
da Silva, AS ;
Teixeira, JS .
SIGMOD RECORD, 2002, 31 (02) :84-93
[8]  
C#字符串和正则表达式参考手册.[M].[法]FrancoisLiger等著;刘乐亭译;.清华大学出版社.2003,