主题网络爬虫研究综述

被引:106
作者
于娟
刘强
机构
[1] 福州大学经济与管理学院
关键词
网络爬虫; 主题爬虫; 搜索引擎;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
网络信息资源呈指数级增长,面对用户越来越个性化的需求,主题网络爬虫应运而生。主题网络爬虫是一种下载特定主题网页的程序。利用在采集页面过程获得的特定信息,主题网络爬虫抓取的页面都是与主题相关的。基于主题网络爬虫的搜索引擎以及基于主题网络爬虫构建领域语料库等应用已经得到广泛运用。首先介绍了主题爬虫的定义、工作原理;然后介绍了近年来国内外关于主题爬虫的研究状况,并比较了各种爬行策略及相关算法的优缺点;最后提出了主题网络爬虫未来的研究方向。
引用
收藏
页码:231 / 237
页数:7
相关论文
共 23 条
[21]   主题爬虫在数字图书馆中的应用 [J].
杨学明 ;
刘柏嵩 .
图书馆杂志, 2007, (08) :47-50+58
[22]   基于叙词表的主题爬虫技术研究 [J].
夏崇镨 ;
康丽 .
现代图书情报技术, 2007, (05) :41-44
[23]   可在线增量自学习的聚焦爬行方法 [J].
傅向华 ;
冯博琴 ;
马兆丰 ;
何明 ;
不详 .
西安交通大学学报 , 2004, (06) :599-602