分布式多主题网络爬虫系统的研究与实现

被引:20
作者
白鹤 [1 ,2 ]
汤迪斌 [1 ,2 ]
王劲林 [2 ]
机构
[1] 中国科学院研究生院
[2] 中国科学院声学研究所国家网络新媒体工程技术研究中心
关键词
网络爬虫; 多主题; 分布式;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。
引用
收藏
页码:13 / 16+19 +19
页数:5
相关论文
共 4 条
[1]   主题网络爬虫研究综述 [J].
刘金红 ;
陆余良 .
计算机应用研究, 2007, (10) :26-29+47
[2]   智能专题化信息搜集Crawler [J].
钱榕 ;
徐新华 ;
郑莹 ;
杨炳儒 .
计算机工程, 2006, (03) :57-59
[3]   分布式Web Crawler的研究:结构、算法和策略 [J].
叶允明 ;
于水 ;
马范援 ;
宋晖 ;
张岭 .
电子学报, 2002, (S1) :2008-2011
[4]  
Database techniques for the World-Wide Web[J] . Daniela Florescu,Alon Levy,Alberto Mendelzon.ACM SIGMOD Record . 1998 (3)