首页
学术期刊
AI智评
热点
更多
数据
分布式多主题网络爬虫系统的研究与实现
被引:20
作者
:
论文数:
引用数:
h-index:
机构:
白鹤
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
汤迪斌
[
1
,
2
]
王劲林
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所国家网络新媒体工程技术研究中心
中国科学院研究生院
王劲林
[
2
]
机构
:
[1]
中国科学院研究生院
[2]
中国科学院声学研究所国家网络新媒体工程技术研究中心
来源
:
计算机工程
|
2009年
/ 35卷
/ 19期
关键词
:
网络爬虫;
多主题;
分布式;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
080402 ;
摘要
:
提出一种基于数据抽取器的分布式爬虫架构。该架构采用基于分类标注的多主题策略,解决同一爬虫系统内多主题自适应兼容的问题。介绍二级加权任务分割算法,解决基于目标导向、负载均衡的URL分配问题,增强系统可扩展性。给出基于Trie树的URL存储策略的改进方法,可以高效地支持URL查询、插入和重复性检测。
引用
收藏
页码:13 / 16+19 +19
页数:5
相关论文
共 4 条
[1]
主题网络爬虫研究综述
[J].
刘金红
论文数:
0
引用数:
0
h-index:
0
机构:
解放军电子工程学院网络系
刘金红
;
陆余良
论文数:
0
引用数:
0
h-index:
0
机构:
解放军电子工程学院网络系
陆余良
.
计算机应用研究,
2007,
(10)
:26
-29+47
[2]
智能专题化信息搜集Crawler
[J].
钱榕
论文数:
0
引用数:
0
h-index:
0
机构:
北京科技大学信息工程学院
北京科技大学信息工程学院
钱榕
;
论文数:
引用数:
h-index:
机构:
徐新华
;
郑莹
论文数:
0
引用数:
0
h-index:
0
机构:
济南大学人事处
北京科技大学信息工程学院
郑莹
;
杨炳儒
论文数:
0
引用数:
0
h-index:
0
机构:
北京科技大学信息工程学院
北京科技大学信息工程学院
杨炳儒
.
计算机工程,
2006,
(03)
:57
-59
[3]
分布式Web Crawler的研究:结构、算法和策略
[J].
叶允明
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海,上海
叶允明
;
于水
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海,上海
于水
;
马范援
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海,上海
马范援
;
宋晖
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海,上海
宋晖
;
论文数:
引用数:
h-index:
机构:
张岭
.
电子学报,
2002,
(S1)
:2008
-2011
[4]
Database techniques for the World-Wide Web[J] . Daniela Florescu,Alon Levy,Alberto Mendelzon.ACM SIGMOD Record . 1998 (3)
←
1
→
共 4 条
[1]
主题网络爬虫研究综述
[J].
刘金红
论文数:
0
引用数:
0
h-index:
0
机构:
解放军电子工程学院网络系
刘金红
;
陆余良
论文数:
0
引用数:
0
h-index:
0
机构:
解放军电子工程学院网络系
陆余良
.
计算机应用研究,
2007,
(10)
:26
-29+47
[2]
智能专题化信息搜集Crawler
[J].
钱榕
论文数:
0
引用数:
0
h-index:
0
机构:
北京科技大学信息工程学院
北京科技大学信息工程学院
钱榕
;
论文数:
引用数:
h-index:
机构:
徐新华
;
郑莹
论文数:
0
引用数:
0
h-index:
0
机构:
济南大学人事处
北京科技大学信息工程学院
郑莹
;
杨炳儒
论文数:
0
引用数:
0
h-index:
0
机构:
北京科技大学信息工程学院
北京科技大学信息工程学院
杨炳儒
.
计算机工程,
2006,
(03)
:57
-59
[3]
分布式Web Crawler的研究:结构、算法和策略
[J].
叶允明
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海,上海
叶允明
;
于水
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海,上海
于水
;
马范援
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海,上海
马范援
;
宋晖
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海,上海
宋晖
;
论文数:
引用数:
h-index:
机构:
张岭
.
电子学报,
2002,
(S1)
:2008
-2011
[4]
Database techniques for the World-Wide Web[J] . Daniela Florescu,Alon Levy,Alberto Mendelzon.ACM SIGMOD Record . 1998 (3)
←
1
→