首页
学术期刊
论文检测
AIGC检测
热点
更多
数据
一种基于P2P技术的分布式微博爬虫系统
被引:9
作者
:
论文数:
引用数:
h-index:
机构:
卢杨
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
李华康
[
1
,
2
]
孙国梓
论文数:
0
引用数:
0
h-index:
0
机构:
南京邮电大学计算机学院
南京邮电大学计算机技术研究所
南京邮电大学计算机学院
孙国梓
[
1
,
2
]
机构
:
[1]
南京邮电大学计算机学院
[2]
南京邮电大学计算机技术研究所
来源
:
江苏大学学报(自然科学版)
|
2016年
/ 37卷
/ 03期
关键词
:
网络爬虫;
P2P;
分布式;
微博;
模拟登录;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
微博正逐步成为公共信息传播的主要媒体,高效地获取微博数据则显得至关重要,分析微博数据有助于研究者及时了解舆情信息.由于传统网页爬虫无法获取完整的微博信息,微博API又有诸多限制,因此针对新浪微博,设计了一种基于P2P技术的微博爬虫系统.该系统避免了新浪API的功能和连接限制,使用基于模拟登录的网页爬虫,根据用户的地理位置信息划分任务,实现连续高效的数据采集.通过与其他架构的试验比较,证明本系统具有良好的性能,能为舆情分析提供数据支持.
引用
收藏
页码:296 / 301
页数:6
相关论文
共 13 条
[1]
分布式Web信息采集关键技术研究.[D].许笑.哈尔滨工业大学.2011, 04
[2]
一种基于模拟登录的微博数据采集方案
[J].
论文数:
引用数:
h-index:
机构:
孙青云
;
论文数:
引用数:
h-index:
机构:
王俊峰
;
赵宗渠
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
四川大学计算机学院
赵宗渠
;
论文数:
引用数:
h-index:
机构:
高梦超
.
计算机技术与发展,
2014,
24
(03)
:6
-10
[3]
多策略融合的中文微博数据采集方法
[J].
朱云鹏
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民解放军驻北京地区军事代表室
中国人民解放军驻北京地区军事代表室
朱云鹏
;
冯枫
论文数:
0
引用数:
0
h-index:
0
机构:
合肥电子工程学院网络工程系
中国人民解放军驻北京地区军事代表室
冯枫
;
陈江宁
论文数:
0
引用数:
0
h-index:
0
机构:
合肥电子工程学院网络工程系
中国人民解放军驻北京地区军事代表室
陈江宁
.
计算机工程与设计,
2013,
34
(11)
:3835
-3839
[4]
基于微博的人物关系网络挖掘系统
[J].
论文数:
引用数:
h-index:
机构:
戴月卿
;
论文数:
引用数:
h-index:
机构:
钟玲
;
林柏钢
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学数学与计算机科学学院
网络系统信息安全福建省高校重点实验室
福州大学数学与计算机科学学院
林柏钢
;
论文数:
引用数:
h-index:
机构:
陈明志
.
信息网络安全,
2013,
(02)
:83
-86
[5]
分布式网络爬虫的设计与实现
[J].
吴黎兵
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学计算机学院
信息网络安全公安部重点实验室
武汉大学计算机学院
吴黎兵
;
论文数:
引用数:
h-index:
机构:
柯亚林
;
论文数:
引用数:
h-index:
机构:
何炎祥
;
刘楠
论文数:
0
引用数:
0
h-index:
0
机构:
信息网络安全公安部重点实验室
武汉大学计算机学院
刘楠
.
计算机应用与软件,
2011,
28
(11)
:176
-179+213
[6]
一种分布式微博数据采集平台的设计与实现
[J].
论文数:
引用数:
h-index:
机构:
李龙
;
李芝棠
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学网络中心
华中科技大学计算机科学与技术学院
下一代互联网接入系统国家工程实验室
华中科技大学计算机科学与技术学院
李芝棠
;
涂浩
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学网络中心
下一代互联网接入系统国家工程实验室
华中科技大学计算机科学与技术学院
涂浩
;
论文数:
引用数:
h-index:
机构:
史春永
.
广西大学学报(自然科学版),
2011,
(S1)
:324
-328
[7]
新浪微博数据挖掘方案
[J].
论文数:
引用数:
h-index:
机构:
廉捷
;
周欣
论文数:
0
引用数:
0
h-index:
0
机构:
中国信息安全测评中心
北京交通大学通信与信息系统北京市重点实验室
周欣
;
曹伟
论文数:
0
引用数:
0
h-index:
0
机构:
中国信息安全测评中心
北京交通大学通信与信息系统北京市重点实验室
曹伟
;
论文数:
引用数:
h-index:
机构:
刘云
.
清华大学学报(自然科学版),
2011,
51
(10)
:1300
-1305
[8]
一种层次结构化P2P网络中的负载均衡方法
[J].
张宇翔
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学电子信息工程学院下一代互联网互联设备国家工程实验室
中国民航大学计算机科学技术学院
北京交通大学电子信息工程学院下一代互联网互联设备国家工程实验室
张宇翔
;
张宏科
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学电子信息工程学院下一代互联网互联设备国家工程实验室
北京交通大学电子信息工程学院下一代互联网互联设备国家工程实验室
张宏科
.
计算机学报,
2010,
33
(09)
:1580
-1590
[9]
一种多Agent系统通信框架
[J].
李晓瑜
论文数:
0
引用数:
0
h-index:
0
机构:
安康学院经济与管理系
李晓瑜
;
论文数:
引用数:
h-index:
机构:
余谦
.
重庆理工大学学报(自然科学版),
2010,
24
(05)
:100
-103
[10]
广域网分布式Web爬虫
[J].
论文数:
引用数:
h-index:
机构:
许笑
;
论文数:
引用数:
h-index:
机构:
张伟哲
;
张宏莉
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
张宏莉
;
论文数:
引用数:
h-index:
机构:
方滨兴
.
软件学报,
2010,
21
(05)
:1067
-1082
←
1
2
→
共 13 条
[1]
分布式Web信息采集关键技术研究.[D].许笑.哈尔滨工业大学.2011, 04
[2]
一种基于模拟登录的微博数据采集方案
[J].
论文数:
引用数:
h-index:
机构:
孙青云
;
论文数:
引用数:
h-index:
机构:
王俊峰
;
赵宗渠
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
四川大学计算机学院
赵宗渠
;
论文数:
引用数:
h-index:
机构:
高梦超
.
计算机技术与发展,
2014,
24
(03)
:6
-10
[3]
多策略融合的中文微博数据采集方法
[J].
朱云鹏
论文数:
0
引用数:
0
h-index:
0
机构:
中国人民解放军驻北京地区军事代表室
中国人民解放军驻北京地区军事代表室
朱云鹏
;
冯枫
论文数:
0
引用数:
0
h-index:
0
机构:
合肥电子工程学院网络工程系
中国人民解放军驻北京地区军事代表室
冯枫
;
陈江宁
论文数:
0
引用数:
0
h-index:
0
机构:
合肥电子工程学院网络工程系
中国人民解放军驻北京地区军事代表室
陈江宁
.
计算机工程与设计,
2013,
34
(11)
:3835
-3839
[4]
基于微博的人物关系网络挖掘系统
[J].
论文数:
引用数:
h-index:
机构:
戴月卿
;
论文数:
引用数:
h-index:
机构:
钟玲
;
林柏钢
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学数学与计算机科学学院
网络系统信息安全福建省高校重点实验室
福州大学数学与计算机科学学院
林柏钢
;
论文数:
引用数:
h-index:
机构:
陈明志
.
信息网络安全,
2013,
(02)
:83
-86
[5]
分布式网络爬虫的设计与实现
[J].
吴黎兵
论文数:
0
引用数:
0
h-index:
0
机构:
武汉大学计算机学院
信息网络安全公安部重点实验室
武汉大学计算机学院
吴黎兵
;
论文数:
引用数:
h-index:
机构:
柯亚林
;
论文数:
引用数:
h-index:
机构:
何炎祥
;
刘楠
论文数:
0
引用数:
0
h-index:
0
机构:
信息网络安全公安部重点实验室
武汉大学计算机学院
刘楠
.
计算机应用与软件,
2011,
28
(11)
:176
-179+213
[6]
一种分布式微博数据采集平台的设计与实现
[J].
论文数:
引用数:
h-index:
机构:
李龙
;
李芝棠
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学网络中心
华中科技大学计算机科学与技术学院
下一代互联网接入系统国家工程实验室
华中科技大学计算机科学与技术学院
李芝棠
;
涂浩
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学网络中心
下一代互联网接入系统国家工程实验室
华中科技大学计算机科学与技术学院
涂浩
;
论文数:
引用数:
h-index:
机构:
史春永
.
广西大学学报(自然科学版),
2011,
(S1)
:324
-328
[7]
新浪微博数据挖掘方案
[J].
论文数:
引用数:
h-index:
机构:
廉捷
;
周欣
论文数:
0
引用数:
0
h-index:
0
机构:
中国信息安全测评中心
北京交通大学通信与信息系统北京市重点实验室
周欣
;
曹伟
论文数:
0
引用数:
0
h-index:
0
机构:
中国信息安全测评中心
北京交通大学通信与信息系统北京市重点实验室
曹伟
;
论文数:
引用数:
h-index:
机构:
刘云
.
清华大学学报(自然科学版),
2011,
51
(10)
:1300
-1305
[8]
一种层次结构化P2P网络中的负载均衡方法
[J].
张宇翔
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学电子信息工程学院下一代互联网互联设备国家工程实验室
中国民航大学计算机科学技术学院
北京交通大学电子信息工程学院下一代互联网互联设备国家工程实验室
张宇翔
;
张宏科
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学电子信息工程学院下一代互联网互联设备国家工程实验室
北京交通大学电子信息工程学院下一代互联网互联设备国家工程实验室
张宏科
.
计算机学报,
2010,
33
(09)
:1580
-1590
[9]
一种多Agent系统通信框架
[J].
李晓瑜
论文数:
0
引用数:
0
h-index:
0
机构:
安康学院经济与管理系
李晓瑜
;
论文数:
引用数:
h-index:
机构:
余谦
.
重庆理工大学学报(自然科学版),
2010,
24
(05)
:100
-103
[10]
广域网分布式Web爬虫
[J].
论文数:
引用数:
h-index:
机构:
许笑
;
论文数:
引用数:
h-index:
机构:
张伟哲
;
张宏莉
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机科学与技术学院
张宏莉
;
论文数:
引用数:
h-index:
机构:
方滨兴
.
软件学报,
2010,
21
(05)
:1067
-1082
←
1
2
→