一种基于P2P技术的分布式微博爬虫系统

被引:9
作者
卢杨 [1 ,2 ]
李华康 [1 ,2 ]
孙国梓 [1 ,2 ]
机构
[1] 南京邮电大学计算机学院
[2] 南京邮电大学计算机技术研究所
关键词
网络爬虫; P2P; 分布式; 微博; 模拟登录;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
微博正逐步成为公共信息传播的主要媒体,高效地获取微博数据则显得至关重要,分析微博数据有助于研究者及时了解舆情信息.由于传统网页爬虫无法获取完整的微博信息,微博API又有诸多限制,因此针对新浪微博,设计了一种基于P2P技术的微博爬虫系统.该系统避免了新浪API的功能和连接限制,使用基于模拟登录的网页爬虫,根据用户的地理位置信息划分任务,实现连续高效的数据采集.通过与其他架构的试验比较,证明本系统具有良好的性能,能为舆情分析提供数据支持.
引用
收藏
页码:296 / 301
页数:6
相关论文
共 13 条
[1]  
分布式Web信息采集关键技术研究.[D].许笑.哈尔滨工业大学.2011, 04
[2]   一种基于模拟登录的微博数据采集方案 [J].
孙青云 ;
王俊峰 ;
赵宗渠 ;
高梦超 .
计算机技术与发展, 2014, 24 (03) :6-10
[3]   多策略融合的中文微博数据采集方法 [J].
朱云鹏 ;
冯枫 ;
陈江宁 .
计算机工程与设计, 2013, 34 (11) :3835-3839
[4]   基于微博的人物关系网络挖掘系统 [J].
戴月卿 ;
钟玲 ;
林柏钢 ;
陈明志 .
信息网络安全, 2013, (02) :83-86
[5]   分布式网络爬虫的设计与实现 [J].
吴黎兵 ;
柯亚林 ;
何炎祥 ;
刘楠 .
计算机应用与软件, 2011, 28 (11) :176-179+213
[6]   一种分布式微博数据采集平台的设计与实现 [J].
李龙 ;
李芝棠 ;
涂浩 ;
史春永 .
广西大学学报(自然科学版), 2011, (S1) :324-328
[7]   新浪微博数据挖掘方案 [J].
廉捷 ;
周欣 ;
曹伟 ;
刘云 .
清华大学学报(自然科学版), 2011, 51 (10) :1300-1305
[8]   一种层次结构化P2P网络中的负载均衡方法 [J].
张宇翔 ;
张宏科 .
计算机学报, 2010, 33 (09) :1580-1590
[9]   一种多Agent系统通信框架 [J].
李晓瑜 ;
余谦 .
重庆理工大学学报(自然科学版), 2010, 24 (05) :100-103
[10]   广域网分布式Web爬虫 [J].
许笑 ;
张伟哲 ;
张宏莉 ;
方滨兴 .
软件学报, 2010, 21 (05) :1067-1082