一种基于动态网页解析的微博数据抓取方法

被引:2
作者
钟明翔
唐晋韬
谢松县
王挺
机构
[1] 国防科学技术大学计算机学院
关键词
新浪微博; 数据挖掘; 动态网页; 爬虫;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
微博是一种新型信息传播媒介,产生的海量数据吸引研究人员关注并开展相关研究。微博数据获取是后续分析研究的基础和起点。以新浪微博平台为研究对象,提出了基于动态网页解析技术的微博数据多线程抓取方法。方法利用浏览器内核解析微博页面动态数据,通过模拟登陆,依据社交网站网页链接特点确定页面爬取策略,使用页面解析技术定制页面数据抽取模板,实现以用户为中心的微博数据获取。抓取结果表明,方法能对微博用户数据进行全面高效抓取,为后续数据分析和处理提供数据支持。
引用
收藏
页码:95 / 99
页数:5
相关论文
共 8 条
[1]  
垂直搜索引擎中聚焦爬虫技术的研究.[D].刘丽杰.哈尔滨工程大学.2012, 03
[2]  
大尺度在线社会网络结构研究.[D].郭正彪.华中科技大学.2012, 08
[3]   微博数据获取技术及展望 [J].
游翔 ;
葛卫丽 .
电子科技, 2014, (10) :123-126+132
[4]   一种基于模拟登录的微博数据采集方案 [J].
孙青云 ;
王俊峰 ;
赵宗渠 ;
高梦超 .
计算机技术与发展, 2014, 24 (03) :6-10
[5]   基于微博API的分布式抓取技术 [J].
陈舜华 ;
王晓彤 ;
郝志峰 ;
蔡瑞初 ;
肖晓军 ;
卢宇 .
电信科学, 2013, 29 (08) :146-150+155
[6]   基于Selenium的软件自动化测试的研究与应用 [J].
吴伶琳 .
计算机与现代化, 2013, (02) :65-68
[7]   新浪微博数据挖掘方案 [J].
廉捷 ;
周欣 ;
曹伟 ;
刘云 .
清华大学学报(自然科学版), 2011, 51 (10) :1300-1305
[8]   聚焦爬虫技术研究综述 [J].
周立柱 ;
林玲 .
计算机应用, 2005, (09) :1965-1969