一种基于动态网页解析的微博数据抓取方法

被引：2

作者：

钟明翔

唐晋韬

谢松县

王挺

机构：

[1] 国防科学技术大学计算机学院

来源：

舰船电子工程 | 2015年 / 35卷 / 10期

关键词：

新浪微博; 数据挖掘; 动态网页; 爬虫;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

微博是一种新型信息传播媒介,产生的海量数据吸引研究人员关注并开展相关研究。微博数据获取是后续分析研究的基础和起点。以新浪微博平台为研究对象,提出了基于动态网页解析技术的微博数据多线程抓取方法。方法利用浏览器内核解析微博页面动态数据,通过模拟登陆,依据社交网站网页链接特点确定页面爬取策略,使用页面解析技术定制页面数据抽取模板,实现以用户为中心的微博数据获取。抓取结果表明,方法能对微博用户数据进行全面高效抓取,为后续数据分析和处理提供数据支持。

引用

页码：95 / 99

页数：5

共 8 条

[1]

垂直搜索引擎中聚焦爬虫技术的研究.[D].刘丽杰.哈尔滨工程大学.2012, 03

[2]

大尺度在线社会网络结构研究.[D].郭正彪.华中科技大学.2012, 08

[3] 微博数据获取技术及展望 [J].