分布式大数据采集关键技术研究与实现

被引:12
作者
付华峥
陈翀
向勇
刘春
机构
[1] 中国电信股份有限公司广东研究院
关键词
大数据; 数据采集; 正文提取; IP代理池;
D O I
暂无
中图分类号
TP274.2 [];
学科分类号
0804 ; 080401 ; 080402 ; 081002 ; 0835 ;
摘要
随着大数据时代的到来,针对大数据的挖掘与分析已经成为当今的研究热点。而数据集是大数据挖掘和分析的基础。因此一个有效的数据采集方案对大数据挖掘研究具有重要意义。提出了高效的分布式大数据采集系统。在该系统的解析模块中提出了一种通用有效的基于标签树节点权重的正文提取算法。同时引入IP代理池技术来保证系统的持续性。实验证明,本系统能够高效快速地获取大量的网络数据,且具有强的鲁棒性、可行性和灵活性。
引用
收藏
页码:7 / 10+79 +79
页数:5
相关论文
共 6 条
[1]   一种基于模拟登录的微博数据采集方案 [J].
孙青云 ;
王俊峰 ;
赵宗渠 ;
高梦超 .
计算机技术与发展, 2014, 24 (03) :6-10
[2]   大数据及其发展趋势研究 [J].
李斌 .
广西教育, 2013, (35) :190-192
[3]   基于HTML树和模板的文献信息提取方法研究 [J].
李文立 ;
王乐超 ;
宋春雷 .
计算机应用研究, 2010, 27 (12) :4615-4617
[4]   基于视觉特征的网页正文提取方法研究 [J].
安增文 ;
徐杰锋 .
微型机与应用, 2010, 29 (03) :38-41
[5]   基于分块的网页正文信息提取算法研究 [J].
黄文蓓 ;
杨静 ;
顾君忠 .
计算机应用, 2007, (S1) :24-26+30
[6]   基于标记窗的网页正文信息提取方法 [J].
赵欣欣 ;
索红光 ;
刘玉树 .
计算机应用研究, 2007, (03) :144-145+180