中文微博文本采集与预处理综述

被引:7
作者
孔雪娜 [1 ]
孙红 [1 ,2 ]
机构
[1] 上海理工大学光电信息与计算机工程学院
[2] 上海现代光学系统重点实验室
关键词
数据挖掘; 网页爬虫; 微博信息采集; 文本预处理; 文本分词;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
随着微博的迅猛发展,微博相关方向的数据挖掘已经成为研究热点。而如何高效、完整地采集微博信息并对其进行预处理,将大大影响微博数据挖掘的效率与效果。对基于API与网页爬虫的微博信息采集方式及其研究现状进行了归纳总结,并按照中文微博文本预处理过程归纳总结了信息过滤、中文文本分词、特征表示与选择等预处理方法研究现状。最后对未来微博信息采集及处理的发展方向进行了展望。
引用
收藏
页码:186 / 189
页数:4
相关论文
共 32 条
[1]   基于改进TF-IDF的微博短文本特征词提取算法 [J].
邓丹君 ;
姚莉 .
软件导刊, 2016, 15 (06) :48-50
[2]   一种基于P2P技术的分布式微博爬虫系统 [J].
卢杨 ;
李华康 ;
孙国梓 .
江苏大学学报(自然科学版), 2016, 37 (03) :296-301
[3]   一种基于动态网页解析的微博数据抓取方法 [J].
钟明翔 ;
唐晋韬 ;
谢松县 ;
王挺 .
舰船电子工程, 2015, 35 (10) :95-99
[4]   基于Python的新浪微博数据爬虫 [J].
周中华 ;
张惠然 ;
谢江 .
计算机应用, 2014, 34 (11) :3131-3134
[5]   微博数据挖掘研究综述 [J].
丁兆云 ;
贾焰 ;
周斌 .
计算机研究与发展 , 2014, (04) :691-706
[6]   一种基于模拟登录的微博数据采集方案 [J].
孙青云 ;
王俊峰 ;
赵宗渠 ;
高梦超 .
计算机技术与发展, 2014, 24 (03) :6-10
[7]   基于隐含语义分析的微博话题发现方法 [J].
马雯雯 ;
魏文晗 ;
邓一贵 .
计算机工程与应用, 2014, 50 (01) :96-100
[8]   一种引入动态词库更新的中文分词架构 [J].
刘芳芳 ;
王晶 ;
沈奇威 .
计算机系统应用, 2013, 22 (03) :100-103+50
[9]   基于MapReduce的微博文本采集平台 [J].
于留宝 ;
胡长军 ;
苏林晗 .
计算机科学, 2012, 39(S3) (S3) :143-145
[10]   一种分布式微博数据采集平台的设计与实现 [J].
李龙 ;
李芝棠 ;
涂浩 ;
史春永 .
广西大学学报(自然科学版), 2011, (S1) :324-328