共 32 条
中文微博文本采集与预处理综述
被引:7
作者:
孔雪娜
[1
]
孙红
[1
,2
]
机构:
[1] 上海理工大学光电信息与计算机工程学院
[2] 上海现代光学系统重点实验室
来源:
关键词:
数据挖掘;
网页爬虫;
微博信息采集;
文本预处理;
文本分词;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
随着微博的迅猛发展,微博相关方向的数据挖掘已经成为研究热点。而如何高效、完整地采集微博信息并对其进行预处理,将大大影响微博数据挖掘的效率与效果。对基于API与网页爬虫的微博信息采集方式及其研究现状进行了归纳总结,并按照中文微博文本预处理过程归纳总结了信息过滤、中文文本分词、特征表示与选择等预处理方法研究现状。最后对未来微博信息采集及处理的发展方向进行了展望。
引用
收藏
页码:186 / 189
页数:4
相关论文

