不同特征粒度在微博短文本分类中作用的比较研究

被引:8
作者
刘小敏 [1 ,2 ]
王昊 [1 ,2 ]
李心蕾 [1 ,2 ]
邓三鸿 [1 ,2 ]
机构
[1] 南京大学信息管理学院
[2] 南京大学江苏省数据工程与知识服务重点实验室
关键词
特征粒度; 短文本; 口语化文本; 特征降维;
D O I
10.13833/j.issn.1007-7634.2018.12.024
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的/意义】随着互联网产业的快速发展,各种社会化媒体应用应运而生,伴随着这些应用的发展,口语化短文本形式的信息也急速膨胀。如何从这些信息资源中挖掘出关键内容并实现自动分类已经成为文本挖掘领域的重要课题之一。【方法/过程】本文以微博为例,设置词和字两种特征粒度,选择信息增益、信息增益率、Word2vec和特征频度降低特征维度,重点探讨两种特征在口语化短文本分类中的特点和作用。【结果/结论】实验结果表明,对词特征进行筛选和提取之后的分类效果仍然不如字特征在微博文本分类中的表现。因此,在口语化短文本分类中选择字特征或许是一个较实用的、效果较好的方法。
引用
收藏
页码:126 / 133
页数:8
相关论文
共 27 条
[1]   基于半监督学习和信息增益率的入侵检测方案 [J].
许勐璠 ;
李兴华 ;
刘海 ;
钟成 ;
马建峰 .
计算机研究与发展, 2017, (10) :2255-2267
[2]   中文微博文本采集与预处理综述 [J].
孔雪娜 ;
孙红 .
软件导刊, 2017, 16 (02) :186-189
[3]   一种面向文本分类的特征向量优化方法 [J].
郭正斌 ;
张仰森 ;
蒋玉茹 .
计算机应用研究, 2017, 34 (08) :2299-2302+2348
[4]   基于Word2vec的短信向量化算法 [J].
王贵新 ;
郑孝宗 ;
张浩然 ;
张小川 .
电子科技, 2016, (04) :49-52
[5]   基于相对贡献率的特征选择方法 [J].
杨杰明 ;
王静 ;
曲朝阳 .
东北电力大学学报, 2014, 34 (04) :62-68
[6]   一种基于互信息的改进文本特征选择 [J].
刘海峰 ;
陈琦 ;
张以皓 .
计算机工程与应用 , 2012, (25) :1-4+97
[7]   概念树在短文本语义相似度上的应用 [J].
赵小谦 ;
郑彦 ;
储海庆 .
计算机技术与发展, 2012, 22 (06) :159-162
[8]   中文文本分类中的特征词抽取方法 [J].
李晓红 .
计算机工程与设计, 2009, 30 (17) :4127-4129
[9]   中文文本分类中的特征选择算法研究 [J].
胡佳妮 ;
徐蔚然 ;
郭军 ;
邓伟洪 .
光通信研究, 2005, (03) :44-46
[10]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32