共 27 条
不同特征粒度在微博短文本分类中作用的比较研究
被引:8
作者:
刘小敏
[1
,2
]
王昊
[1
,2
]
李心蕾
[1
,2
]
邓三鸿
[1
,2
]
机构:
[1] 南京大学信息管理学院
[2] 南京大学江苏省数据工程与知识服务重点实验室
来源:
关键词:
特征粒度;
短文本;
口语化文本;
特征降维;
D O I:
10.13833/j.issn.1007-7634.2018.12.024
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
【目的/意义】随着互联网产业的快速发展,各种社会化媒体应用应运而生,伴随着这些应用的发展,口语化短文本形式的信息也急速膨胀。如何从这些信息资源中挖掘出关键内容并实现自动分类已经成为文本挖掘领域的重要课题之一。【方法/过程】本文以微博为例,设置词和字两种特征粒度,选择信息增益、信息增益率、Word2vec和特征频度降低特征维度,重点探讨两种特征在口语化短文本分类中的特点和作用。【结果/结论】实验结果表明,对词特征进行筛选和提取之后的分类效果仍然不如字特征在微博文本分类中的表现。因此,在口语化短文本分类中选择字特征或许是一个较实用的、效果较好的方法。
引用
收藏
页码:126 / 133
页数:8
相关论文

