基于Word2Vec的微博文本分类研究

被引:20
作者
牛雪莹
赵恩莹
机构
[1] 太原科技大学计算机科学与技术学院
关键词
Word2Vec; 短文本分类; TF-IDF;
D O I
10.15888/j.cnki.csa.007030
中图分类号
TP391.1 [文字信息处理]; TP393.092 [];
学科分类号
081203 ; 0835 ; 080402 ;
摘要
以微博为代表的社交平台是信息时代人们必不可少的交流工具.挖掘微博文本数据中的信息对自动问答、舆情分析等应用研究都具有重要意义.短文本数据的分类研究是短文本数据挖掘的基础.基于神经网络的Word2vec模型能很好的解决传统的文本分类方法无法解决的高维稀疏和语义鸿沟的问题.本文首先基于Word2vec模型得到词向量,然后将类别因素引入传统权重计算方法 TF-IDF (Term Frequency-Inverse Document Frequency)设计词向量权重,进而用加权求和的方法得到短文本向量,最后用SVM分类器对短文本做分类训练并且通过微博数据实验验证了该方法的有效性.
引用
收藏
页码:256 / 261
页数:6
相关论文
共 18 条
[1]   基于句子级学习改进CNN的短文本分类方法 [J].
韩栋 ;
王春华 ;
肖敏 .
计算机工程与设计, 2019, 40 (01) :256-260+284
[2]   Multi-label text classification model based on semantic embedding [J].
Yan Danfeng ;
Ke Nan ;
Gu Chao ;
Cui Jianfei ;
Ding Yiqi .
TheJournalofChinaUniversitiesofPostsandTelecommunications, 2019, 26 (01) :95-104
[3]   基于微博社交平台的舆情分析 [J].
盛成成 ;
朱勇 ;
刘涛 .
智能计算机与应用, 2019, 9 (01) :57-59+64
[4]   基于CapsNet的中文文本分类研究 [J].
冯国明 ;
张晓冬 ;
刘素辉 .
数据分析与知识发现, 2018, 2 (12) :68-76
[5]   基于扩展短文本词特征向量的分类研究 [J].
孟涛 ;
王诚 .
计算机技术与发展, 2019, 29 (04) :57-62
[6]   不同特征粒度在微博短文本分类中作用的比较研究 [J].
刘小敏 ;
王昊 ;
李心蕾 ;
邓三鸿 .
情报科学, 2018, 36 (12) :126-133
[7]   基于Word2Vec的中文短文本分类问题研究 [J].
汪静 ;
罗浪 ;
王德强 .
计算机系统应用, 2018, 27 (05) :209-215
[8]   基于Word2vec的微博短文本分类研究 [J].
张谦 ;
高章敏 ;
刘嘉勇 .
信息网络安全, 2017, (01) :57-62
[9]   基于语义与最大匹配度的短文本分类研究 [J].
孙建旺 ;
吕学强 ;
张雷瀚 .
计算机工程与设计, 2013, 34 (10) :3613-3618
[10]   基于LDA主题模型的短文本分类方法 [J].
张志飞 ;
苗夺谦 ;
高灿 .
计算机应用, 2013, 33 (06) :1587-1590