共 18 条
基于Word2Vec的微博文本分类研究
被引:20
作者:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
机构:
[1] 太原科技大学计算机科学与技术学院
来源:
关键词:
Word2Vec;
短文本分类;
TF-IDF;
D O I:
10.15888/j.cnki.csa.007030
中图分类号:
TP391.1 [文字信息处理];
TP393.092 [];
学科分类号:
081203 ;
0835 ;
080402 ;
摘要:
以微博为代表的社交平台是信息时代人们必不可少的交流工具.挖掘微博文本数据中的信息对自动问答、舆情分析等应用研究都具有重要意义.短文本数据的分类研究是短文本数据挖掘的基础.基于神经网络的Word2vec模型能很好的解决传统的文本分类方法无法解决的高维稀疏和语义鸿沟的问题.本文首先基于Word2vec模型得到词向量,然后将类别因素引入传统权重计算方法 TF-IDF (Term Frequency-Inverse Document Frequency)设计词向量权重,进而用加权求和的方法得到短文本向量,最后用SVM分类器对短文本做分类训练并且通过微博数据实验验证了该方法的有效性.
引用
收藏
页码:256 / 261
页数:6
相关论文
共 18 条
[1]
基于句子级学习改进CNN的短文本分类方法
[J].
韩栋
;
王春华
;
肖敏
.
计算机工程与设计,
2019, 40 (01)
:256-260+284

论文数: 引用数:
h-index:
机构:

王春华
论文数: 0 引用数: 0
h-index: 0
机构:
黄淮学院信息工程学院 黄淮学院信息工程学院

论文数: 引用数:
h-index:
机构:
[2]
Multi-label text classification model based on semantic embedding
[J].
Yan Danfeng
;
Ke Nan
;
Gu Chao
;
Cui Jianfei
;
Ding Yiqi
.
TheJournalofChinaUniversitiesofPostsandTelecommunications,
2019, 26 (01)
:95-104

Yan Danfeng
论文数: 0 引用数: 0
h-index: 0
机构:
State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications

Ke Nan
论文数: 0 引用数: 0
h-index: 0
机构:
State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications

Gu Chao
论文数: 0 引用数: 0
h-index: 0
机构:
Electric Power Research Institute Shandong Electric Power Company State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications

Cui Jianfei
论文数: 0 引用数: 0
h-index: 0
机构:
State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications

Ding Yiqi
论文数: 0 引用数: 0
h-index: 0
机构:
State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications State Key Laboratory of Networking and Switching Technology,Beijing University of Posts and Telecommunications
[3]
基于微博社交平台的舆情分析
[J].
盛成成
;
朱勇
;
刘涛
.
智能计算机与应用,
2019, 9 (01)
:57-59+64

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[4]
基于CapsNet的中文文本分类研究
[J].
冯国明
;
张晓冬
;
刘素辉
.
数据分析与知识发现,
2018, 2 (12)
:68-76

论文数: 引用数:
h-index:
机构:

张晓冬
论文数: 0 引用数: 0
h-index: 0
机构: 北京科技大学经济管理学院

论文数: 引用数:
h-index:
机构:
[5]
基于扩展短文本词特征向量的分类研究
[J].
孟涛
;
王诚
.
计算机技术与发展,
2019, 29 (04)
:57-62

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[6]
不同特征粒度在微博短文本分类中作用的比较研究
[J].
刘小敏
;
王昊
;
李心蕾
;
邓三鸿
.
情报科学,
2018, 36 (12)
:126-133

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[7]
基于Word2Vec的中文短文本分类问题研究
[J].
汪静
;
罗浪
;
王德强
.
计算机系统应用,
2018, 27 (05)
:209-215

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[8]
基于Word2vec的微博短文本分类研究
[J].
张谦
;
高章敏
;
刘嘉勇
.
信息网络安全,
2017, (01)
:57-62

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[9]
基于语义与最大匹配度的短文本分类研究
[J].
孙建旺
;
吕学强
;
张雷瀚
.
计算机工程与设计,
2013, 34 (10)
:3613-3618

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:
[10]
基于LDA主题模型的短文本分类方法
[J].
张志飞
;
苗夺谦
;
高灿
.
计算机应用,
2013, 33 (06)
:1587-1590

张志飞
论文数: 0 引用数: 0
h-index: 0
机构: 同济大学计算机科学与技术系

苗夺谦
论文数: 0 引用数: 0
h-index: 0
机构: 同济大学计算机科学与技术系

高灿
论文数: 0 引用数: 0
h-index: 0
机构: 同济大学计算机科学与技术系
