基于CapsNet的中文文本分类研究

被引:14
作者
冯国明
张晓冬
刘素辉
机构
[1] 北京科技大学经济管理学院
关键词
文本分类; CapsNet; 深度学习; 文本表示; TextCNN;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的】解决长文本的表示问题并将CapsNet应用于中文文本分类任务中,提高分类精度。【方法】针对长文本提出LDA矩阵和词向量体表示法,并结合CapsNet提出基于CapsNet的中文文本分类模型。以搜狗新闻语料与复旦大学文本分类语料作为实验数据,将TextCNN、DNN等模型作为对比对象进行文本分类实验与分析。【结果】CapsNet模型在中文文本分类的各评价指标上均优于其他模型,在5类短文本、长文本分类中准确率分别达89.6%、96.9%,且收敛速度比CNN模型快近两倍。【局限】模型计算时间复杂度高,实验语料规模受限。【结论】本文方法和CapsNet模型在中文文本分类中相对于已有方法有更好的准确率、收敛速度和鲁棒性。
引用
收藏
页码:68 / 76
页数:9
相关论文
共 11 条
[1]   Unsupervised learning by probabilistic latent semantic analysis [J].
Hofmann, T .
MACHINE LEARNING, 2001, 42 (1-2) :177-196
[2]  
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
[3]  
基于卷积神经网络的文本表示建模方法研究.[D].幸凯.华中师范大学.2017, 02
[4]   基于Word2vec的文档分类方法 [J].
陈杰 ;
陈彩 ;
梁毅 .
计算机系统应用, 2017, 26 (11) :159-164
[5]   基于卷积神经网络的互联网短文本分类方法 [J].
郭东亮 ;
刘小明 ;
郑秋生 .
计算机与现代化 , 2017, (04) :78-81
[6]   基于递归神经网络的文本分类研究 [J].
黄磊 ;
杜昌顺 .
北京化工大学学报(自然科学版), 2017, 44 (01) :98-104
[7]   基于事件卷积特征的新闻文本分类 [J].
夏从零 ;
钱涛 ;
姬东鸿 .
计算机应用研究, 2017, 34 (04) :991-994
[8]   基于Word2Vec的一种文档向量表示 [J].
唐明 ;
朱磊 ;
邹显春 .
计算机科学, 2016, 43 (06) :214-217+269
[9]   基于最近邻子空间搜索的两类文本分类方法 [J].
李玉鑑 ;
王影 ;
冷强奎 .
计算机工程与科学, 2015, 37 (01) :168-172
[10]   基于LDA特征扩展的短文本分类 [J].
吕超镇 ;
姬东鸿 ;
吴飞飞 .
计算机工程与应用, 2015, (04) :123-127