基于word2vec和LSTM的饮食健康文本分类研究

被引:41
作者
赵明 [1 ]
杜会芳 [1 ]
董翠翠 [1 ]
陈长松 [2 ]
机构
[1] 中国农业大学信息与电气工程学院
[2] 公安部第三研究所
关键词
文本分类; word2vec; 词向量; 长短期记忆网络; K-means++;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了对饮食文本信息高效分类,建立一种基于word2vec和长短期记忆网络(Long-short term memory,LSTM)的分类模型。针对食物百科和饮食健康文本特点,首先利用word2vec实现包含语义信息的词向量表示,并解决了传统方法导致数据表示稀疏及维度灾难问题,基于K-means++根据语义关系聚类以提高训练数据质量。由word2vec构建文本向量作为LSTM的初始输入,训练LSTM分类模型,自动提取特征,进行饮食宜、忌的文本分类。实验采用48 000个文档进行测试,结果显示,分类准确率为98.08%,高于利用tf-idf、bag-of-words等文本数值化表示方法以及基于支持向量机(Support vector machine,SVM)和卷积神经网络(Convolutional neural network,CNN)分类算法结果。实验结果表明,利用该方法能够高质量地对饮食文本自动分类,帮助人们有效地利用健康饮食信息。
引用
收藏
页码:202 / 208
页数:7
相关论文
共 8 条
[1]   基于Web数据的农业网络信息自动采集与分类系统 [J].
段青玲 ;
魏芳芳 ;
张磊 ;
肖晓琰 .
农业工程学报, 2016, 32 (12) :172-178
[2]   植物领域知识图谱构建中本体非分类关系提取方法 [J].
赵明 ;
杜亚茹 ;
杜会芳 ;
张家军 ;
王红说 ;
陈瑛 .
农业机械学报, 2016, 47 (09) :278-284
[3]   基于支持向量机的中文农业文本分类技术研究 [J].
魏芳芳 ;
段青玲 ;
肖晓琰 ;
张磊 .
农业机械学报, 2015, 46(S1) (S1) :174-179
[4]   基于极性转移和LSTM递归网络的情感分析 [J].
梁军 ;
柴玉梅 ;
原慧斌 ;
高明磊 ;
昝红英 .
中文信息学报, 2015, 29 (05) :152-159
[5]   Word2vec的核心架构及其应用 [J].
熊富林 ;
邓怡豪 ;
唐晓晟 .
南京师范大学学报(工程技术版), 2015, 15 (01) :43-48
[6]   基于CUDA的并行K-means聚类图像分割算法优化 [J].
霍迎秋 ;
秦仁波 ;
邢彩燕 ;
陈曦 ;
方勇 .
农业机械学报, 2014, 45 (11) :47-53+74
[7]   用于文本分类的特征项权重算法改进 [J].
龚静 ;
胡平霞 ;
胡灿 .
计算机技术与发展, 2014, 24 (09) :128-132
[8]   Long short-term memory [J].
Hochreiter, S ;
Schmidhuber, J .
NEURAL COMPUTATION, 1997, 9 (08) :1735-1780