基于支持向量机的中文农业文本分类技术研究

被引:30
作者
魏芳芳 [1 ]
段青玲 [1 ,2 ]
肖晓琰 [1 ]
张磊 [1 ]
机构
[1] 中国农业大学信息与电气工程学院
[2] 北京市农业物联网工程技术研究中心
基金
中央高校基本科研业务费专项资金资助; 国家高技术研究发展计划(863计划);
关键词
文本分类; 支持向量机; 中文农业信息; 信息整合;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP181 [自动推理、机器学习];
学科分类号
081203 ; 0835 ; 081104 ; 0812 ; 1405 ;
摘要
高效地组织、分类信息,是提供个性化农业信息推荐服务的基础。根据农业文本信息特点,提出了一种基于线性支持向量机(Support vector machine,SVM)的中文农业文本分类模型,首先构建农业行业分类关键词库,通过特征词选择和权重计算,构建分类器模型,实现信息的自动分类。实验选取了1 071个测试文档,并按照种植业、林业、畜牧业、渔业进行分类。结果表明,分类准确率为96.5%,召回率为96.4%。实验结果高于贝叶斯、决策树、KNN、SMO等分类算法,将该模型应用于农业物联网行业信息综合服务平台,运行结果表明,该方法能够实现中文农业文本信息的自动分类,响应时间满足系统要求。
引用
收藏
页码:174 / 179
页数:6
相关论文
共 8 条
[1]  
基于KNN的文本分类特征选择与分类算法的研究与改进.[D].黄娟娟.厦门大学.2014, 08
[2]  
基于SVM的WEB中文文本分类系统研究与实现.[D].刘佳.西安电子科技大学.2014, 11
[3]  
基于知网语义关系的中文事件信息抽取研究.[D].董萍.西安电子科技大学.2010, 12
[4]   Automatic classification of academic web page types [J].
Kenekayoro, Patrick ;
Buckley, Kevan ;
Thelwall, Mike .
SCIENTOMETRICS, 2014, 101 (02) :1015-1026
[5]   Understanding inverse document frequency: on theoretical arguments for IDF [J].
Robertson, S .
JOURNAL OF DOCUMENTATION, 2004, 60 (05) :503-520
[6]   基于文本内容的农业网页信息抽取和分类研究 [J].
朱学芳 ;
冯曦曦 .
情报科学 , 2012, (07) :1012-1015
[7]   基于向量空间模型中文农业网页分类技术研究 [J].
段园磊 ;
张太红 .
新疆农业大学学报, 2012, 35 (02) :164-167
[8]   信息化与现代农业发展 [J].
郭作玉 .
中国信息界, 2011, (09) :5-8