机器学习在中文期刊论文自动分类研究中的应用

被引:30
作者
王昊
叶鹏
邓三鸿
机构
[1] 南京大学信息管理学院
关键词
机器学习; 期刊论文; 文本自动分类; 特征加权; 层次分类法;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习]; TP391.1 [文字信息处理];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ; 081203 ;
摘要
【目的】在机器学习的计算模式下,利用特征加权和浅层次分类方法可以有效实现期刊论文的中图法分类。【应用背景】传统的人工分类方式在大数据环境下显得力不从心,而期刊电子化趋势使得自动分类技术能够有效缓解人工分类的压力。【方法】将机器学习的思想运用到期刊论文的自动分类领域,分析比较支持向量机和BP神经网络算法在期刊论文自动分类中的效果,利用层次分类理念将中图法转化为三层分类体系,将类目号的获取简化为三层分类的实现,基于特征的来源设置特征值的权重。【结果】分类实验表明,支持向量机算法在大规模稀疏数据环境中较BP神经网络算法更合理,三层体系的分类正确率自顶向下分别达到95.05%、92.89%和89.02%,综合正确率接近80%,多来源的特征权重在论文自动分类中较单一权重具有更好的分类效果。【结论】研究表明机器学习方法在期刊论文的自动分类方面具有较高的可行性、合理性和有效性,为期刊论文自动分类的实现提出新的思路。
引用
收藏
页码:80 / 87
页数:8
相关论文
共 17 条
[1]  
多类别科技文献自动分类系统.[D].陈玉芹.华中科技大学.2008, 05
[2]  
机器学习理论与算法.[M].张燕平; 等编著.科学出版社.2012,
[3]  
MATLAB神经网络仿真与应用.[M].张德丰; 编著.电子工业出版社.2009,
[4]  
神经网络设计方法与实例分析.[M].施彦; 韩力群; 廉小亲; 编著.北京邮电大学出版社.2009,
[5]  
Class-indexing-based term weighting for automatic text classification.[J].Fuji Ren;Mohammad Golam Sohrab.Information Sciences.2013,
[6]  
Two-level hierarchical combination method for text classification.[J].Wen Li;Duoqian Miao;Weili Wang.Expert Systems With Applications.2010, 3
[7]   SVM核函数对分类精度影响的研究 [J].
刘大宁 ;
杨永乐 ;
白林 .
佳木斯大学学报(自然科学版), 2012, 30 (04) :627-630
[8]   基于KNN和SVM的中文文本自动分类研究 [J].
张野 ;
杨建林 .
情报科学, 2011, 29 (09) :1313-1317+1377
[9]   基于支持向量机的医学期刊文章自动分类研究 [J].
王东波 ;
苏新宁 ;
朱丹浩 ;
年洪东 .
情报理论与实践, 2011, 34 (04) :115-118
[10]   SVM分类核函数及参数选择比较 [J].
奉国和 .
计算机工程与应用, 2011, 47 (03) :123-124+128