基于KPCA和RBF网络的文本分类研究

被引:13
作者
杨俊
陈贤富
机构
[1] 中国科学技术大学电子科学与技术系
关键词
文本分类; 特征选择; 核主成分分析; 径向基神经网络;
D O I
10.19304/j.cnki.issn1000-7180.2010.03.029
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
基于词空间的分类方法很难处理文本的高维特性和复杂相关性,为此文中提出了基于核的主成分分析和径向基神经网络的文本分类算法.首先利用核主成分分析选择合适的核函数从高维特征空间中提取文本向量的主成分,实现了文本输入空间的降维和语义特征空间的抽取,然后在语义特征空间中训练径向基神经网络分类器,并利用训练得到的分类器进行文本分类工作.实验结果表明:核主成分分析不仅实现了降维,而且能在大幅减减少径向基神经网络训练时间的基础上显著提高其分类精度.
引用
收藏
页码:122 / 125
页数:4
相关论文
共 4 条
[1]   中文文本分类系统的设计与实现 [J].
王俊英 ;
郭景峰 ;
霍峥 .
微电子学与计算机, 2006, (S1) :262-265
[2]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859
[3]   基于Web的文本挖掘研究 [J].
崔志明 ;
谢春丽 .
微电子学与计算机, 2002, (10) :51-53
[4]   Nonlinear component analysis as a kernel eigenvalue problem [J].
Scholkopf, B ;
Smola, A ;
Muller, KR .
NEURAL COMPUTATION, 1998, 10 (05) :1299-1319