基于主成分分析和KNN混合方法的文本分类研究

被引:4
作者
郭新辰
李成龙
樊秀玲
机构
[1] 东北电力大学理学院
关键词
主成分分析; 降维; KNN算法; 文本分类;
D O I
10.19718/j.issn.1005-2992.2013.06.015
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
特征选择和分类算法是文本分类中的两个关键技术,提出了基于主成分分析和KNN相结合的文本分类方法。该方法利用主成分分析对文本向量的高维空间进行特征选择,为克服因类别特征选择不当带来的不利影响,使用KNN算法进行分类可以最大程度地减少分类过程中的误差。为了验证方法的有效性,针对UCI标准数据集进行仿真实验。实验结果显示,PCA-KNN方法优于主成分分析和随机森林相结合的方法,能在一定程度上提高文本分类的精度。
引用
收藏
页码:60 / 63
页数:4
相关论文
共 7 条
[1]   基于主成分分析与支持向量机回归的气液两相流容积含气率的测量 [J].
李洪伟 ;
周云龙 ;
刘旭 .
东北电力大学学报, 2012, 32 (01) :35-40
[2]   基于主成分分析的SMO文本分类 [J].
黎超 ;
吴义国 ;
魏星 .
现代计算机(专业版), 2011, (10) :18-21
[3]   基于KPCA和RBF网络的文本分类研究 [J].
杨俊 ;
陈贤富 .
微电子学与计算机, 2010, 27 (03) :122-125
[4]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[5]  
多元统计分析.[M].于秀林;任雪松编著;.中国统计出版社.1999,
[6]  
基于决策树和K最近邻算法的文本分类研究.[D].王煜.天津大学.2006, 05
[7]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90