基于归一化向量的文本分类算法

被引:7
作者
钟将
孙启干
李静
机构
[1] 重庆大学计算机学院
关键词
文本分类; 矩阵投影; 向量空间模型; 归一化向量;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
基于归一化思想和矩阵投影运算提出一种文本分类算法。该算法综合考虑单个类别内的文档频率和词频,用于进行矩阵投影运算。将训练样例中表示文本特征的三维空间投影到二维空间上,得到归一化的特征向量,可有效地达到降低特征空间维数、提高分类效率和精度的目的。与kNN算法的对比实验表明,该算法在时间性能和精度上都有较大提高。
引用
收藏
页码:47 / 49
页数:3
相关论文
共 4 条
[1]   基于Log似然比的特征选择算法 [J].
林森 ;
唐发根 .
计算机工程, 2009, 35 (19) :56-58+61
[2]   基于区分类别能力的高性能特征选择方法 [J].
徐燕 ;
李锦涛 ;
王斌 ;
孙春明 .
软件学报, 2008, (01) :82-89
[3]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47
[4]  
中文文本分类语料库-TanCorpV1.0 .2 谭松波,王月粉. http://www.searchforum.org.cn/tansongbo/corpus1.php . 2006