中文文本分类中特征抽取方法的比较研究

被引:215
作者
代六玲
黄河燕
陈肇雄
机构
[1] 南京理工大学计算机科学系
[2] 中国科学院计算机语言信息工程研究中心
[3] 中国科学院计算机语言信息工程研究中心 南京
[4] 北京
关键词
计算机应用; 中文信息处理; 文本自动分类; 特征抽取; 支持向量机; KNN;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。
引用
收藏
页码:26 / 32
页数:7
相关论文
共 5 条
[1]   文本分割算法对中文信息过滤影响研究 [J].
朱寰 ;
阮彤 ;
于庆喜 .
计算机工程与应用, 2002, (13) :62-65
[2]   一种改进的kNN方法及其在文本分类中的应用 [J].
孙丽华 ;
张积东 ;
李静梅 .
应用科技, 2002, (02) :25-27
[3]   中文文本的关键词自动抽取和模糊分类 [J].
何新贵 ;
彭甫阳 .
中文信息学报, 1999, (01) :10-16
[4]  
语言计算与基于内容的文本处理[M]. 清华大学出版社 , 孙茂松, 2003
[5]   A tutorial on Support Vector Machines for pattern recognition [J].
Burges, CJC .
DATA MINING AND KNOWLEDGE DISCOVERY, 1998, 2 (02) :121-167