中文文本分类中特征抽取方法的比较研究

被引：215

作者：

代六玲

黄河燕

陈肇雄

机构：

[1] 南京理工大学计算机科学系

[2] 中国科学院计算机语言信息工程研究中心

[3] 中国科学院计算机语言信息工程研究中心南京

[4] 北京

来源：

中文信息学报 | 2004年 / 01期

关键词：

计算机应用; 中文信息处理; 文本自动分类; 特征抽取; 支持向量机; KNN;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

本文比较研究了在中文文本分类中特征选取方法对分类效果的影响。考察了文档频率DF、信息增益IG、互信息MI、χ2分布CHI四种不同的特征选取方法。采用支持向量机 (SVM )和KNN两种不同的分类器以考察不同抽取方法的有效性。实验结果表明 ,在英文文本分类中表现良好的特征抽取方法 (IG、MI和CHI)在不加修正的情况下并不适合中文文本分类。文中从理论上分析了产生差异的原因 ,并分析了可能的矫正方法包括采用超大规模训练语料和采用组合的特征抽取方法。最后通过实验验证组合特征抽取方法的有效性。

引用

页码：26 / 32

页数：7

共 5 条

[1] 文本分割算法对中文信息过滤影响研究 [J].