一种新的基于统计的自动文本分类方法

被引：45

作者：

刘斌

黄铁军

程军

高文

机构：

[1] 中国科学院计算技术研究所,中国科学院研究生院,中国科学院文献情报中心,中国科学院计算技术研究所北京,北京,北京,北京

来源：

中文信息学报 | 2002年 / 06期

关键词：

自动文本分类; 多层次特征提取; 基于核的距离加权KNN算法; 样本重要性分析;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。

引用

页码：18 / 24

页数：7