一种新的基于统计的自动文本分类方法

被引:45
作者
刘斌
黄铁军
程军
高文
机构
[1] 中国科学院计算技术研究所,中国科学院研究生院,中国科学院文献情报中心,中国科学院计算技术研究所北京,北京,北京,北京
关键词
自动文本分类; 多层次特征提取; 基于核的距离加权KNN算法; 样本重要性分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。
引用
收藏
页码:18 / 24
页数:7
相关论文
共 3 条
[1]   中文文档自动分类系统的设计与实现 [J].
邹涛 ;
王继成 ;
黄源 ;
张福炎 .
中文信息学报, 1999, (03) :27-33
[2]   基于向量空间模型的文档分类系统 [J].
黄萱菁 ;
吴立德 .
模式识别与人工智能, 1998, 11 (02) :147-153
[3]   汉语语料的自动分类 [J].
吴军,王作英,禹锋,王侠 .
中文信息学报, 1995, (04) :25-32