共 3 条
一种新的基于统计的自动文本分类方法
被引:45
作者:
刘斌
黄铁军
程军
高文
机构:
[1] 中国科学院计算技术研究所,中国科学院研究生院,中国科学院文献情报中心,中国科学院计算技术研究所北京,北京,北京,北京
来源:
关键词:
自动文本分类;
多层次特征提取;
基于核的距离加权KNN算法;
样本重要性分析;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
自动文本分类就是在给定的分类体系下 ,让计算机根据文本的内容确定与它相关联的类别。为了提高分类性能 ,本文提出了中文文本多层次特征提取方法和基于核的距离加权KNN算法。多层次特征提取方法在汉字、常用词表和专业词表三个层次上提取文档的统计特征 ,能够更好地反映文档的统计分布。基于核的距离加权KNN算法解决了样本的多峰分布、边界重叠问题和分类器的精确分类决策问题。实际应用中 ,互联网和文本库提供了大量经过粗分类的训练文本 ,但普遍存在样本质量较差的问题 ,本文通过样本重要性分析技术解决此问题。实验系统证明了新方法的有效性。
引用
收藏
页码:18 / 24
页数:7
相关论文

