一种改进的文本特征选择方法的研究与设计

被引:1
作者
许高建 [1 ]
胡学钢 [2 ]
路遥 [1 ]
涂立静 [1 ]
机构
[1] 安徽农业大学信息与计算机学院
[2] 舍肥工业大学计算机与信息学院
关键词
文本挖掘; 信息增益; 互信息; 特征向量;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
特征选择是文本挖掘技术的一个重要的环节。在中文分词的基础上,通过设计一个简单的应用程序,对文本进行预处理。然后,在分析比较几种用于文本分类的特征选择方法的基础上,提出了一种基于信息增益和互信息相结合的特征选择方法。利用它对文本文档进行特征选择,抽取代表其特征的元数据或特征词条构成特征向量,降低噪音。最后通过实验来和其它几种特征选择方法作比较,分析这种方法获取文本特征的精度。
引用
收藏
页码:21 / 23+4 +4-5
页数:5
相关论文
共 6 条
[1]   中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[2]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[3]   Web文本挖掘及特征选择 [J].
景丽萍 ;
黄厚宽 .
电脑与信息技术, 2002, (01) :1-5+64
[4]   关于文本特征抽取新方法的研究 [J].
李凡 ;
鲁明羽 ;
陆玉昌 .
清华大学学报(自然科学版), 2001, (07) :98-101
[5]  
数据挖掘技术.[M].朱玉全; 主编.东南大学出版社.2006,
[6]  
知识发现.[M].史忠植著;.清华大学出版社.2002,