基于信息增益的特征词权重调整算法研究

被引:36
作者
张玉芳
陈小莉
熊忠阳
机构
[1] 重庆大学计算机学院
关键词
信息增益; 信息熵; 词语分布比例; 文本分类;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
传统权重公式TFIDF忽略了词语在集合中的分布比例,针对TFIDF的这个缺点,把信息增益公式引入文本集合中并提出IF*IDF*IG,取得了较好的效果。在分析中发现单纯把信息增益引入文本集合并不能完全解决词语分布对词语权重的影响。从文档类别层次上考虑,把信息论中信息增益应用到文本集合的类别层次上,提出了一种改进的权重公式tf*idf*IGc,用改进的权重公式来衡量词语在文本集合的各个类别中分布比例上的差异,进一步弥补传统公式的不足。实验对比了改进的公式tf*idf*IGc和IF*IDF*IG的实验效果,实验证明tf*idf*IGc权重公式在表现词语权重时更有效。
引用
收藏
页码:159 / 161
页数:3
相关论文
共 7 条
[1]   基于特征信息增益权重的文本分类算法 [J].
李文斌 ;
刘椿年 ;
陈嶷瑛 .
北京工业大学学报, 2006, (05) :456-460
[2]   自动文本分类中两种文本表示方式的比较 [J].
宋枫溪 ;
郑如冰 ;
王积忠 .
计算机工程, 2004, (18) :124-126
[3]   文本分类中的特征抽取 [J].
秦进 ;
陈笑蓉 ;
汪维家 ;
陆汝占 .
计算机应用, 2003, (02) :45-46
[4]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[5]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20
[6]  
概率与模糊信息论及其应用[M]. 国防工业出版社 , 刘立柱编著, 2004
[7]  
信息理论基础[M]. 北京航空航天大学出版社 , 周荫清主编, 1993