Web文本特征选择算法的研究

被引:6
作者
冯长远
普杰信
机构
[1] 河南科技大学电子信息工程学院,河南科技大学电子信息工程学院河南洛阳,河南洛阳
关键词
文本表示; 向量空间模型; 特征选择; 熵;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
以向量空间模型作为Web文本的表示方法,结合Web文本的结构特征对向量空间模型中的特征选择算法进行了分析并加以改进。在改进的算法中,体现出了特征词在Web文档结构中的位置信息;引入了信息论中熵的概念,用词的熵函数对权值进行调整,从而更加准确地选取有效的特征词。实验验证了改进算法的可行性和有效性。
引用
收藏
页码:36 / 38+59 +59
页数:4
相关论文
共 6 条
[1]  
机器学习.[M].(美)TomM.Mitchell著;曾华军;张银奎等译;.机械工业出版社.2003,
[2]  
数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,
[3]   Web内容挖掘技术研究 [J].
涂承胜 ;
鲁明羽 ;
陆玉昌 .
计算机应用研究, 2003, (11) :5-9+15
[4]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[5]   Web文本信息的特征获取算法 [J].
刘明吉 ;
王秀峰 ;
饶一梅 ;
黄亚楼 .
小型微型计算机系统, 2002, (06) :683-686
[6]   关于文本特征抽取新方法的研究 [J].
李凡 ;
鲁明羽 ;
陆玉昌 .
清华大学学报(自然科学版), 2001, (07) :98-101