Web结构挖掘中HITS算法改进的研究

被引:11
作者
范聪贤
徐汀荣
范强贤
机构
[1] 苏州大学计算机科学与技术学院
关键词
Web数据挖掘; Web结构挖掘; HITS; Google;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
随着Internet技术的发展,Web网页成为人们获取信息的有效途径,Web数据挖掘逐渐成为国内外研究的热点。基于Web结构挖掘中HITS算法只考虑页面之间的链接关系而忽视了页面的具体内容,在这种情况下容易出现主题偏离[1]现象,影响了搜索结果,为了抑制主题偏离现象,本文把超链接信息检索方法与页面内容相结合,提出了一种改进的算法。实验结果证明改进的算法较原算法具有较好的效果,有效的抑制了主题偏离现象,具有一定的实用价值。
引用
收藏
页码:160 / 162
页数:3
相关论文
共 6 条
[1]   基于PageRank和HITS的Web搜索 [J].
常庆 ;
周明全 ;
耿国华 .
计算机技术与发展, 2008, (07) :77-79
[2]   Web浏览行为的客户端追踪的研究 [J].
肖剑 ;
姜良华 ;
章彪 .
微计算机信息, 2007, (33) :270-272
[3]  
数据挖掘原理与算法[M]. 清华大学出版社 , 毛国君等, 2007
[4]  
Finding related pages in the World Wide Web[J] . Jeffrey Dean,Monika R Henzinger.Computer Networks . 1999 (11)
[5]   ON MODELING OF INFORMATION-RETRIEVAL CONCEPTS IN VECTOR-SPACES [J].
WONG, SKM ;
ZIARKO, W ;
RAGHAVAN, VV ;
WONG, PCN .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 1987, 12 (02) :299-321
[6]  
Vector space model of information retrieval: a reevaluation. S.K.M.Wong,Vijay.V.Raghavan. Annual ACM Conference on Research and Development in Information Retrieval . 1984