Web结构挖掘中HITS算法改进的研究

被引：11

作者：

范聪贤

徐汀荣

范强贤

机构：

[1] 苏州大学计算机科学与技术学院

来源：

微计算机信息 | 2010年 / 26卷 / 03期

关键词：

Web数据挖掘; Web结构挖掘; HITS; Google;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

随着Internet技术的发展,Web网页成为人们获取信息的有效途径,Web数据挖掘逐渐成为国内外研究的热点。基于Web结构挖掘中HITS算法只考虑页面之间的链接关系而忽视了页面的具体内容,在这种情况下容易出现主题偏离[1]现象,影响了搜索结果,为了抑制主题偏离现象,本文把超链接信息检索方法与页面内容相结合,提出了一种改进的算法。实验结果证明改进的算法较原算法具有较好的效果,有效的抑制了主题偏离现象,具有一定的实用价值。

引用

页码：160 / 162

页数：3

共 6 条

[1] 基于PageRank和HITS的Web搜索 [J].

常庆 ;

周明全 ;

耿国华 .

计算机技术与发展, 2008, (07) :77-79

[2] Web浏览行为的客户端追踪的研究 [J].

肖剑 ;

姜良华 ;

章彪 .

微计算机信息, 2007, (33) :270-272

[3]

数据挖掘原理与算法[M]. 清华大学出版社 , 毛国君等, 2007

[4]

Finding related pages in the World Wide Web[J] . Jeffrey Dean,Monika R Henzinger.Computer Networks . 1999 (11)

[5] ON MODELING OF INFORMATION-RETRIEVAL CONCEPTS IN VECTOR-SPACES [J].

WONG, SKM ;

ZIARKO, W ;

RAGHAVAN, VV ;

WONG, PCN .

ACM TRANSACTIONS ON DATABASE SYSTEMS, 1987, 12 (02) :299-321

[6]

Vector space model of information retrieval: a reevaluation. S.K.M.Wong,Vijay.V.Raghavan. Annual ACM Conference on Research and Development in Information Retrieval . 1984

← 1 →