网页查重算法Shingling和Simhash研究

被引：17

作者：

马成前

毛许光

机构：

[1] 武汉理工大学计算机科学与技术学院

来源：

关键词：

网页查重; 搜索引擎; shingling; simhash;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

随着网络信息爆炸式增长,人们对信息检索有了更高的要求。在海量的网页中,有很多重复的网页。网页查重可以节省网络带宽,降低存储成本,提高搜索引擎的性能。在网页查重算法中shingling和simhash是比较重要和经典的算法,文中对两种算法做了介绍,包括算法的原理,存在的问题及改进等。

引用

页码：15 / 17+108 +108

页数：4