网页查重算法Shingling和Simhash研究

被引:17
作者
马成前
毛许光
机构
[1] 武汉理工大学计算机科学与技术学院
关键词
网页查重; 搜索引擎; shingling; simhash;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
随着网络信息爆炸式增长,人们对信息检索有了更高的要求。在海量的网页中,有很多重复的网页。网页查重可以节省网络带宽,降低存储成本,提高搜索引擎的性能。在网页查重算法中shingling和simhash是比较重要和经典的算法,文中对两种算法做了介绍,包括算法的原理,存在的问题及改进等。
引用
收藏
页码:15 / 17+108 +108
页数:4
相关论文
共 2 条
[1]  
数学之美系列十三信息指纹及其应用.2吴军.http://www.googlechinablog.com/2006/08/blog-post.html.
[2]  
DetectingNear-DuplicatesforWebCrawlng.2GurmeetSinghManku,ArvindJain,AnishDasSarma.InternationalWorldWideWebConference.2007