基于Simhash算法的重复数据删除技术的研究与改进

被引：14

作者：

陈春玲

陈琳

熊晶

余瀚

机构：

[1] 南京邮电大学计算机学院

来源：

南京邮电大学学报(自然科学版) | 2016年 / 36卷 / 03期

关键词：

相似检测; Simhash算法; TF-IDF技术; 指纹计算; 汉明距离;

D O I：

10.14132/j.cnki.1673-5439.2016.03.013

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征值的词性与词长两大影响因素考虑其中。然后对产生的签名值进行汉明距离的比较,从而精确地判定出待比较者是否为相似数据。实验结果表明:改进的算法性能得到提高,并且总体优于Shingle算法和原Simhash算法。通过提高签名值的精度能够实现大规模文档中相似技术的精确检测,达到理想的去重效果。

引用

页码：85 / 91

页数：7

共 12 条

[1] 文本相似性度量中参数相关性与优化配置研究
张祖平
徐昕
龙军
袁鑫攀
[J]. 小型微型计算机系统, 2011, 32 (05) : 983 - 988
[2] Near-duplicate detection using GPU-based Simhash scheme. FENG Xiaowen,JIN Hai,ZHENG Ran,et al. IEEE SMARTCOMP . 2014
[3] 基于Simhash算法的大规模文档去重技术研究
余意
张玉柱
胡自健
[J]. 信息通信, 2015, (02) : 28 - 29
[4] 关系型数据库数据的高效判重
李恒新
韩坚华
[J]. 华南师范大学学报(自然科学版), 2015, 47 (01) : 121 - 126
[5] 基于Hadoop框架的TF-IDF算法改进
李彬
[J]. 微型机与应用, 2012, 31 (07) : 14 - 16
[6] Detecting Near Duplicates for Web Crawling. Gurmeet Singh Manku. International World Wide Web Conference Committee (IW3C2) . 2007
[7] Achieving effective cloud search services:multi-keyword ranked search over encrypted cloud data supporting synonym query. Fu Z,Sun X,Linge N,et al. Consumer Electronics . 2014
[8] Challenges and Opportunities with Big Data. AGRAWAL D,BERBSTENIN P,BERTION E,et al. http:∥cra.org/ccc/wp-content/uploads/sites/2/2015/05/bigdatawhitepaper.pdf . 2015
[9] Secure Similar Document Detection with Simhash. BUYRUKBILEN S,BAKIRAS S. . 2014
[10] Syntactic clustering of the Web[J] . Andrei Z. Broder,Steven C. Glassman,Mark S. Manasse,Geoffrey Zweig. &nbspComputer Networks and ISDN Systems . 1997 (8)

← 1 2 →