基于Simhash算法的重复数据删除技术的研究与改进

被引:14
|
作者
陈春玲
陈琳
熊晶
余瀚
机构
[1] 南京邮电大学计算机学院
关键词
相似检测; Simhash算法; TF-IDF技术; 指纹计算; 汉明距离;
D O I
10.14132/j.cnki.1673-5439.2016.03.013
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征值的词性与词长两大影响因素考虑其中。然后对产生的签名值进行汉明距离的比较,从而精确地判定出待比较者是否为相似数据。实验结果表明:改进的算法性能得到提高,并且总体优于Shingle算法和原Simhash算法。通过提高签名值的精度能够实现大规模文档中相似技术的精确检测,达到理想的去重效果。
引用
收藏
页码:85 / 91
页数:7
相关论文
共 12 条
  • [1] 文本相似性度量中参数相关性与优化配置研究
    张祖平
    徐昕
    龙军
    袁鑫攀
    [J]. 小型微型计算机系统, 2011, 32 (05) : 983 - 988
  • [2] Near-duplicate detection using GPU-based Simhash scheme. FENG Xiaowen,JIN Hai,ZHENG Ran,et al. IEEE SMARTCOMP . 2014
  • [3] 基于Simhash算法的大规模文档去重技术研究
    余意
    张玉柱
    胡自健
    [J]. 信息通信, 2015, (02) : 28 - 29
  • [4] 关系型数据库数据的高效判重
    李恒新
    韩坚华
    [J]. 华南师范大学学报(自然科学版), 2015, 47 (01) : 121 - 126
  • [5] 基于Hadoop框架的TF-IDF算法改进
    李彬
    [J]. 微型机与应用, 2012, 31 (07) : 14 - 16
  • [6] Detecting Near Duplicates for Web Crawling. Gurmeet Singh Manku. International World Wide Web Conference Committee (IW3C2) . 2007
  • [7] Achieving effective cloud search services:multi-keyword ranked search over encrypted cloud data supporting synonym query. Fu Z,Sun X,Linge N,et al. Consumer Electronics . 2014
  • [8] Challenges and Opportunities with Big Data. AGRAWAL D,BERBSTENIN P,BERTION E,et al. http:∥cra.org/ccc/wp-content/uploads/sites/2/2015/05/bigdatawhitepaper.pdf . 2015
  • [9] Secure Similar Document Detection with Simhash. BUYRUKBILEN S,BAKIRAS S. . 2014
  • [10] Syntactic clustering of the Web[J] . Andrei Z. Broder,Steven C. Glassman,Mark S. Manasse,Geoffrey Zweig. &nbspComputer Networks and ISDN Systems . 1997 (8)