共 12 条
基于Simhash算法的重复数据删除技术的研究与改进
被引:14
|作者:
陈春玲
陈琳
熊晶
余瀚
机构:
[1] 南京邮电大学计算机学院
关键词:
相似检测;
Simhash算法;
TF-IDF技术;
指纹计算;
汉明距离;
D O I:
10.14132/j.cnki.1673-5439.2016.03.013
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
为了在大规模文档去重中提高相似数据检测的精度,对基于Simhash算法的大规模文档去重技术进行深入研究。在原有算法的基础之上对Simhash签名值的计算过程作出改进,引入ICTCLAS分词技术,将TF-IDF技术作为计算权重的主要方法,同时将特征值的词性与词长两大影响因素考虑其中。然后对产生的签名值进行汉明距离的比较,从而精确地判定出待比较者是否为相似数据。实验结果表明:改进的算法性能得到提高,并且总体优于Shingle算法和原Simhash算法。通过提高签名值的精度能够实现大规模文档中相似技术的精确检测,达到理想的去重效果。
引用
收藏
页码:85 / 91
页数:7
相关论文