一种基于VSM的检测相似重复记录的方法

被引：9

作者：

张昌年

机构：

[1] 北京科技大学信息工程学院

来源：

微电子学与计算机 | 2008年 / 08期

基金：

北京市自然科学基金;

关键词：

空间向量模型; 聚类; 相似重复记录; 权重; 优先队列;

D O I：

10.19304/j.cnki.issn1000-7180.2008.08.048

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

相似重复记录是数据集成系统中影响数据质量的关键问题之一.为了提高检测精度和效率,综合一些已有的传统方法并加以改进:(1)在字段间进行比较时,根据不同情况逐字符进行比较,使得算法能够适应不同的语言环境,具有较好的通用性.(2)在记录间进行比较时,为不同的字段赋予不同的权重,并采用了基于向量空间模型VSM的向量距离算法,提高了相似重复记录检测的精度.(3)在聚类的过程中采用优先队列策略,减少了记录间比较的次数,提高了检测的效率.理论分析和实验证明文中所提出的相似重复记录检测方法是有效的.

引用

页码：184 / 187

页数：4

共 5 条

[1] 一种检测汉语相似重复记录的有效方法 [J].