一种基于VSM的检测相似重复记录的方法

被引:9
作者
张昌年
机构
[1] 北京科技大学信息工程学院
基金
北京市自然科学基金;
关键词
空间向量模型; 聚类; 相似重复记录; 权重; 优先队列;
D O I
10.19304/j.cnki.issn1000-7180.2008.08.048
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
相似重复记录是数据集成系统中影响数据质量的关键问题之一.为了提高检测精度和效率,综合一些已有的传统方法并加以改进:(1)在字段间进行比较时,根据不同情况逐字符进行比较,使得算法能够适应不同的语言环境,具有较好的通用性.(2)在记录间进行比较时,为不同的字段赋予不同的权重,并采用了基于向量空间模型VSM的向量距离算法,提高了相似重复记录检测的精度.(3)在聚类的过程中采用优先队列策略,减少了记录间比较的次数,提高了检测的效率.理论分析和实验证明文中所提出的相似重复记录检测方法是有效的.
引用
收藏
页码:184 / 187
页数:4
相关论文
共 5 条
[1]   一种检测汉语相似重复记录的有效方法 [J].
程国达 ;
苏杭丽 .
计算机应用, 2005, (06) :1362-1365
[2]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082
[3]   一种检测多语言文本相似重复记录的综合方法 [J].
俞荣华 ;
田增平 ;
周傲英 .
计算机科学, 2002, (01) :118-121
[4]   一种高效的检测相似重复记录的方法 [J].
邱越峰 ;
田增平 ;
季文贇 ;
周傲英 .
计算机学报, 2001, (01) :69-77
[5]  
Data cleaning: problems and current approaches. RAHM E, HONG HD. IEEE Transactions on Knowledge and Data Engineering . 2000