带间隔约束的序列数据质量评价算法设计

被引:2
作者
王慧锋 [1 ]
段磊 [1 ,2 ]
胡斌 [3 ]
邓松 [4 ]
王文韬 [1 ]
秦攀 [1 ]
机构
[1] 四川大学计算机学院
[2] 四川大学华西公共卫生学院
[3] 国家电网智能电网研究院
[4] 南京邮电大学先进技术研究院
基金
中国博士后科学基金;
关键词
数据质量; 概率后缀树; 间隔约束;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
序列数据广泛存在于实际应用中,因此关于序列数据挖掘的算法研究一直都是热点。序列数据的质量关系到挖掘结果的可靠性,传统的数据质量评价方法多通过统计指标来分析数据的质量问题,但统计指标无法对非结构化序列数据中各元素之间的关系进行评估。为检测序列数据质量,提出了基于概率后缀树模型的序列数据质量评价算法。具体地,在满足间隔约束的前提下,根据数据质量可靠的序列数据样本生成概率后缀树,并根据概率后缀树对查询序列数据进行质量评价。最后通过真实序列数据集验证了算法的有效性、执行效率和伸缩性。
引用
收藏
页码:1180 / 1194
页数:15
相关论文
共 8 条
[1]   bibEOS:一个高质量的社会化文献检索与管理系统 [J].
孟啸 ;
王宏志 ;
高宏 ;
李建中 .
计算机科学与探索, 2010, (01) :54-63
[2]   使用有向图挖掘时间间隔序列模式 [J].
刘俊侠 .
计算机科学与探索, 2008, (06) :666-672
[3]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082
[4]   Assessing and Improving the Quality of SKOS Vocabularies [J].
Suominen, Osma ;
Mader, Christian .
JOURNAL ON DATA SEMANTICS, 2014, 3 (01) :47-73
[5]  
Managing Data Quality for a Drug Safety Surveillance System[J] . Hartzema,Abraham G,Reich,Christian G,Ryan,Patrick B,Stang,Paul E,Madigan,David,Welebob,Emily,Overhage,J Marc. Drug Safety . 2013 (1)
[6]  
Anomaly detection in monitoring sensor data for preventive maintenance[J] . Julien Rabatel,Sandra Bringay,Pascal Poncelet. Expert Systems With Applications . 2010 (6)
[7]   Methodologies for Data Quality Assessment and Improvement [J].
Batini, Carlo ;
Cappiello, Cinzia ;
Francalanci, Chiara ;
Maurino, Andrea .
ACM COMPUTING SURVEYS, 2009, 41 (03)
[8]  
The Power of Amnesia: Learning Probabilistic Automata with Variable Memory Length[J] . Dana Ron,Yoram Singer,Naftali Tishby. Machine Learning . 1996 (2)