大数据下数据预处理方法研究

被引:61
作者
孔钦
叶长青
孙赟
机构
[1] 南京大学
关键词
大数据; 预处理; 脏数据; 研究;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
大数据时代下,数据类型和组织模式多样化、关联关系繁杂、质量良莠不齐等内在的复杂性使得数据的感知、表达、理解和计算等多个环节面临着巨大的挑战。数据预处理是数据分析、挖掘前一个非常重要的数据准备工作。一方面它可以保证挖掘数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合挖掘的需要。文中分析了预处理过程中的主要任务,总结了目前针对各类"脏数据"的几种常用的处理方法,重点阐述了数据在清洗、集成、变换和归约过程中的常用算法。通过各种预处理方法,清除冗余数据,纠正错误数据,完善残缺数据,甄选出必需的数据进行集成,使得数据信息精练化、数据格式一致化和数据存储集中化。在最精确、最可靠的最小数据集合上进行数据挖掘,大大减少了系统挖掘的开销,提高了知识发现的准确性、有效性和实用性。
引用
收藏
页码:1 / 4
页数:4
相关论文
共 8 条
[1]   大数据系统和分析技术综述 [J].
程学旗 ;
靳小龙 ;
王元卓 ;
郭嘉丰 ;
张铁赢 ;
李国杰 .
软件学报, 2014, 25 (09) :1889-1908
[2]  
数据挖掘中的数据预处理.[D].关大伟.吉林大学.2006, 05
[3]  
数据预处理算法的研究与应用.[D].李晓菲.西南交通大学.2006, 09
[4]  
Tutorial on practical tips of the most influential data preprocessing algorithms in data mining.[J].Salvador García;Julián Luengo;Francisco Herrera.Knowledge-Based Systems.2016,
[5]  
MRPR: A MapReduce solution for prototype reduction in big data classification.[J].Isaac Triguero;Daniel Peralta;Jaume Bacardit;Salvador García;Francisco Herrera.Neurocomputing.2015,
[6]   A combined SMOTE and PSO based RBF classifier for two-class imbalanced problems [J].
Gao, Ming ;
Hong, Xia ;
Chen, Sheng ;
Harris, Chris J. .
NEUROCOMPUTING, 2011, 74 (17) :3456-3466
[7]   Supervised feature selection by clustering using conditional mutual information-based distances [J].
Martinez Sotoca, Jose ;
Pla, Filiberto .
PATTERN RECOGNITION, 2010, 43 (06) :2068-2081
[8]   Mining incomplete survey data through classification [J].
Wang, Hai ;
Wang, Shouhong .
KNOWLEDGE AND INFORMATION SYSTEMS, 2010, 24 (02) :221-233