基于随机森林模型的分类数据缺失值插补

被引:29
作者
孟杰 [1 ]
李春林 [2 ]
机构
[1] 天津财经大学中国经济统计研究中心
[2] 河北经贸大学数学与统计学院
关键词
缺失值插补; 调查问卷; 分类数据; 随机森林; 数据挖掘;
D O I
暂无
中图分类号
F224.0 [数量经济学]; F326.2 [林业];
学科分类号
020209 ; 120302 ;
摘要
缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。
引用
收藏
页码:86 / 90
页数:5
相关论文
共 9 条
[1]   个人住房贷款违约预测与利率政策模拟 [J].
方匡南 ;
吴见彬 .
统计研究, 2013, 30 (10) :54-60
[2]   高相关性辅助变量择优回归插补法 [J].
杨贵军 ;
蔡娟 ;
赵晓云 .
统计与信息论坛, 2012, 27 (06) :8-13
[3]   数据挖掘在河北省农村居民总体满意度调查中的应用 [J].
李春林 ;
申博 .
科技情报开发与经济, 2012, (07) :94-97+107
[4]   随机森林方法研究综述 [J].
方匡南 ;
吴见彬 ;
朱建平 ;
谢邦昌 .
统计与信息论坛, 2011, 26 (03) :32-38
[5]   不同差补方法的比较 [J].
金勇进 ;
朱琳 .
数理统计与管理, 2000, (04) :50-54
[6]  
缺失数据的统计处理[M]. 中国统计出版社 , 金勇进, 2009
[7]  
数据挖掘前沿问题[M]. 中国统计出版社 , 吴喜之, 2009
[8]   Random forests [J].
Breiman, L .
MACHINE LEARNING, 2001, 45 (01) :5-32
[9]  
Statistical Modeling: The Two Cultures[J] . Leo Breiman.Statistical Science . 2001 (3)