登录    注册    忘记密码

期刊文章详细信息

基于随机森林模型的分类数据缺失值插补    

Missing Data Imputation for Categorical Data Based on Random Forest Model

  

文献类型:期刊文章

作  者:孟杰[1] 李春林[2]

机构地区:[1]天津财经大学中国经济统计研究中心,天津300222 [2]河北经贸大学数学与统计学院,河北石家庄050061

出  处:《统计与信息论坛》

基  金:国家社会科学基金项目<基于数据挖掘技术的调查数据质量控制研究>(13BTJ007)

年  份:2014

卷  号:29

期  号:9

起止页码:86-90

语  种:中文

收录情况:CSSCI、CSSCI2014_2016、NSSD、RCCSE、RWSKHX、ZGKJHX、普通刊

摘  要:缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。

关 键 词:缺失值插补  调查问卷 分类数据 随机森林  数据挖掘

分 类 号:F812[财政学类]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心