期刊文章详细信息
文献类型:期刊文章
机构地区:[1]天津财经大学中国经济统计研究中心,天津300222 [2]河北经贸大学数学与统计学院,河北石家庄050061
基 金:国家社会科学基金项目<基于数据挖掘技术的调查数据质量控制研究>(13BTJ007)
年 份:2014
卷 号:29
期 号:9
起止页码:86-90
语 种:中文
收录情况:CSSCI、CSSCI2014_2016、NSSD、RCCSE、RWSKHX、ZGKJHX、普通刊
摘 要:缺失数据是影响调查问卷数据质量的重要因素,对调查问卷中的缺失值进行插补可以显著提高调查数据的质量。调查问卷的数据类型多以分类型数据为主,数据挖掘技术中的分类算法是处理属性分类问题的常用方法,随机森林模型是众多分类算法中精度较高的方法之一。将随机森林模型引入调查问卷缺失数据的插补研究中,提出了基于随机森林模型的分类数据缺失值插补方法,并根据不同的缺失模式探讨了相应的插补步骤。通过与其它方法的实证模拟比较,表明随机森林插补法得到的插补值准确度更优、可信度更高。
关 键 词:缺失值插补 调查问卷 分类数据 随机森林 数据挖掘
分 类 号:F812[财政学类]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...