登录    注册    忘记密码

期刊文章详细信息

Hadoop环境下基于随机森林的特征选择算法    

A Feature Selection Algorithm Based on Random Forest in Hadoop Platform

  

文献类型:期刊文章

作  者:张鑫[1] 吴海涛[2] 曹雪虹[3]

ZHANG Xin;WU Hai-tao;CAO Xue-hong(School of Communication and Information Engineering,Nanjing University of Posts and Telecommunications,Nanjing 210003,China;School of Communication Engineering,Nanjing Institute of Technology,Nanjing 211167,China;Kangni Electromechanical Institute,Nanjing Institute of Technology,Nanjing 211167,China)

机构地区:[1]南京邮电大学通信与信息工程学院,江苏南京210003 [2]南京工程学院通信工程学院,江苏南京211167 [3]南京工程学院康尼机电研究院,江苏南京211167

出  处:《计算机技术与发展》

基  金:江苏省科技计划项目(BY2016008-06);南京工程学院科研基金项目(ZKJ201612)

年  份:2018

卷  号:28

期  号:7

起止页码:88-92

语  种:中文

收录情况:JST、RCCSE、ZGKJHX、普通刊

摘  要:针对传统随机森林算法不能有效、快速地处理海量高维数据,导致分类效果不理想的问题,以提高分类准确率和运行效率为目的,提出了一种基于Hadoop平台的分布式可扩展随机森林算法。该算法采用基于袋外数据集测试准确率变化的特征选择算法,在分布式平台上使用MapReduce构建随机森林,然后通过改变袋外数据的每一列特征获取每一棵决策树对应的特征重要性度量及权重,运用两者的加权求和求得特征重要性排序,其中决策树的权重取决于决策树与集体随机森林预测的一致性。最后,在特征重要性排序的基础上引入了一定的随机性,确保了每棵树的强度,又减少了树与树间的相关性。实验结果表明,相比于传统单机模式下的随机森林特征选择算法,该算法在分类的准确性和运行效率上效果良好。

关 键 词:高维大数据  随机森林  MAPREDUCE 特征选择  分类  

分 类 号:TP181]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心