登录    注册    忘记密码

期刊文章详细信息

Bootstrap样本大数据模型和分布式集成学习方法    

Bootstrap sample partition data model and distributed ensemble learning

  

文献类型:期刊文章

作  者:罗凯靖[1] 张育铭[1] 何玉林[2] 黄哲学[1,2]

LUO Kaijing;ZHANG Yuming;HE Yulin;HUANG Zhexue(Big Data Institute,College of Computer Science and Software Engineering,Shenzhen University,Shenzhen 518060,China;Guangdong Laboratory of Artificial Intelligence and Digital Economy(SZ),Shenzhen 518107,China)

机构地区:[1]深圳大学计算机与软件学院大数据技术与应用研究所,广东深圳518060 [2]人工智能与数字经济广东省实验室(深圳),广东深圳518107

出  处:《大数据》

基  金:国家自然科学基金项目(No.61972261);广东省自然科学基金面上项目(No.2023A1515011667);深圳市基础研究重点项目(No.JCYJ20220818100205012);深圳市基础研究面上项目(No.JCYJ20210324093609026)。

年  份:2024

卷  号:10

期  号:3

起止页码:93-108

语  种:中文

收录情况:DOAJ、RCCSE、RWSKHX、ZGKJHX、普通刊

摘  要:传统Bootstrap抽样和Bagging集成学习通常以串行方式实现,计算效率低,且存在样本不可重用、扩展性差等问题,不适合高效的大规模Bagging集成学习。从大数据分布式计算的思维入手,提出新的Bootstrap样本划分(BSP)大数据模型和分布式集成学习方法。BSP数据模型通过分布式生成算法将训练数据表达成分布式Bootstrap样本集的集合,存储成HDFS分布式数据文件,为后续的分布式集成学习提供数据支持。分布式集成学习方法从BSP数据模型中随机选取多个BSP数据块,读入集群各个节点的虚拟机,用串行算法对选取的数据块并行计算统计量或训练建模,再将所有的计算子结果回传至主节点中,生成最终的集成学习结果,此过程中可加入对子结果的质量选择以进一步提高预测效果。BSP数据模型的生成和分布式集成学习采用非Map-Reduce计算范式进行,每个数据块的计算独立完成,减少了计算节点间的数据通信开销。提出的算法在Spark开源系统中以新的算子方式实现,供Spark应用程序调用。实验表明,新方法可以高效地生成训练数据的BSP数据模型,提高数据样本的可重用性,在基于有监督机器学习算法构建的大规模Bagging集成学习实验中,计算效率能提高50%以上,同时预测精度进一步提高约2%。

关 键 词:Bootstrap抽样  Bagging集成学习  分布式集成学习  SPARK

分 类 号:TP319]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心