期刊文章详细信息
文献类型:期刊文章
CUI Xiaolong;ZHANG Min;LIU Xiang;GUO Xi(Beijing Key Laboratory of Materials Science Knowledge Engineering,School of Computer and Communication Engineering,University of Science and Technology Beijing,Beijing 100083,China)
机构地区:[1]北京科技大学计算机与通信工程学院,材料领域知识工程北京市重点实验室,北京100083
基 金:国家自然科学基金项目(61602031);中央高校基本科研业务费专项资金资助项目(FRF-BD-19-012A);北京科技大学重大教学改革项目(JG2019ZD02)。
年 份:2021
卷 号:38
期 号:3
起止页码:146-152
语 种:中文
收录情况:BDHX、BDHX2020、CAS、IC、JST、RCCSE、核心刊
摘 要:Apache Spark分布式大数据计算框架应用广泛,但是其配置参数繁多导致使用难度较大,且不合理的配置将严重影响作业执行性能,研究Spark参数对性能的影响并进一步对参数进行自动优化具有重要意义。该文分析了Spark作业中影响系统行为的关键参数,建立了性能模型,并进一步探索了Spark参数自动优化的方法和策略。通过提取作业执行过程中对性能有影响的参数,对主流的19种回归模型进行了对比测试,获得通用性和拟合效果都比较好的6种回归模型,并针对不同类型的Spark任务在特定集群上建立性能模型,最后依据建立的性能模型在参数空间中利用改进的多起点爬山搜索算法寻找最优的参数组合。实验证明经参数优化后Spark作业性能有较大提升。
关 键 词:Apache Spark 性能建模 机器学习 参数调优 搜索算法
分 类 号:TP302.7]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...