期刊文章详细信息

分布式训练系统及其优化算法综述 ( EI收录)
A Survey of Distributed Training System and Its Optimization Algorithms

文献类型：期刊文章

作　　者：王恩东[3] 闫瑞栋[1,2,3] 郭振华[3] 赵雅倩[2,3]

WANG En-Dong;YAN Rui-Dong;GUO Zhen-Hua;ZHAO Ya-Qian(Shandong Massive Information Technology Research Institute,Jinan 250101;Inspur(Beijing)Electronic Information Industry Co.,Ltd,Beijing 100875;Inspur Eleetronic Information Industry Co.,Ltd,Jinan 250101)

机构地区：[1]山东海量信息技术研究院,济南250101 [2]浪潮(北京)电子信息产业有限公司,北京100875 [3]浪潮电子信息产业股份有限公司,济南250101

出　　处：《计算机学报》

基　　金：山东省自然科学基金项目(ZR2021QF073)资助。

年　　份：2024

卷　　号：47

期　　号：1

起止页码：1-28

语　　种：中文

收录情况：BDHX、BDHX2023、CAS、CSCD、CSCD2023_2024、EAPJ、EI、IC、JST、RCCSE、SCOPUS、ZGKJHX、核心刊

摘　　要：人工智能利用各种优化技术从海量训练样本中学习关键特征或知识以提高解的质量,这对训练方法提出了更高要求.然而,传统单机训练无法满足存储与计算性能等方面的需求.因此,利用多个计算节点协同的分布式训练系统成为热点研究方向之一.本文首先阐述了单机训练面临的主要挑战.其次,分析了分布式训练系统亟需解决的三个关键问题.基于上述问题归纳了分布式训练系统的通用框架与四个核心组件.围绕各个组件涉及的技术,梳理了代表性研究成果.在此基础之上,总结了基于并行随机梯度下降算法的中心化与去中心化架构研究分支,并对各研究分支优化算法与应用进行综述.最后,提出了未来可能的研究方向.

关键词：分布式训练系统 (去)中心化架构中心化架构算法 (异)同步算法并行随机梯度下降收敛速率

分类号：TP301]

参考文献：

正在载入数据...

二级参考文献：

正在载入数据...

耦合文献：

正在载入数据...

引证文献：

正在载入数据...

二级引证文献：

正在载入数据...

同被引文献：

正在载入数据...

重庆科技学院机构知识库

期刊文章详细信息

分布式训练系统及其优化算法综述 ( EI收录)
A Survey of Distributed Training System and Its Optimization Algorithms

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

重庆科技学院机构知识库

期刊文章详细信息

分布式训练系统及其优化算法综述 ( EI收录) A Survey of Distributed Training System and Its Optimization Algorithms

我的收藏

参考文献：

二级参考文献：

耦合文献：

引证文献：

二级引证文献：

同被引文献：

分布式训练系统及其优化算法综述 ( EI收录)
A Survey of Distributed Training System and Its Optimization Algorithms