登录    注册    忘记密码

期刊文章详细信息

Actor-Critic框架下一种基于改进DDPG的多智能体强化学习算法  ( EI收录)  

A multi-agent reinforcement learning algorithm based on improved DDPG in Actor-Critic framework

  

文献类型:期刊文章

作  者:陈亮[1] 梁宸[1] 张景异[1] 刘韵婷[1]

CHEN Liang;LIANG Chen;ZHANG Jing-yi;LIU Yun-ting(College of Automation and Electrical Engineering,Shenyang Ligong University,Shenyang 110159,China)

机构地区:[1]沈阳理工大学自动化与电气工程学院,沈阳110159

出  处:《控制与决策》

基  金:国家重点研发计划项目(2017YFC0821004,2017YFC0821001);辽宁省自然科学基金项目(20170540788);辽宁省教育厅基本科研项目(LG201707).

年  份:2021

卷  号:36

期  号:1

起止页码:75-82

语  种:中文

收录情况:AJ、BDHX、BDHX2020、CSCD、CSCD2021_2022、EI、IC、JST、MR、RCCSE、SCOPUS、ZGKJHX、ZMATH、核心刊

摘  要:现实世界的人工智能应用通常需要多个agent协同工作,人工agent之间有效的沟通和协调是迈向通用人工智能不可或缺的一步.以自主开发的警员训练虚拟环境为测试场景,设定任务需要多个不同兵种agent小队互相协作或对抗完成.为保证沟通方式有效且可扩展,提出一种混合DDPG(Mi-DDPG)算法.首先,在Actor网络加入双向循环神经网络(BRNN)作为同兵种agent信息交流层;然后,在Critic网络加入其他兵种agent信息来学习多agent协同策略.另外,为了缓解训练压力,采用集中训练,分散执行的框架,同时对Critic网络里的Q函数进行模块化处理.实验中,在不同的场景下用Mi-DDPG算法与其他算法进行对比,Mi-DDPG在收敛速度和任务完成度方面有明显提高,具有在现实世界应用的潜在价值.

关 键 词:强化学习  深度学习  多智能体 RNN DDPG  Actor-Critic  

分 类 号:TP181]

参考文献:

正在载入数据...

二级参考文献:

正在载入数据...

耦合文献:

正在载入数据...

引证文献:

正在载入数据...

二级引证文献:

正在载入数据...

同被引文献:

正在载入数据...

版权所有©重庆科技学院 重庆维普资讯有限公司 渝B2-20050021-7
 渝公网安备 50019002500408号 违法和不良信息举报中心