期刊文章详细信息
文献类型:期刊文章
LIU Hui;XIAO Ke;WANG Jing-bo(Department of Automation,Qingdao University,Qingdao 266071,China)
机构地区:[1]青岛大学自动化系
基 金:山东省自然科学基金项目(ZR2017PF005);青岛市博士后应用研究项目
年 份:2020
卷 号:35
期 号:2
起止页码:84-89
语 种:中文
收录情况:CSA、CSA-PROQEUST、INSPEC、JST、ZGKJHX、普通刊
摘 要:AGV(automated guided vehicle)路径规划问题已成为货物运输、快递分拣等领域中一项关键技术问题。由于在此类场景中需要较多的AGV合作完成,传统的规划模型难以协调多AGV之间的相互作用,采用分而治之的思想或许能获得系统的最优性能。基于此,该文提出一种最大回报频率的多智能体独立强化学习MRF(maximum reward frequency)Q-learning算法,对任务调度和路径规划同时进行优化。在学习阶段AGV不需要知道其他AGV的动作,减轻了联合动作引起的维数灾问题。采用Boltzmann与ε-greedy结合策略,避免收敛到较差路径,另外算法提出采用获得全局最大累积回报的频率作用于Q值更新公式,最大化多AGV的全局累积回报。仿真实验表明,该算法能够收敛到最优解,以最短的时间步长完成路径规划任务。
关 键 词:多智能体强化学习 AGV路径规划 独立强化学习
分 类 号:TP18]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...