期刊文章详细信息
文献类型:期刊文章
Wang Jun;Yang Yunxiao;Li Li(School of Computer Science and Technology,Shenyang University of Chemical Technology,Shenyang 110142,China;Liaoning Key Laboratory of Intelligent Technology for Chemical Process Industry,Shenyang 110142,China)
机构地区:[1]沈阳化工大学计算机科学与技术学院,沈阳110142 [2]辽宁省化工过程工业智能化技术重点实验室,沈阳110142
基 金:辽宁省高校创新人才支持计划(LR2018057);辽宁省“百万人才工程”资助项目(辽人社【2019】45号);辽宁省自然基金(2019-ZD-0068);辽宁省教育厅项目(XXLJ2019010)资助。
年 份:2021
卷 号:44
期 号:22
起止页码:19-24
语 种:中文
收录情况:BDHX、BDHX2020、JST、RCCSE、ZGKJHX、核心刊
摘 要:针对传统深度强化学习中移动机器人在稀疏奖励环境下只有在规定时间步内到达目标位置才能得到积极奖励,中间过程的每一步都是负面奖励的路径规划问题。提出了基于改进深度Q网络的路径规划方法,在移动机器人在探索过程中,对以真实目标为条件的轨迹进行采样,在经验回放过程中,把移动机器人已经到达的状态来代替真正的目标,这样移动机器人可以获得足够的积极奖励信号来开始学习。通过深度卷积神经网络模型,将原始RGB图像作为输入,通过端对端的方法训练,利用置信区间上界探索策略和小批量样本的方法训练神经网络参数,最后得到上、下、左、右4个动作的Q值。在相同的仿真环境中结果表明,该算法提升了采样效率,训练迭代更快,并且更容易收敛,避开障碍物到达终点的成功率增加40%左右,一定程度上解决了稀疏奖励带来的问题。
关 键 词:深度强化学习 路径规划 稀疏奖励 移动机器人 后见经验回放
分 类 号:TP242]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...