期刊文章详细信息
文献类型:期刊文章
WAN Lipeng;LAN Xuguang;ZHANG Hanbo;ZHENG Nanning(Institute of Artificial Intelligence and Robotics,Xi’an Jiaotong University,Xi'an 710049)
机构地区:[1]西安交通大学人工智能与机器人研究所,西安710049
基 金:国家自然科学基金重点项目(No.91748208);国家自然科学基金面上项目(No.61573268);国家科技部重点研发计划项目(No.2018ZX01028101);陕西省重点研发计划项目(No.2018ZDCXLGY0607);微软亚洲研究院合作项目(No.01051311120002601)资助~~
年 份:2019
卷 号:32
期 号:1
起止页码:67-81
语 种:中文
收录情况:BDHX、BDHX2017、CSCD、CSCD2019_2020、EI、JST、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题,研究者们提出各种各样的解决方法,新的理论进一步推动深度强化学习的发展,在弥补缺陷的同时扩展强化学习的研究领域,延伸出模仿学习、分层强化学习、元学习等新的研究方向.文中从深度强化学习的理论、困难、应用及发展前景等方面对其进行探讨.
关 键 词:深度强化学习 马尔科夫决策过程 探索-利用困境 稀疏奖励
分 类 号:TP181]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...