期刊文章详细信息
文献类型:期刊文章
QIN Zhi-hui;LI Ning;LIU Xiao-tong;LIU Xiu-lei;TONG Qiang;LIU Xu-hong(Beijing Advanced Innovation Center for Materials Genome Engineering(Beijing Information Science and Technology University),Beijing 100101,China;Laboratory of Data Science and Information Studies,Beijing Information Science and Technology University,Beijing 100101,China;State Key Laboratory of Coal Conversion,Institute of Coal Chemistry,Chinese Academy of Sciences,Taiyuan 030001,China;National Energy Center for Coal to Liquids,Synfuels China Co.,Ltd,Beijing 101400,China;University of Chinese Academy of Sciences,Beijing 100049,China)
机构地区:[1]北京材料基因工程高精尖创新中心(北京信息科技大学),北京100101 [2]北京信息科技大学数据与科学情报分析实验室,北京100101 [3]中国科学院煤炭化学研究所煤转化国家重点实验室,太原030001 [4]中科合成油技术有限公司国家能源煤基液体燃料研发中心,北京101400 [5]中国科学院大学,北京100049
基 金:国家重点研发计划(2018YFC0830202);北京信息科技大学“勤信人才”培育计划项目(2020);北京信息科技大学促进高校内涵发展——信息+项目-面向大数据的竞争情报分析关键技术研究;北京市教育委员会科技计划一般项目(KM202111232003);北京市自然基金(4204100)。
年 份:2021
卷 号:48
期 号:3
起止页码:180-187
语 种:中文
收录情况:BDHX、BDHX2020、CSCD、CSCD_E2021_2022、IC、JST、RCCSE、UPD、ZGKJHX、核心刊
摘 要:强化学习(Reinforcement Learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与环境进行交互来学习,最终将累积收益最大化。常用的强化学习算法分为模型化强化学习(Model-based Reinforcement Lear-ning)和无模型强化学习(Model-free Reinforcement Learning)。模型化强化学习需要根据真实环境的状态转移数据来预定义环境动态模型,随后在通过环境动态模型进行策略学习的过程中无须再与环境进行交互。在无模型强化学习中,智能体通过与环境进行实时交互来学习最优策略,该方法在实际任务中具有更好的通用性,因此应用范围更广。文中对无模型强化学习的最新研究进展与发展动态进行了综述。首先介绍了强化学习、模型化强化学习和无模型强化学习的基础理论;然后基于价值函数和策略函数归纳总结了无模型强化学习的经典算法及各自的优缺点;最后概述了无模型强化学习在游戏AI、化学材料设计、自然语言处理和机器人控制领域的最新研究现状,并对无模型强化学习的未来发展趋势进行了展望。
关 键 词:人工智能 强化学习 深度强化学习 无模型强化学习 马尔可夫决策过程
分 类 号:TP181]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...