期刊文章详细信息
文献类型:期刊文章
ZHU Fei;WU Wen;FU Yu-Chen;LIU Quan(School of Computer Science and Technology , Soochow University , Suzhou, Jiangsu 215006;Collaborative Innovation Center of Novel Software Technology and Industrialization , Nanjing 210000;Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education , Jilin University , Changchun 130012;Provincial Key Laboratory for Computer Information Processing Technology (Soochow University) , Suzhou, Jiangsu 215006;School of Computer Science and Engineering , Changshu Institute of Technology , Changshu, Jiangsu 215500)
机构地区:[1]苏州大学计算机科学与技术学院,江苏苏州215006 [2]软件新技术与产业化协同创新中心,南京210000 [3]吉林大学符号计算与知识工程教育部重点实验室,长春130012 [4]苏州大学江苏省计算机信息处理技术重点实验室,江苏苏州215006 [5]常熟理工学院计算机科学与工程学院,江苏常熟215500
基 金:国家自然科学基金项目(61303108,61373094,61772355);江苏省高校自然科学研究项目重大项目(17KJA520004);符号计算与知识工程教育部重点实验室(吉林大学)项目(93K172014K04);苏州市重点产业技术创新-前瞻性应用研究项目(SYG201804);高校省级重点实验室(苏州大学)项目(KJS1524);中国国家留学基金(201606920013)资助~~
年 份:2019
卷 号:42
期 号:8
起止页码:1812-1826
语 种:中文
收录情况:BDHX、BDHX2017、CSA、CSA-PROQEUST、CSCD、CSCD2019_2020、EI、IC、JST、MR、RCCSE、SCOPUS、ZGKJHX、核心刊
摘 要:深度强化学习利用深度学习感知环境信息,使用强化学习求解最优决策,是当前人工智能领域的主要研究热点之一.然而,大部分深度强化学习的工作未考虑安全问题,有些方法甚至特意加入带随机性质的探索来扩展采样的覆盖面,以期望获得更好的近似最优解.可是,不受安全控制的探索性学习很可能会带来重大风险.针对上述问题,提出了一种基于双深度网络的安全深度强化学习(Dual Deep Network Based Secure Deep Reinforcement Learning,DDN-SDRL)方法.DDN-SDRL方法设计了危险样本经验池和安全样本经验池,其中危险样本经验池用于记录探索失败时的临界状态和危险状态的样本,而安全样本经验池用于记录剔除了临界状态和危险状态的样本.DDN-SDRL方法在原始网络模型上增加了一个深度Q网络来训练危险样本,将高维输入编码为抽象表示后再解码为特征;同时提出了惩罚项描述临界状态,并使用原始网络目标函数和惩罚项计算目标函数.DDN-SDRL方法以危险样本经验池中的样本为输入,使用深度Q网络训练得到惩罚项.由于DDN-SDRL方法利用了临界状态、危险状态及安全状态信息,因此Agent可以通过避开危险状态的样本、优先选取安全状态的样本来提高安全性.DDN-SDRL方法具有通用性,能与多种深度网络模型结合.实验验证了方法的有效性.
关 键 词:强化学习 深度强化学习 深度Q网络 安全深度强化学习 安全人工智能 经验回放
分 类 号:TP18]
参考文献:
正在载入数据...
二级参考文献:
正在载入数据...
耦合文献:
正在载入数据...
引证文献:
正在载入数据...
二级引证文献:
正在载入数据...
同被引文献:
正在载入数据...