一种采用模型学习和经验回放加速的正则化自然行动器评判器.PDFVIP

  • 44
  • 0
  • 约13.59万字
  • 约 22页
  • 2018-01-05 发布于天津
  • 举报

一种采用模型学习和经验回放加速的正则化自然行动器评判器.PDF

计算机学报年在线发布一种采用模型学习和经验回放加速的正则化自然行动器评判器算法钟珊刘全傅启明龚声蓉董虎胜苏州大学计算机科学与技术学院江苏苏州常熟理工学院计算机科学与工程学院江苏常熟吉林大学符号计算与知识工程教育部重点实验室长春苏州科技大学江苏省建筑智慧节能重点实验室江苏苏州软件新技术与产业化协同创新中心南京苏州科技大学电子与信息工程学院江苏苏州计摘要行动器评判器简称算法是强化学习连续动作领域的一类重要算法其采用独立的结构表示策略但更新策略时需要大量样本导致样本效率不高为了解决该问题提出了基于模型

计 算 机 学 报 2017 年在线发布 CHINESE JOURNAL OF COMPUTERS 20 17Online 一种采用模型学习和经验回放加速的正则化 自然行动器评判器算法 钟珊1),2),3),4) 刘全1),3),5) + 傅启明3),4),6) 龚声蓉1),2) 董虎胜1) 1

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档