- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计 算 机 学 报
2017 年在线发布 CHINESE JOURNAL OF COMPUTERS 20 17Online
一种采用模型学习和经验回放加速的正则化
自然行动器评判器算法
钟珊1),2),3),4) 刘全1),3),5) + 傅启明3),4),6) 龚声蓉1),2) 董虎胜1)
1)(苏州大学 计算机科学与技术学院 江苏 苏州 215006)
2)(常熟理工学院 计算机科学与工程学院, 江苏 常熟 215500)
3)(吉林大学符号计算与知识工程教育部重点实验室, 长春 130012)
4)(苏州科技大学 江苏省建筑智慧节能重点实验室, 江苏 苏州 215006)
5)(软件新技术与产业化协同创新中心, 南京 210000)
6)(苏州科技大学 电子与信息工程学院, 江苏 苏州 215006)
计
摘 要 行动器评判器(actor critic,简称AC)算法是强化学习连续动作领域的一类重要算法,其采用独立的结构表示策略,
但更新策略时需要大量样本导致样本效率不高。为了解决该问题,提出了基于模型学习和经验回放加速的正则化自然 AC
算法(regularized natural AC with model learning and experience replay ,简称RNAC-ML-ER) 。RNAC-ML-ER 将agent 与环境在
算
线交互产生的样本用于学习系统动态性对应的线性模型和填充经验回放存储器。将线性模型产生的模拟样本和经验回放存
储器中存储的样本作为在线样本的补充,实现值函数、优势函数和策略的更新。为了提高更新的效率,在每个时间步,仅
当模型的预测误差未超过阈值时才利用该模型进行规划,同时根据 TD-error 从大到小的顺序对经验回放存储器中的样本进
机
行回放。为了降低策略梯度估计的方差,引入优势函数参数向量对优势函数进行线性近似,在优势函数的目标函数中加入
2-范数进行正则化,并通过优势函数参数向量来对策略梯度更新,以促进优势函数和策略的收敛。在指定的两个假设成
立的条件下,通过理论分析证明了所提算法RNAC-ML-ER 的收敛性。在四个强化学习的经典问题即平衡杆、小车上山、倒
学
立摆和体操机器人中对RNAC-ML-ER 算法进行实验,结果表明所提算法能在大幅提高样本效率和学习速率的同时保持较高
的稳定性。
关键词 行动器评判器算法;模型学习;经验回放;最优策略;正则化;自然梯度
中图法分类号 TP18 报
A Regularized Natural AC Algorithm with the Acceleration of Model Learning
and Experience Replay
ZHONG Shan1),2),3),4) LIU Quan1),3),5) FU Qi-Ming 3),4),6) GONG Sheng-Rong1),2) Dong Hu-Sheng1)
1)(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu, 215006)
———————————————
本课题得到国家自然科学基金项目、江苏省自然科学基金(BK2012616)、江
苏省高校自然科学研究项目(13KJB520020)、江苏
您可能关注的文档
最近下载
- 淮南师范学院《高等数学A》2025-2026学年期末考试试卷(A)卷.docx VIP
- 产品形态设计.pptx VIP
- “三新” 背景下的初中生阅读现状及阅读支持策略.docx
- 热性惊厥诊断治疗与管理专家共识(完整版).pdf VIP
- DB31T 945.5-2020 节能服务业服务规范 第5部分:节能量审核.pdf VIP
- 2024年浙江农林大学马克思主义基本原理概论期末考试题必考题.docx VIP
- 17J008 挡土墙(重力式、衡重式、悬臂式)(最新).pdf VIP
- 2025丁祖昱评楼市年度发布会PPT.pdf
- 盛禧奥本体聚合ABS技术乳液法ABS技术-Trinseo.PDF
- 露天矿爆破安全管理作业规程.doc VIP
原创力文档


文档评论(0)