《强化学习理论与应用》基于AC框架的深度强化学习方法.pptVIP

下载本文档

2
0
约1.15千字
约 52页
2024-11-09 发布于广东
举报
版权申诉

《强化学习理论与应用》基于AC框架的深度强化学习方法.ppt

1、本文档共52页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

目录;2;3;14.1行动者-评论家架构（1）;14.1行动者-评论家架构（2）;14.1行动者-评论家架构（3）;14.2行动者-评论家架（4）;14.2行动者-评论家架（5）;目录;14.2A3C算法（1）;14.2A3C算法（2）;14.2A3C算法（3）;14.2A3C算法（4）;14.2A3C算法（5）;14.2A3C算法（6）;14.2A3C算法（7）;14.2A3C算法（8）;14.2A3C算法（9）;14.2A3C算法（10）;14.2A3C算法（11）;14.2A3C算法（12）;14.2A3C算法（13）;14.2A3C算法（14）;14.2A3C算法（15）;14.2A3C算法（16）;14.2A3C算法（17）;14.2A3C算法（18）;14.2A3C算法（19）;14.2A3C算法（20）;14.2A3C算法（21）;14.2A3C算法（22）;目录;14.3A3C算法的实验结果及分析（1）;14.3A3C算法的实验结果及分析（2）;14.3A3C算法的实验结果及分析（3）;14.3A3C算法的实验结果及分析（4）;14.3A3C算法的实验结果及分析（5）;14.3A3C算法的实验结果及分析（6）;14.3A3C算法的实验结果及分析（7）;14.3A3C算法的实验结果及分析（8）;目录;14.4A2C算法（1）;14.4A2C算法（2）;目录;14.5A2C算法的实验结果与分析（1）;14.5A2C算法的实验结果与分析（2）;14.3A3C算法的实验结果及分析（3）;14.3A3C算法的实验结果及分析（4）;目录;本章介绍了基于异步优势函数的行动者评论家算法（A3C）和其改进版本A2C算法:

与DQN算法相比，A3C算法使用多个Agent异步地与环境进行交互，因而不单纯依靠GPU，可以使用多个CPU来训练。每个Agent在相对应的工作组中累积梯度，并对全局网络进行更新。

针对A3C算法在工作组中累积梯度造成内存消耗大的问题，提出了改进的A2C算法。在A2C算法中，工作组只负责采样，不再进行梯度累积，梯度累积只在全局网络中完成。实验表明，A3C算法和A2C算法均能在给定的环境中训练至收敛，并且可以通过实验确定最佳策略熵温度参数和学习率。;简述A3C算法不采用经验回放机制的原因。

简述A3C算法和A2C算法采用并行架构的优势。

参考图14.2,根据A2C算法的描述,请画出A2C算法的架构图。

（编程）比较不同参数（学习率、策略熵温度等）对A2C算法性能的影响。

（编程）实现运行在GPU上的A3C算法。;

您可能关注的文档

文档评论（0）

181****6786 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《强化学习理论与应用》基于AC框架的深度强化学习方法.pptVIP