强化学习课件.pptVIP

下载本文档

20
0
约7.51千字
约 48页
2023-11-12 发布于北京
举报
版权申诉

强化学习课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Continuous control with deep reinforcement learning /u013236946/article/details* Continuous control with deep reinforcement learning /u013236946/article/details* Continuous control with deep reinforcement learning /u013236946/article/details* SARSA Q-Learning TD(0) with function approximation DQN Double Q-learning 基于策略的强化学习 3 策略梯度算法 Part Iterative Policy evaluation Policy Iterative Reinforce with baseline (episodic) Actor-Critic (episodic) 深度强化学习经典算法 4 A3C DDPG Part DQN DQN Dueling-DDQN A3C A3C DDPG DDPG DDPG DDPG 强化学习算法应用 5 这里可以用一段简洁的文字描述出本章中心思想，或者作为章节导语。还可以列出本章的小节标题。 Part 实际应用总体思路主要介绍了强化学习的基本概念，强化学习分类，强化学习经典算法，以及近几年用的较多的强化学习算法，最后提出了强化学习的应用场景和强化学习模型。后记谢谢大家! 汇报人：那么这里要注意的是policy evaluation部分。这里的迭代很重要的一点是需要知道state状态转移概率p。也就是说依赖于model模型。而且按照算法要反复迭代直到收敛为止。所以一般需要做限制。比如到某一个比率或者次数就停止迭代。那么需要特别说明的是不管是策略迭代还是值迭代都是在理想化的情况下（上帝视角）推导出来的算法，本质上并不能直接应用，因为依赖Model。 * /aliceyangxi1987/article/details* /jinxulin/p/3560737.html * 作者：知乎用户链接：/questionanswer/135905486来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。DQN这篇文章的算法就是Q-learning+function approximation（只不过function approximation是比较特殊的），每一次根据所获得的来更新Q-value，本质就是stochastic gradient descent (SGD)。一般在用mini-batch SGD做优化时，都假设样本之间的相对独立，从而使得每个mini-batch内数据所含的噪声相互抵消，算法收敛的更快。在这个问题中，之所以加入experience replay是因为样本是从游戏中的连续帧获得的，这与简单的reinforcement learning问题（比如maze）相比，样本的关联性大了很多，如果没有experience replay，算法在连续一段时间内基本朝着同一个方向做gradient descent，那么同样的步长下这样直接计算gradient就有可能不收敛。因此experience replay是从一个memory pool中随机选取了一些expeirence，然后再求梯度，从而避免了这个问题。原文的实验中指出mini batch是32，而replay memory存了最近的1000000帧，可以看出解决关联性的问题在DQN里是个比较重要的技巧。这个experience replay并不新，23年前就有人提出来了，只不过当时没有convolution networks，没有好的GPU，只有atari game。 * 作者：知乎用户链接：/questionanswer/135905486来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。DQN这篇文章的算法就是Q-learning+function approximation（只不过function approximation是比较特殊的），每一次根据所获得的来更新Q-value，本质就是stochastic gradient descent (SGD)。一般在用mini-batch SGD做优化时，都假设样本之间的相对独立，从而使得每个mini-batch内数据所含的噪声相互抵消，算法收敛的更快。在这个