深度强化学习.pdfVIP

下载本文档

487
0
约1.13万字
约 7页
2023-05-12 发布于湖北
举报
版权申诉

深度强化学习.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深度强化学习为什么需要强化学习我们先⽤⼀个例⼦来说明⼀下为什么需要⽤强化学习来解决问题。例如上的机器⼈抓取问题：⼀个7 ⾃由度的机器⼈⼿臂，通过⼀个单⽬相机的输⼊（⽚），试⽤两个⼿指的夹持器去抓起盘⼦⾥的物体。所以，这个问题的输⼊就是⽚，输出就是夹持器的抓取位置的xyz坐标。解决这个问题可能有不同的⽅式。其中⼀个⽅式就是理解问题，并且设计出⽅案。就像上中option1所⽰的那样。例如你可以利⽤你对机器⼈系统的了解来确定：夹持器的坐标、夹持器与相机的相对位置、物体的形状等等因素来构建出被夹持物体的相对位置，以及合理的夹持位置。这种⽅式对于简单的物体，例如上中option1中1这样的蓝⾊塑料棒是⽐较适合的；但是如果物体⽐较复杂，例如重⼼对夹持位置的影响⽐较⼤，如option1中2所⽰的⼯具；或者⼀些软的可变形的物体，夹持器可以深⼊的物体内部做动作，如option1中3所⽰的海绵球来说，⼈为设计出⼀个夹持位置可能是⼀件⽐较难的事情。另⼀种选择就是把它设计成⼀个机器学习问题，如上的optioan2所⽰。但是，对于⼀般的监督学习来讲，需要给它提供⼤量的训练数据，例如⼤量的（⽚，夹持位置）这种成对的数据，这种数据对于⼈来说是很难标注和取得的。你可以想想，⽚和夹持位置之间的映射很难直观的得到。所以这样的问题基本就需要通过强化学习的⽅式去解决。这门课的⽬的就是教会你⽤强化学习的⽅式解决类似的问题。如果⽤⼀句话来概括强化学习，就是：从经验中获取技能。强化学习也是⼀种机器学习，但是，和普通的监督学习不同，它不要求数据⼀定的对的。数据可以是对的，例如⼀次成功的抓取，也可以是错的，例如⼀次失败的抓取。但是这些数据对于强化学习来说都是有⽤的，都是经验，智能体（机器⼈）使⽤强化学习的⽅法，通过这些经验就可以学习到⼀些技能，例如抓取物体的技能。对的数据可以帮助智能体学习到好的动作，错误的数据可以帮助机器⼈学习到如何避免错误的动作。上说明的就是强化学习的⼀般步骤，强化学习算法设计好以后，这个过程⼤概是⾃动完成的：机器⼈采⽤初始策略做⼀些抓取动作。初始策略可能是⼈为设定的⼀些动作或者是随机的动作。这些动作形成⼀些抓取轨迹，例如（⽚，位置，⽚，位置…）这样⼀条轨迹，这个轨迹作为数据保存，并且要标定这条轨迹是成功还是失败。这个标定过程也是⾃动的，例如可以⽤⼀些传感器来辅助判断⼀次抓取是成功还是失败。强化学习算法使⽤收集的数据去做训练，训练出的结果⼀般是⼀个更好的策略。机器⼈实施这个更好的策略去做抓取的动作。然后⽤这个更好的策略替代初始策略，继续收集数据做训练。从⽽重复这个循环迭代过程，使得策略被训练的越来越好，机器⼈最终就能学会抓取不同的物体了。另外在收集数据的过程中可以使⽤多个机器⼈来并⾏的收集，这样可以增加效率。什么是强化学习那么什么是强化学习呢？强化学习⼤概指的是这两个⽅⾯：它是基于学习的决策过程的⼀种数学表达⽅式。使⽤这种表达⽅式可以去设计算法。它是从经验中去学习决策和控制的⼀种⽅法。例如从上⾯的叙述中可以看出，通过强化学习得到的控制⽅法（如何抓取物体）是从经验中学习到的，它不⽤详细的理解系统的结构，也不需要像监督学习那样⼤量的数据标注。我们再对⽐⼀下强化学习和监督学习的区别：监督学习强化学习数据是iid的，就是独⽴同分布的，数据之间没有相互影响，⽽且来⾃于同⼀个分布。训练的过程中知道ground true的输出，也就是知道输⼊x所对应的正确的输出y是什么，这样才能训练出⼀个正确的f (x)。数据不是iid的。前⾯数据的输出会影响后⾯的输⼊。例如游戏中采取不同的动作会影响到后⾯出现的场景。没有正确的标注数据，只能知道成功或者失败，或者是动作的奖励值。我们⽤上⾯这张来进⼀步说明⼀下强化学习中的⼏个基本要素。强化学习是由智能体和环境相交互所组成的⼀个决策系统。智能体做出决策，通常指选择要执⾏的动作，环境返回动作执⾏的结果，也就是观测值，通常也指系统的状态，同时也返回⼀个奖励值