深度强化学习.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深度强化学习 为什么需要强化学习 我们先⽤⼀个例⼦来说明⼀下为什么需要⽤强化学习来解决问题。例如上 的机器⼈抓取问题 :⼀个7 ⾃由度的机器⼈⼿臂,通过⼀ 个单 ⽬相机的输⼊ ( ⽚),试 ⽤两个⼿指的夹持器去抓起盘⼦⾥的物体。所以,这个问题的输⼊就是 ⽚,输出就是夹持器的抓取位置 的xyz坐标。 解决这个问题可能有不同的⽅式。其中⼀个⽅式就是理解问题,并且设计出⽅案。就像上 中option1所⽰的那样。例如你可以利⽤ 你对机器⼈系统的了解来确定 :夹持器的坐标、夹持器与相机的相对位置、物体的形状等等因素来构建出被夹持物体的相对位置,以及合理 的夹持位置。这种⽅式对于简单的物体,例如上 中option1中1这样的蓝⾊塑料棒是⽐较适合的;但是如果物体⽐较复杂,例如重⼼对夹 持位置的影响⽐较⼤,如option1中2所⽰的⼯具 ;或者⼀些软的可变形的物体,夹持器可以深⼊的物体内部做动作,如option1中3所⽰的 海绵球来说,⼈为设计出⼀个夹持位置可能是⼀件⽐较难的事情。 另⼀种选择就是把它设计成⼀个机器学习问题,如上 的optioan2所⽰。但是,对于⼀般的监督学习来讲,需要给它提供⼤量的训练 数据,例如⼤量的 ( ⽚,夹持位置)这种成对的数据,这种数据对于⼈来说是很难标注和取得的。你可以想想, ⽚和夹持位置之间的映 射很难直观的得到。 所以这样的问题基本就需要通过强化学习的⽅式去解决。这门课的⽬的就是教会你⽤强化学习的⽅式解决类似的问题。 如果⽤⼀句话来概括强化学习,就是 :从经验中获取技能。强化学习也是⼀种机器学习,但是,和普通的监督学习不同,它不要求数 据⼀定的对的。数据可以是对的,例如⼀次成功的抓取,也可以是错的,例如⼀次失败的抓取。但是这些数据对于强化学习来说都是有⽤ 的,都是经验,智能体 (机器⼈)使⽤强化学习的⽅法,通过这些经验就可以学习到⼀些技能,例如抓取物体的技能。对的数据可以帮助智 能体学习到好的动作,错误的数据可以帮助机器⼈学习到如何避免错误的动作。 上 说明的就是强化学习的⼀般步骤,强化学习算法设计好以后,这个过程⼤概是 ⾃动完成的: 机器⼈采⽤初始策略做⼀些抓取动作。初始策略可能是⼈为设定的⼀些动作或者是随机的动作。 这些动作形成⼀些抓取轨迹,例如 ( ⽚,位置, ⽚,位置…)这样⼀条轨迹,这个轨迹作为数据保存,并且要标定这条轨迹是成功还是 失败。这个标定过程也是 ⾃动的,例如可以⽤⼀些传感器来辅助判断⼀次抓取是成功还是失败。 强化学习算法使⽤收集的数据去做训练,训练出的结果⼀般是⼀个更好的策略。 机器⼈实施这个更好的策略去做抓取的动作。然后⽤这个更好的策略替代初始策略,继续收集数据做训练。从⽽重复这个循环迭代过程,使 得策略被训练的越来越好,机器⼈最终就能学会抓取不同的物体了。 另外在收集数据的过程中可以使⽤多个机器⼈来并⾏的收集,这样可以增加效率。 什么是强化学习 那么什么是强化学习呢?强化学习⼤概指的是这两个⽅⾯ : 它是基于学习的决策过程的⼀种数学表达⽅式。使⽤这种表达⽅式可以去设计算法。 它是从经验中去学习决策和控制的⼀种⽅法。例如从上⾯的叙述中可以看出,通过强化学习得到的控制⽅法 (如何抓取物体)是从经验中学 习到的,它不⽤详细的理解系统的结构,也不需要像监督学习那样⼤量的数据标注。 我们再对⽐⼀下强化学习和监督学习的区别: 监督学习 强化学习 数据是iid的,就是独⽴同分布的,数据之间没有相互影响,⽽且来 ⾃于同⼀个分布。 训练的过程中知道ground true的输出,也就是知道输⼊x所对应的正确的输出y是什么,这样才能训练出⼀个正确的f (x)。 数据不是iid的。前⾯数据的输出会影响后⾯的输⼊。例如游戏中采取不同的动作会影响到后⾯出现的场景。 没有正确的标注数据,只能知道成功或者失败,或者是动作的奖励值。 我们⽤上⾯这张 来进⼀步说明⼀下强化学习中的⼏个基本要素。强化学习是由智能体和环境相交互所组成的⼀个决策系统。智能体 做出决策,通常指选择要执⾏的动作,环境返回动作执⾏的结果,也就是观测值,通常也指系统的状态,同时也返回⼀个奖励值

文档评论(0)

有志者事竟成 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7114163151000053

1亿VIP精品文档

相关文档