为什么说机器人协作深度学习_深圳光环大数据培训.pdfVIP

  • 0
  • 0
  • 约4.83千字
  • 约 6页
  • 2019-03-13 发布于江苏
  • 举报

为什么说机器人协作深度学习_深圳光环大数据培训.pdf

光环大数据--大数据培训人工智能培训 为什么说机器人协作深度学习_深圳光环大数据培训 在基于机器学习的机器人控制里,数据量,或者说“经验”,是机器人完成 复杂任务的关键。Google 今年早些时候那个著名的端到端抓取学习里,仅仅是 同一款机器人,一自由度机械手的平面抓取问题,就收集了多达八十万次抓取动 作数据。如果一台机器人单单凭借自己的经验来学习复杂技能,需要花费的时间 是不可想象的。所以,让不同机器人之间能够共享经验,就显得尤为重要。 (图:Google 的“机器人工厂”) 在Google 的抓取学习项目里,“共享经验”的主要难点是,每一台机器人所 用的摄像头是独立校准的,其拍摄角度、光照条件不可能完全一样。这周,Google DeepMind 在经验共享方面再次发布了非常令人激动的结果。在学术界,基于增 强学习进行机器人运动规划控制有三类基本思路,Google 用多个例子演示了在 这三类方法里,如何让多个机器人分享经验、建立同一个技能的一般模型。 这三类增强学习方法是:无模型学习,基于模型的学习,和人工辅助实现的 学习。 虽然在这几个例子里机器人仍然学习的是非常简单的推动物体和开门两项 技能,但一方面这两个技能对目前的机器人研究而言绝对不简单,另一方面, Google 的这套方法有潜力在未来慢慢形成更为丰富的行为经验库。 本文中间部分是作者们对Google 原文的提炼和分析。 1、无模型学习 分享原始数据 光环大数据 光环大数据--大数据培训人工智能培训 “无模型”是指算法并没有关于环境信息的经验模型。对算法而言,机器人 本体和整个世界就是一个黑箱,你所能做的就是输入一个动作,获得一个回报, 这就是一个经验。在“无模型”学习中,机器人根据经验不断优化自身的策略 (Policy)以在未来获得更大回报。此类方法有两个关键点:一,用来描述Policy 的函数必须足够的表达能力,这样才能有可能在最优策略较为复杂时,找到比较 好的策略。比如,二次型就比线性策略表达能力强。而深度神经网络就是这样一 种表达能力极其强大的函数,它的使用让无模型算法展现出令人震惊的有效性, 并成为了Atari 游戏系统和AlphaGO 围棋系统成功的关键。第二个关键点,就是 要有足够大的数据量,让你能够通过训练找到比较不错的Policy 参数。 在这种模式下,多机器人分享经验的方式非常简单——直接把所有机器人获 得的原始数据汇总,来训练一个Policy 就是了。一台机器人跑一天采的数据量, 二十台机器人只需要一个多小时。 在Google 的实验中,机械臂的目标是运动到指定的位置,然后完成开门的 动作。在一次迭代中,每个机器人都获得了同一个神经网络策略的副本,机器人 通过查询这个网络,来快速计算各种动作的潜在价值,以选择合适的动作来执行。 机器人的动作被人为加了噪声,所以产生的动作结果好坏会有波动,以增加机器 人探索新动作的能力。所有机器人的经验(即“动作-结果”)都被上传给中央服 务器,用于迭代优化神经网络策略。更多的数据让神经网络能够更加清楚“动作” 和“结果”间的联系,从而对不同状态下各种动作的结果有更准确的评价。一次 迭代结束后,每个机器人就再从服务器得到更新后的神经网络副本,并依据这个 新神经网络来开始新的动作。 “开门”动作涉及到机器人末端钩子和门把手间复杂的接触动力学模型。在 视频里,机器人通过几个小时的学习,在完全没有物理模型支持的情况下自行探 索出开门的合适动作。 光环大数据 光环大数据--大数据培训人工智能培训 无模型学习对数据的需求量是最大的。所以只有不差钱如 Google,买工业 机器人跟买鸡蛋似的一买买两打(其实是买了整个公司),才能训练出来这么复杂 的动作。 2、基于模型的学习 无模型学习的最大问题是,即使是相同的机器人相同的环境,只要换一个任 务,之前的Policy 就没用了,你得从零开始重新训练。 但是,人类和动

文档评论(0)

1亿VIP精品文档

相关文档