下面就正文了限于译者水平肯定会有不少翻译甚至理解上错deep reinforcement learning pong.pdfVIP

下面就正文了限于译者水平肯定会有不少翻译甚至理解上错deep reinforcement learning pong.pdf

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

下面就是正文了。限于译者水平,肯定会有不少翻译甚至是理解上的错

误,请多包涵,望多交流。谢谢。

这是一篇迟来很久的关于增强学习(ReinforcementLearning,RL)博

文。增强学习最近非常火!你一定有所了解,现在的计算机能不但能够

被全自动地训练去玩儿ATARI(译注:一种游戏机)游戏(直接输入游戏的

原生的像素数据),还能击败围棋的世界冠军、模拟四足动物上蹿下

跳。机器人还能学习如何进行复杂的控制任务,甚至比直接编写的程序

效果还要好。这些在各个方面的领先都应该被归功于增强学习遍地开花

般的研究。我在过去几年中也对增强学习非常感:我完成了

RichardSutton的书,看完了DavidSilver的课程,看了JohnSchulmann

的讲义,写了一个基于Javascript的增强学习的库,并且在DeepMind公

司的DeepRL组实习了一个夏天,而最近的工作有些涉及到一个全新的增

强学习评测工具箱OpenAIGym的设计和开发。所以我实际上已经在这条

贼船上带了一整年,但是直到现在我还没抽出时间去写一篇简短的博客

来阐述增强学习是什么、为什么增强学习这么重要、如何开发一个增强

学习的程序,以及它的应用背景会是什么。

几个增强学习的例子。从左到右:深度Q络玩儿ATARI,

AlphaGo,伯克利堆积木机器人Legos,模拟的四足动物在地面奔

跑。

回忆一下增强学习近期进展的本质是一件很有趣的事情。我比较直白地

认为人工智能受到了以下一个因素的掣肘(此处原文为holdbackAI,总

觉得有些怪怪的):

1.计算能力(显而易见:摩尔定律、显卡、)

2.数据(带有良好的结构,而不是散落在互联网上-比如说

ImageNet)

3.算法(研究和一些点子,比如说BP反向,CNN,LSTM)

4.基础设施(软件,比如Linux,TCP/IP,Git,ROS,PR2,AWS,

AMT,TensorFlow等等)

与计算机视觉界所经历的一样,增强学习的发展进程不像想你想的那样

于什么惊世骇俗的灵感。在计算机视觉界,2012年的AlexNet几乎就

是10年代卷积神经网络(ConvNets)的高规格版本。与之相似的是,

2013年ATARI的深度Q学习(DeepQLearning)的实际上在功能上

近似于一个标准的算法(Q学习,QLearning,函数近,你可以在

Sutton18年编写的标准的增强学习书籍上找到),函数近实际上使

用了一个卷积网络。AlphaGo使用了带有蒙特卡洛树搜索的策略梯度

(Gradients),其实这些也是惯用的组件。当然,也还需要用到

大量的技巧和一点儿耐心让它能够正确地运转起来,同时也需要在那些

之前被传统算法中应用上一些聪明的小技巧,但是对于一阶近似

来说,能产生如此巨大的成就并不是取决于算法,而是(与计算机视觉

类似)据取决计算能力、数据和基础设施。

话题回到增强学习。我很喜欢去写博客来说明一件看上去很梦幻的东西

和其背后的简单的原理。【译注:这句话的原话语法结构太复杂了,驾

驭不住啊】。我见过很多人不敢相信我们能够全自动地让机器像人类一

样学会去玩儿大部分ATARI游戏,甚至只需要一个算法、直接输入像素、

从零做起,效果非常,尝试过。但是我们所用的方法其

实非常的简单(尽管我知道现在回想起来好像这么说会一些争

议)。无论如何,我将会带你了解Gradients算法(PG),即在这

个时候了解增强学习的最佳切入点。如果还是个怎强学习的门外汉,你

一定会好奇为什么我不去介绍DQN算法呢?它可是一个更广为人知的增

强学习算法,并且在玩儿ATARI游戏的中经

文档评论(0)

158****9376 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档