AlphaGo的成功是蒙特卡洛树搜索加深度学习的胜利光环大数据培训.pdf

下载文档 降价啦

5
0
约5.82千字
约 6页
2019-06-10 发布于湖北
举报
版权申诉
保障服务

AlphaGo的成功是蒙特卡洛树搜索加深度学习的胜利光环大数据培训.pdf

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

光环大数据--大数据培训人工智能培训 AlphaGo 的成功是蒙特卡洛树搜索加深度学习的胜利_光环大数据培训计算机象棋（包括国际象棋和中国象棋）水平有了很大的提高，达到了可以战胜人类最高棋手的水平。但是，长期以来，在计算机围棋上进展却十分缓慢，在2006 年引入了蒙特卡洛树搜索方法之后，也只能达到业余5 段的水平。所以AlphaGo 战胜韩国棋手李世石，确实是人工智能发展历程上的一个里程碑式的事件。从人工智能研究的角度来说，计算机围棋战胜人类高水平棋手是一个标志，说明在某些方面，现有的人工智能技术可以达到怎样的高度，所以当时我曾经认为人机再战的意思已经不大，就如同当年深蓝战胜卡斯帕罗夫之后，IBM 随即马放南山，即便卡斯帕罗夫提出再战深蓝，IBM 也不再理会。当年的深蓝还是一个专用设备，IBM 甚至为了提高计算速度，而研制了专用的芯片（据说该芯片只能用于下国际象棋）。但是万事开头难，随着计算机计算能力的提高，今天即便在普通计算机上，也可以达到甚至超过当年深蓝的水平。以至于在国际象棋比赛中，出现过棋手借去厕所的机会，让计算机帮忙出招的丑闻，在现在的国际象棋比赛中，已经明确禁止利用各种计算设备，据说赛场也对网络进行屏蔽，以防止有人作弊。图1. 深蓝对卡斯帕罗夫的比赛现场就在2016 年即将过去的时候，在网络上突然出现一个名为 Master 的计算机围棋程序，在网上快棋赛中，连胜包括中日韩三国高手在内的人类棋手，取得连胜60 场的辉煌战绩。事后得知Master 就是AlphaGo 的升级版。震撼！横扫中日韩顶级棋手，60 局不败的Master 就是AlphaGo ！为什么AlphaGo 会重出江湖呢？我想可以从AlphaGo 与深蓝的不同来考虑。深蓝采用的是α- β搜索框架，加上大量的人类知识，在技术上已经没有什么发展空间。而AlphaGo 采用的是蒙特卡洛树搜索框架，加上深度学习和深度强化学习。在这样一个框架下，深度学习，尤其是深度强化学习在计算机围棋上的天花板究竟有多高？还是一个未知数，从技术的角度光环大数据光环大数据--大数据培训人工智能培训来说，还有很大的研究空间，我想这是AlphaGo 重出江湖的重要原因，围棋在这里只是作为一个应用对象，目的还是研究强化学习等方法。顺便在这里说一下，有人认为AlphaGo 的成功是深度学习的胜利，我认为这一看法是片面的。具体来说，蒙特卡洛树搜索引入到计算机围棋中，是一个很大的飞跃，深度学习和强化学习的引入，是又一次飞跃。因此AlphaGo 的成功是蒙特卡洛树搜索加深度学习的胜利。如果再上升一个层次来考虑，则是人工智能中传统的符号主义加连接主义的成功。如果再进一步上升一个层次，则是理性加感性的成功。因此，在今天深度学习大热的情况下，不能忽视传统方法的作用。传统方法与深度学习具有互补性，应该加强这方面的研究，而不是一窝蜂式的涌向深度学习。图2. 韩国棋手李世石对战AlphaGo 那么这次的Master 与去年3 月份的AlphaGo 有什么不同呢？（为了叙述方便，下文中 AlphaGo 特指去年3 月的版本，Master 特指现在的版本）到目前为止，DeepMind 公司还没有透露出任何信息，只能从表面现象去分析、猜测。我并不懂围棋，为了了解 Master 的特点，在网上看了不少专业棋手对Master 棋谱的分析，一个突出的感受是，Master 常常会走出一些超出职业棋手想象的惊人之步，很多高手连呼看不懂，但又找不出其破绽。古力在其微博上说，Master 的出现“已经彻底颠覆了我们棋手对局势原有的掌控、判断”，柯洁也评论说 Master “给我们棋手带来的震撼”。虽然 AlphaGo 也有出乎职业棋手意外的着法，但是这次Master 这样的走法更多，更出乎意外。鉴于此，我曾经给出一个猜测： “AlphaGo 训练时用到了16 万人类棋谱，加上自己左右互搏产生的3000 万棋谱，以及人类总结的几万个模式。而这次的Master 很可能是从0 开始学习得到的结果（指没有利用任何人类棋谱和知识，依靠基于强化学习的左右互搏进行学习），在蒙特卡洛搜索树的框架下，加上深度强化学习方