- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
光环大数据--大数据培训人工智能培训
AlphaGo 的成功是蒙特卡洛树搜索加深度学习的胜利_光环大数据培训
计算机象棋(包括国际象棋和中国象棋)水平有了很大的提高,达到了可以战胜人类最
高棋手的水平。但是,长期以来,在计算机围棋上进展却十分缓慢,在2006 年引入了蒙特
卡洛树搜索方法之后,也只能达到业余5 段的水平。所以AlphaGo 战胜韩国棋手李世石,确
实是人工智能发展历程上的一个里程碑式的事件。
从人工智能研究的角度来说,计算机围棋战胜人类高水平棋手是一个标志,说明在某些
方面,现有的人工智能技术可以达到怎样的高度,所以当时我曾经认为人机再战的意思已经
不大,就如同当年深蓝战胜卡斯帕罗夫之后,IBM 随即马放南山,即便卡斯帕罗夫提出再战
深蓝,IBM 也不再理会。当年的深蓝还是一个专用设备,IBM 甚至为了提高计算速度,而研
制了专用的芯片(据说该芯片只能用于下国际象棋)。但是万事开头难,随着计算机计算能
力的提高,今天即便在普通计算机上,也可以达到甚至超过当年深蓝的水平。以至于在国际
象棋比赛中,出现过棋手借去厕所的机会,让计算机帮忙出招的丑闻,在现在的国际象棋比
赛中,已经明确禁止利用各种计算设备,据说赛场也对网络进行屏蔽,以防止有人作弊。
图1. 深蓝对卡斯帕罗夫的比赛现场
就在2016 年即将过去的时候,在网络上突然出现一个名为 Master 的计算机围棋程序,
在网上快棋赛中,连胜包括中日韩三国高手在内的人类棋手,取得连胜60 场的辉煌战绩。
事后得知Master 就是AlphaGo 的升级版。震撼!横扫中日韩顶级棋手,60 局不败的Master
就是AlphaGo !
为什么AlphaGo 会重出江湖呢?我想可以从AlphaGo 与深蓝的不同来考虑。深蓝采用的
是α- β搜索框架,加上大量的人类知识,在技术上已经没有什么发展空间。而AlphaGo 采
用的是蒙特卡洛树搜索框架,加上深度学习和深度强化学习。在这样一个框架下,深度学习,
尤其是深度强化学习在计算机围棋上的天花板究竟有多高?还是一个未知数,从技术的角度
光环大数据
光环大数据--大数据培训人工智能培训
来说,还有很大的研究空间,我想这是AlphaGo 重出江湖的重要原因,围棋在这里只是作为
一个应用对象,目的还是研究强化学习等方法。
顺便在这里说一下,有人认为AlphaGo 的成功是深度学习的胜利,我认为这一看法是片
面的。具体来说,蒙特卡洛树搜索引入到计算机围棋中,是一个很大的飞跃,深度学习和强
化学习的引入,是又一次飞跃。因此AlphaGo 的成功是蒙特卡洛树搜索加深度学习的胜利。
如果再上升一个层次来考虑,则是人工智能中传统的符号主义加连接主义的成功。如果再进
一步上升一个层次,则是理性加感性的成功。因此,在今天深度学习大热的情况下,不能忽
视传统方法的作用。传统方法与深度学习具有互补性,应该加强这方面的研究,而不是一窝
蜂式的涌向深度学习。
图2. 韩国棋手李世石对战AlphaGo
那么这次的Master 与去年3 月份的AlphaGo 有什么不同呢?(为了叙述方便,下文中
AlphaGo 特指去年3 月的版本,Master 特指现在的版本)到目前为止,DeepMind 公司还没
有透露出任何信息,只能从表面现象去分析、猜测。我并不懂围棋,为了了解 Master 的特
点,在网上看了不少专业棋手对Master 棋谱的分析,一个突出的感受是,Master 常常会走
出一些超出职业棋手想象的惊人之步,很多高手连呼看不懂,但又找不出其破绽。
古力在其微博上说,Master 的出现“已经彻底颠覆了我们棋手对局势原有的掌控、判
断”,柯洁也评论说 Master “给我们棋手带来的震撼”。虽然 AlphaGo 也有出乎职业棋手意
外的着法,但是这次Master 这样的走法更多,更出乎意外。鉴于此,我曾经给出一个猜测:
“AlphaGo 训练时用到了16 万人类棋谱,加上自己左右互搏产生的3000 万棋谱,以及人类
总结的几万个模式。而这次的Master 很可能是从0 开始学习得到的结果(指没有利用任何
人类棋谱和知识,依靠基于强化学习的左右互搏进行学习),在蒙特卡洛搜索树的框架下,
加上深度强化学习方
您可能关注的文档
- 铸造温度—速度参数对无碳单晶高温合金组织影响.pdf
- 专题2 第一单元 氧化还原反应2.ppt
- 最后三公里物流平台“达达”让天下O2O没难做生意.pdf
- 作文训练常怀敬畏之心讲评.ppt
- 1如何应对新医疗损害赔偿机制新.ppt
- 4保健食品注册检验复核检验规范173号征求意见稿.doc
- 07华南下中奥陶统界线附近笔石相的分异与全球下中奥陶统界线生物标志的选择.pdf
- 7气管道失效后果严重度的模糊综合评价.pdf
- 8风源及制动装置11.ppt
- 20纳税辅导日课.ppt
- 新部编版二年级上册道德与法治期中测试卷(典优)word版.docx
- 新部编版二年级上册道德与法治期中测试卷精品(基础题).docx
- 新部编版二年级上册道德与法治期中测试卷重点.docx
- 新部编版二年级上册道德与法治期中测试卷精品【易错题】.docx
- 新部编版二年级上册道德与法治期中测试卷附参考答案(培优b卷).docx
- 新部编版二年级上册道德与法治期中测试卷附参考答案【轻巧夺冠】.docx
- 新部编版二年级上册道德与法治期中测试卷附完整答案【历年真题】.docx
- 新部编版二年级上册道德与法治期中测试卷(满分必刷).docx
- 新部编版二年级上册道德与法治期中测试卷附参考答案(精练).docx
- 新部编版二年级上册道德与法治期中测试卷(精品)word版.docx
文档评论(0)