人机围棋大战,究竟谁在“突围”.docxVIP

下载本文档

1
0
约7.05千字
约 16页
2019-08-20 发布于湖北
举报
版权申诉

人机围棋大战,究竟谁在“突围”.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人机围棋大战，究竟谁在“突围” 2016-03-09云投思享汇云投汇 3月9日，曾经击败过欧洲围棋冠军的人工智能程序“阿尔法围棋”，开始挑战韩国围棋冠军李世石，双方在较量3个半小时后，李世石宣布认输， AlphaGo获得第一场比赛的胜利。一方是拥有1200个中央处理器的电脑，一方是过去10年中拥有最多冠军头衔的顶尖棋手，谁能在围棋——“人类智慧最后高地”上笑到最后？对弈结果吊人胃口，其实更值得关注的是背后反映出的人工智能新进步。人工智能正在走向“指数式发展的下半场”，引领新一轮产业创新与变革的到来。详解AlphaGo AlphaGo是谷歌DeepMind公司开发的一款人工智能软件，集合了3000万种职业棋手的下法，数百万次深度学习与自我对战，十分接近带着直觉和第六感的人类大脑。两个大脑 AlphaGo是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络，跟Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始，去处理围棋棋盘的定位，就像图片分类器网络处理图片一样。经过过滤，13个完全连接的神经网络层产生对它们看到的局面判断，这些网络层能够做分类和逻辑推理。这些网络通过反复训练来检查结果，再去校对调整参数，来让下次执行更好。这个处理器有大量的随机性元素，所以我们是不可能精确知道网络是如何“思考”的，但更多的训练后能让它进化到更好。 ? 第一大脑：落子选择器（Move Picker) AlphaGo的第一个神经网络大脑是“监督学习的策略网络(Policy Network)” ，观察棋盘布局企图找到最佳的下一步。事实上，它预测每一个合法下一步的最佳概率，那么最前面猜测的就是那个概率最高的。你可以理解成“落子选择器”。 ? 落子选择器是怎么看到棋盘的？数字表示最强人类选手会下在哪些地方的可能。团队通过在KGS（网络围棋对战平台）上与最强人类对手，百万级的对弈落子去训练大脑。这就是AlphaGo最像人的地方，目标是去学习那些顶尖高手的妙手。这个不是为了去下赢，而是去找一个跟人类高手同样的下一步落子。AlphaGo落子选择器能正确符合57%的人类高手。（不符合的不是意味着错误，有可能人类自己犯的失误）更强的落子选择器　　 AlphaGo系统事实上需要两个额外落子选择器的大脑。一个是“强化学习的策略网络（Policy Network）”，通过百万级额外的模拟局来完成。你可以称之为更强的。比起基本的训练，只是教网络去模仿单一人类的落子，高级的训练会与每一个模拟棋局下到底，教网络最可能赢的下一手。Sliver团队通过更强的落子选择器总结了百万级训练棋局，比他们之前版本又迭代了不少。　　单单用这种落子选择器就已经是强大的对手了，可以到业余棋手的水平，或者说跟之前最强的围棋AI媲美。这里重点是这种落子选择器不会去“读”。它就是简单审视从单一棋盘位置，再提出从那个位置分析出来的落子。它不会去模拟任何未来的走法。这展示了简单的深度神经网络学习的力量。　　更快的落子选择器　　 AlphaGo当然团队没有在这里止步。下文会阐述是如何将阅读能力赋予AI的。为了做到这一点，他们需要更快版本的落子选择器大脑。越强的版本在耗时上越久——为了产生一个不错的落子也足够快了，但“阅读结构”需要去检查几千种落子可能性才能做决定。 Silver团队建立简单的落子选择器去做出“快速阅读”的版本，他们称之为“滚动网络”。简单版本是不会看整个19*19的棋盘，但会在对手之前下的和新下的棋子中考虑，观察一个更小的窗口。去掉部分落子选择器大脑会损失一些实力，但轻量级版本能够比之前快1000倍，这让“阅读结构”成了可能。　　第二大脑：棋局评估器（Position Evaluator）　　 AlphaGo的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步，它预测每一个棋手赢棋的可能，在给定棋子位置情况下。这“局面评估器”就是文中提到的“价值网络（Value Network)”，通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的，但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”，AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行，那么AI就跳过阅读在这一条线上的任何更多落子。　　? 局面评估器是怎么看这个棋盘的。深蓝色表示下一步有利于赢棋的位置。局面评估器也通过百万级别的棋局做训练。Silver团队通过复制两个AlphaGo的最强落子选择器，精心挑选随机样本创造了这些局面。这里AI 落子选择器在高效创建大规模数据集去训练局面评估器是非常有价值的。这种落子选择器让大家去模拟继续往下走的很多可能，从任意给定棋盘局面去猜测大致的双方赢棋概率