alphago与alphazero原理和未来应用研究.pdfVIP

下载本文档

0
0
约7.26千字
约 2页
2025-03-16 发布于湖北
举报
版权申诉

alphago与alphazero原理和未来应用研究.pdf

1、本文档共2页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2019年12月

22通信设计与应用与原理和未来应用研究

AlphaGoAlphaZero

陈铭禹（杭州师范大学附属中学，浙江杭州310030）

摘，在人类生活中发挥作用。

【要】人工智能长期以来的目标就是创造机器的完全主导领域AlphaGo成为首个在围棋中战胜人类世界冠军的

系统。AlphaGo神经网络使用人类的棋盘数据进行学习训练，同时也通过自我对弈进行强化学习。围棋对于人工智能来说是最具有挑战性的经

典博弈比赛，它的巨大的搜索空间，棋局和落子地点让机器学习难以应对。科学家创造一种新的人工智能程序系统AlphaGo，使用值网络

来评估局势以及使用策略网络来选择如何落子。这些深度神经网络被一种新的组合来训练：使用人类专业比赛数据的监督学习，以及自我对

弈的强化学习。AlphaZero没有使用任何预测搜索的方法，神经网络搭配最先进的蒙特卡洛树搜索算法让程序达到更加精确和智能的水准，

这程序模拟了数以千计的自我对弈的随机博弈。Alpha系列达到99.8%的胜率，这是史上第一次计算机程序在全尺寸围棋中击败人类职业

棋手。通过对和原理学习，我们可以在掌握现有先进技术的础上，开拓创新，思考类似的人工智能在医学，军事等领域的

AlphaGoAlphaZero

未来应用可能性。

【关键词】；；策略网络与决策网络；蒙特卡洛树搜索

AlphaGoAlphaZero

【中图分类号】【文献标识码】【文章编号】（）

TP18A1006-4222201912-0022-02

0引言

算法精确遥而且这样并不需要一个估值函数袁只要让程序在游

1936年袁艾伦图灵提出了一种可以辅助数学研究的机器戏规则中执行操作袁达到游戏机制即可遥而且蒙特卡洛算法可

渊后来被称为冤野图灵机冶袁80年过去了袁人们在人工智能领域以随时随地停止袁据系统平时掌握的深度给出系统认为的

遥20世纪90年代袁IBM超级计算机最优解法以及结果遥但是相比于1997年的Deepblue所针对

取得了突飞猛进的发展[1]

野深蓝冶击败国际象棋世界冠军袁引发了野电脑是否超越人脑冶的国际象棋而言袁里面包含的情况千变万化遥几乎无法在较短

的热议遥然而袁围棋因其变化莫测的招式成为AI难以应对的时间计算清楚遥因此袁对于这种情况袁我们依然需要一个好

难题遥DeepMind开发的人工智能程序AlphaGo袁击败欧洲围棋的评估系统渊价值决策网络袁信息决策网络冤袁来缩短蒙特卡洛

遥树算法所需要的时间袁以求在最短的时间内做到最有效的决策遥

世界冠军樊麾[2-5]

AlphaGo系统的主要是基于深度学习袁下棋时配合两个无论是AlphaGo还是AlphaZero都是需要蒙特卡洛这种

野大脑冶袁其中一个是落子选择器袁另一个是棋局估价器袁并配基础算法来帮助进行演算袁MCTS是这一种有人工智能技术

遥

合蒙特卡洛搜索算法袁完成自主落子下棋遥的核心[8-9]与原理

1蒙特卡洛搜索2AlphaGoAlphaZero

2.1AlphaGo原理

野蒙特卡洛方法冶是一种基于统计的模拟计算方法袁在

1940年代由冯诺伊曼等人发明袁名源于赌城蒙特卡洛遥顾围棋是3000多年前中国人发明的一种策略性游戏袁被称

名思义袁该算法由概率算法做基础来进行演算遥蒙特卡洛算法为世界上最为复杂的棋类游

您可能关注的文档

文档评论（0）

霁色雨后气暧林 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

alphago与alphazero原理和未来应用研究.pdfVIP