基于深度强化学习的五子棋AI.docVIP

下载本文档

888
0
约1.29万字
约 22页
2020-06-14 发布于北京
举报
版权申诉

基于深度强化学习的五子棋AI.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于深度强化学习的五子棋AI 摘要本设计实现了一个基于深度强化学习算法的五子棋 AI。它的结构与 AlphaGo Zero、AlphaZero 相似，是一个通用的 AI 系统，只需要实现少量接口就能够被应用在其它游戏中。它不需要人工提取的特征，它的输入完全来自于原始棋盘。它也不用任何人类棋谱进行指导，完全通过自我对弈来学会如何下棋。本文中还介绍了如何通过云计算来加速 AI 的训练过程。关键词：人工智能;深度强化学习;强化学习;深度学习;五子棋第 1 章绪论第 1.1 节引言随着近几年来人工智能的发展，特别是深度学习领域取得的重大突破，人工智能技术的应用已经渗入到人们生活的方方面面。在 2017 年，政府工作报告明确提出要加快人工智能技术的研发和转化，做大做强产业集群。这是人工智能第一次被写入政府工作报告，表明了国家对人工智能这一新兴产业的重视。而在 2018 年的政府工作报告中，再次出现以人工智能为核心的重点内容。这两次被写入政府工作报告，足以说明国家对这一新兴产业的看好，人工智能已被提到了一个更重要的战略高度。第 1.2 节深度强化学习深度强化学习(Deep Reinforcement Learning, DRL)是目前人工智能领域最新的前沿研究热点之一。 2015 年 10 月，AlphaGo Fan 以 5：0 战胜职业棋手樊麾，这是围棋历史上第一次出现人工智能战胜职业棋手，而在这之前还被认为是不可能的。2016 年 3 月份，DeepMind 公司的AlphaGo Lee 以 4：1 战胜了围棋世界冠军李世乭九段，这是人工智能的里程碑式的胜利。而在那之后， DeepMind 又相继推出了 AlphaGo Master、AlphaGo Zero、AlphaZero。其中 AlphaGo Zero 和AlphaZero 与之前的所有版本都有着一个重大的不同它不再需要人类棋谱做监督学习，也不需要人工提取的特征。这两个 Zero 版本都是在给定了游戏规则之后，完全通过自我对弈学会下棋。 AlphaZero 与AlphaGo Zero 的区别在于前者是后者的通用版本，AlphaZero 不再仅限于围棋。 DeepMind 在论文[2]中，用AlphaZero 完全通过自我对弈学习4 个小时后超过国际象棋AI Stockfish，不到 2 个小时的时间内超过了将棋 AI Elmo，八小时后超过 AlphaGo Lee。这些成绩足以说明AlphaZero 强大的通用性。不过论文中没有提到 AlphaZero 在五子棋上的效果。不使用现代规则的五子棋是一个已经被解决的问题。1992 年Victor Allis 编程证明了无禁手的五子棋是先手必胜的，2001 年Janos Wagner 证明了带禁手的五子棋也是先手必胜的。但五子棋仍然是一个很好的人工智能实验场。比起其它棋类，五子棋有着广泛的知名度，规则非常简单，易于实现。最重要的是，它可以灵活的改变棋局大小(如改为 9x9 棋盘上的五子棋) 和获胜所需要的连珠数目(如 3x3 棋盘上的三子棋即井字棋、Tic-Tac-Toe)。这种灵活改变棋盘复杂度的特点对AI 的实验开发，特别是基于深度强化学习的 AI 来说非常重要。因为在完整的棋盘上进行实验(如五子棋 15x15、围棋 19x19)，对于个人电脑来说成本实在是过高，很可能一天下来也完成不了多少盘自我对弈，训练时所需要的(内存、显存)也让人无法接受。而将棋盘缩小后，比如缩小成井字棋，则很快就能训练至收敛。并且，由于 AlphaZero 强大的通用性，我们只要遵循一个良好的模块化的设计，就可以在五子棋上实现和验证它的算法后无缝地迁移到其它游戏中去。出于以上的考虑，并权衡了要有足够的复杂度和可以在合理时间内看到效果之后，决定选择在 9x9 的棋盘上实现一个与 AlphaZero 结构相似的基于深度强化学习的五子棋AI。第 1.3 节深度学习框架的选择深度学习有着许多框架，常见的框架有 Google 的 TensorFlow，Facebook 的 Torch，Amazon 的 MXNET，微软的 CNTK 等。不同的框架有着不同的学习成本和开发效率，选择一个优秀的框架能节约很多的时间和精力。 1. 最初的选择：Low-level TensorFlow API 出于想要了解TensorFlow 底层工作原理的考虑，在第一个版本深度神经网络的实现当中我使用了 TensorFlow 的底层 API。这种做法需要手工管理底层的 Tensor 和 Session，细节繁多，