- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
千古无同局
基于围棋博弈搜索过程的相关研究及其应用
摘要
“千古无同局”是关于围棋的谚语,说的是从古至今,人们下的每一局棋都不一样。围棋纵横各十九路,合计三百六十一个交叉点,围棋变化总和大概等于3的361次方,变幻无穷。更何况,有的时候挑起“劫争”,变化更加复杂莫测。
正是如此丰富的变化潜力,才造就了“千古无同局”的定律。而本文正是借鉴于围棋当中博弈方面的内容,着手于围棋博弈机器的相关认知及其研究。
本文将围棋机器博弈系统看作一个博弈智能体,该智能体利用已有的棋谱知识,通过不断地试探性下棋,从中获取可利用知识,寻找当下或几个步骤之
内的最优步伐,以求胜利,并最终完成下棋。这个过程总的概括为一个‘搜索’过程,在这个搜索过程中,博弈智能体通过一定的方法对经验进行学习,最后获得可用知识,达成目标。本文主要分析了如下几个问题:
1. 阐述博弈相关概念,机器博弈常用算法,以及围棋机器博弈的特点及关键技术;分析机器学习对智能的重要作用,以及在围棋机器博弈中应用机器学习算法的意义;
2. 介绍机器学习在围棋机器博弈中的解决方法,即人工神经网络以及增强
学习。其中,重点介绍了增强学习中时间差分算法的原理机制与应用,建立了基
于时间差分算法的围棋机器博弈系统的模型。
3. 量化围棋博弈动作,改进应用在围棋机器博弈中的时间差分算法,将经过时间差分算法学习后的棋盘状态值作为选取动作后所得的奖励之一,使博弈智能体获得更接近真实的棋盘信息。
4. 采用围棋机器博弈平台实际对弈方式进行试验,不断进行对弈学习,逐步提高博弈能力;通过大量实验及训练,并比较算法应用前后、改进前后博弈智能体的博弈水平,验证采用时间差分算法与改进效果。
关键词:围棋、博弈、机器学习、时间差分、神经网络
一、问题重述
围棋博弈相对其他棋类博弈来说,有着更为庞大的搜索空间。早在 1000 多年前的北宋,当时著名的科学家沈括在其著作《梦溪笔谈》中,详细描述了围棋的状态空间复杂度:“尽三百六十一路,大约连书万字四十三,即是局之大数。其法:初一路可变三局,一黑、一白、一空。自后不以横直,但增一子,即三因之。凡三百六十一增,皆三因之,即是都局数。”沈括计算围棋博弈复杂度的方法比较简单,即 19X19的棋盘,共 361 个点,每个点上可放一颗黑棋或者白棋或者为空。这样,围棋的状态空间复杂度就是。但这只是初步的计算,并没有考虑没有气的子不能放于棋盘上,以及可能有重复的盘面状态。有学者通蒙特卡洛方法计算合法状态的比率约为 0.012,则围棋的状态空间复杂度约为 0.012×≈ 2.089×。这样,相对于象棋的空间复杂度而言,围棋有着更大的状态空间复杂度。也正是由于这个原因,计算机围棋可以看作是计算机科学研究的顶峰。2007 年,加拿大阿尔伯塔大学Jonathan Schaeffer 等人在数学上证明西洋跳棋(checkers)的可解性。JonathanSchaeffer 通过研究 5 万亿亿个(5 ×)跳棋位置,构建了达到极致、无法被击败的西洋跳棋程序 Chinook。即使下棋者表现良好,最后也只能是平局。但现在人们设计的计算机围棋程序,却无法达到这样的效果。对于围棋庞大的状态空间来说,仅仅凭借枚举经验与高性能设备,在有限时间内也是无法完成的。
传统的计算机围棋方法有很大的局限性,前面介绍到的深蓝计算机战胜国际象棋世界冠军卡斯帕罗夫,以及 Jonathan 等人证明西洋跳棋的可解性,都是基于一定程度的蛮力搜索与高性能设备的。由于计算机其独特特性,缺少能像人一样思考的思维能力与抽象能力,使其更适合一些简单重复的计算。2006 年匈牙利学者提出的 UCT算法则是基于一定的知识,以蛮力计算为辅助的方法。通过事实证明,这样基于领域知识与蛮力齐备的智能方法,更有其使用价值与优势。但采用这样的方法时,博弈程序每次均采取重新学习的方式,使得博弈程序不能延续以前的学习内容。本文正是基于这样的背景环境下,探讨机器学习算法在围棋机器博弈中的研究与应用,使得围棋机器博弈程序拥有自学习能力,能在不断的博弈过程中提高博弈水平。提出基于时间差分算法的围棋机器博弈系统模型,并探索时间差分算法在围棋机器博弈中的应用可行性。在整个过程中,本文将围棋博弈系统看作一个博弈智能体,博弈智能体根据所获知识,进行“思考”、“学习”,最后做出决策行为。
对以下问题进行研究:
1、 围棋博弈的软件平台的改进,并且应用于本文的实验研究;
2、 借鉴机器学习、博弈论中的相关方法,将时间差分算法引入围棋博弈之中,建立基于时间差分算法的围棋机器博弈系统模型;
3、 改进了时间差分算法,将经过时间差分方法学习后的棋盘状态值作为系统选取后所得奖励之一;
4、 将 BP 神经网络应用于基于时间差分算法的围棋机器博弈系统中,为智能体提供“记忆”能力。
文档评论(0)