基于增强学习的计算机博弈策略的分析与实现-analysis and implementation of computer game strategy based on reinforcement learning.docxVIP

下载本文档

8
0
约4.74万字
约 66页
2018-08-14 发布于上海
举报
版权申诉

基于增强学习的计算机博弈策略的分析与实现-analysis and implementation of computer game strategy based on reinforcement learning.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于增强学习的计算机博弈策略的分析与实现-analysis and implementation of computer game strategy based on reinforcement learning

第1章绪论1.1研究背景计算机博弈和机器学习是人工智能研究领域的重要分支。计算机博弈就是让计算机像人一样从事高度智能的博弈活动。它为人工智能的研究提供了一个实验平台，是检验人工智能发展水平的一个重要方面。机器学习是研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。增强学习作为机器学习中的一个分支，其主要任务是在一个能够感知环境的自治agent中，通过学习来选择达到其目标的最优动作[1]。这个很具有普遍性的问题经常应用于学习控制机器人、在工厂中学习最优操作工序以及学习棋类对弈等。目前，计算机科学、数学、工程学、物理、神经系统科学和认知科学等方向的众多研究人员对增强学习的研究越来越关注，他们的目标是建立能够适应环境并从经验中学习的系统。游戏中的人工智能伴随着20世纪70年代视频游戏的出现而兴起，起初并没有引起人们的普遍关注。直到最近几年，由于三维渲染硬件设备处理速度不断提高，游戏图像质量日趋精美，人们对于游戏的需求已经不是单纯想玩，而是希望游戏能够在玩的过程中不断增加难度，以满足玩家具有挑战性的需求。因此，以人工智能为中心的游戏受到人们的普遍青睐。棋类游戏能够对现实生活中的各种矛盾、战争进行模拟，游戏中的双方时刻都在调动自己的一切智能，充分发挥游戏者的形象思维、灵感思维和逻辑思维能力。相对于其它游戏而言，它具有规则简单、易于实现的优点，所以，在人工智能领域始终将棋类的机器博弈作为常用的研究平台之一，棋类游戏作为研究和验证的平台，各种搜索算法、模式识别以及智能方法在计算机博弈中都可以得到广泛的应用。人工智能对棋类博弈的研究主要集中在国际象棋、中国象棋、西洋跳棋、围棋、五子棋等游戏中。早在上世纪五十年代，就有人设想利用机器智能来实现机器与人的对弈；现在，国际上对棋类自学习策略的研究已比较深入，有些研究已经取得了惊人的成果。但是目前的棋类程序仍然存在着许多问题，或者是智力有限、或者是需要经过大量训练、又或者是采用大规模搜索算法实现，难以避免“组合爆炸”的危机。因此，一个真正智能、有学习能力、高效率的博弈策略还有待进一步研究。1.2研究意义计算机博弈技术发展到今天，为人工智能的研究带来了很多重要的方法和理论，产生了广泛的社会影响、学术影响及大量的研究成果。世界各国的学者们已经成功地将计算机博弈相关技术引入到了国际象棋、中国象棋、围棋、五子棋等棋类游戏中，很多博弈算法已经相当成熟，有些棋类游戏的水平已基本达到或超过了人类大师的水平[2]。人们在玩棋盘类游戏的过程中，下棋水平会随着游戏次数的增加和经验的积累不断地得到提高。如果游戏程序在与人类游戏者对弈时，在游戏中也能够不断地提高自己的对弈水平，那么对于人类游戏者而言这将是一个具有挑战性的游戏，从某种程度上说，满足了游戏者对游戏可玩性的需求。从机器学习的角度看，人机交互模型体现的是计算机对用户变化需求的适应能力[3]。增强学习相关算法的研究对游戏产业中的相关领域将有实际的应用价值。基于增强学习的计算机博弈策略的研究为棋类游戏的复杂估值函数的实现提供了一个可借鉴的解决方案，真正实现游戏中自动智能博弈，为机器博弈这一分支在人工智能领域中的发展有所贡献，对博弈论的发展起到积极的推动作用。本文以五子棋为模型，实现了基于增强学习的五子棋博弈系统。对五子棋计算机博弈的研究，不但能促进五子棋这项运动的发展，而且还能进一步推动计算机博弈理论的发展，甚至博弈论、人工智能的应用与发展。把五子棋人人对弈的局面转到可以人机大战上来，这对宽带娱乐、棋类教学也是非常有意义和帮助的。1.3国内外研究现状及存在问题1.3.1国内研究现状从国内情况看，增强学习已处于发展应用阶段。增强学习在自动控制系统、调度管理、机器人行为学习、游戏比赛等领域中得到了广泛的应用。文献[4]论述了增强学习的原理、算法以及在智能控制中的应用。同时，在提出基于可靠度优先的强化学习算法的基础上，研究了其在过程控制上的应用；文献[5]采用强化学习方法对非线性系统控制问题进行了仿真试验；文献[6]采用增强学习中的TD学习算法对经济领域中的预测问题进行了研究；文献[7]把状态聚类的方法引入到强化学习中，以求解大状态空间的强化学习问题；文献[8]将增强学习中的Q-学习应用到倒立摆控制系统中，通过对连续空间的离散化，证明了满足一定条件下的Q-学习的收敛性问题。增强学习除了在上述领域取得一定的研究应用外，在计算机博弈中的应用和研究也引起了越来越多的关注，近年来，其理论、方法和技术得到了全面的研究。文献[9]以六子棋机器博弈为应用背景，提出了先验知识与多层神经元网络结合的方案，实现了基于即时差分学习的估值函数权值调整自动化。结合具体应用对象的特性，提出了对即时差分序列进行选择性学习的方法，在一定程度上避免了无