mathorcup竞赛优秀论文基于montecarlo局面评估和uct博弈树搜索的2048_学位论文.docVIP

下载本文档

1
0
约2.09万字
约 33页
2017-04-05 发布于辽宁
举报
版权申诉

mathorcup竞赛优秀论文基于montecarlo局面评估和uct博弈树搜索的2048_学位论文.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

mathorcup竞赛优秀论文基于montecarlo局面评估和uct博弈树搜索的2048_学位论文

评委一评分，签名及备注队号： 10302 评委三评分，签名及备注评委二评分，签名及备注选题： A:2048 评委四评分，签名及备注题目：基于Monte Carlo局面评估和UCT博弈树搜索的2048 摘要本文首先提出Random-Max-Trees算法来实现的2048。此算法是但是在实现的过程中出现冗余的现象，-Trees算法效率降低。随后-Trees一样，效率非常低，也失去Alpha-Beta的优势，也无法试图通过面的搜索来弥补策略上的不足。本文采用蒙特卡洛评估对以上模型进行了改进。它通过对当前局面下的每个的可选点进行大量的模拟来得出相应的胜负的统计特性，在简单情况下，胜率较高的点就可以认为是较好的点予以选择。由于UCT算法能不断根据之前的结果调整策略，选择优先评估哪一个可下点。所以在蒙特卡洛德基础上运用UCT算法提高收敛速度。可求得概率为100%。对于第二问，采用归纳法以及概率论量化数值，当方格为时，最大能达到，如果将方格扩展到个，能达到的最大数为。最后对模型进行评价。以及MATLAB实现。关键字：Random-Max-Trees；Alpha-beta Carlo；基于Monte Carlo局面评估和UCT博弈树搜索最近一款非常火爆的益智游戏，很多网友自称“一旦玩上它就根本停不下来”。2048游戏的规则很简单：每次控制所有方块向同一个方向运动，两个相同数字的方块撞在一起之后合并成为他们的和，每次操作之后会在空白的方格处随机生成一个2或者4，最终得到一个“2048”的方块就算胜利了。如果16个格子全部填满并且相邻的格子都不相同也就是无法移动的话，那么游戏就会结束。建立数学模型，解答下列问题： 1. 如何才能达到2048，给出一个通用的模型，并采用完成游戏所需移动次数和成功概率两个指标来验证模型的有效性； 2. 得到2048之后，游戏还可以继续玩，那么最大能达到多大的数值呢？如果将方格扩展到N*N个，能达到的最大数是多少？ Random-Max-Trees和算法来实现AI）的2048。本文认为可以把2048游戏看成是一场博弈，”的方块。但是在AI的环境下-Trees博弈策略比选用Mini-Max-Tree的更加适当-Trees算法，则此算法的效率很不理想，会造成许多不必要的步骤。因为每一个子节后面还有子节，可能的情况很多循环往复，直到2048为止，但是并不是所有的节点都必须搜索完毕，有些节点是不必要的。为了解决这一问题，本文可以采用算法。模型的假设 Alpha-Beta有比Minimax搜索算法更加准确的评估函数才能保证那些优秀的节点不被过早的剪枝；博弈树较小而可以被完全展开，博弈树叶子节点的价值可以通过胜负关系来确定，搜索的结果就是最优解；博弈树很大而不能被完全展开时，博弈树叶子节点的价值可以通过静态评估函数计算出来，当静态评估函数较为准确时，就可以得到相应的近似最优解；符号说明 D：2048中块数的最大数值 N：无数字块数 I(x): minimax的最小值 Fi(x):定义在上的实值函数 :第台机器到目前为止的平均收益 :第台机器被测试的次数 :所有机器目前被测试的总次数型建立与求解问题一 5.1.1 Random-Max-Trees算法 Random-Max-Trees是从Minimax算法改变而来。只是加了一个条件，双方都是非理性的条件下，本质还是Minimax。 Minimax的定义（1.1）是定义在上的实值函数。它等价于非线性优化问题（1.2）（1.3）可用求解约束问题的算法求解问题(1.2）-(1.3)，从而得到Minimax问题的解。假设在博弈过程中，对方总是选择使得博弈值最小的移动，我方则会选择博弈值最大的移动，对方称为Min，则我方称为Max，且都是非理性的。由于博弈双方是交替移动的，所以博弈树的结点及其父结点分属于我方与对方其中的一个，其种类分属Max和Min。博弈树上的每个结点对应于一个深度，叶结点的深度为0。因此，在任意的结点node，对博弈双方均最优的博弈值为由此，很自然地得出Random-Max-Trees算法，用来求出满足一些条件的二人零和博弈问题的博弈值。 Alpha-beta剪枝算法 Alpha-beta算法是对Minimax算法的优化，运行效率比Minimax更高，自然也比Random-Max-Trees快。Random-Max-Trees算法在检查整个博弈树，效率非常低的，当步数越来越多的时候，每次