- 1、本文档共64页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
硕士学位论文-时序差分学习在非完备信息机器博弈中的应用
I
-
工学硕士学位论文
时序差分学习在非完备信息
机器博弈中的应用
***工业大学
2008年国内图书分类号:TM151.3
国际图书分类号:621.3
工学硕士学位论文
时序差分学习在非完备信息
机器博弈中的应用
硕士研究生 :导 师 :申 请 学 位 :工学硕士学科、专业 :计算机科学与技术所在单位 :答辩日期 :2008年授予学位单位:***工业大学摘 要
Classified Index: TP399
U.D.C: 621.3
Dissertation for the Master Degree of Engineering
IMPERFECT INFORMATION GAMES BASED ON TEMPORAL DIFFERENCE LEARNING
Candidate:Supervisor:Academic Degree Applied for:Master of EngineeringSpecialty: Computer ScienceAffiliation: Date of Defence:2008Degree-Conferring-Institution:
***工业大学工学硕士学位论文
I
摘 要
完备信息博弈已经有很多应用比较成功的解决方案。当电脑走棋的时候,根据当前棋局创建一个部分的博弈树,利用估值函数对叶结点进行估值,通过估值的结果来进行极大极小值搜索,找到一个在根结点的最佳走步。这是很多的人工智能程序的核心架构。然而,迄今为止非完备信息下的非常成功的人工智能博弈程序很少。非完备信息博弈问题的解决技术和完备信息有很大的差异,应用于完备信息的技术不一定能够成功的应用到非完备信息博弈中。
在非完备信息博弈中,博弈双方仅拥有当前游戏状态的部分知识。在信息不明了的情况下,随机策略成为一个可行的选择。例如,对于桥牌游戏来讲,在评估玩家的出牌时,蒙特卡罗技术对各张看不到的牌进行抽样,随机的确定这些牌的种类,然后对获得的完备信息牌局进行极大极小值搜索,就好像每个玩家都知道所有的牌是什么一样。上述过程多次进行,选择平均来说最好的出牌。
时序差分学习是机器学习领域强化学习技术的一种。传统的学习技术通过预测值和真实结果之间的差值来调整描述状态的各种参数,而时序差分学习根据连续的预测之间的差值来调整。对现实生活中的大多数预测问题来说,时序差分相对于传统方法而言需要更少的内存,更低的计算时间复杂度。时序差分侧重于对运算效率的提升,结果和传统学习方法比较接近。
本文探讨了时序差分学习在非完备信息机器博弈估值函数中的应用,并基于该算法结合蒙特卡罗抽样技术实现了一个具有自学习能力的四国军棋博弈系统。本文的主要研究成果和创新之处在于:
进一步扩充和精确化了四国军旗博弈中的蒙特卡罗抽样技术;
在已有四国军旗系统搜索框架的基础上,对估值函数、搜索算法等进行了优化,实现了适用于四国军棋游戏的历史启发搜索算法,大大提高了搜索速度;
实现了四国军旗系统中基于时序差分学习的估值函数,可以动态调整智能体的行为。
关键词 时序差分学习;非完备信息博弈;蒙特卡罗抽样;静态估值函数Abstract
***工业大学工学硕士学位论文
III
II
Abstract
There are many successful solutions to perfect information games. When it is the computer’s turn to move, it creates some part of the game tree starting at the current position, evaluates the leaves of this partial tree using an evaluation funcion, and then does a minimax search of this tree to determine the optimal move at the root. This idea is the core of many game-playing programs. However, there have been far fewer successful programs in the domain of imperfect information games. The solutions to games with perfect information and those with imperfect information are very different.
文档评论(0)