一种基于模型的博弈树搜索策略.pdfVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于模型的博弈树搜索策略 高新波谢维信 饭田弘之 (西安电子科技大学电子工程学院) (日本静冈大学计算机科学系) 摘要 本文提出了一种针对于两人零和完备信息的博弈树搜索策略——(D,d)一OM算法。该算法模仿人类的博 弈策略,以对手模型为基础设计自己的投机搜索策略。理论分析得出当对手模型合适时该算法优于传统的rain— 行实验,实验结果证明了本文所提出算法的有效性。 关键词博弈树搜索剪枝 1引 言 在1997年的人机国际象棋大战中,DEEPER 学的伟大胜利。但是,目前以DEEPERBLUE为代表的大多数博弈程序中的搜索算法仍然是基于半世纪前 策略前提之上,即假定对手与我方具有相同强度,操作中不会出错,而且使用同样搜索算法。因此,从这个意 义上说min—max算法是一种保守的策略。 微弱的对手交战中丧失良机下成和棋(Draw)。’。 在实际的博弈中,由于思考时间有限,任何棋手都容易出错,大师也不例外。’。因此,许多大师试图通过 对手现有的走棋步骤来理解他的企图并建立对手模型,然后利用投机的策略改变目前的不利局势或者攻击 对方的弱点以获得更好的局势。本文试图对大师的这一思索过程模型化,提出一种基于对手模型的博弈树搜 机策略,因为它建立在对手可能出错的假设前提之上。 (D,d)一OM算法}第四部分显示以OTHELLO为测试平台的实验结果,最后是结束语及其展望。 2 (D,d)一oM算法 2.1定义殛假设 为了便于清楚地描述该算法,我们给出下列定义和假设。 2.1.1定义1博弈策略 数,SS为搜索策略。 2.1.2定叉2棋手模型 所谓棋手模型就是对应于某个给定棋手的博弈策略。则对于棋手x,他的模型即为虬=(D。,EE, SS,)。 本文基于以下三个基本假设来讨论的(D,d)一OM算法。 2.1.3假设1对手假设 索策略。 2.1.4假设2简化假设 一263— 为了简化问题,本文的讨论都是基于我方已知对手模型假设的。 2.1.5假设3我方假设 本文称我方为max棋手,博弈策略为nL。。=d~EV 也就是说,下文中的(D,d)一OM算法是从我方角度讨论的。 2.2算法描述 可。 fmaxy2一一(P,), 当P为max节点时 l‘ JV竺一’(P,)=minV—d,当P为深度小于d的min节点时 y凛一’(P)= (1) JminV凛一’, 当P为深度大于d的min节点时 【Ey脚,(P), 当P为叶节点时 当P为max节点时 fmaxV—d(A), ‘ V景。(P)一‘minV未。(P。),当P为min节点时 (2) IEVmm(尸),当P为叶节点时 图l显示了一个(3,1)一OM算法的例子。树中‘口’表示max 节点,‘o’表示min节点。方框和圆内部的数表示从max棋手角 度利用min—max算法的倒推值,旁边的数分别为max棋手用(3, 1)一OM算法的倒推值(上部)和min棋手用min—max算法的倒推 值(下部)。树中的斜体字为分别用max与min棋手的EV得到的 静态估计值。 本例中由于max棋手利用了对手模型在树根点选择了左 图1(D,d)-()M与M博法比较 枝,而不是按min—rflax策略选择右枝。从而(3,1)一OM算法获得 了比min—max算法更优的倒推值(119)。 2.3算法的性质 min—max算法则是以自己的模型来刻画对方,因此我们有下面的性质: 其具有优于min—max算法的性能,这一点可由下面的定理得出。 定理:在博弈树的根节点R,我们有如下的关系式成立:

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档