- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
6.博弈搜索剖析
博弈搜索 1. 极大极小决策 2. ?–?剪枝 博弈搜索 从智能体角度看,博弈是多智能体之间的竞争和对抗,在竞争的环境中,每个智能体的目标 是冲突的,由此引出对抗搜索问题—称为博弈。例如:一字棋、中国象棋、跳棋。 通过这个过程,研究一种克敌致胜的策略与方法,能够应用于自然界以至社会科学研究中。并能适用于若干行为主体参加的竞争过程。 本节探讨两个问题—如何搜索到取胜的路径 / 如何提高搜索效率 相应的方法—极大极小决策方法/?-?剪枝方法 博弈问题 “二人零和非偶然性全信息”博弈 所谓“二人零和非偶然性全信息”博弈,又称为双方完备博弈,这是一种非常简单而典型的博弈过程。其概念解释如下: (1)二人零和:设对垒的A、B双方轮流采取行动,开局比分为0:0,每走一步都进行打分。每一方博弈的结果只有胜、负、平三种情况。例如A方胜,胜方获得正分;对手B则负,相应记等值负分,则二人获得分数的代数和必为零,称为“二人零和”。 博弈问题 (2)非偶然性:双方都是聪明的棋手,都具备冷静精辟的分析能力,都可以完全根据自己的利益得失来理智地选择每一步策略,其中不存在“碰运气”,“侥幸”及“偶然失误”等随机因素;任何一方在采取行动前都要根据当前的实际情况,进行得失分析,选取对自己最为有利而对对方最为不利的对策,故称非偶然性。 (3)全信息:则是指在对垒过程中,博弈所使用的规则、步法,过去的历史及当前格局均为双方共知。任何一方都认识到棋局的发展将对双方可能造成的影响。 博弈游戏的描述 两个游戏者的博弈可以定义为一类搜索问题,其中包括: 初始状态:棋盘局面和哪个游戏者出招 规则集:合法走步(招数)的一个列表 终止测试:判断游戏是否结束 效用函数—或称目标函数,对终止状态给出一个数值如输赢和平局(以-∞/+∞/0表示) 双方的初始状态和合法招数定义了游戏的博弈树—此为博弈搜索(最优解是导致取胜的终止状态的一系列招数) 博弈原理 参加博弈的各方都希望己方取得胜利。因此,当一方面临多个行动方案选择时,博弈的各方总是要挑选对自己最为有利而对对方最不利的那个行动方案。 假如A方的目标:尽可能使自己达到最大(或最高)的分数分枝节点,可用“或”关系来描述,称之为MAX方节点; 而当轮到B方行动时,B方的目标:尽可能使A方获得最小(或最低)的分数分枝节点,这对A方来说,这些行动方案或分数分枝节点之间,可以用“与”关系来描述,是由MIN方自主进行控制的,故又称之为MIN节点。 博弈原理 A、B双方都必须考虑到:任何一个被对方选中的节点必然是最终对自己最为不利的节点;本方则只能从对方已限制的若干后续不利方案中,从中选择相对自己最为有利的节点。即双方都立足于在最坏的情况下来选取对自己最有利的得分,这种策略称之为在非偶然性全信息条件下的保险策略。把上述双方逐层交替的博弈过程用与/或树(图)描述表达出来,就得到了一棵具有“与/或”节点交替出现的博弈树。 博弈原理 博弈树有如下特点: (1)博弈的初始格局总是要求从初始节点出发,为寻求某个确定的方向而选取行动方案; (2)在博弈树中,由于双方轮流地扩展节点,“或”节点和“与”节点逐层交替出现。如果自己一方扩展的节点之间是“或”关系,则对方扩展的节点之间是“与”关系。 (3)把本方获胜的终局定义为本原问题,相应最优搜索路径上的节点是可解节点,而所有使对方获胜的终局和属于对方最优搜索路径上的节点则是不可解节点。此外,所有其它的节点则是具有风险的中间节点。 博弈游戏的搜索策略 完整的搜索策略: 状态数多,搜索分支多,效率低 极大极小搜索策略: 寻找一步好棋,待对手回敬后再考虑寻找另一步好棋 关键:给定当前状态,如何从合法走步中选择一个较优招数(考虑双方对弈若干步之后,再从当前状态可能的走步中选一个相对较好的招数,即在有限的搜索深度范围内进行求解。为此定义静态估计函数f,用来评价棋局优劣)。 约定:MAX代表程序方,MIN代表对手, MAX先走 极大极小策略分析 3 12 8 2 4 6 14 5 2 A B D C 3 2 2 3 MAX MIN MAX 端节点的棋局值通过f(s)计算得到,其余节点采取倒推法计算; B、C、D是MIN走步节点,MAX考虑最坏情况,取子节点估值最小(MIN取极小); A是MAX走步节点,可考虑最好情况,取子节点估值最大者(MAX取极大) 极大极小搜索过程 算法分两阶段: 2-4用宽度优先法生成规定深度的全部博弈树,并计算端节点的棋局值 6-8从底向上逐级倒推非端节点的棋局值。 算法的结果:当前棋局的一步走法,而图搜索找到的是从初始状态到目标状态的解路径
文档评论(0)