- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * 第12章 敌对搜索 第二部分 状态空间搜索 双agent博弈 在有其他主动agent参与的环境中,如果不了解其他agent如何行动,就只能用感知/计划/动作体系结构,而这种结构不能更加深入地考虑到不可预测的将来。但是,当条件允许时,一个agent建立的计划可以考虑到其他agent的行为影响。 以双agent的特殊情况为例,在理想的情况下,如这两个agent的行为是互相交替的,它们可以考虑到对方的行为。其中之一先行动,然后是另一个,接着如此反复。 以右图中的网格为例,两个机器人,分别命名为“black”和“white”。它们可以向其所在的行或列中的相邻一格交替地移动(比如说, white先移动),而且轮到其中一个时,它必须移动。 双agent博弈 假设white的目标是与black在同一格,而black的目标是避免发生这种情况。white就可建立一棵搜索树,在交替的级别上, black可能的行动也被考虑进去。 双agent博弈 这个网格例子是双agent、信息完全,零和(zero-sum)博弈的一个实例。 最小最大化过程 完全的搜索(赢、输或和局)对于大多数博弈来说是不可行的。据估计完全的国际象棋博弈图解大约有1040个节点。即使假设一个后继节点可在1/3 ns内产生,也需要1024年才能产生国际象棋博弈完全搜索图解(据推测,宇宙也只有大约1010年的历史)。而且,启发式搜索方法并不会减少起作用的有效分枝因子。 因此,对于复杂的博弈,必须认识到搜索到终点是不可能的(除了在博弈快结束时),所以,应该使用有限范围搜索方法。 最小最大化过程 我们可使用广度优先搜索、深度优先搜索或启发式搜索,当然可以设置终止条件。几个人为的终止条件为时间限制、存储空间限制以及在搜索树中最深节点的深度。 搜索结束后,需从搜索树中选取一个最佳首次移动,这个选取方法可以对搜索树的叶节点采用静态评估函数。此评估函数衡量每一个叶节点位置的“值”。这种衡量基于影响这个值的许多不同特性。 命名两个博弈者MAX和MIN。我们的任务是为MAX找最佳的移动。假设MAX先移动,然后两个博弈者轮流移动。 因此,深度为偶数的节点,对应于MAX下一步移动的位置,称为MAX节点;深度为奇数的节点对应于MIN下一步移动的位置,称为MIN节点(博弈树的顶节点深度为0)。k层包括深度为2k和2k+1的节点。通常用层数给出博弈树的搜索程度,它可以表示出向前预测的MAX和MIN交替运动的回合数。 通常分析博弈树时,对MAX有利的位置,评估函数将赋予正值;对MIN有利的位置赋予负值,接近零的值表示该位置对MAX和MIN都一样。 最小最大化过程 最小最大化过程 一个最佳首步可以由一个最小最大化过程产生(为简单起见,在描述这个过程和基于它的其他过程时,把博弈图当作一棵树)。假设轮到MAX从搜索树的叶节点中选取,他肯定选择拥有最大值的节点。 因此,MIN叶节点的一个MAX节点双亲的倒推值就等于叶节点的静态评估值中的最大值。另一方面,MIN从叶节点中选取时,必然选值最小的节点(即最负的值)。既然如此,MAX叶节点的MIN双亲节点被分配一个倒推值,它等于叶节点静态评估值的最小值。 在所有叶节点的父节点被赋予倒推值后,开始倒推另一层,假定MAX选择有最大倒推值的MIN后继节点,而MIN会选择有最小倒推值的MAX后继节点。 最小最大化过程 井字博弈的简单例子阐述了最小最大化方法(在井字博弈中,博弈者在3×3数组中轮流标记,一个标记(X),一个标记(O)。先用标记填满一行、一列或一条对角线者便赢得博弈)。 假设MAX标记(X),MIN标记(0),MAX先开始。在深度为2的范围内进行广度优先搜索,直到第二级节点全部产生,然后在这些节点代表的位置采用静态评估函数。 最小最大化过程 位置p的静态评估函数e(p)可如下给出: 假如对任何一方,p位置都不是取胜位置 e(p)=(对MAX开放的完整的行、列或对角线数)-(对MIN开放的完整的行、列或对角线数) 假如对MAX来说,p是取胜位置。 e(p)=∞(用∞来表示一个非常大的正数) 假如对从MIN来说,p是取胜位置, e(p)= -∞ 最小最大化过程 所以,假如P为: 博弈初期,井字博弈的分枝因子由于对称而很小;在后期,由于可用开放空间的数量而仍很小。 在产生后继者位置时,采用对称法;因此,以下状态是相同的: 我们就得到e(p)=6 - 4=2。 最小最大化过程 现在,按照感知/计划/动作的循环,假设MAX走了这一步而且M
文档评论(0)