第12章敌对搜索探究.ppt

下载文档 降价啦

2
0
约3.06千字
约 25页
2017-03-18 发布于湖北
举报
版权申诉
保障服务

第12章敌对搜索探究.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* * 第12章敌对搜索第二部分状态空间搜索双agent博弈在有其他主动agent参与的环境中，如果不了解其他agent如何行动，就只能用感知／计划／动作体系结构，而这种结构不能更加深入地考虑到不可预测的将来。但是，当条件允许时，一个agent建立的计划可以考虑到其他agent的行为影响。以双agent的特殊情况为例，在理想的情况下，如这两个agent的行为是互相交替的，它们可以考虑到对方的行为。其中之一先行动，然后是另一个，接着如此反复。以右图中的网格为例，两个机器人，分别命名为“black”和“white”。它们可以向其所在的行或列中的相邻一格交替地移动(比如说， white先移动)，而且轮到其中一个时，它必须移动。双agent博弈假设white的目标是与black在同一格，而black的目标是避免发生这种情况。white就可建立一棵搜索树，在交替的级别上， black可能的行动也被考虑进去。双agent博弈这个网格例子是双agent、信息完全，零和(zero-sum)博弈的一个实例。最小最大化过程完全的搜索(赢、输或和局)对于大多数博弈来说是不可行的。据估计完全的国际象棋博弈图解大约有1040个节点。即使假设一个后继节点可在1／3 ns内产生，也需要1024年才能产生国际象棋博弈完全搜索图解(据推测，宇宙也只有大约1010年的历史)。而且，启发式搜索方法并不会减少起作用的有效分枝因子。因此，对于复杂的博弈，必须认识到搜索到终点是不可能的(除了在博弈快结束时)，所以，应该使用有限范围搜索方法。最小最大化过程我们可使用广度优先搜索、深度优先搜索或启发式搜索，当然可以设置终止条件。几个人为的终止条件为时间限制、存储空间限制以及在搜索树中最深节点的深度。搜索结束后，需从搜索树中选取一个最佳首次移动，这个选取方法可以对搜索树的叶节点采用静态评估函数。此评估函数衡量每一个叶节点位置的“值”。这种衡量基于影响这个值的许多不同特性。命名两个博弈者MAX和MIN。我们的任务是为MAX找最佳的移动。假设MAX先移动，然后两个博弈者轮流移动。因此，深度为偶数的节点，对应于MAX下一步移动的位置，称为MAX节点；深度为奇数的节点对应于MIN下一步移动的位置，称为MIN节点(博弈树的顶节点深度为0)。k层包括深度为2k和2k+1的节点。通常用层数给出博弈树的搜索程度，它可以表示出向前预测的MAX和MIN交替运动的回合数。通常分析博弈树时，对MAX有利的位置，评估函数将赋予正值；对MIN有利的位置赋予负值，接近零的值表示该位置对MAX和MIN都一样。最小最大化过程最小最大化过程一个最佳首步可以由一个最小最大化过程产生(为简单起见，在描述这个过程和基于它的其他过程时，把博弈图当作一棵树)。假设轮到MAX从搜索树的叶节点中选取，他肯定选择拥有最大值的节点。因此，MIN叶节点的一个MAX节点双亲的倒推值就等于叶节点的静态评估值中的最大值。另一方面，MIN从叶节点中选取时，必然选值最小的节点(即最负的值)。既然如此，MAX叶节点的MIN双亲节点被分配一个倒推值，它等于叶节点静态评估值的最小值。在所有叶节点的父节点被赋予倒推值后，开始倒推另一层，假定MAX选择有最大倒推值的MIN后继节点，而MIN会选择有最小倒推值的MAX后继节点。最小最大化过程井字博弈的简单例子阐述了最小最大化方法(在井字博弈中，博弈者在3×3数组中轮流标记，一个标记(X)，一个标记(O)。先用标记填满一行、一列或一条对角线者便赢得博弈)。假设MAX标记(X)，MIN标记(0)，MAX先开始。在深度为2的范围内进行广度优先搜索，直到第二级节点全部产生，然后在这些节点代表的位置采用静态评估函数。最小最大化过程位置p的静态评估函数e(p)可如下给出：假如对任何一方，p位置都不是取胜位置 e(p)＝(对MAX开放的完整的行、列或对角线数)-(对MIN开放的完整的行、列或对角线数) 假如对MAX来说，p是取胜位置。 e(p)＝∞(用∞来表示一个非常大的正数) 假如对从MIN来说，p是取胜位置， e(p)= -∞ 最小最大化过程所以，假如P为：博弈初期，井字博弈的分枝因子由于对称而很小；在后期，由于可用开放空间的数量而仍很小。在产生后继者位置时，采用对称法；因此，以下状态是相同的：我们就得到e(p)＝6 - 4＝2。最小最大化过程现在，按照感知／计划／动作的循环，假设MAX走了这一步而且M