8博弈理论初步试卷.ppt

下载文档 降价啦

4
0
约1.45千字
约 19页
2017-03-22 发布于湖北
举报
版权申诉
保障服务

8博弈理论初步试卷.ppt

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

博弈理论初步信息完全的零和博弈概要博弈定义博弈评价博弈最佳解最大最小非确定性博弈博弈类型定义俩人对弈：玩家A和B，A先手。确定性：移动或状态不受制于机会，即不是随机抽取的。信息完全：俩玩家亲历所有的状态及决定。每个决定都是顺序做出的。零和：A获得的等于B损失的。一个玩家必须赢，或是平局，即双方得到的是等同的。例子开始，一叠硬币放在俩玩家之间。每个玩家将其中一叠硬币分成不同的两叠。当每叠只有一或两枚硬币时，对弈结束。第一位不能继续的玩家输。例子搜索问题状态：棋盘构形+下家后续态：通过合法移动，当前态能到达的一系列状态终态：博弈结束的状态回报或效用：赋给每个终态的数值例如：U(s)=+1：A赢，?1：B赢，0：平局博弈值：假设俩玩家都采用最佳策略，这样到达的一个终态的值，称为最大最小（minimax）值。搜索：寻找从当前态开始，并使博弈值极大的移动博弈树最佳(或最大最小)策略搜索博弈树，使得： A手：寻找从相应的亚树开始的，能产生最大回报的移动。该移动对A最有利 B手：寻找从相应的亚树开始的，能产生最小回报的移动。该移动对B最有利最大最小（Minimax）计算从当前态起始的最大最小策略： Minimax(s) if s是终态返回U(s) else if 下一步是A手返回 else 返回例子最大最小性质完全性：如果是有限博弈最佳性：如果对手表现最佳在本质上，是执行一个全范围的深度优先搜索（DFS）有效性：用?-?剪枝去掉(大)部分搜索空间： ? = 目前为止，在沿着寻找最大值的路径上，某结点处所找到的最佳选择值 ? = 目前为止，在沿着寻找最小值的路径上，某结点处所找到的最佳选择值用启发式评价函数把非终态转变成终态，以便及早停止搜索例子：棋子数的加权总和（状态的物质价值）采用基于最大深度的取舍测试来停止搜索。效用值的选择在上面两种场合下，绝对博弈值是不同的最大最小解是相同的不是与绝对值，而是与值的相对次序，即序数效用值有关。仅对确定性博弈成立评价函数可以是能保持效用值次序的任何函数非确定性（随机）博弈双陆棋：用掷骰子来确定合法的走步非确定性博弈非确定性博弈在概率结点处，采用其后续结点的期望值：也即，存在玩家不作选择的状态。此时可用如掷骰子来作一个随机决策非确定性最大最小计算从当前态起始的期望最大最小策略： Minimax(s) if s是终态：返回U(s) else if 下一步是A ：返回 else if 下一步是B ：返回 else：返回效用值的选择虽然值的次序是一样的，但不同的效用值能产生截然不同的结果。因此，与绝对效用值确实有关。效用应与实际回报成正比。因此，仅遵循一样的次序是不够的。想一想，在两张有相同的赔率，但有截然不同的回报分布的彩票之间作选择。含义：评价函数必须是效用的线性正函数。总结定义博弈评价最佳解最大最小非确定性博弈 * 桥牌、扑克、拼字、战争游戏军棋信息不完全双陆棋、大富翁围棋、16子象棋、24子象棋信息完全机会确定性注：上面分类是依据于对博弈的通常理解。然而，将此分类一般化的理论被广泛用于决策问题。 B输 A输 B输 A手 B手 A手 B手 A手 B手 U=+1 U=+1 U=?1 A B A 概率 B B A 概率 * * *