9博弈的矩阵形式试卷.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
博弈的矩阵形式 概要 矩阵博弈:另一种博弈理论定义 信息完全的博弈的最大最小(Minimax) 信息隐藏的博弈的最大最小(Minimax) 已有假设: 俩人对弈:玩家A与B。 信息完全:俩玩家亲历所有的状态及决定。每个决定是顺序做出。 零和:A得到的等于B损失的。 将取消这些限制。首先取消信息完全的假设,由此导出更实际的模型。 博弈的扩展形式:用树代表博弈 玩家的一个纯策略:该玩家为其所遇到的每种可能状态而做的移动(走步)。 A的纯策略: 策略1:(1?L,4?L) 策略2:(1?L,4?R) 策略3:(1?R,4?L) 策略4:(1?R,4?R) B的纯策略: 策略1:(2?L,3?L) 策略2:(2?L,3?R) 策略3:(2?R,3?L) 策略4:(2?R,3?R) 博弈的矩阵形式 A的纯策略: 策略I:(1?L,4?L) 策略II:(1?L,4?R) 策略III:(1?R,4?L) 策略IV:(1?R,4?R) 博弈的矩阵形式 博弈的矩阵范式:上表包含A与B的纯策略的所有可能组合的回报值。 该表完全表征博弈,无需关于规则等的任何额外信息。 虽然在许多场合,纯策略数目太大,不能用表来显示,但矩阵是能用来导出博弈本质的基本表征。 Minimax:矩阵形式 Minimax:矩阵形式 Minimax:矩阵形式 Minimax还是Maximin? 注意到,两种场合下得到一样的值和一样的策略。 其它也总是这样吗? Minimax与Maximin (von Neumann)第1基本定理 : 对一个信息完全的俩人零和对弈: 对每位玩家,总存在一个最佳纯策略 Minimax=Maximin 注:这只是minimax搜索算法的博弈理论形式。 信息隐藏的博弈 另一个例子 俩位玩家A与B,各有一枚硬币 他们选择性地给对方看自己硬币的正面或反面。 如果他们都选择正面,则B付给A两块钱。 如果他们都选择反面,则B付给A一块钱。 如果他们选择不同的面,则A付给B一块钱。 示例的作用 这个示例能模拟大量的实际情况。 实例:A是一位店主,而B是一名检察官。检察官选一天来执行检查。店主挑某天来藏匿坏东西。如果各自的行动日不同,B赢;否则,A赢。 这类实际问题能简化为类似上面的硬币游戏。 扩展形式 问题:因为移动是同时进行的,所以B不知道A的移动。 博弈信息不再是完全的,而是有隐藏的了。 矩阵形式 为什么无纯策略解? 直觉: 如果A考虑移动H,则他必须假设B会选择对他最为不利的移动T。 因此,A应转而尝试移动T,但这一次他必须假设B会选择对他最为不利的移动H。 因此,A应转而尝试移动H,但这一次他必须假设B会选择对他最为不利的移动T。 因此,A应转而尝试移动T,但这一次他必须假设B会选择对他最为不利的移动H。 因此,A应转而尝试移动H,但这一次他必须假设B会选择对他最为不利的移动T。 …… 采用随机策略 不是选择一个固定的纯策略,假设A以p为概率随机选择策略H,并以1-p为概率选择策略T。 如果B选移动H,A所期望的回报是: p?(+2)+(1-p)?(-1)=3p-1 如果B选移动T,A所期望的回报是: p?(-1)+(1-p)?(+1)=-2p+1 因此,最坏的情形是,B选择在上述两种场合中回报最小的那种策略: min(3p-1,-2p+1) 那么,A应调整p,以使其回报最大(这与标准maximin程序相似) : maxp min(3p-1,-2p+1) 解的图形化 解的图形化 混合策略 A不再可能找到一种纯策略。 需将问题稍加改变:假设对弈开始时,A随机选择一种纯策略。 在此场合,A选择一种纯策略的概率为p,选择另一种纯策略的概率为1-p。 混合策略:随机选择纯策略,且由概率p完全定义。 问题:虽然A不能找到一种最佳纯策略,但是能找到一种最佳混合策略p,对吗? 答案:对。从上面简单例子得出的结果对一般博弈仍成立。由此可产生一个为零和博弈寻找最佳混合策略的方法。 混合策略的最大最小 (von Neumann)第2定理: 对一个信息隐藏的俩人零和对弈: 总存在一个最佳混合策略,并具有下面值: maxp min(p?m11+(1-p)?m21,p?m12+(1-p)?m22) 其中,对弈的矩阵形式为: 注:这是minimax结果在混合策略上的一个直接推广。 混合策略的最大最小 (von Neumann)第2定理: 对一个信息隐藏的俩人零和对弈: 总存在一个最佳混合策略 此外,与信息完全的对弈一样,以怎样的次序来看待玩家并不重要。因此,minimax等于maximin : maxp min(p?m11+(1-p)?m21,p?m12+(1-p)?m22)= minq max(q?m11+(1-q)?m12,q?m21+(1

文档评论(0)

1112111 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档