网站大量收购独家精品文档,联系QQ:2885784924

第-6-章-博弈论基础.pptVIP

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第-6-章-博弈论基础

?? 此时,不存在一组互为最佳应对(纳什均衡) 混合策略 ?? 例子:硬币配对-“零和博弈”(zero ?sum ?game) ? –? 两个参与人各持一枚硬币,同时选择手中硬币的正反面。 ? –? 若他们硬币的朝向相同,参与人乙将赢得参与人甲的 硬币。反之,则参与人甲将赢得参与人乙的硬币。 ? 参与人乙 正面H 反面T 参与人甲 正面H 反面T --‐1,+1 ? +1,--‐1 +1,--‐1 --‐1,+1 混合策略的引入 ?? 引入随机性,考虑参与人将以一定的概率 分布在不同策略间进行选择,一种分布对 应一个“混合策略”(此时,选择策略就 是选择分布) –? 对于双策略(H和T)博弈,混合策略则可简略表示为一 个概率。纯策略就是概率为(0,1)的混合策略。 ?? 通常,我们说 –? 参与人1的策略是概率p,是指参与人1以概率p执行H; 以概率1-p执行T –? 参与人2的策略是概率q,是指参与人2以概率q执行H, 以概率1-q执行T 混合策略的收益 ?? 采用收益期望作为策略的回报测度 ? ?? 设参与人1采用概率p执行H,1--‐p执行T,则: ? ?? 若参与人2采用H,则其收益期望是 ? ?? 若参与人2采用T,则其收益期望是 ? ? ? 类似地,可讨论参与人2采用概率混合策略的情形 ? P 2(p,H)= p!P 2(H,H)+(1 p)!P 2(T,H) P 2(p,T)= p!P 2(H,T)+(1 p)!P 2(T,T) 混合策略的均衡 ?? 混合策略的纳什均衡:它是一对混合策略 ,彼此都是对方的最佳应对(期望收益) ?? 纳什的奠基性贡献:证明了具有有限参与 者和有限纯策略集的博弈一定存在纳什均 衡(包括混合策略均衡) ? ?? 一般来说,找到混合策略的纳什均衡是很 困难的,但在某些特定条件下可能有系统 的方法。 ? 双人双策略、没有含纯策略均衡的博弈中的 混合策略纳什均衡求解 ?? 给定H,T:基本纯策略。按照纳什定理,存在一个 混合策略的纳什均衡(p,q),即p是q的最佳应对, q也是p的最佳应对。如何求p和q? ? –? “没有含纯策略的均衡”的前提意味着p,q都是严格在0 和1之间。 ? ?? 确定参与人2采用的q的方法(确定p的方法对称) ? –? 基于q和收益矩阵中的值,分别写出参与人1采用H和采用 T的收益期望(q的函数),即P1(H,q)和P1(T,q),也就是 相当于P1(1,q)和P1(0,q) ? –? 下面的关键是要认识到此时必定有:P1(1,q)=P1(0,q), 从而可以借助这等式求出q ? P1(1,q)=P1(0,q):在两个端点“无差异”原理 ?? 推理的思路是 ? ?? 若等式不成立,例如 P1(1,q) ? ?P1(0,q),则将 导致H(即p=1)是参与人1的最佳应对的 结论,即(H,q)是一个纳什均衡,这与“不 含纯策略纳什均衡”的前提矛盾 ? ?? 直观上,若 P1(T,q) ? ?P1(H,q),参与人1在 应对q的时候采用H就是最好,将任何机 会(概率)分给T都只会导致较低收益 ? –?数学上就是 ? P1(p,q) ?= ?pP1(H,q)+(1--‐p)P1(T,q) ? ?P1(H,q), ?for ?p1 混合策略的收益计算例子 ?? 用收益期望来表达回报 参与人2 正面H(q) 反面T(1--‐q) 参与人1 正面H 反面T --‐1,+1 ? +1,--‐1 +1,--‐1 --‐1,+1 ?? 例如,当参与人2采用策略q时,若参与人1 使用纯策略,则他的回报分别为: –? 纯策略H的期望收益 = (-1)(q)+(+1)(1-q) = 1-2q –? 纯策略T的期望收益 = (1)(q)+(-1)(1-q) = 2q-1 如果系统不存在包含纯策略的均衡,则上述两个表达式必须相等。 ?? 设(p,q)是纳什均衡。对参与人2的策略q, –? 参与人1用纯策略H的期望收益=(-1)(q)+(+1)(1-q)=1-2q –? 参与人1用纯策略T的期望收益=(1)(q)+(-1)(1-q)=2q-1 –? 这是一个不存在含有纯策略均衡的博弈,由“无差异”原理, 须有1-2q=2q-1,即q=1/2 ?? 对称地,可以得到参与人1的最佳应对p=1/2 ?? 因此,(1/2,1/2)是一个混合策略纳什均衡(合直觉) 硬币配对博弈的混合策略均衡

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档