第二章 完全信息静态博弈(三和四).pptVIP

第二章 完全信息静态博弈(三和四).ppt

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第二章 完全信息静态博弈(三和四)

* * 2.4 混合策略纳什均衡 1)混合策略及混合策略纳什均衡 2)严格竞争博弈求解方法及举例 3)多重均衡博弈与混合策略 4)混合策略与严格策略反复消去法 纳什均衡分析的结果 一、 只有一个纳什均衡的博弈,如囚徒困境、古 诺模型、修路问题等; 二、 不存在纳什均衡的博弈,如猜硬币博弈、“石 头?剪子?布”博弈; 三、 纳什均衡不唯一的博弈,如性别之战博弈、 卢梭博弈。 需要引入混合策略及混合策略纳什均衡,才 能对博弈的结果和策略的选择给出指导 混合策略的引入 猜硬币博弈 严格竞争博弈:没有纳什均衡的博弈 (-1,1) (1,-1) (-1,1) (1,-1) 盖反面 盖正面 盖硬币方 猜反面 猜正面 猜硬币方 猜硬币博弈 猜硬币博弈“赢”的原则: 一、自己选择的策略不能被对方预先知道 或猜到; 二、在多次重复博弈时,博弈方要尽量避 免自己的选择带有规律性; 比如考虑:盖正面概率大些,反面小些? 猜硬币博弈 猜方有机可乘 当盖方盖正面概率为p ,则盖反面概率为1-p,且p 1-p , 即p1/2 , 如果猜硬币方的全猜正面,其期望得益为: p*1+(1-p)*(-1)=2p-1=2(p-1/2)0 平均来讲,猜方胜多输少,盖方输多胜少 对猜方来讲,最可靠的方法就是以相同的概率出正反面,即p=1-p=1/2。盖方也类似 混合策略 [混合策略] 在博弈 中,博弈方 的纯策略空间为 则博弈方 以概率分布 随机在其 个可选策略中选择的“策略”,称为一个“混合策略”,其中对于 ,都成立 ,且 。 [?]纯策略与混合策略的关系?混合策略是有限策略吗? 混合策略纳什均衡 在引入混合策略的概念后,把纳什均衡的概念相应扩展到混合策略意义上的纳什均衡——混合策略纳什均衡,即任何博弈方单独改变自己的混合策略,都不能给自己增加任何期望收益的混合策略组合。 严格竞争博弈求解方法及举例 求解严格竞争博弈的方法 期望得益最大化法 期望得益等值法 反应函数法 令各个博弈方随机选择纯策略的概率分布,满足使自己的期望得益最大,从而计算出各个博弈方随机选择各纯策略的概率. 期望得益最大化法 举例(一) 得益矩阵 混合策略纳什均衡?均衡时的双方得益? 1 , 5 3 , 1 抵赖 5 , 2 2 , 3 坦白 博弈方1 抵赖 坦白 博弈方2 令各个博弈方随机选择纯策略的概率分布,满足使其他博弈方采用不同纯策略的期望得益相同,即无可乘之机,从而计算出各个博弈方随机选择各纯策略的概率。 期望得益等值法 举例(二)——田忌赛马 得益矩阵 混合策略纳什均衡?均衡时的双方得益? 反应函数是一博弈方对其他博弈方每种可能的策略组合的最佳对策组成的函数。在纯策略意义下,反应函数是各博弈方选择的纯策略对其他博弈方纯策略的最佳反应。在混合策略意义下,博弈方的决策内容为选择概率分布,反应函数就是一方对其他各方的概率分布的最佳反应,同样也是某个概率分布。 反应函数法 举例(三) 猜硬币博弈 (-1,1) (1,-1) (-1,1) (1,-1) 盖反面 盖正面 盖硬币方 猜反面 猜正面 猜硬币方 反应函数法 猜硬币博弈 0 1/2 1 (1/2,1/2) 1/2 1 p q 塞尔滕(1994年诺贝尔得主)1996年在上海讲演时举例: 举例四——小偷与守卫 0,0 0,S 不偷 -P,0 V,-D 偷 小偷 不睡 睡 守卫 一些结果: 增大对于睡觉的惩罚,短期内可以起到使守卫更加勤勉,但长期会并不能使守卫尽职,而是降低了盗窃的发生率; 加重对于小偷的惩罚,最多只能短期抑制盗窃的发生率,但长期只会助长守卫更多偷懒; 揭示了政策目标和政策结果之间的意外关系,常被称为“激励的悖论”。 举例四——小偷与守卫 解释: 现实中没有哪个小偷或守卫有能力或意识来寻找上述最佳概率选择,多次反复也不现实; 纳什均衡的理性主义解释和群体解释; 上述策略选择可以解释为:某个地区偷窃发生的的频率和该地区所有守卫中偷懒与勤勉者的比例,混合策略纳什均衡就是上述频率和比例之间的平衡关系。 举例四——小偷与守卫 例1性别之战(夫妻之争) 结果不如双方相互交流协商,任何一方迁就另一

您可能关注的文档

文档评论(0)

woai118doc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档