混合策略纳什均衡课件.pptVIP

下载本文档

0
0
约2.99千字
约 34页
2019-09-13 发布于江苏
举报
版权申诉

混合策略纳什均衡课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

混合策略纳什均衡;两个参与人各拿一枚硬币，并选择出正面向上还是反面向上。若两枚硬币是一致的(即全部正面或全部反面)，则参与人2赢走参与人1的硬币；若两枚硬币不一致(一正一反)，参与人1赢得参与人2的硬币。支付矩阵如下：;在这类博弈中，不存在纯策略纳什均衡。参与人的支付取决于其他参与人的策略；以某种概率分布随机地选择不同的行动。每个参与人都想猜透对方的策略，而每个参与人又不愿意让对方猜透自己的策略。这种博弈的类型是什么？如何找到均衡？;策略：参与人在给定信息集的情况下选择行动的规则，它规定参与人在什么情况下选择什么行动，是参与人的“相机行动方案”。纯策略：如果一个策略规定参与人在每一个给定的信息情况下只选择一种特定的行动，称为纯策略，简称“策略” ，即参与人在其策略空间中选取唯一确定的策略。混合策略：如果一个策略规定参与人在给定的信息情况下以某种概率分布随机地选择不同的行动，称为混合策略。参与人采取的不是明确唯一的策略，而是其策略空间上的一种概率分布。; 混合策略 vs.纯策略 (不确定性 vs.确定性) 在博弈中，博弈方的策略空间，则博弈方以概率分布随机在其个可选策略中选择的“策略”，称为一个“混合策略”，其中对都成立，且纯策略可以理解为混合策略的特例，即在诸多策略中，选择该纯策略的概率为1，选其他纯策略的概率为0. 为何参与人可能会选择带不确定性的混合策略而放弃确定性的纯策略？参与人主观因素造成的犹豫不决外在客观因素的不确定性带来应对策略的不确定性迷惑对手：为了让其它参与人不能清楚了解自己的选择; 混合策略扩展博弈：博弈方在混合策略的策略空间(概率分布空间)的选择看作一个博弈，就是原博弈的“混合策略扩展博弈”。混合策略纳什均衡(MNE)：由最优的混合策略构成的混合策略组合：; 对于任意混合策略组合：若各参与人最终确定的组合(纯策略组合)为参与人的支付为发生此情况的概率为参与??的期望效用：;由于混合策略伴随的是支付的不确定性，因此参与人关心的是其期望效用。最优混合策略：是指在给定对方的混合策略的情况下，使期望效用函数最大的混合策略。在两人博弈里，混合策略纳什均衡是两个参与人的最优混合策略的组合。 ; 2 3，;设：政府救济的概率θ=1/2 ；不救济的概率1-θ=1/2。流浪汉寻找工作的期望效用：1/2×2+1/2 ×1=1.5 流浪的期望效用： 1/2×3+1/2 ×0=1.5;3 , 2; 既然参与人在构成混合策略时选择不同纯策略之间是无差异的，他为什么不选择一个特定的纯策略而要以特定的概率随机地选择不同的纯策略呢？一个参与人选择混合策略目的是给其他参与人造成不确定性。;支付最大化法支付等值法最优反应函数法;参与人1的混合策略为σ1=(q, 1-q)(分别以概率q和1-q选择正面和反面) ，参与人2的混合策略为σ2=(r, 1-r) (分别以概率r和1-r选择正面和反面)。;参与人1;类似地，得到参与人2的期望效用为; 2 3，;对γ*= 0.2 的解释：如果流浪汉寻找工作的概率小于0.2，政府的最优选择是不救济；如果流浪汉寻找工作的概率大于0.2，政府的最优选择是救济。对 θ*= 0.5 的解释：如果政府救济的概率大于0.5，流浪汉的最优选择是流浪；如果政府救济的概率小于0.5，流浪汉的最优选择是寻找工作。混合策略纳什均衡的含义：纳什均衡要求每个参与人的混合战略是给定对方的混合战略下的最优选择。因此在社会福利博弈中，γ*= 0.2 ，θ*= 0.5 是唯一的混合策略纳什均衡。; 由上面的例子可以看出，参与人选择的混合策略均使对方选择纯策略的期望效用相等，促使各方均采取严格策合策略。所以求解混合策略纳什均衡也可以采取如下方法：求出参与人的每个纯策略的期望效用，令其相等即可得到混合策略纳什均衡。;参与人1的选取正面的期望效用为 ;假定最优混合策略存在，给定流浪汉选择混合策略;在讨论连续纯策略均衡时(如古诺模型)，我们使用了反应函数的概念。现在我们可以使用反应对应的概念来描述一个参与人对应于其他参与人混合策略的最优选择。两个概念的区别仅仅在于：反应函数表示的是一个参与人只有一个特定的策略是其他人给定策略的最优选择；反应对应允许一个参与人有多个(甚至无穷多个)策略是其他人给定策略的最优选择。; 纯策略均衡：反