- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
重复的游戏囚徒的困境
1.6 重复博弈;二、序贯博弈与重复博弈
1、序贯博弈:参与人在前一个阶段的行动选择决定随后的子博弈结构,从后一个决策节开始的博弈不同于从前一个决策节开始的博弈。
2、重复博弈:简单地说,就是同样结构的博弈重复多次,其中的每次博弈称为“阶段博弈”。阶段博弈可以是静态博弈,也可以是动态博弈;
3、重复博弈的三项特征:
(1)阶段博弈之间没有“物质上”的联系;序贯博弈涉及到物质上的联系。
(2)所有参与人观测到博弈过去的历史;
(3)参与人的总支付是所有阶段博弈支付的贴现值之和或加权平均值。;4、参与人在某一阶段的博弈选择依赖于其他参与人过去的行动历史,所以,参与人在重复博弈中的战略空间远远大于和复杂于在每一个阶段博弈中的战略空间。这一点意味着,重复博弈可能带来一些“额外的”均衡结果,这些均衡结果在一次性博弈中是从来不会出现的。
5、影响重复博弈均衡结果的主要因素是博弈的重复次数。重复次数的重要性来源于参与人在短期利益和长远利益之间的权衡。
;2.5—1 有限次重复博弈:连锁店悖论;定理1、如果阶段博弈G有惟一的纳什均衡,则对任意有限的T,重复博弈G(T)有惟一的子博弈完美纳什均衡,即G的纳什均衡结果在每一个阶段重复进行。
注意:此定律的一个重要条件是:单阶段博弈存在“唯一”的纳什均衡。
例2:重复博弈举例
1、参与人:商人1, 商人2;
2、行动空间:都是诚信、欺骗;
3、博弈次数:两次;
4、支付函数:
见图2所示。; 逆推到第一阶段,将第二阶段的纳什均衡收益代入,则如图3所示。
有限重复博弈纳什
均衡是(欺骗,欺骗)
此题解释了现实中
存在的一类现象——
普遍的欺诈行为;没有解释另一类现象——广泛的合作。
为了在理论上容纳合作解,博弈论主要从三个方面来加以发展:
一是引入多重均衡;
二是引入无限重复博弈;
三是引入信息不完全。 ;2.5—2 无限重复博弈;(一)数学分析
假设利率r,则贴现率为:1/(1+r),贴现因子 ,一般的有1/(1+r)= ;
有了贴现因子,我们就能比较无限博弈中的不
同收益值。
收益值计算法如下:
如果未来的收益系列为:
其收益流现值为:
如果每一期的收益都是R,则贴现值为:;例4:仍考察信用困境博弈
1、单阶段博弈是:
(欺骗,欺骗)
2、无限重复博弈中子
博弈精练纳什均衡有可能为:
每一阶段都是合作:(诚信,诚信);
3、此博弈的可能完美均衡:
触发策略,又叫冷酷战略;
;(二)证明冷酷战略
战略表述:在第一阶段选择诚信,且如果所有前面t一1阶段的结果都是(诚信,诚信),则在第t阶段,选择诚信,否则选择欺骗,并永久欺骗下去。
1、先证明此战略是纳什均衡:即如果给定参与者j的策略为触发策略,那么参与者i的最优反应也是触发策略,即触发策略是彼此策略的最优反应。假设 与1足够接近的条件下,我们用计算来证明;
; 参与者j在某阶段选择欺骗将会使当期得到5的收益,但却会触发参与者i的永远不合作策略,于是未来每一阶段的收益都将成为1。
收益现值为:
如果采取合作,设V为j在无限博弈中的最优反映的收益现值,则有:
a、
故:
b、
当且仅当下式成立,选择诚信才是最优的。;2、再证明此战略是子博弈精练纳什均衡
无限重复博弈的每一子博弈都等同于原博弈,而触发策略是无限重复信用博弈的纳什均衡,因而它同样是任意一个子博弈的纳什均衡,根据完美均衡的定义可知触发策略是一个子博弈精练纳什均衡。在无限重复信用困境的触发策略纳什均衡中,当博弈进行到t阶段时,存在两个可能的历史过程:(1)所有以前阶段的结果都是(诚信,诚信)的子博弈;(2)至少有一个前面阶段的结果不是(诚信,诚信)的子博弈。如果参与者在整个博弈中采取触发策略,则:(1)参与者在第一类子博弈中的最优策略同样是触发策略,我们已证明它是整个博弈的一个纳什均衡;(2)参与者在第二类子博弈中的最优策略是永远单纯重复阶段博弈的均衡(欺骗,跃骗),它本身就是阶段博弈G的纳什均衡。这就证明了无限重复信用困境中的冷酷战略纳什均衡是子博弈精练的。 ;(三)以牙还牙战略也是此博弈的子博弈精练纳什均衡,可
文档评论(0)