第9讲博弈论重复博弈祥解.ppt

下载文档 降价啦

56
0
约 56页
2016-11-03 发布于湖北
举报
版权申诉
保障服务

第9讲博弈论重复博弈祥解.ppt

1、本文档共56页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第9讲博弈论重复博弈祥解.ppt

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * D,D,D,D,D,D,… D,D,D,D,D,D,… T,T,T,…. T,D,T,D,T,…. T,D,D,D,D,… D,T,T,T,T,…. * 重复博弈和无名氏定理首先证明冷酷策略是一个纳什均衡回顾一下，所谓纳什均衡，就是这样的一个状态，对于任意一个参与人，给定其他参与人选择纳什均衡策略，该参与人都无法偏离纳什均衡策略。因此，证明囚徒问题中冷酷策略是一个纳什均衡的方法是：给定其中任意一个参与人坚持“冷酷战略”，另外一个参与人的最优选择也是坚持冷酷战略。 * 如果i在博弈的某个阶段首先选择了坦白，在该阶段得到0单位的支付，优于选择抵赖得到的-1。但这个机会主义行为将触发他的伙伴选择“永远坦白”的惩罚，因此i随后每个阶段的支付都是-8。（-1是奖励，-8是惩罚）因此，如果下列条件满足，给定对手没有选择坦白，i将不会选择坦白这个不等式是否正确？有限和无限的不同，希尔伯特旅馆的故事 * 另外一种计算方法这个策略为什么不适用于两阶段（有限）重复博弈？因为有逆向归纳法：大家在第二阶段肯定都坦白，也即，第二阶段肯定是-8，不会有-1 * 所以，无限很重要给你100万，你愿意今天要这个钱还是明天（10年后）要这个钱？Why？今天的钱并不等于明天的钱：利率明天的钱并不等于今天的钱：贴现率 * 贴现率将未来资产折算成现值(present value)的利率，一般是用当时零风险的利率来当作贴现率，但并不是绝对。　　　举个例子：贴现率为10%，明年的100块在今年就相当于100/（1+10%）=90.909090...块钱，到了去年就是100/（1+10%）*（1+10%），也就是说，今年用90.909090...块可以买到的东西相当于明年100块可以买到的东西。? 今天投资100万元的项目，将来如能收回200万，也不能证明此项投资一定有效。因为如果这回收的200万要等50年之后，今天衡量的价值就远低于100万。这是由于如果利率是3%，100万元存银行，50年内得到的利息也将达338万元（利率为2%的话，50年的利息为169万元）。所以50年后回收200万的投资与存银行得利息相比不值得去做。贴现率：将来的钱现在花，把将来的钱借给现在利率：现在的钱存起来将来花，把现在的钱借给将来 * 考虑贴现因子的重复博弈设a为贴现因子（假定两人贴现因子相同）。贴现因子=1/（1+贴现率）如果i在博弈的某个阶段首先选择了坦白，在该阶段得到0单位的支付，优于选择抵赖得到的-1。但这个机会主义行为将触发他的伙伴选择“永远坦白”的惩罚，因此i随后每个阶段的支付都是-8。因此，如果下列条件满足，给定对手没有选择坦白，i将不会选择坦白即 * a ≥ 1/8 a太小，则将来的钱根本不管用，将来不值得期待（有未来，但是更期待今天）因此，冷酷战略是一个纳什均衡。 * 重复博弈和无名氏定理该策略是否是子博弈精炼均衡？因为博弈重复无限次，从任何一个阶段开始的子博弈与这个博弈的结构完全相同。在冷酷战略均衡下，子博弈可以分为两类：在类型a，没有任何参与人曾经坦白；在类型b，至少有一个参与人曾经坦白。 * 重复博弈和无名氏定理在类型a中，我们已经证明，冷酷战略在a类型子博弈中构成纳什均衡；在b类子博弈中，根据冷酷战略，参与人只是重复单阶段博弈的纳什均衡，因此也是子博弈的纳什均衡。因此，如果a ≥ 1/8，冷酷战略是无限次囚徒博弈的一个子博弈精炼纳什均衡。 * 重复博弈和无名氏定理该博弈还有许多其他子博弈精炼均衡。各期都坦白，是另一个子博弈精炼纳什均衡子博弈精炼均衡的多重性是无限次重复博弈的普遍问题。 * 更多例子无限次重复古诺模型支持垄断产量的条件：P194-195 低水平的合作：P195-197 加大惩罚力度和提高合作水平：P197-199 复杂的现实（OPEC）：P199-200 工资：P200-205 * * Axelrod (1984) Tit-for-tat 是成功率最高的战略 * * 惩罚与合作 Abreu(1986)：最大合作战略是使用最严厉的可信惩罚（the strongest credible punishment); 维护合作并不需要无限期的惩罚；只要惩罚期足够长就可以了；萝卜加大棒（stick and carrot): 从合作开始，一直合作直到：如果有任何一方在t期不合作，在t+1期，前期合作者选择“不合作”来实施惩罚，前期不合作者选择合作；如果该合作的没有合作或者该惩罚的没有惩罚，在t+2期继续按照上述t+