第十章重复博弈教程.pptx

下载文档 降价啦

20
0
约 28页
2016-12-04 发布于湖北
举报
版权申诉
保障服务

第十章重复博弈教程.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第十章重复博弈本章重点：重复博弈的定义与类别，以及不同类别在解概念上的差异重复博弈子博弈完美均衡的性质和运用支付和平均支付的计算三种类型声誉的运用无名氏定理的理解及运用本章主要内容一、有限重复博弈二、无限重复博弈三、子博弈完美均衡四、序贯互动和声誉五、无名氏定理一、有限重复博弈1、重复博弈：是一个特殊的多阶段博弈，在这个博弈中的每一个阶段都重复着同一个阶段博弈。重复博弈可分为有限重复博弈和无限重复博弈。2、有限重复博弈：就是同一个阶段博弈重复有限次。给定阶段博弈G，表示阶段博弈G连续进行T次的有限重复博弈，是共同折现因子（commondiscountfactor）。该博弈具有固定且有限数目的时期段，而且这一点在所有参与人间是共同知识。我们来看下面这个折现因子为、重复两次的两阶段重复博弈的例子：这一矩阵表明存在两个纯策略纳什均衡，对于每一个参与人这两个纳什均衡的帕累托排序为（R，r）优于（F，f）。这样，根据我们在第九章对多阶段博弈的知识，我们使用“胡萝卜”和“大棒”来约束第一个阶段的行为。这意味着，若然折现因子足够高，我们就可以找到支持第一个阶段上在一次性阶段博弈并非纳什均衡行为的子博弈完美均衡。可以确定，如果折现因子，下面这些策略就构成了这个两阶段博弈的子博弈完美均衡：参与人1：在阶段1采取M。如果在阶段1（M，m）得到执行，则在阶段2采取R；如果在阶段1是（M，m）之外的其他策略组合得到执行，则采取F。参与人2：在阶段1采取m。如果在阶段1（M，m）得到执行，在阶段2采取r；如果在阶段1是（M，m）之外的其他策略组合得到执行，则采取f。3.如果一个有限重复博弈的阶段博弈具有唯一的纳什均衡，那么该有限重复博弈具有唯一的子博弈完美均衡。二、无限次重复博弈1、无限次重复博弈是指同一个博弈被无限次重复多次。2、支付：给定折现因子，参与人i的无穷支付序列的现值为：3.平均支付：给定，无穷支付序列的平均支付为：也就是说，一个序列的平均支付是该净现值的正则化（normalization）：我们通过因子缩减净现值。某个值v的无穷固定序列的平均支付本身就等于v。使用平均支付可以帮助我们简化对无限重复博弈中子博弈完美均衡的分析。这一方法也可以帮助我们找出这种支付的集合：这些支付由形成重复博弈的子博弈完美均衡的策略给出的。4、策略因为在信息集和博弈历史之间存在着一一对应的关系，我们可以使用“历史”一词来描述一个行动剖面的特定序列，这一行动剖面是直到我们所考虑的那个阶段为止参与人所选中的。为了更形准确，我们可以定义历史以及历史条件策略（history-contingentstrategies）如下：令表示长度为t的所有可能历史的集合，并令为所有可能历史的集合（即t上所有集合的并集）。参与人i的一个纯策略是一个映射，它将历史映射到阶段博弈的行动上去。同样，参与人i的行为策略将历史映射进每个阶段中行动的随机选择上。三、子博弈完美均衡对这个命题表明，如果参与人i相信其对手的行为是独立于该博弈的历史的，那么考虑当前的博弈行为如何影响未来的博弈就毫无意义了。因此，如果他相信其对手的当前行为与该阶段博弈的静态纳什均衡行为是一致的，则根据纳什均衡的定义，其最优反应必然是选择其纳什均衡的一部分。我们将以如下囚徒困境博弈说明无限重复博弈的子博弈完美纳什均衡。其中折现因子为，这个阶段博弈被无限次重复进行。从单一阶段的静态博弈来看，此博弈的纳什均衡为（F，f），参与人的支付为（1,1）。如果每一个时期参与人选择（M，m）这个非纳什均衡策略而形成的博弈路径，则参与人的平均支付为。那么这一博弈路径是否可以被视为一个子博弈-完美均衡？要使该路径成为可能，首先，我们需要一个“胡萝卜”后续均衡来奖励好的行为，一个“大棒”后续均衡来惩罚坏的行为。其次，我们需要一个足够高的折现因子，使得奖惩策略能够有效。在此博弈中很明显完美看出（M，m）就是“胡萝卜”，而（F，f）就为“大棒”，因为前者的支付为（4,4）而后者为（1,1）。参与人从执行该策略而不偏离它中可以得到的支付为：如果参与人再第一阶段选择偏离，则从偏离既定策略中可以得到的支付为：如果或是那么在后续支付上的损失将会超过当下的背叛所得到的收益，这将会使参与人们能够维持在博弈的合作路径上，也即参与人会选择（M,m）这一比（F,f）更好的策略。触发策略：如果一方采取不合作的策略，另一方随即也采取不合作策略并且永远采取不合作策略，在博弈论里面称之为触发策略（Triggerstrategy）,或称冷酷策略。四、序贯互动和声誉在重复博弈中，如果想让合作行为得以实施，则需要两个关键的因素：即没有前定的终结时期，而且折现因子也不是太小。当博弈存在一个终结时期或是折现因子太小时，就无法提供足够的激励以支持合作行为，参与人就会采取非合作的自执行