讲义不完全信息动态博弈(续)——不完全信息重复博弈概述.pptVIP

下载本文档

26
0
约6.54千字
约 49页
2016-03-22 发布于湖北
举报
版权申诉

讲义不完全信息动态博弈(续)——不完全信息重复博弈概述.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

不完全信息重复博弈与声誉 KMRW声誉模型该模型首先是由Kreps（克瑞普斯）、Milgrom（米尔格罗姆）、Roberts（罗伯茨）和Wilsom（威尔荪）于1982年提出。它主要研究不完全信息静态博弈G经过有限次重复时，博弈人之间的合作行为特征。因此，有必要先回顾完全信息静态博弈有限次重复的结论。（一）完全信息重复博弈及其结论零和博弈等博弈方的利益严格对立的博弈G的有限次重复，不会使各博弈人在某阶段的战略选择有所改变（即不会发生合作行为）。有唯一纯战略Nash均衡的博弈G，有限次重复G，不会使各博弈人在某阶段的战略选择有所改变（亦即不会发生合作行为）。特别地，有“连锁店悖论”。有多个纯战略Nash均衡的博弈G，有限次重复，有可能使各个博弈人通过选择象“触发战略”等形式，实现部分阶段的行为。 “连锁店悖论”(chain-store paradox) Selten (1978); 逆向归纳假定在位者有20个市场。直观告诉我们，如果进入者在第一个市场进入，在位者应该选择斗争，因为尽管从一个市场看，斗争是不值得的，但这样做可以遏止进入者在其他市场上的进入。唯一的精炼纳什均衡是：进入者总是进入；在位者总是默许。完全信息重复博弈及其结论零和博弈等博弈方的利益严格对立的博弈G的无限次重复，不会使各博弈人在某阶段的战略选择有所改变（即不会发生合作行为）。有纯战略Nash均衡的博弈G，无限次重复，有可能使各个博弈人通过选择象“触发战略”等形式，在适当的贴现率水平下，实现部分阶段的行为。（二）不完全信息重复博弈情形那么，这些结论，在不完全信息博弈G的重复博弈中，将会有什么样的变化呢？这正是本节要研究的。我们仅讨论G为不完全信息静态博弈时的情况，特别地，就以“囚徒困境”式博弈的不完全信息情况作为主要的讨论对象。问题在哪里？一个可能的原因在于：我们前面假定不仅参与人的理性是共同知识，而且每个参与人可以选择的战略和效用函数都是共同知识。但现实不是这样。可能性：逆向归纳方法的问题（理性共识）；信息不完全；正如我们前面讨论的谈判情况：如果信息是完全的，谈判一开始就达成协议，但现实中的谈判不是这样，原因在于信息不对称。不完全信息 KMRW模型（1982）；如果参与人对其他参与人的效用函数和战略空间的信息不完全，即使博弈重复的次数是有限的，人们也有积极性建立一个合作的声誉(reputation)，合作会出现。以“囚徒困境”为例说明KMRW模型。单方不完全信息假定有两个参与人，A和B，进行囚徒困境博弈。如下图。参与人A有两中可能的类型：(1)“非理性”型，概率为p。该类型参与人A只有一种战略，针锋相对战略或者称为grim strategy； (2)“理性”型，概率为（1-p）。该类型参与人A可以选择任何战略。参与人B有一种类型：理性型。对“非理性”的解释 “非理性囚徒”：是对具有上面行为特征的另一类囚徒的概括；可以理解为讲义气、重信誉的人；内在化了声誉(reciprocity) 社会规范的人；并不是指他的行为是不追求效用最大化，而是说他有一种特殊的成本函数或效用函数；使他更注重讲义气重声誉。不完全信息囚徒困境重复博弈的顺序重复博弈的顺序如下：自然首先选择囚徒A的类型；囚徒A知道自己的类型，囚徒B只知道囚徒A属于理性的概率为1-p，非理性的概率为p. 两个囚徒进行第一阶段博弈；观测到第一阶段博弈结果后，进行第二阶段博弈；观测到第二阶段的博弈结果后再进行第三阶段博弈；如此类推；两理性囚徒的支付是各个阶段博弈支付的贴现值之和（设贴现率为1）。两次重复囚徒困境博弈情形囚徒B的期望支付情况若参与人B在第1阶段的行动X=D，其两阶段的期望支付总合为： U2D=[p×(-1)+(1-p) ×(-10)]+[p×0+(1-p) ×(-8)]=17p-18 t=1时 t=2时同理若参与人B在第1阶段的行动X=C，其两阶段期望支付总和为： U2C=[p×0+(1-p) ×(-8)]+[p×(-8)+(1-p) ×(-8)]=8p-16 t=1时 t=2时两次重复时的结论显然，当U2D≥U2c时，即 17p-18 ≥ 8p-16 亦即p ≥ 2/9时，囚徒B将选择X=D. 结论：如果囚徒A属于非理性的概率p ≥ 2/9，囚徒B将在第一阶段选择抵赖(D)，即合作行为发生。博弈重复3次(T=3) 参与人A（理性）的选择可见，如果理性囚徒A和囚徒B在第一阶段选择X=D，那么后续阶段与T=2时相同。参与人A（理性）的选择