讲义不完全信息动态博弈(续)——不完全信息重复博弈概述.pptVIP

讲义不完全信息动态博弈(续)——不完全信息重复博弈概述.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不完全信息重复博弈与声誉 KMRW声誉模型 该模型首先是由Kreps(克瑞普斯)、Milgrom(米尔格罗姆)、Roberts(罗伯茨)和Wilsom(威尔荪)于1982年提出。 它主要研究不完全信息静态博弈G经过有限次重复时,博弈人之间的合作行为特征。 因此,有必要先回顾完全信息静态博弈有限次重复的结论。 (一)完全信息重复博弈及其结论 零和博弈等博弈方的利益严格对立的博弈G的有限次重复,不会使各博弈人在某阶段的战略选择有所改变(即不会发生合作行为)。 有唯一纯战略Nash均衡的博弈G,有限次重复G,不会使各博弈人在某阶段的战略选择有所改变(亦即不会发生合作行为) 。 特别地,有“连锁店悖论”。 有多个纯战略Nash均衡的博弈G,有限次重复,有可能使各个博弈人通过选择象“触发战略”等形式,实现部分阶段的行为。 “连锁店悖论”(chain-store paradox) Selten (1978); 逆向归纳 假定在位者有20个市场。直观告诉我们,如果进入者在第一个市场进入,在位者应该选择斗争,因为尽管从一个市场看,斗争是不值得的,但这样做可以遏止进入者在其他市场上的进入。 唯一的精炼纳什均衡是:进入者总是进入;在位者总是默许。 完全信息重复博弈及其结论 零和博弈等博弈方的利益严格对立的博弈G的无限次重复,不会使各博弈人在某阶段的战略选择有所改变(即不会发生合作行为)。 有纯战略Nash均衡的博弈G,无限次重复,有可能使各个博弈人通过选择象“触发战略”等形式,在适当的贴现率水平下,实现部分阶段的行为。 (二)不完全信息重复博弈情形 那么,这些结论,在不完全信息博弈G的重复博弈中,将会有什么样的变化呢?这正是本节要研究的。 我们仅讨论G为不完全信息静态博弈时的情况,特别地,就以“囚徒困境”式博弈的不完全信息情况作为主要的讨论对象。 问题在哪里? 一个可能的原因在于:我们前面假定不仅参与人的理性是共同知识,而且每个参与人可以选择的战略和效用函数都是共同知识。但现实不是这样。 可能性:逆向归纳方法的问题(理性共识);信息不完全; 正如我们前面讨论的谈判情况:如果信息是完全的,谈判一开始就达成协议,但现实中的谈判不是这样,原因在于信息不对称。 不完全信息 KMRW模型(1982); 如果参与人对其他参与人的效用函数和战略空间的信息不完全,即使博弈重复的次数是有限的,人们也有积极性建立一个合作的声誉(reputation),合作会出现。 以“囚徒困境”为例说明KMRW模型。 单方不完全信息 假定有两个参与人,A和B,进行囚徒困境博弈。如下图。 参与人A有两中可能的类型:(1)“非理性”型, 概率为p。该类型参与人A只有一种战略,针锋相对战略或者称为grim strategy; (2)“理性”型,概率为(1-p)。该类型参与人A可以选择任何战略。 参与人B有一种类型:理性型。 对“非理性”的解释 “非理性囚徒”: 是对具有上面行为特征的另一类囚徒的概括; 可以理解为讲义气、重信誉的人;内在化了声誉(reciprocity) 社会规范的人; 并不是指他的行为是不追求效用最大化,而是说他有一种特殊的成本函数或效用函数;使他更注重讲义气重声誉。 不完全信息囚徒困境重复博弈的顺序 重复博弈的顺序如下: 自然首先选择囚徒A的类型;囚徒A知道自己的类型,囚徒B只知道囚徒A属于理性的概率为1-p,非理性的概率为p. 两个囚徒进行第一阶段博弈; 观测到第一阶段博弈结果后,进行第二阶段博弈;观测到第二阶段的博弈结果后再进行第三阶段博弈;如此类推; 两理性囚徒的支付是各个阶段博弈支付的贴现值之和(设贴现率为1)。 两次重复囚徒困境博弈情形 囚徒B的期望支付情况 若参与人B在第1阶段的行动X=D,其两阶段的期望支付总合为: U2D=[p×(-1)+(1-p) ×(-10)]+[p×0+(1-p) ×(-8)]=17p-18 t=1时 t=2时 同理若参与人B在第1阶段的行动X=C,其两阶段期望支付总和为: U2C=[p×0+(1-p) ×(-8)]+[p×(-8)+(1-p) ×(-8)]=8p-16 t=1时 t=2时 两次重复时的结论 显然,当U2D≥U2c时,即 17p-18 ≥ 8p-16 亦即p ≥ 2/9时,囚徒B将选择X=D. 结论: 如果囚徒A属于非理性的概率p ≥ 2/9,囚徒B将在第一阶段选择抵赖(D),即合作行为发生。 博弈重复3次(T=3) 参与人A(理性)的选择 可见,如果理性囚徒A和囚徒B在第一阶段选择X=D,那么后续阶段与T=2时相同。 参与人A(理性)的选择

文档评论(0)

挺进公司 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档