声誉模型.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
声誉模型.ppt

博弈论与信息经济学 第9章 不完全信息有限重复博弈 -KMRW声誉模型 经济学院 丁言强 内容提要 不完全信息有限重复博弈 不完全信息重复博弈中的合作行为 声誉模型 有限重复博弈悖论 在完全信息情况下,不论博弈重复多少次,只要重复的次数是有限的,唯一的子博弈精炼纳什均衡是每个参与人在每次博弈中选择静态均衡战略(假定静态博弈的纳什均衡是唯一的),即有限次重复不可能导致参与人的合作行为。 特别地,在有限次重复囚徒博弈中,每次都选择“坦白”是每个囚徒的最优战略。 这一结果似乎与人们的直观感觉不一致。阿克赛尔罗德(Axelrod,1981和1984年)的锦标赛实验结果表明,在200次有限次重复囚徒博弈中,合作行为频繁出现,而“针锋相对”战略是最稳健的战略。 KMRW声誉模型 -“四人帮”模型 克瑞普斯、米尔格罗姆、罗伯茨和威尔逊(Kreps, Milgrom, Roberts, Wilson, 1982年)的声誉模型,以下简称KMRW模型通过将不完全信息引入重复博弈,解开了这个悖论。 他们证明,参与人对其他参与人支付函数或战略空间的不完全信息(事前非对称信息)对均衡结果有重要影响,合作行为在有限次博弈中会出现,只要博弈重复的次数足够长(没有必要是无限的)。 以囚徒困境为例 假定囚徒1有两种类型,理性的或非理性的,概率分别为1-p和p。假定囚徒2只有一种类型,即理性的。 假定理性的囚徒1和囚徒2可以选择任何战略,非理性的囚徒1只有一种战略,即“针锋相对”:开始选择“抵赖”,然后在t阶段选择囚徒2在t-1阶段的选择(你抵赖我就抵赖,你坦白我就坦白)。 博弈的顺序 1、自然首先选择囚徒l的类型,囚徒l知道自己的类型,囚徒2只知道囚徒1属于理性的概率是1-p,非理性的概率是p; 2、两个囚徒进行第一阶段博弈; 3、观测到第一阶段博弈结果后,进行第二阶段博弈;观测到第二阶段博弈结果后,进行第三阶段博弈;如此等等。 4、理性囚徒l和囚徒2的支付是阶段博弈的支付的贴现值之和,为了简单起见,我们假定贴现因子?=1。 “理性”与非理性 “理什囚徒”只是对我们已经熟悉的“囚徒”及其行为的一个简单化概括,这里可以理解为机会主义者,或者非合作型参与人; “非理性囚徒”是对具有不同于我们熟悉的行为方式的另一类囚徒的概括,这里可以理解为讲义气重信誉的人,或者合作型参与人。 说囚徒l可能是非理性的,并不是说他的行为是非理性的(即不追求效用最大化),而是说他有一种特殊的效用函数,考虑较长远的利益。 “针锋相对”战略 “针锋相对”假设的方便之处是,一旦囚徒l偏离了“针锋相对”战略,就暴露出他是“理性的”,有了这个假定,我们可以集中于分析理性囚徒的战略选择。 我们的目的是证明,即使在完全信息下(p=0)肯定会选择“坦白”的理性囚徒,在不完全信息下(p?0)也会选择“抵赖”。 “针锋相对”战略的特征:从不首先坦白(诚信为本)、随即报复坦白者(一报还一报)、宽恕重回合作的坦白者(宽大为怀)。 与“冷酷战略”的区别在于最后一点。 博弈只重复两次(T=2) C代表“坦白”(Confess-非合作行为),D代表“抵赖”(Deny-合作行为)。 如同在完全信息情况下一样,在最后阶段t=2,理性囚徒l和囚徒2都将选择C,非理性囚徒l的选择依赖于囚徒2在第1阶段的选择。 在第1阶段,非理性囚徒l选择D(根据假定),理性囚徒l的最优选择仍然是C,因为他的选择不会影响囚徒2在第2阶段的选择。 因此,我们只需要考虑囚徒2在第1阶段的选择(X),他的选择将影响非理性囚徒l在第2阶段的选择,如表4.6所示。 博弈只重复两次(T=2) 如果选择X=D,囚徒2的期望支付是: [(-1)p+(1-p)(-10)] + [0p+(1-p)(-8)] = 17p-18 其中等式左边第一项是第1阶段的期望支付,第二项是第2阶段的期望支付。 如果选择X=C,囚徒2的期望支付是, [0p+(1-p)(-8)] + [-8] = 8p-l6 因此,如果下列条件满足,囚徒2将选择X=D: 17p-18 ? 8p-l6 ? p ? 2/9 就是说,如果囚徒l属于非理性的概率不小于2/9,囚徒2将在第1阶段选择抵赖(合作)。 博弈重复三次(T=3) 假定p ? 2/9,如果理性囚徒l和囚徒2在第1阶段都选择D(合作),那么,第2、3阶段的均衡路径与表4.6相同(其中X=D),全部路径如表4·7所示。 我们现在的任务是求出表4.7是均衡的充分条件 囚徒l在第1阶段的战略 给定囚徒2在第1阶段选择D,如果理性囚徒l在第1阶段选择C,可能得到0单位的最大支付,但由此暴露出他是理性的,理性囚徒2在第2阶段就不会选择D,理性囚徒l在第2阶段和第3阶段的最大支付都是-8,三阶段总期望支付是-16; 如果理性囚徒l在第1阶

文档评论(0)

000 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档