客栈困境博弈中的理性与理性.docxVIP

下载本文档

0
0
约3.8千字
约 4页
2023-07-30 发布于广东
举报
版权申诉

客栈困境博弈中的理性与理性.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

客栈困境博弈中的理性与理性囚犯困境是游戏中零和游戏的一个代表性例子，它反映了个人的最佳选择不是集体的最佳选择。虽然困境本身只属模型性质，但现实中囚徒困境的例子屡见不鲜。 “囚徒困境”博弈是博弈论中的经典案例。这个故事讲的是两个嫌疑犯A和B，作案后被警察抓住，被分别关在不同的审讯室。警察为了得到所需的口供，告诉每个人：如果两人都不坦白，每人以妨碍公务罪各被判刑三年；如果两人都坦白，各判刑十年；如果两人中一人坦白、另一人不坦白，则坦白的人判刑两年、不坦白的人判刑十二年。在这个博弈中，每个嫌疑犯都有两种可选择的战略：坦白或不坦白。显然每个囚徒的最优战略都是坦白。这是因为假定A选择坦白的话、B最好也选择坦白，因B坦白判刑十年，而不坦白却要判刑十二年；假定A选择不坦白的话，B最好还是选择坦白，因为B坦白的话就判刑二年，而不坦白却要被判刑三年。即是说，不管A坦白或不坦白，B的最优选择都是坦白。反过来，同样地，不管B是坦白还是不坦白，A的最优选择也是坦白。结果，两个人都选择了坦白，各判刑十年。基于250个月的博弈经典的“囚徒困境”博弈单次博弈，反映了集体理性和个人理性的矛盾。假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。假设二人均为理性的个人，且只追求自己个人利益，二人到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？由于隔绝监禁，信息不明，二人并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比不坦白要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方不坦白、不背叛会让我获释，所以会选择背叛；若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论-选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡就是（坦白，坦白）。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持不坦白，两人都只会被判刑3年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。假设一方是非理性的，另一方是理性的，即博弈双方均不知道对方是不是理性的，非理性一方 (理解为讲义气重信誉的人或担心坦白会受到出狱后的报复) ，假设他只有一种策略，如果博弈是重复的，在第一阶段，他必然选择不坦白，在以后阶段他将选择同伙前一阶段的选择，即你不坦白我就不坦白，你坦白我就坦白。而另一方是理性的，他不管对方是否理性的，他都将选择坦白。所以这次博弈的均衡是 (不坦白，坦白) 。假设双方均为非理性的，那么他们不管同伙如何选择，他们都将选择不坦白，则博弈的均衡是（不坦白，不坦白）。重复博弈中的职能作用重复博弈中的“囚徒困境”，是指相同的博弈者会不断重逢，即不断重复面对相似的囚徒困境的选择条件。重复为博弈产生了新的动力结构。在重复性囚徒困境下，理性博弈者将考虑，如果我拒绝合作，不断背叛，为了减少你的损失你也背叛。通过重复，博弈者可按对手以往选择而决定当前选择。背叛有可能遭到惩罚，合作有可能获得收益。（一）不合作策略的博弈在“重复性囚徒困境”研究方面，最有成就者当推罗伯特·艾克斯罗德、泰勒、哈丁等人。在其《合作的进化》一书中, 艾克斯罗德用实验证明, 在重复博弈条件下, 一次性囚徒困境下背叛的占优策略将会为有条件合作的占优策略所取代, 换言之, 在一次性囚徒困境中, 选择不合作策略的博弈者, 在“重复性囚徒困境”中, 将会采取合作策略以最大化个人利益、即“有条件合作”策略将是重复性囚徒困境下博弈者的占优策略。艾克斯罗德的结论，肯定了纯由利己主义者组成的世界中，建立互惠合作关系的可能性。这一结论对于人类社会的意义在于，即使在缺少政府权威的人群中，人们合作或建立社会秩序也是可能的，因为合作本身符合当事人长远的、根本的利益。合作产生的条件就是：“人们重新相遇的机会足够大”，即“合作是基于互利互惠的基础；而且未来的影响十分重要，它足以保证目前的互利互惠关系的稳定”。谢林仔细考察了博弈者相互之间的信息沟通程度与博弈结果的相应关系，探讨“协同博弈”（co-ordination games）形成的条件。谢林对非零和模型的研究，表明最大化个人功利的企图并不像在零和博弈中那样等于最小化人的功利。（二）理性囚徒博弈如果重复囚徒困境将被精确地重复N次，已知N是一个常数，那么会产生另一个事实：纳什均衡就是每次都背叛。用归纳法证明：你也可以在最后