博弈论中一报还一报策略和国际合作.docVIP

下载本文档

94
0
约6.19千字
约 13页
2018-10-08 发布于福建
举报
版权申诉

博弈论中一报还一报策略和国际合作.doc

此“经济”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

博弈论中一报还一报策略和国际合作

博弈论中一报还一报策略和国际合作　　摘要：分析了囚徒困境、重复囚徒困境之间的纳什均衡是不同的，因此，对国际合作的影响也是不同的。由此引出“一报还一报”的策略对促进合作的影响。进而提醒在运用博弈论分析国际合作时需要注意中偏好假设的质疑与回应。　　关键词：博弈论重复囚徒困境 “一报还一报策略” 　　中图分类号：F270 文献标志码：A 文章编号：1673-291X（2013）23-0022-03 　　一、重复囚徒困境与合作　　囚徒困境博弈可以说是国际政治、国际政治经济学研究中运用最多的博弈模型了。但是囚徒困境博弈模型的一些重要特征并没有被完全分析过。因此，首先，我们来具体分析囚徒困境的基本假设、收益结构等。在囚徒困境博弈中，有两个国家S1、S2。他们有两种选择：合作与背叛。假设他们不能通过言语沟通（这个假设也不是完全不合理的，例如双方裁军，双方语言沟通也未必能阻止背叛），因此，各国都是在不知道对方选择的情况下做出自己的选择。如果两国都合作，得到收益为3；如果两国都背叛，将都得到收益1；如果一方合作，另一方背叛，那么合作的一方就由于被对方欺骗，收益为0。其收益矩阵为：　　图1 囚徒困境　　注 R：对双方合作的奖励，T：对背叛诱惑的收益，S：给笨蛋的得益。P：双方背叛的得益。　　其中，下标1、2分别S1、S2的选择。表示括号内的左边的数字代表S1的收益，右边代表S2的收益。S1的偏好顺序是D1C2 C1C2 D1D2 C1D2。由于博弈的对称性，S2的偏好也是一样。由于双方占主导的策略是背叛。因此，纳什均衡就是相互背叛。　　但是，在重复囚徒困境博弈时，还要假定以下几个条件：　　1.假定S1或者S2不能轮流使用合作和背叛来得益。其含义就是交替地背叛对方和被对方背叛的收益没有双方合作好。用公式表示就是R（T+S）/2。　　2.参与人之间没有什么手段可以用来实施威胁和做出承诺。① 这一条要求就是参与人可以自由选择策略。　　3.假定不能在博弈之前确定对方会如何选择。对对方选择的认识只能来自于与对方的博弈过程。　　4.不能消灭对方，也不能放弃对局。因此，对策者在每次对局中时选择合作和背叛。　　5.不能改变对方的收益值。这个收益值已经包含了每个对策者关于对方利益的考虑。② 　　根据博弈重复的次数，合作的可能性是有差别的。如果囚徒困境博弈进行有限次，那么，双方没有合作的动机。因为，最后一次大家显然不合作，由于预先知道双方在最后一次要背叛，倒数第二次也就没有合作的动机。那么两个自私者从第一步起就会背叛。　　但是博弈进行无限次时，情形就不同了。这里涉及未来的折现（the shadow of future）。未来折现是在重复博弈中一个很重要的概念。在阿克塞尔罗德看来，参与人倾向于认为未来所得的价值随着时间的推移而减少。其次，参与人总会有些机会不再相遇。因此，下一步的收益总是被看做比当前一步少。未来的序列收益可以通过折现系数（假定为w）而计算出来。假如每一步得到收益，那么下一步的收益也是1，但是只值现在的w（即1·w），依次类推，一般情况下，每一步收益为1分那么就有1+w+w2+w3+…=1/（1-w）。在无限次囚徒困境中，由于有可能当前都背叛而得到的收益不能超过一直合作所能得到的收益，那么，理性的行为者就会选择合作。这里问题的关键就在于折现系数的大小了。　　例如，两个参与人，假定另一个选择“一报还一报”策略。这一个参与人选择“一直背叛”策略或者选择“一直合作”策略，那么，选择“一直背叛”策略的收益为V1=T+wP+w2P+…=T+wP/（1-w）。如果这个选择“一直背叛”策略的人改变策略，选择一直合作，那么收益为V2=R+Rw+Rw2+…=R/（1-w）。那么这个参与人就会比较两者的收益，如果为V2V1，即R/（1-w）T+wP/（1-w）或者w（T-R）/（T-P），，那么这个就会选择一直合作。　　从这里我们可以看出，一是在“囚徒困境”中，表现最好的策略也要取决于对方的策略。二是折现系数w很大，那么合作的可能性就是存在的。这也就否定了一直背叛是最优策略。　　在重复囚徒困境中，既然没有独立于对方的最好策略，那么，什么策略表现得较好呢？阿克塞尔罗德利用计算机进行两次竞赛（the tournament approach），①发现最为简单的策略赢得了比赛；并且第二次计算机竞赛中，在大家知道第一次竞赛结果的基础上，还是取得了胜利。他得出结论：“一报还一报”策略在竞赛中胜出。　　二、“一报还一报”策略（TIT-FOR-TAT Strategy）　　（一）策略定义与特征　　“一报还一报”策略在国内大部分人都理解为“以其人之道，还治其人之身”、“以牙还牙”等，但这些词语都是贬义词，