阿克塞尔罗德合作进化理论的研究.pdfVIP

阿克塞尔罗德合作进化理论的研究.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

阿克塞尔罗德合作进化理论的研究

[摘要]本文全面地介绍了阿克塞尔罗德的重复博弈实验的内容和结果,并

简述了合作策略的鲁棒性、稳定性和初始存活性。“一报还一报”策略在三次实验

中都获得了胜利,它表明优秀的策略应该具有善良性、报复性、宽容性和清晰性。

实验证明即使在缺少政府权威的人群里,合作与秩序的建立也是可能的,同时,

友谊与预见也并非一定需要。

[关键词]合作囚徒困境重复博弈

一、引言

合作在社会的发展中起着重要的作用。但是,从最简单的囚徒困境的格局来

看,追求自身利益最大化的理性人无法达成合作。于是,我们必须面对这样一个

问题:在什么条件下,每个具有自私动机的人能够产生合作?也就是说,人类如

何能够跳出“囚徒困境”的陷阱。

从历史上看,人类从来没有间断对这一关系自身福祉的问题的思考。中国古

代的儒家思想中就有“忠恕”的观点。“忠”如果表述为忠君,则说明一个强权可以

带来平衡并维系一种普遍的合作;“恕”则寄托于人与人之间的宽容。而在西方思

想史上,霍布斯(Hobbes)则认为“在没有一个共同的权力使大家慑服的时候,

人们便处在了所谓的战争状态之下”。卢梭(Rousseau)尽管声称“自由乃是人性

的产物”以及“社会契约理论”,但通过对法国大革命及一系列历史事件的观察,

却可以发现,卢梭的真实主张仍然是寄托于“集体理性”这种权威来达到普遍的服

从与合作(朱学勤,1991)。

那么,能否从没有集权的利己主义者中产生合作呢?

基于上述的问题意识和博弈论、行为分析的学科背景,阿克塞尔罗德

(Axelrod)教授组织了两轮“囚徒困境重复博弈计算机竞赛”,同时又对其复杂

性进行了探讨,其结果在社会科学及进化生物学等多个领域产生了具有冲击性的

影响。在具体讨论之前,先简单介绍一下阿克塞尔罗德教授。阿克塞尔罗德获芝

加哥大学数学学士(1964),耶鲁大学政治学硕士(1966)和博士(1969),现为

密歇根大学政治学与公共政策教授,美国科学院院士,因博弈论和复杂性问题的

研究而广为人知。

二、合作的出现与建立

(1)囚徒困境

囚徒困境(thePrisonerDilemma)是我们熟知的经典的博弈论模型,如图1。

博弈者A和B只有两种选择,要么合作,要么背叛。

图1囚徒困境博弈模型的一般形式

(博弈者A的收益值在前面)

其中,R代表对双方合作的奖励;S代表自己合作而对方背叛时的收益,T

代表对方合作而自己背叛的收益,即可认为是背叛的诱惑;P代表双方背叛时的

惩罚。

对于变量的赋值要求满足TRPS和R(T+S)/2,这样可以保证博弈方不能

通过轮流背叛来摆脱困境。为了便于计算,阿克塞尔罗德教授将其赋值为

T=5,R=3,P=1,S=0。

根据博弈论的知识判断,在一次或者有限次的博弈中,双方都选择背叛是唯

一的一个纳什均衡。那么在无限次博弈中呢,是否存在最好的策略在谋求自身利

益最大化的同时达到合作?阿克塞尔罗德教授的实验就是要找到这些答案。

(2)两轮实验与生态分析的内容与结果

阿克塞尔罗德教授邀请了博弈论专家提送自認为最好的策略来参加计算机

竞赛,每个策略都假设为囚徒困境中的一个博弈方,在每一步中选择合作或者背

叛来应对对手以期达到收益的长期最大化。竞赛是循环进行的,每一个参赛程序

都与其他程序相遇,同样,他们还要与自己和一个随机的程序相遇。每一局的支

付矩阵与图一中的相同,双方合作每人3分,双方背叛没人1分,如果一人背叛

一人合作,则背叛者得5分,合作者得0分。具体的计分方式为,在200次对局

中,优秀成绩的基准线为600分,相当于总是合作的得分。差劣的基准线为200

分,相当于双方从不合作的总得分。可以预计,大部分的得分应该在200到600

之间。

第一轮竞赛中,有几个代表性的策略:

1.一报还一报(TitforTat)。这是一个最简单的策略,它第一步选择合作,

然后按照对方上一步的选择去做。对方合作,自己也合作;对方背叛,自己就背

叛。

2.唐宁(Downing)。如果对方似乎不对“唐宁”的行为作出反应,“唐宁”将

试着背叛;如果对方背叛,“唐宁”就合作。

3.乔斯(Joss)。这是一个狡诈的策略,它试图偶尔进行背叛而

您可能关注的文档

文档评论(0)

134****9880 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档