网络博弈Network games的文件.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络博弈目录第一节. 博弈论介绍第二节. 网络上的两人两策略演化博弈第三节. 网络上的多人两策略演化博弈第四节. 网络上自适应的演化博弈第一节. 博弈论介绍 自从数学家von Neumann和经济学家Morgenstern的合著《博弈论与经济行为》问世以来,人们把博弈方法用于分析经济竞争、军事冲突及物种演化等问题。博弈论为解释自私个体之间的交互行为提供了理论框架。特别的,博弈论还被用于理解个体合作行为和种群的进化,揭示底层自私行为之间的竞争和现实生活中广泛存在的合作行为之间看似矛盾实则统一的内在动因。 博弈论模型中的个体(Individual)也称为参与者(Player),它们可以在多个策略(Strategy)间进行选择。一个个体的行为会影响到其他个体,每个个体也能够从与其他个体的互动中获得一定的收益(Payoff).博弈论研究理性个体的策略选择,即在他人选择既定的情况下,如何使自己的利益最大化。博弈论中最核心的概念是纳什均衡(Nash equilibrium),它是指自私个体在相互作用过程中达到的一种均衡状态,在这种状态下没有个体可以通过单方面改变自己的策略而增加收益。 合作无处不在,无论对于生物界种群的进化还是人类社会的发展,合作都扮演着至关重要的角色。纵观整个合作过程,种群中存在两类个体:合作者和背叛者。合作(Cooperation,C)是指付出一定的代价使对手获益的行为;而背叛者(Defection,D)是指不付出任何代价却可以从合作者处获益。在博弈论研究中,通常用一些生动有趣的博弈模型来描述个体之间的冲突竞争,比如囚徒困境博弈(Prisoner’s dilemma,PD)等。 在复杂环境中个体没有足够的能力去选择最佳策略以最大化收益,此时个体通常会根据所掌握的局部信息采取启发式的方法,做出令其满意的决策。个体的这种选择过程表明它是有限理性的。演化博弈理论着重研究有限理性的个体如何随着时间的推移在不断地重复博弈过程中通过自适应学习而优化收益。演化博弈理论(Evolutionary game theory)着重研究有限理性的个体如何随着时间的推移在不断的重复博弈过程中通过自适应学习而优化收益。演化博弈理论将经典博弈论中的收益对应于进化论中的适应度(Fitness):适应度越高的策略随着时间演化更有可能被保留下来,适应度差的策略会被淘汰。最终策略在种群中会达到一个均衡状态,任意少量的变异策略的个体无法入侵整个种群,而长期来看整个种群没有发生变化。这种策略是纳什均衡的一个子集,称为演化稳定策略。1.囚徒困境博弈 考虑两个小偷(张三和李四)合伙作案,被捕后被隔离审讯。他们都知道: a.如果双方都坦白罪行,两人均被判刑3年 b.如果双方都拒绝坦白,两人均被判刑2年 c.如果一方坦白,另一方拒不认罪,前者被判1年,后者被判5年 如果C表示与同伴合作,即拒绝坦白;D表示背叛同伴,即坦白罪行,假设两个小偷不能相互交流,收益矩阵为:此博弈为两人两策略博弈,包括如下策略组合:a.双方都选择合作,记为(C,C)。每个人收益记为R,即“对双方合作的奖励”(Reward for mutual cooperation)b.一方合作而另一方背叛记为(C,D)或(D,C)。背叛者会获得“背叛的诱惑”T,合作者会得到“傻瓜的报酬”Sc.双方都选择背叛,记为(D,D)。每个人的收益记为P,即“对双方都背叛的惩罚”囚徒困境的收益矩阵中R=-2,S=-5,T=-1,P=-3。(D,D)是囚徒困境博弈的纳什均衡状态,但此时收益低于两人同时选择合作时的收益,在这种情况下理性个体将面临两难的困境。此为TRPS的情形。2.重复囚徒困境 如果两个个体仅进行一轮囚徒困境博弈,个体通常会选择背叛策略。然而,在现实生活中,两个个体之间经常进行重复的交互,并且经常不清楚这种博弈关系何时结束。此时,个体会乐于帮助那些曾经帮助过自己的个体。20世纪70年代,Axelrod发起了著名的“重复囚徒困境”计算机游戏竞赛,研究什么样的规则是最好的。 Axelrod设计了博弈收益矩阵中参数为:R=3,P=1,S=0, T=5并邀请各个领域的专家提交他们认为最好的规则参赛,每个规则与其他所有规则以及一个随机规则分别进行重复囚徒困境博弈,参加竞赛的规则可以利用博弈双方以往的历史信息,然后统计哪个规则最终收益最高。共进行了两轮竞赛,获胜者都是所有程序中最简单的规则——“针锋相对”(Tit-for-tat,TFT) TFT以合作开始,然后模仿对手上一步的策略。TFT能成为冠军主要得益于以下三点:nice(不会首先背叛对手);quickly “punish”(可被激怒的,报复适当);immediately“forgive”(如果对手知错能改,选择原谅)。但TFT不能纠正任何的失误,因而丧失

文档评论(0)

134****7356 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档