- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
非零和博弈 概要 非零和博弈的矩阵形式及其基本概念 严格控制及其应用 博弈平衡的定义 关键结果:任何有限博弈都存在平衡 合作与非合作之间的区别 连续性博弈及相应方法 复习:零和博弈的矩阵形式 复习:目前的结果 信息完全、俩人、零和: 博弈总有一个由minimax程序给出的纯策略解: 信息不完全、俩人、零和: 博弈总有一个由minimax程序给出的混合策略解: maxp min(p?m11+(1-p)?m21,p?m12+(1-p)?m22) 信息不完全、非俩人、非零和: ? 囚犯的两难 A与B俩人被逮捕,有足够证据指控他们犯有一项轻罪,但没有足够证据指控他们犯有一项重罪。 如果俩人都供罪,则他们每人知道他们都将在狱中服刑5年。 如果他们中仅有一人供罪,他将自由,并且另一人将服刑10年。 如果他们都拒绝供罪,他们每人都将在狱中服刑1年。 囚徒两难:他被调查时不知道同伙的情况,他唯一能做的是,供还是不供?但怎么做对自己更有利呢? 非零和博弈的矩阵形式 示例的作用 虽然简单,但此例子可模拟很多不同的实际情况,在这些场合中参与者获得类似的奖励。 合作:俩人做同一个项目。每个人可选择努力工作或休息。如果A勤奋工作后就宁肯去休息了,但俩人工作要比俩人休息有一个好的结局。 双巨头:两家公司竞争生产同一产品,并且都想使利润最大化。他们能制定两种价格,高价与低价。如果两公司都选择高价,则他们都实现利润1000块。如果他们都选低价, 则他们都实现薄利600块。否则,高价公司盈利1200块,而低价公司损失200块。 军备竞赛、机器人探测、公共财产使用、…… 非零和博弈的矩阵形式 控制性策略 控制性策略 控制性策略 迭代消去受控策略 控制性策略 俩玩家以上 能直接将俩人的形式扩展到更多人。 如有n个玩家,则需要定义n个回报函数ui,i=1,…,n。 回报函数ui把一个n元组策略转换为玩家i的相应回报。 ui(s1,…,sn)=玩家i的回报,如果玩家1,…,n采用纯策略s1,…,sn。 其它的定义(如控制性策略等)则保持不变。 形式化定义 一个n元组纯策略(s*1,…,s*n)是一个纯平衡,如对任何玩家i及其采用的任何策略si,有: 即,玩家i不能找到一个比s*i更好的策略了,如果其他玩家使用该平衡中的其余策略。 称为一个纯Nash平衡(NE)。 等同的形式化定义 一个n元组纯策略(s*1,…,s*n)是一个纯平衡,如对所有的i,有: 即,玩家i不能找到一个比s*i更好的策略了,如果其他玩家使用该平衡中的其余策略。 称为一个纯Nash平衡(NE)。 问题 已把求解博弈的概念推广到非零和博弈,即NE。 基本问题: 总存在一个NE吗? 它唯一吗? 多NE的例子 多NE的例子 无纯NE的例子 混合策略平衡 能将平衡概念扩展到混合策略。 在此场合,每位玩家i的一个混合策略是一个概率矢量pi=(pij),其中,pij为i玩家选择j纯策略的概率。 一组混合策略(p*1,…,p*n)的平衡:如果把p*i改变为任何其它混合策略pi,则i玩家都将得到一个较低的回报。 例子 例子 关键结果 定理:对有限玩家的任何博弈,至少存在一个平衡。 可能不存在纯策略平衡,但至少存在一个混合策略平衡。 任何平衡都是在迭代消去受控策略后余下的。 计算平衡:示例 A与B两家公司生产同一产品。 单件产品成本是c,因此生产qA件产品的成本是C=cqA。 市场价格依总产量来定:P=??(qA+qB)。如果(qA+qB)?,则置P=0。 因此,A公司的收入是qA(??c?(qA+qB))。 问题:怎样算出A与B公司的最佳产量? 如果他们产量过高,则价格就会下降,因此每家公司的收入也会下降。 如果他们产量过少,收入也会少。 示例 对A公司而言,qA的每个可能值都是一个纯策略。 对B公司也有相似的结论。 平衡时,随qA而变的A的收入达到极大。因此,在NE时,qA(??c?(qA+qB))对qA的导数是零。 同样地,平衡时,随qB而变的B的收入达到极大。因此,在NE时,qB(??c?(qA+qB))对qB的导数是零。 因此,(q*A, q*B)是下面方程组的解: ??c?2qA?qB=0, ??c?2qB?qA=0。 解为: q*A=q*B=(??c)/3。 每家公司的收入为(??c)2/9 NE就是俩玩家的最佳表现吗? 假设不是独立地去寻找一个A与B的平衡,而是去使总收入极大: 即计算总收入对总产量qA+qB的导数为零,则在qA=qB=(??c)/4时,收入达到极大。 这相当于每家公司收入(??c)2/8,它大于由NE算得的收入。因此,公司可以运作得比理论预测的更好,对吗? 协调与非协调 理论没什么错。原因是,在第二种计算中,俩公司是合作的,而不是相互独立地选择其策略。 一般情况是,
文档评论(0)