学科课程教师培训班第6章幻灯片.ppt

下载文档

2
0
约1.28万字
约 60页
2018-03-26 发布于广东
举报
版权申诉
保障服务

学科课程教师培训班第6章幻灯片.ppt

1、本文档共60页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

如果你害怕你拍档可能会对你没有共同准备报告而生气呢？ * 如果我们关心某些因素，则应该将它们纳入到收益中考虑。 * 如果内容太多，这个例子可以去掉 * 在该博弈例子中，应注意到公司1有一个严格占优策略。相对于公司2的每个策略，公司1的“廉价”策略都是严格最佳应对。另一方面，公司2没有一个占优策略。当公司1采取“高档次”策略，“廉价”策略是其最佳应对；当公司1采取“廉价”策略时，“高档次”是其最佳应对。应注意到，虽然在推理过程中是分两个步骤进行描述——第一步是公司1的严格占优策略，第二步是公司2的最佳应对。还应注意到直观的信息预测也具有吸引力。举例来说，公司1是如此强大，进行决策时完全可以无视公司2的决策行为。在该背景下，公司2的最优策略是要谨慎保持避免与公司1的决策冲突。 * 最佳应对即是参与人的最好选择。 * 1.参与人1可能存在多个策略，都是策略T的最佳应对。 2.针对另一参与人的策略T，如果存在一个严格最佳应对策略。该参与人一定会选择此严格最佳应对策略。 * 囚徒困境分析中，实际上也正是因为参与人彼此有严格占优策略，才会使分析过程简单化。 * 在该博弈例子中，应注意到公司1有一个严格占优策略。相对于公司2的每个策略，公司1的“廉价”策略都是严格最佳应对。另一方面，公司2没有一个占优策略。当公司1采取“高档次”策略，“廉价”策略是其最佳应对；当公司1采取“廉价”策略时，“高档次”是其最佳应对。应注意到，虽然在推理过程中是分两个步骤进行描述——第一步是公司1的严格占优策略，第二步是公司2的最佳应对。还应注意到直观的信息预测也具有吸引力。举例来说，公司1是如此强大，进行决策时完全可以无视公司2的决策行为。在该背景下，公司2的最优策略是要谨慎保持避免与公司1的决策冲突。 * * 因此，纳什均衡可以被认为是一种信念上的均衡。如果每个参与人都相信另一方在博弈中实际会采用一个纳什均衡的部分策略，则他/她就有动机采用达成这个纳什均衡中的另一部分策略。 * 如果存在多个纳什均衡，怎么办？ * 为什么叫协调博弈？ * 问题：为什么不是大家都猎鹿呢？尝试获得较高收益结果一方比起尝试获得较低收益结果的另外一方，会受到更大的惩罚。 * 在这种均衡中，参与人可以进行一种“反协调”活动。可能这类博弈的最基本形式就是鹰鸽博弈。 * * 如果不存在纳什均衡，该怎么办？对于此类博弈是通过扩大策略集，包括随机性行为的概率，对参与人的行为进行预测。一旦放开参与人可以随机性行为条件，依据约翰?纳什主要结论之一，在该背景下的博弈仍会存在均衡[313,314]。 * 注意，引入混合策略后，博弈的类型已经改变 * 这里，P1(U,q)指的是“P1取策略U的收益期望”，它等于“在P2采用分布（q,1-q）策略，P1取策略U的收益期望” P1(0.1,0.1)=0.1*P1(U,q)+0.9*P1(D,q) = 0.1*[q*P1(U,L)+(1-q)*P1(U,R)]+0.9*[q*P1(D,L)+(1-q)*P1(D,R)] = 0.1*[0.1*4+0.9*0]+0.9*[0.1*3+0.9*3] = 0.1*0.4 + 0.9*[0.3+2.7] = 0.04+2.7=2.74 * * 实际上，这便是在引入随机化时的最初直觉：每个参与人都想要对对方隐藏自己的行为，所以，他们各自的行为很难被对方得知。 * 好的概率策略就是让对方不知道哪个（纯）策略更好的策略 * 纳什均衡，不动点理论 * 不难想到，概率都为1/2的策略，事实上是这里的硬币配对博弈高度对称结构的结果。 * * 一个不存在纳什均衡的例子硬币配对－“零和博弈”（zero sum game）甲乙各持一枚硬币，同时选择手中硬币的正反面。若他们硬币的朝向相同，乙将赢得甲的硬币。反之，甲将赢得乙的硬币。参与人乙正面H 反面T 参与人甲正面H -1，+1 +1，-1 反面T +1，-1 -1，+1 此时，不存在一组互为最佳应对策略（纯策略意义下的纳什均衡）如果这样的博弈重复进行若干次，你会如何考虑自己的策略？预测对方采用不同策略的概率，据此确定自己的策略（概率）不要让对方了解自己采用不同策略的概率此时，你的“策略”可以看成是在两种固定策略（纯策略）之间选择的概率。混合策略的引入引入随机性，考虑参与人将以一定的概率分布在不同策略间进行选择，一种分布对应一个“策略”（称为混合策略，此时，选择策略就是选择分布）对于双策略（H和T）博弈，混合策略则可简略表示为一个概率。通常，我们说参与人1的策略是概率 p，是指他以概率 p执行H；以概率 1-p 执行T 参与人2的策略是概率 q，是指他以概率 q执行H，以概率 1-q 执行T 作为