1. 1、本文档共41页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
混合戦略1

プレイヤー2の期待利得は、 2つの戦略が等しい期待利得を与える確率は プレイヤー2の最適反応関数(ハトをとる確率  )は、 2人の最適反応関数の図示 1/2 1 1 1/2 プレイヤー2の反応関数 プレイヤー1の反応関数 タカ ハト タカ 2つの純戦略ナッシュ均衡と1つの混合戦略ナッシュ均衡 じゃんけんゲームにおける混合戦略ナッシュ均衡 純戦略ナッシュ均衡は存在しないが、混合戦略ナッシュ均衡は存在する。 グー チョキ パー グー 0,0 1,-1 -1,1 チョキ 1,-1 0, 0 1.-1 パー 1,-1 -1,1 0, 0 じゃんけんゲームにも純粋ナッシュ均衡は存在しない。しかし、混合戦略ナッシュ均衡は存在する グー チョキ パー グー 0,0 1,-1 -1,1 チョキ 1,-1 0,0 1.-1 パー 1,-1 -1,1 0,0 プレイヤー1は、 プレイヤー2は、 という混合戦略をとる。期待値は同じになる 混合戦略ナッシュ均衡は一つであり、 期待値は同じになる ナッシュは次の定理も証明した。 有限ゲームおいて、混合戦略ナッシュ均衡の混合戦略を構成する純戦略は他のプレイヤーの混合戦略に対して最適戦略になっている。なぜなら、混合戦略ナッシュ均衡を構成する純戦略は同じ期待利得を与えるからです。 ナッシュは次の定理も証明した。 戦略の数が有限である有限ゲームおいて、戦略集合を混合戦略まで含めると、この有限ゲームには必ずナッシュ均衡が存在する。 (1)ナッシュ均衡が存在しないゲームが結構ある。たとえば、コイン合わせゲーム。どの戦略の組み合わせにも逸脱のインセンティブがある。      プレイヤー2 プレイヤー1 表を出す 裏を出す 表を出す (1,-1) (-1,1) 裏を出す (-1,1) (1,-1) 混合戦略ナッシュ均衡とは? じゃんけんゲームにもナッシュ均衡が存在しない。 グー チョキ パー グー 0,0 1,-1 -1,1 チョキ -1,1 0,0 1.-1 パー 1,-1 -1,1 0,0 戦略集合の拡張とは?  今までは表をだすか、あるいは裏を出すかという2者択一の選択であったが、両方の戦略の混合を考えることができる。たとえば、さいころを振り、出た目によって戦略を決めるような方法もある。ただし、各戦略には自由に確率(あるいは確率分布)を与えることができると考えます。すなわち、表を出す戦略に確率pを、裏を出す戦略に確率1-pを与えると考えます。たとえば、表を出す戦略に確率1/3(さいころの目が1と2が出たら)で、裏を出す戦略に確率2/3(さいころの目が3,4,5,6が出たら)で採用すると考えます。混合戦略と呼ばれます。 期待値の考え方: 具体例:くじA,B を考える くじA:5%の確率で100 万円,95%の確率でハズレ(0 万円) くじB:20%の確率で8 万円,80%の確率で4 万円 ? これらを比較する方法(の1 つ)として考えられるのが,期待値(確率変数の平均値)を計算する方法である。 期待値の公式 ? 確率的にあらわれる数値,あるいは確率的にあらわれる状態に対して数値を割り当てる関数を,確率変数と呼ぶ。(例:サイコロの目) ? それぞれの確率変数に,それがどれくらいの確率であらわれるかを掛けたものを合計して、 足したものを期待値(平均値)と呼ぶ。 上の具体例の期待値 くじA の期待値:100 万円×0.05+0 万円×0.95=5 万円 くじB の期待値:8 万円×0.2+4 万円×0.8=4.8 万円 サイコロの目(サイコロの目を賞金額とすれば)の期待値(平均賞金額) 1×1/6+2×1/6+???+6×1/6=21/6=3.5 ペナルティキックはキッカーとキーパーの1対1。キーパーはボールの方向を読む。キッカーはキーパーの読みを外そうとする。      キッカー キーパー 左 右 左 (1,-1) (-1,1) 右 (-1,1) (1,-1) ペナルティキック(コイン合わせゲームに代えて) キーパーの混合戦略は、 キッカーの混合戦略は、 たとえば、             ならば、キーパーは確率1/2で左に、確率1/2で右に飛ぶ。キッカーは確率1/2で左にけり、確率1/2で右にける。      キッカー キーパー   左    右   左   右 ペナルティキック?ゲーム 各セルの確率の積は、そのセルが起きる確率 両プレイヤーが混合戦略を採用する場合は、各プレイヤーは、自らの期待利得を最大にするように、混合戦略を決める。キーパーの期待利得は、 キーパーの期待利得は、 しかし、キーパー

文档评论(0)

busuanzi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档