博弈论中的“囚徒困境”模型.pdfVIP

  • 67
  • 0
  • 约7.76千字
  • 约 2页
  • 2017-06-06 发布于北京
  • 举报
博弈论中的“囚徒困境”模型.pdf

新探 200B年第8期(总第195期) 博弈论中的 模型 ■王家辉 “囚徒困境”模型是博弈论中的经典 会重复进行,比如犯罪团伙会被警方多 白,为了报复对手的背叛,以后都选择坦 范例,它是1950年Tucker提出的,其完 次审讯,日常生活中买卖会重复进行,国 白。 全信息下的静态博弈为广大博弈论的工 际间的战争此伏彼起。而且人们也发现 假定囚徒j严格执行上述冷酷战 作者和初学者所掌握,成为解释生活现 基本博弈的重复进行并非基本博弈的简 略,考察囚徒i的最优策略是否为冷酷 象的有力工具。其实“囚徒困境”模型随 单累加,比如商业中的回头客问题。下面 战略?如果i在博弈的某个阶段首先选 着博弈论的深入发展,具有各种不同的 继续以表1所示的“囚徒困境”模型为例 择了坦白,他在该阶段得到0,而不是一 形式,通常分为:完全信息的静态博弈, 对多重博弈进行探讨。 1,但他的这次背叛会遭到囚徒j的永远 完全信息的动态博弈,不完全信息的静 首先观察“囚徒困境”的有限博弈, 惩罚,因此i在随后每个阶段的支付都 态博弈及不完全信息的动态博弈四种形 以T记基本博弈的重复次数。博弈重复 是一3。如果下列条件满足,给定j没有选 式。 进行所耗时间会比较长,支付的时间价 择坦白,i将不会选择坦白: 一 、 完全信息静态“囚徒困境”博弈 值必须考虑,记r为折现因子。在有限博 0+r(一3)+r2(一3)+…≤一1+r(_1)+r2(一1)+ 完全信息静态“囚徒困境”博弈部分 弈的情况下,可简化在r=l的情况下讨 … B0.一 ≤一 地奠定了非合作博弈论的理论基础。它 论,并采用动态博弈的逆向归纳法进行 的基本模型是:警察抓住了两个合伙犯 研究:危分析t=T阶段两博弈方的选择, 解上述不等式得:r ≥1/3(这个条件容易 罪的罪犯,由于缺乏足够的证据指证他 这仍然是一个基本的囚徒困境博弈,此 满足)。就是说,如果r≥1/3,给定j坚持 们的罪行,所以希望这两人中至少有一 时前一阶段的结果已成为事实,又无后 冷酷战略并且j没有首先坦白,i不会选 择首先坦白。 人供认犯罪,就能确认罪名成立。为此警 续阶段,因此不难得出结论,这一阶段的 察将这两个罪犯分别关押以防止他们串 结果是(坦白,坦白),双方得益(一3,一3)。 进一步假定j首先选择坦白,那么 i 供,并告诉他们警方的政策是 “坦白从 现在回到t=T一1阶段,理性的博弈方对 是否有积极性坚持冷酷战略以惩罚j的 宽,抗拒从严”:如果两人中只有一人坦 于后一阶段的结局非常清楚,其结果必 不合作行为?如果i坚持冷酷战略,他随 白认罪,则坦白者立即释放,而另一人则 然是(坦白,坦白),因此不管现阶段的博 后每个阶段的支付是一3,但如果他选择 将重判5年徒刑;如果两个同时坦白认 弈结果是什么,双方在本阶段以后的最 其他战略,他在任何单一阶段的支付都 罪,则他们将各判3年监禁。当然罪犯知 终得益都是在本阶段得益的基础上各加 不会大于一3,因此,无论r是多大,i都有 道如果他们两人都拒不认罪,则警方只 上一3,此时的得益矩阵是: 积极性坚持冷酷战略。在博弈重复无数 能以较轻的妨碍公务罪判处他们1年徒 表 2 囚徒2 次的情况下,只要r1/3,子博弈精炼 刑。用矩阵表示两个罪犯的得益如下(得 坦白 不坦白 均衡是每个阶段博弈双方都采用抵赖进 益向量的第一个数字是囚徒1的得益, 囚 坦白 (一6,一6) (一3,一8) 行合作。 第二个数字是囚徒2的得益): 徒 三、不完全信息静态“囚徒困境”博

文档评论(0)

1亿VIP精品文档

相关文档