博弈论中的“囚徒困境”模型.pdfVIP

下载本文档

67
0
约7.76千字
约 2页
2017-06-06 发布于北京
举报

博弈论中的“囚徒困境”模型.pdf

新探 200B年第8期(总第195期) 博弈论中的模型 ■王家辉 “囚徒困境”模型是博弈论中的经典会重复进行，比如犯罪团伙会被警方多白，为了报复对手的背叛，以后都选择坦范例，它是1950年Tucker提出的，其完次审讯，日常生活中买卖会重复进行，国白。全信息下的静态博弈为广大博弈论的工际间的战争此伏彼起。而且人们也发现假定囚徒j严格执行上述冷酷战作者和初学者所掌握，成为解释生活现基本博弈的重复进行并非基本博弈的简略，考察囚徒i的最优策略是否为冷酷象的有力工具。其实“囚徒困境”模型随单累加，比如商业中的回头客问题。下面战略?如果i在博弈的某个阶段首先选着博弈论的深入发展，具有各种不同的继续以表1所示的“囚徒困境”模型为例择了坦白，他在该阶段得到0，而不是一形式，通常分为：完全信息的静态博弈，对多重博弈进行探讨。 1，但他的这次背叛会遭到囚徒j的永远完全信息的动态博弈，不完全信息的静首先观察“囚徒困境”的有限博弈，惩罚，因此i在随后每个阶段的支付都态博弈及不完全信息的动态博弈四种形以T记基本博弈的重复次数。博弈重复是一3。如果下列条件满足，给定j没有选式。进行所耗时间会比较长，支付的时间价择坦白，i将不会选择坦白：一、完全信息静态“囚徒困境”博弈值必须考虑，记r为折现因子。在有限博 0+r(一3)+r2(一3)+…≤一1+r(_1)+r2(一1)+ 完全信息静态“囚徒困境”博弈部分弈的情况下，可简化在r=l的情况下讨 … B0．一 ≤一地奠定了非合作博弈论的理论基础。它论，并采用动态博弈的逆向归纳法进行的基本模型是：警察抓住了两个合伙犯研究：危分析t=T阶段两博弈方的选择，解上述不等式得：r ≥1／3(这个条件容易罪的罪犯，由于缺乏足够的证据指证他这仍然是一个基本的囚徒困境博弈，此满足)。就是说，如果r≥1／3，给定j坚持们的罪行，所以希望这两人中至少有一时前一阶段的结果已成为事实，又无后冷酷战略并且j没有首先坦白，i不会选择首先坦白。人供认犯罪，就能确认罪名成立。为此警续阶段，因此不难得出结论，这一阶段的察将这两个罪犯分别关押以防止他们串结果是(坦白，坦白)，双方得益(一3，一3)。进一步假定j首先选择坦白，那么 i 供，并告诉他们警方的政策是 “坦白从现在回到t=T一1阶段，理性的博弈方对是否有积极性坚持冷酷战略以惩罚j的宽，抗拒从严”：如果两人中只有一人坦于后一阶段的结局非常清楚，其结果必不合作行为?如果i坚持冷酷战略，他随白认罪，则坦白者立即释放，而另一人则然是(坦白，坦白)，因此不管现阶段的博后每个阶段的支付是一3，但如果他选择将重判5年徒刑；如果两个同时坦白认弈结果是什么，双方在本阶段以后的最其他战略，他在任何单一阶段的支付都罪，则他们将各判3年监禁。当然罪犯知终得益都是在本阶段得益的基础上各加不会大于一3，因此，无论r是多大，i都有道如果他们两人都拒不认罪，则警方只上一3，此时的得益矩阵是：积极性坚持冷酷战略。在博弈重复无数能以较轻的妨碍公务罪判处他们1年徒表 2 囚徒2 次的情况下，只要r1／3，子博弈精炼刑。用矩阵表示两个罪犯的得益如下(得坦白不坦白均衡是每个阶段博弈双方都采用抵赖进益向量的第一个数字是囚徒1的得益，囚坦白 (一6，一6) (一3，一8) 行合作。第二个数字是囚徒2的得益)：徒三、不完全信息静态“囚徒困境”博

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

博弈论中的“囚徒困境”模型.pdfVIP