- 67
- 0
- 约7.76千字
- 约 2页
- 2017-06-06 发布于北京
- 举报
博弈论中的“囚徒困境”模型.pdf
新探
200B年第8期(总第195期)
博弈论中的 模型
■王家辉
“囚徒困境”模型是博弈论中的经典 会重复进行,比如犯罪团伙会被警方多 白,为了报复对手的背叛,以后都选择坦
范例,它是1950年Tucker提出的,其完 次审讯,日常生活中买卖会重复进行,国 白。
全信息下的静态博弈为广大博弈论的工 际间的战争此伏彼起。而且人们也发现 假定囚徒j严格执行上述冷酷战
作者和初学者所掌握,成为解释生活现 基本博弈的重复进行并非基本博弈的简 略,考察囚徒i的最优策略是否为冷酷
象的有力工具。其实“囚徒困境”模型随 单累加,比如商业中的回头客问题。下面 战略?如果i在博弈的某个阶段首先选
着博弈论的深入发展,具有各种不同的 继续以表1所示的“囚徒困境”模型为例 择了坦白,他在该阶段得到0,而不是一
形式,通常分为:完全信息的静态博弈, 对多重博弈进行探讨。 1,但他的这次背叛会遭到囚徒j的永远
完全信息的动态博弈,不完全信息的静 首先观察“囚徒困境”的有限博弈, 惩罚,因此i在随后每个阶段的支付都
态博弈及不完全信息的动态博弈四种形 以T记基本博弈的重复次数。博弈重复 是一3。如果下列条件满足,给定j没有选
式。 进行所耗时间会比较长,支付的时间价 择坦白,i将不会选择坦白:
一 、 完全信息静态“囚徒困境”博弈 值必须考虑,记r为折现因子。在有限博 0+r(一3)+r2(一3)+…≤一1+r(_1)+r2(一1)+
完全信息静态“囚徒困境”博弈部分 弈的情况下,可简化在r=l的情况下讨 … B0.一 ≤一
地奠定了非合作博弈论的理论基础。它 论,并采用动态博弈的逆向归纳法进行
的基本模型是:警察抓住了两个合伙犯 研究:危分析t=T阶段两博弈方的选择, 解上述不等式得:r ≥1/3(这个条件容易
罪的罪犯,由于缺乏足够的证据指证他 这仍然是一个基本的囚徒困境博弈,此 满足)。就是说,如果r≥1/3,给定j坚持
们的罪行,所以希望这两人中至少有一 时前一阶段的结果已成为事实,又无后 冷酷战略并且j没有首先坦白,i不会选
择首先坦白。
人供认犯罪,就能确认罪名成立。为此警 续阶段,因此不难得出结论,这一阶段的
察将这两个罪犯分别关押以防止他们串 结果是(坦白,坦白),双方得益(一3,一3)。 进一步假定j首先选择坦白,那么 i
供,并告诉他们警方的政策是 “坦白从 现在回到t=T一1阶段,理性的博弈方对 是否有积极性坚持冷酷战略以惩罚j的
宽,抗拒从严”:如果两人中只有一人坦 于后一阶段的结局非常清楚,其结果必 不合作行为?如果i坚持冷酷战略,他随
白认罪,则坦白者立即释放,而另一人则 然是(坦白,坦白),因此不管现阶段的博 后每个阶段的支付是一3,但如果他选择
将重判5年徒刑;如果两个同时坦白认 弈结果是什么,双方在本阶段以后的最 其他战略,他在任何单一阶段的支付都
罪,则他们将各判3年监禁。当然罪犯知 终得益都是在本阶段得益的基础上各加 不会大于一3,因此,无论r是多大,i都有
道如果他们两人都拒不认罪,则警方只 上一3,此时的得益矩阵是: 积极性坚持冷酷战略。在博弈重复无数
能以较轻的妨碍公务罪判处他们1年徒 表 2 囚徒2 次的情况下,只要r1/3,子博弈精炼
刑。用矩阵表示两个罪犯的得益如下(得 坦白 不坦白 均衡是每个阶段博弈双方都采用抵赖进
益向量的第一个数字是囚徒1的得益, 囚 坦白 (一6,一6) (一3,一8) 行合作。
第二个数字是囚徒2的得益): 徒 三、不完全信息静态“囚徒困境”博
您可能关注的文档
最近下载
- 2025年安徽省普通高校对口招生考试(英语)历年参考题库含答案详解.docx VIP
- JIS D5301-2006(中文版本).pdf VIP
- 2025年安徽省普通高校对口招生考试(语文)历年参考题库含答案详解.docx VIP
- 2025年安徽省普通高校对口招生考试(计算机类)历年参考题库(含答案).docx VIP
- 完美演练新概念英语练习1上 参考答案.docx VIP
- 2026年安徽省普通高校对口招生考试(英语)历年参考题库含答案详解.docx VIP
- AP统计学 2015年真题 附答案和评分标准 AP Statistics 2015 Real Exam with Answers and Scoring Guidelines.pdf VIP
- 2026年安徽省普通高校对口招生考试(语文)历年参考题库含答案详解.docx VIP
- 2023年安徽省滁州市小升初语文试卷(含答案).docx VIP
- iCloud邮箱账号密码如何找回.docx VIP
原创力文档

文档评论(0)