2026年大学博弈论期末考试200道附参考答案(典型题).docxVIP

  • 0
  • 0
  • 约7.06万字
  • 约 102页
  • 2026-02-03 发布于河南
  • 举报

2026年大学博弈论期末考试200道附参考答案(典型题).docx

2026年大学博弈论期末考试200道

第一部分单选题(200题)

1、在博弈论中,纯策略纳什均衡的严格定义是:

A.每个参与者都拥有严格占优策略的策略组合

B.给定其他参与者的策略,每个参与者都没有动力单独改变自己的策略的策略组合

C.参与者同时行动时,唯一存在的纯策略均衡

D.通过逆向归纳法求解得到的唯一子博弈完美均衡

【答案】:B

解析:本题考察纯策略纳什均衡的定义。选项A错误,占优策略均衡要求每个参与者都有占优策略,而纳什均衡仅要求给定对方策略下自身无改进动力,不要求占优策略;选项B正确,这是纳什均衡的标准定义;选项C错误,纳什均衡可存在于同时或序贯行动博弈中,且可能有多个;选项D错误,逆向归纳法用于求解动态博弈的子博弈完美均衡,与纳什均衡定义无关。

2、猜硬币博弈中,参与人B需猜测参与人A的选择(正面/反面)。若B猜对,B得1分,A得0分;若B猜错,A得1分,B得0分。该博弈混合策略纳什均衡中,B的最优猜测概率为?

A.1/3(正面)

B.1/2(正面)

C.2/3(正面)

D.1(正面)

【答案】:B

解析:本题考察混合策略纳什均衡。设B以p概率猜正面,1-p猜反面。A的期望收益:选正面时,B猜对(p)得0,猜错(1-p)得1,期望收益为1*(1-p);选反面时,B猜对(1-p)得0,猜错(p)得1,期望收益为1*p。为使A无偏离动机,需1-p=p→p=1/2。因此B的最优猜测概率为1/2正面,选B。

3、在无限次重复的囚徒困境博弈中,‘以牙还牙’策略能够促成合作的关键条件是?

A.参与者足够理性,能够识别合作的价值

B.贴现因子足够大,使得未来合作的收益超过短期背叛的收益

C.双方都相信对方会严格遵守‘以牙还牙’策略

D.外部环境允许参与者进行长期互动,无需考虑时间成本

【答案】:B

解析:本题考察重复博弈中合作的可持续性条件。无限次重复博弈中,‘以牙还牙’策略能否促成合作的核心在于贴现因子δ(未来收益的现值)。若δ足够大,单次背叛的短期收益(如囚徒困境中“坦白”的0收益)会被未来合作的长期收益(如每期-1的收益)抵消。例如,合作总收益为-1/(1-δ),背叛总收益为0-5δ/(1-δ),当δ1/5时,合作收益更高。选项A错误,理性是基础但非关键条件;选项C错误,“相信对方遵守策略”是必要假设,但非核心条件;选项D错误,“无需考虑时间成本”不符合贴现因子的定义。因此正确答案为B。

4、关于占优策略均衡与纳什均衡的关系,正确的是?

A.占优策略均衡一定是纳什均衡,但纳什均衡不一定是占优策略均衡

B.纳什均衡一定是占优策略均衡,反之亦然

C.占优策略均衡与纳什均衡是完全独立的概念

D.占优策略均衡一定不是纳什均衡

【答案】:A

解析:本题考察占优策略与纳什均衡的逻辑关系。

-A正确:占优策略是无论对方选什么,自己都最优的策略,因此占优策略均衡中每个策略都是对方策略的最优反应,必为纳什均衡;但纳什均衡可能仅满足“给定对方策略时自己最优”,未必是占优策略(如(U,R)在矩阵题中是纳什均衡但非占优策略);

-B错误:纳什均衡无需满足占优策略条件,例如囚徒困境单次博弈的(坦白,坦白)是占优策略均衡,但如矩阵题中的(D,R)仅为纳什均衡而非占优策略均衡;

-C错误:占优策略均衡是纳什均衡的特殊子集;

-D错误:占优策略均衡必然是纳什均衡(见A的分析)。

5、在经典的‘囚徒困境’博弈中,若两个参与者进行单次完全信息静态博弈,其纳什均衡的结果是:

A.两人都沉默

B.一人沉默一人坦白

C.两人都坦白

D.以上都不是

【答案】:C

解析:本题考察囚徒困境的纳什均衡结果。囚徒困境中,每个囚徒的占优策略均为‘坦白’(无论对方是否坦白,坦白的刑期均更短),因此单次博弈的纳什均衡是双方均选择‘坦白’,即选项C。选项A是帕累托最优结果(刑期总和最小),但非均衡;选项B不稳定(若一方坦白,另一方会有动机也坦白);选项D错误。

6、最后通牒博弈:玩家1提出分配方案(x,1-x),玩家2可接受(得1-x)或拒绝(得0)。玩家1先行动,子博弈完美纳什均衡结果是?

A.玩家1提(1,0),玩家2接受

B.玩家1提(0.5,0.5),玩家2接受

C.玩家1提(ε,1-ε)(ε→0+),玩家2接受

D.玩家1提(0,1),玩家2接受

【答案】:C

解析:本题考察子博弈完美均衡(逆向归纳)。玩家2接受条件:1-x≥0→x≤1。玩家1为最大化自身收益,选择最小x0(如ε),玩家2因1-ε0接受,选C。

7、在序贯博弈(如斯塔克伯格模型)中,追随者(厂商2)的最优反应函数是基于什么原则推导的?

A.最大化自身总收益

B.最大化自身当前收益

C.最小化对手收益

D.最大化对手

文档评论(0)

1亿VIP精品文档

相关文档