2026年强化学习工程师考试题库（附答案和详细解析）（0202）.docxVIP

2026年强化学习工程师考试题库（附答案和详细解析）（0202）.docx

强化学习工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

马尔可夫决策过程（MDP）的核心要素不包括以下哪项？

A.状态集合S

B.动作集合A

C.奖励函数R

D.监督标签Y

答案：D

解析：MDP的核心要素包括状态集合S、动作集合A、状态转移概率P、奖励函数R和折扣因子γ。监督标签Y是监督学习的核心要素，与MDP无关，因此选D。

以下哪种算法属于“异策略”（Off-Policy）强化学习？

A.Sarsa

B.Q-learning

C.REINFORCE

D.A2C（优势行动者-评论者）

答案：B

解析：异策略算法使用不同于目标策略的行为策略收集数据。Q-learning通过贪心策略更新Q值，但用ε-greedy策略探索，属于异策略；Sarsa使用同策略（行为策略与目标策略相同），REINFORCE和A2C均为基于策略梯度的同策略算法，故选B。

强化学习中“信用分配”（CreditAssignment）问题的本质是？

A.确定智能体与环境的交互频率

B.解决延迟奖励的责任划分

C.优化神经网络的参数初始化

D.平衡探索与利用的策略

答案：B

解析：信用分配问题指当奖励延迟时，如何确定历史动作对最终奖励的贡献程度。例如，在围棋中，一个关键落子可能在几十步后才影响胜负，需回溯确定其贡献。其他选项均未触及核心，故选B。