2026年强化学习工程师考试题库（附答案和详细解析）（0219）.docxVIP

2026年强化学习工程师考试题库（附答案和详细解析）（0219）.docx

强化学习工程师考试试卷（总分100分）

一、单项选择题（共10题，每题1分，共10分）

马尔可夫决策过程（MDP）的核心假设是？

A.环境完全可观测

B.当前状态包含所有历史信息

C.奖励函数是线性的

D.策略是确定性的

答案：B

解析：MDP的核心是马尔可夫性质，即当前状态是历史信息的充分统计量（B正确）。环境完全可观测是MDP的前提但非核心假设（A错误）；奖励函数和策略的形式不影响MDP的定义（C、D错误）。

策略梯度（PolicyGradient）算法直接优化的目标是？

A.动作价值函数Q(s,a)

B.状态价值函数V(s)

C.策略的期望累计奖励

D.状态转移概率矩阵

答案：C

解析：策略梯度算法通过梯度上升直接优化策略的期望累计奖励（C正确）。价值函数是间接优化目标（A、B错误）；状态转移概率由环境决定（D错误）。

Q-learning属于以下哪种学习类型？

A.在线策略（On-policy）

B.离线策略（Off-policy）

C.模型预测控制（MPC）

D.模仿学习

答案：B

解析：Q-learning使用行为策略（如ε-greedy）生成数据，用目标策略（greedy）更新Q值，属于离线策略（B正确）。在线策略如SARSA需保持行为策略与目标策略一致（A错误）；MPC依赖环境模型（C错误）；模仿学习需专家数据（D错误）。