2026年强化学习工程师考试题库（附答案和详细解析）（0118）.docxVIP

2026年强化学习工程师考试题库（附答案和详细解析）（0118）.docx

强化学习工程师考试试卷

一、单项选择题（共10题，每题1分，共10分）

马尔可夫决策过程（MDP）的核心性质是：

A.当前状态仅依赖前一状态

B.当前状态包含所有历史信息

C.奖励函数仅与当前状态有关

D.动作空间是连续的

答案：B

解析：马尔可夫性质要求“当前状态包含预测未来所需的全部信息”（即状态转移仅依赖当前状态），因此B正确。A错误，因马尔可夫性质不限制状态仅依赖前一状态，而是依赖所有历史信息的充分统计量；C错误，奖励函数可依赖状态-动作对（s,a）；D错误，动作空间可以是离散或连续。

Q-learning算法属于：

A.基于策略的算法

B.离线策略（Off-policy）算法

C.模型基（Model-based）算法

D.蒙特卡洛方法

答案：B

解析：Q-learning通过行为策略（如ε-贪心）探索环境，用目标策略（贪心）更新Q值，属于离线策略算法（B正确）。A错误，Q-learning是基于值函数的算法；C错误，Q-learning不依赖环境模型；D错误，Q-learning是时间差分（TD）方法。

策略梯度算法优化的目标函数是：

A.状态值函数的期望

B.动作值函数的方差

C.累计奖励的期望

D.策略的熵

答案：C

解析：策略梯度算法的核心是最大化智能体在环境中获得的期望累计奖励（C正确）。A错误，状态值函数是中间量；B错误，方差非优化目标；

更多 >