2026年强化学习工程师考试题库（附答案和详细解析）（0501）.docxVIP

2026年强化学习工程师考试题库（附答案和详细解析）（0501）.docx

2026年强化学习工程师考试题库（附答案和详细解析）（0501）

强化学习工程师认证考试试卷

一、单项选择题（共10题，每题1分，共10分）

在ε-greedy策略中，随着ε值逐渐减小，智能体的行为会：

A.更倾向于探索未知动作

B.更倾向于利用当前最优动作

C.完全随机选择动作

D.停止学习过程

答案：B

解析：ε表示随机选择动作的概率（探索）。ε减小意味着智能体减少探索，增加对当前已知最优动作的利用（Exploitation）。A描述ε增大的效果，C仅当ε=1时成立，D与ε调整无关。

贝尔曼方程的核心作用是：

A.直接给出最优策略

B.建立当前状态价值与后继状态价值的递归关系

C.计算环境的状态转移概率

D.替代蒙特卡洛采样

答案：B

解析：贝尔曼方程通过递归形式关联当前状态价值与后继状态期望价值（(V(s)=[R+V(s’)])），是动态规划和时序差分学习的基础。A需通过值迭代实现，C是环境属性而非方程功能，D中贝尔曼方程常与采样结合使用。

以下算法属于无模型（Model-Free）方法的是：

A.动态规划（DP）

B.Q-Learning

C.值迭代（ValueIteration）

D.策略迭代（PolicyIteration）

答案：B

解析：Q-Learning直接从经验中学习动作价值函数，无需环境动态模型（状态转移概率和奖励函

更多 >