2026年强化学习工程师考试题库（附答案和详细解析）（0607）.docxVIP

下载本文档

0
0
约6.59千字
约 7页
2026-07-03 发布于贵州
举报

2026年强化学习工程师考试题库（附答案和详细解析）（0607）.docx

强化学习工程师

一、单项选择题（共10题，每题1分，共10分）

在马尔可夫决策过程（MDP）中，状态转移概率P(s′|s,a)表示的是？A.在状态s下执行动作a能获得奖励的概率B.在状态s下执行动作a转移到状态s′的概率C.在状态s下执行动作a的期望奖励D.在状态s下执行动作a的总累积奖励答案：B解析：状态转移概率描述的是环境在给定当前状态s

以下哪种算法主要使用价值迭代来计算最优策略？A.Q-LearningB.SARSAC.DQN(DeepQ-Network)D.PolicyGradient(REINFORCE)答案：A解析：Q-Learning是一种off-policy的时序差分控制算法，其核心通过价值迭代更新Q值以收敛到最优策略。

在策略梯度方法中，用于计算梯度的估计量是？A.期望回报的梯度B.状态价值函数的梯度C.动作价值函数的梯度D.奖励函数的梯度答案：A解析：策略梯度方法直接对策略参数θ求导，目标是最大化期望回报J(

以下哪种技术主要用于解决深度强化学习中的“奖励塑形”问题？A.TargetNetwork(目标网络)B.ExperienceReplay(经验回放)C.RewardShapingD.Exploratio

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

2026年强化学习工程师考试题库（附答案和详细解析）（0607）.docxVIP