2026年强化学习工程师考试题库(附答案和详细解析)(0607).docxVIP

  • 0
  • 0
  • 约6.59千字
  • 约 7页
  • 2026-07-03 发布于贵州
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0607).docx

强化学习工程师

一、单项选择题(共10题,每题1分,共10分)

在马尔可夫决策过程(MDP)中,状态转移概率P(s′|s,a)表示的是?A.在状态s下执行动作a能获得奖励的概率B.在状态s下执行动作a转移到状态s′的概率C.在状态s下执行动作a的期望奖励D.在状态s下执行动作a的总累积奖励答案:B解析:状态转移概率描述的是环境在给定当前状态s

以下哪种算法主要使用价值迭代来计算最优策略?A.Q-LearningB.SARSAC.DQN(DeepQ-Network)D.PolicyGradient(REINFORCE)答案:A解析:Q-Learning是一种off-policy的时序差分控制算法,其核心通过价值迭代更新Q值以收敛到最优策略。

在策略梯度方法中,用于计算梯度的估计量是?A.期望回报的梯度B.状态价值函数的梯度C.动作价值函数的梯度D.奖励函数的梯度答案:A解析:策略梯度方法直接对策略参数θ求导,目标是最大化期望回报J(

以下哪种技术主要用于解决深度强化学习中的“奖励塑形”问题?A.TargetNetwork(目标网络)B.ExperienceReplay(经验回放)C.RewardShapingD.Exploratio

文档评论(0)

1亿VIP精品文档

相关文档