2026年强化学习工程师考试题库(附答案和详细解析)(0305).docxVIP

  • 1
  • 0
  • 约8.59千字
  • 约 11页
  • 2026-04-14 发布于上海
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0305).docx

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

马尔可夫决策过程(MDP)的核心要素不包括以下哪项?

A.状态空间(StateSpace)

B.动作空间(ActionSpace)

C.策略(Policy)

D.奖励函数(RewardFunction)

答案:C

解析:MDP的标准定义包含状态空间(S)、动作空间(A)、转移概率(P)、奖励函数(R)和折扣因子(γ)。策略(π)是智能体的决策规则(如π(a|s)表示状态s下选择动作a的概率),属于智能体的属性,而非MDP的结构要素。因此选C。

以下哪种算法属于异策略(Off-Policy)强化学习?

A.Sarsa

B.Q-learning

C.香草策略梯度(VanillaPolicyGradient)

D.A2C(AdvantageActor-Critic)

答案:B

解析:异策略算法使用不同于目标策略的行为策略收集数据。Q-learning通过ε-贪心策略收集数据(行为策略),但更新时使用最大化Q值的目标策略,属于异策略;Sarsa的行为策略和目标策略均为ε-贪心(同策略);策略梯度和A2C均基于同策略(目标策略直接生成数据)。因此选B。

在深度Q网络(DQN)中,经验回放(ExperienceReplay)的主要作用是?

A.减少计算复杂度

B.消除数据间的时间相关性

C

文档评论(0)

1亿VIP精品文档

相关文档