2026年强化学习工程师考试题库(附答案和详细解析)(0225).docxVIP

  • 1
  • 0
  • 约9.56千字
  • 约 12页
  • 2026-03-22 发布于上海
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0225).docx

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

马尔可夫决策过程(MDP)的核心组成不包括以下哪项?

A.状态空间S

B.动作空间A

C.环境观测空间O

D.奖励函数R(s,a,s’)

答案:C

解析:MDP的标准定义包含状态空间S、动作空间A、状态转移概率P(s’|s,a)、奖励函数R(s,a,s’)和折扣因子γ。环境观测空间O是部分可观测马尔可夫决策过程(POMDP)的扩展概念,因此C为错误选项。

以下哪项是Q-learning算法的核心更新公式?

A.Q(s,a)←Q(s,a)+α[r+γmax_a’Q(s’,a’)-Q(s,a)]

B.

文档评论(0)

1亿VIP精品文档

相关文档