2026年强化学习工程师考试题库(附答案和详细解析)(0117).docxVIP

  • 0
  • 0
  • 约8.26千字
  • 约 11页
  • 2026-03-05 发布于江苏
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0117).docx

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

马尔可夫决策过程(MDP)的核心要素不包括以下哪项?

A.状态空间S

B.动作空间A

C.策略π

D.折扣因子γ

答案:C

解析:MDP的标准定义包含状态空间S、动作空间A、转移概率P(s’|s,a)、奖励函数R(s,a,s’)和折扣因子γ。策略π是智能体在MDP中的决策规则,属于智能体的组成部分,而非MDP本身的核心要素。

Q-learning算法属于以下哪种学习类型?

A.在线策略(on-policy)

B.离策略(off-policy)

C.模型无关(model-free)

D.模型相关(model-

文档评论(0)

1亿VIP精品文档

相关文档