2025年强化学习工程师考试题库(附答案和详细解析)(1219).docxVIP

  • 1
  • 0
  • 约8.96千字
  • 约 12页
  • 2026-01-08 发布于上海
  • 举报

2025年强化学习工程师考试题库(附答案和详细解析)(1219).docx

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

马尔可夫决策过程(MDP)的核心组成不包括以下哪项?

A.状态空间S

B.动作空间A

C.终止状态集合T

D.折扣因子γ

答案:C

解析:MDP的标准定义为(S,A,P,R,γ),其中S是状态空间,A是动作空间,P是状态转移概率,R是奖励函数,γ是折扣因子。终止状态集合T是episodicMDP的扩展概念,并非核心组成的必要元素,因此选C。

状态值函数(V^(s))的定义是?

A.在策略π下,状态s的即时奖励

B.在策略π下,从状态s出发的期望累积折扣奖励

C.在策略π下,状态s的最大可能

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档