2026年强化学习工程师考试题库(附答案和详细解析)(0405).docxVIP

  • 1
  • 0
  • 约6.22千字
  • 约 9页
  • 2026-05-05 发布于江苏
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0405).docx

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

1.强化学习中,代理的主要目标是什么?

A.最小化预测误差

B.优化监督信号

C.最大化累积奖励

D.学习环境动力学模型

答案:C

解析:代理通过与环境的交互最大化长期累积奖励,这是强化学习的核心目标。错误选项A是监督学习的目标,B无关,D指模型学习但不是核心目标。

在马尔可夫决策过程(MDP)中,状态转移概率依赖的关键因素是什么?

A.仅当前状态

B.仅动作

C.当前状态和动作

D.历史状态序列

答案:C

解析:MDP的状态转移概率定义为P(s’|s,a),仅依赖当前状态s和动作a,满足马尔可夫性。错误

文档评论(0)

1亿VIP精品文档

相关文档