2026年强化学习工程师考试题库(附答案和详细解析)(0415).docxVIP

  • 0
  • 0
  • 约2.33千字
  • 约 4页
  • 2026-05-02 发布于江苏
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0415).docx

2026年强化学习工程师考试题库(附答案和详细解析)(0415)

强化学习工程师专业能力测试卷

一、单项选择题(共10题,每题1分,共10分)

马尔可夫决策过程(MDP)的核心特性是?

A.状态转移只取决于当前状态与动作

B.回报函数与历史状态相关

C.策略空间是连续分布

D.必须包含终止状态

答案:A

解析:MDP的核心假设是”马尔可夫性”,即下一状态和奖励仅取决于当前状态和动作(P(s’|s,a)),与历史状态无关。B违反马尔可夫性,C错在策略空间可离散,D非必要条件。

贝尔曼方程的核心作用是?

A.计算环境的状态转移概率

B.建立当前价值与未来价值的递归关系

C.优化神经网

文档评论(0)

1亿VIP精品文档

相关文档