2026年强化学习工程师考试题库(附答案和详细解析)(0419).docxVIP

  • 0
  • 0
  • 约8.36千字
  • 约 11页
  • 2026-05-09 发布于江苏
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0419).docx

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在马尔可夫决策过程(MDP)中,状态转移概率P(s’|s,a)的含义是什么?

A.从状态s采取动作a后转移到状态s’的概率。

B.状态s的价值评估指标。

C.动作a在当前状态的奖励期望值。

D.策略优化的折扣因子参数。

答案:A

解析:正确选项是A,因为MDP的核心元素包括状态转移概率,定义为从当前状态s执行动作a后转移到新状态s’的条件概率。错误选项B混淆了状态价值函数V(s)的概念,C误将奖励函数R(s,a)作为转移概率,D是折扣因子γ的用法,与状态转移无关。

Q-learning算法被归类为哪种类别?

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档