2025年强化学习工程师考试题库(附答案和详细解析)(1218).docxVIP

  • 0
  • 0
  • 约7.83千字
  • 约 11页
  • 2026-02-04 发布于江苏
  • 举报

2025年强化学习工程师考试题库(附答案和详细解析)(1218).docx

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

马尔可夫决策过程(MDP)的标准组成不包括以下哪项?

A.状态集合S

B.动作集合A

C.环境模型M

D.折扣因子γ

答案:C

解析:MDP的标准五元组为(状态集合S,动作集合A,状态转移概率P,奖励函数R,折扣因子γ)。环境模型M通常指转移概率P和奖励函数R的组合,并非独立组成部分,因此选C。

Q-learning算法的更新目标是?

A.Q(s,a)+α[R+γQ(s’,a’)-Q(s,a)]

B.Q(s,a)+α[R+γmax?Q(s’,a)-Q(s,a)]

C.π(a|s)+

文档评论(0)

1亿VIP精品文档

相关文档