2026年强化学习工程师考试题库(附答案和详细解析)(0508).docxVIP

  • 1
  • 0
  • 约2.16千字
  • 约 4页
  • 2026-05-19 发布于江苏
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0508).docx

2026年强化学习工程师考试题库(附答案和详细解析)(0508)

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

时序差分(TD)学习方法的核心优势在于:

A.无需环境模型即可学习

B.比蒙特卡洛方法方差更低

C.能直接求解最优策略

D.适用于离散状态空间

答案:A

解析:时序差分学习结合了蒙特卡洛方法和动态规划思想,关键优势在于无需环境动力学模型(如状态转移概率),通过自举(bootstrap)更新值函数。选项B错误(TD方差通常高于蒙特卡洛);选项C片面(需配合策略迭代);选项D非其独有优势。

在Q-Learning算法中,更新公式Q(s,a)←Q(s,

文档评论(0)

1亿VIP精品文档

相关文档