- 1
- 0
- 约2.16千字
- 约 4页
- 2026-05-19 发布于江苏
- 举报
2026年强化学习工程师考试题库(附答案和详细解析)(0508)
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
时序差分(TD)学习方法的核心优势在于:
A.无需环境模型即可学习
B.比蒙特卡洛方法方差更低
C.能直接求解最优策略
D.适用于离散状态空间
答案:A
解析:时序差分学习结合了蒙特卡洛方法和动态规划思想,关键优势在于无需环境动力学模型(如状态转移概率),通过自举(bootstrap)更新值函数。选项B错误(TD方差通常高于蒙特卡洛);选项C片面(需配合策略迭代);选项D非其独有优势。
在Q-Learning算法中,更新公式Q(s,a)←Q(s,
原创力文档

文档评论(0)