2026年强化学习工程师考试题库(附答案和详细解析)(0503).docxVIP

  • 1
  • 0
  • 约2.74千字
  • 约 4页
  • 2026-06-07 发布于上海
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0503).docx

2026年强化学习工程师考试题库(附答案和详细解析)(0503)

强化学习工程师认证考试试卷

考试说明:本试卷共100分,考试时间120分钟。答题需严谨专业,标注题号清晰作答。

一、单项选择题(共10题,每题1分,共10分)

TD(λ)算法中,λ=1时等价于以下哪种方法?

A.动态规划法

B.蒙特卡洛法

C.时序差分法(TD(0))

D.Q-learning

答案:B

解析:λ=1时,TD(λ)考虑从当前状态到终止状态的所有奖励,与蒙特卡洛法的完全轨迹采样一致。A依赖完整环境模型;C仅考虑单步更新;D是无模型算法。

马尔可夫决策过程(MDP)的核心特性是:

A.状态转移具有记忆性

B

文档评论(0)

1亿VIP精品文档

相关文档