2026年强化学习工程师考试题库(附答案和详细解析)(0202).docxVIP

  • 1
  • 0
  • 约9.64千字
  • 约 13页
  • 2026-03-19 发布于上海
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0202).docx

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

马尔可夫决策过程(MDP)的核心要素不包括以下哪项?

A.状态集合S

B.动作集合A

C.奖励函数R

D.监督标签Y

答案:D

解析:MDP的核心要素包括状态集合S、动作集合A、状态转移概率P、奖励函数R和折扣因子γ。监督标签Y是监督学习的核心要素,与MDP无关,因此选D。

以下哪种算法属于“异策略”(Off-Policy)强化学习?

A.Sarsa

B.Q-learning

C.REINFORCE

D.A2C(优势行动者-评论者)

答案:B

解析:异策略算法使用不同于目标策略的行为策略收集数据。Q-learning通过贪心策略更新Q值,但用ε-greedy策略探索,属于异策略;Sarsa使用同策略(行为策略与目标策略相同),REINFORCE和A2C均为基于策略梯度的同策略算法,故选B。

强化学习中“信用分配”(CreditAssignment)问题的本质是?

A.确定智能体与环境的交互频率

B.解决延迟奖励的责任划分

C.优化神经网络的参数初始化

D.平衡探索与利用的策略

答案:B

解析:信用分配问题指当奖励延迟时,如何确定历史动作对最终奖励的贡献程度。例如,在围棋中,一个关键落子可能在几十步后才影响胜负,需回溯确定其贡献。其他选项均未触及核心,故选B。

深度Q网络(DQN)中“经

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档