2026年强化学习工程师考试题库(附答案和详细解析)(0219).docxVIP

  • 0
  • 0
  • 约7.68千字
  • 约 11页
  • 2026-03-22 发布于上海
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0219).docx

强化学习工程师考试试卷(总分100分)

一、单项选择题(共10题,每题1分,共10分)

马尔可夫决策过程(MDP)的核心假设是?

A.环境完全可观测

B.当前状态包含所有历史信息

C.奖励函数是线性的

D.策略是确定性的

答案:B

解析:MDP的核心是马尔可夫性质,即当前状态是历史信息的充分统计量(B正确)。环境完全可观测是MDP的前提但非核心假设(A错误);奖励函数和策略的形式不影响MDP的定义(C、D错误)。

策略梯度(PolicyGradient)算法直接优化的目标是?

A.动作价值函数Q(s,a)

B.状态价值函数V(s)

C.策略的期望累计奖励

D.状态转移概率矩阵

答案:C

解析:策略梯度算法通过梯度上升直接优化策略的期望累计奖励(C正确)。价值函数是间接优化目标(A、B错误);状态转移概率由环境决定(D错误)。

Q-learning属于以下哪种学习类型?

A.在线策略(On-policy)

B.离线策略(Off-policy)

C.模型预测控制(MPC)

D.模仿学习

答案:B

解析:Q-learning使用行为策略(如ε-greedy)生成数据,用目标策略(greedy)更新Q值,属于离线策略(B正确)。在线策略如SARSA需保持行为策略与目标策略一致(A错误);MPC依赖环境模型(C错误);模仿学习需专家数据(D错误)。

强化学习中“探索

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档