2026年强化学习工程师考试题库(附答案和详细解析)(0118).docxVIP

  • 0
  • 0
  • 约7.47千字
  • 约 12页
  • 2026-03-17 发布于上海
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0118).docx

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

马尔可夫决策过程(MDP)的核心性质是:

A.当前状态仅依赖前一状态

B.当前状态包含所有历史信息

C.奖励函数仅与当前状态有关

D.动作空间是连续的

答案:B

解析:马尔可夫性质要求“当前状态包含预测未来所需的全部信息”(即状态转移仅依赖当前状态),因此B正确。A错误,因马尔可夫性质不限制状态仅依赖前一状态,而是依赖所有历史信息的充分统计量;C错误,奖励函数可依赖状态-动作对(s,a);D错误,动作空间可以是离散或连续。

Q-learning算法属于:

A.基于策略的算法

B.离线策略(Off-policy)算法

C.模型基(Model-based)算法

D.蒙特卡洛方法

答案:B

解析:Q-learning通过行为策略(如ε-贪心)探索环境,用目标策略(贪心)更新Q值,属于离线策略算法(B正确)。A错误,Q-learning是基于值函数的算法;C错误,Q-learning不依赖环境模型;D错误,Q-learning是时间差分(TD)方法。

策略梯度算法优化的目标函数是:

A.状态值函数的期望

B.动作值函数的方差

C.累计奖励的期望

D.策略的熵

答案:C

解析:策略梯度算法的核心是最大化智能体在环境中获得的期望累计奖励(C正确)。A错误,状态值函数是中间量;B错误,方差非优化目标;

文档评论(0)

1亿VIP精品文档

相关文档