2026年强化学习工程师考试题库(附答案和详细解析)(0204).docxVIP

  • 1
  • 0
  • 约8.68千字
  • 约 11页
  • 2026-04-13 发布于江苏
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0204).docx

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

马尔可夫决策过程(MDP)的核心假设是?

A.环境状态具有部分可观测性

B.未来状态仅依赖当前状态,与历史无关

C.奖励函数是静态的且与动作无关

D.策略必须是确定性的

答案:B

解析:MDP的核心是马尔可夫性质,即未来状态的概率分布仅依赖于当前状态,与历史状态无关(B正确)。A是部分可观测马尔可夫决策过程(POMDP)的特征;奖励函数通常与状态-动作对相关(C错误);策略可以是随机或确定性的(D错误)。

以下哪种算法属于基于值函数的强化学习?

A.策略梯度(PolicyGradient)

B.DQN(深度Q

文档评论(0)

1亿VIP精品文档

相关文档