2026年强化学习工程师考试题库(附答案和详细解析)(0428).docxVIP

  • 1
  • 0
  • 约7.35千字
  • 约 10页
  • 2026-05-09 发布于上海
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0428).docx

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

在马尔可夫决策过程(MDP)中,状态转移概率的核心假设是什么?

A.状态转移依赖于整个历史状态序列

B.未来状态只依赖于当前状态和当前动作

C.奖励函数是确定性的且不随时间变化

D.动作选择必须基于随机策略

答案:B

解析:马尔可夫决策过程的核心假设是马尔可夫性,即未来状态只依赖于当前状态和当前动作,而与过去状态无关。这简化了模型的求解。错误选项A:违背了马尔可夫性;C:奖励函数可以是随机的或动态的,并非核心假设;D:策略可以是确定性的(如贪婪策略)或随机性的。

Q-learning算法属于哪种学习范型?

A.基

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档