2026年强化学习工程师考试题库(附答案和详细解析)(0226).docxVIP

  • 0
  • 0
  • 约7.69千字
  • 约 11页
  • 2026-03-26 发布于上海
  • 举报

2026年强化学习工程师考试题库(附答案和详细解析)(0226).docx

强化学习工程师考试试卷

一、单项选择题(共10题,每题1分,共10分)

马尔可夫决策过程(MDP)的核心假设是?

A.状态转移仅依赖当前状态和动作

B.奖励函数与历史状态相关

C.策略必须是确定性的

D.折扣因子必须为0

答案:A

解析:MDP的核心是马尔可夫性质,即状态转移概率仅依赖当前状态和动作,与历史无关(A正确)。奖励函数通常定义为当前状态-动作对的函数(B错误)。策略可以是随机或确定性的(C错误)。折扣因子γ∈[0,1),不为0(D错误)。

以下哪项属于值函数的定义?

A.策略π下从状态s出发的期望累计奖励

B.策略π下从状态s执行动作a后的期望累计奖励

C.动作a在状

文档评论(0)

1亿VIP精品文档

相关文档