- 0
- 0
- 约9.08千字
- 约 12页
- 2026-04-25 发布于上海
- 举报
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心假设是:
A.状态转移概率仅依赖当前状态和动作
B.奖励函数必须是确定性的
C.状态空间必须是有限的
D.智能体必须完全观测环境
答案:A
解析:MDP的核心是“马尔可夫性”,即状态转移概率仅依赖当前状态和动作(无记忆性),与历史状态无关(A正确)。奖励函数可以是随机的(B错误),状态空间可以是连续或离散的(C错误),MDP允许部分可观测(此时为POMDP)(D错误)。
以下哪项是动作值函数Q(s,a)的定义?
A.从状态s出发,遵循策略π时的期望累计奖励
B.从状态s采取动作a后,遵循策略π时的期望累计奖励
C.状态s的最优策略下的最大期望累计奖励
D.动作a在所有状态下的平均奖励
答案:B
解析:状态值函数V(s)是“从s出发遵循策略的期望奖励”(A错误),动作值函数Q(s,a)是“从s采取a后遵循策略的期望奖励”(B正确)。C是最优状态值函数V*(s)的定义,D无明确定义(C、D错误)。
策略梯度算法直接优化的目标是:
A.动作值函数的估计精度
B.策略的期望累计奖励
C.状态值函数的收敛速度
D.经验回放池的利用率
答案:B
解析:策略梯度算法通过梯度上升直接优化策略的期望回报J(θ)=E[Σγ^tr_t](B正确)。A是值函数方法的目标,C是评
您可能关注的文档
- 2026年注册培训师(CCT)考试题库(附答案和详细解析)(0303).docx
- 2026年注册测量师考试题库(附答案和详细解析)(0218).docx
- 2026年注册矿业工程师考试题库(附答案和详细解析)(0208).docx
- 2026年注册结构工程师考试题库(附答案和详细解析)(0205).docx
- 2026年电工资格证考试题库(附答案和详细解析)(0224).docx
- REITs产品的现金流拆分与估值方法.docx
- REITs市场的分红收益率与净现金流覆盖倍数.docx
- 中美贸易战中关税的上下游传导效应.docx
- 中美贸易战:关税对中国出口企业的成本影响.docx
- 中转管理合作协议.docx
原创力文档

文档评论(0)