- 0
- 0
- 约7.69千字
- 约 11页
- 2026-03-26 发布于上海
- 举报
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心假设是?
A.状态转移仅依赖当前状态和动作
B.奖励函数与历史状态相关
C.策略必须是确定性的
D.折扣因子必须为0
答案:A
解析:MDP的核心是马尔可夫性质,即状态转移概率仅依赖当前状态和动作,与历史无关(A正确)。奖励函数通常定义为当前状态-动作对的函数(B错误)。策略可以是随机或确定性的(C错误)。折扣因子γ∈[0,1),不为0(D错误)。
以下哪项属于值函数的定义?
A.策略π下从状态s出发的期望累计奖励
B.策略π下从状态s执行动作a后的期望累计奖励
C.动作a在状
您可能关注的文档
最近下载
- 离散数学答案(刘玉珍_编着).doc VIP
- 幼儿园课程游戏化和五大领域有机结合的策略优秀获奖科研论文.pdf VIP
- 给排水国标图集-04S531-5:湿陷性黄土地区排水检查井.pdf VIP
- 幼儿园课程游戏化和区域活动结合的途径.docx VIP
- 三坐标初级试题及答案.docx VIP
- ZL-803A控制器使用说明V1.0.pdf VIP
- 2026年-IEC 60287-1-1-2023 电缆-载流量计算-第1-1部分:载流量公式(100% 负载率)和损耗计算-总则-新版.docx
- 浅谈幼儿园课程游戏化实现途径和实 论文.docx VIP
- 2025年研究生408统考真题及答案(含综合题详细解析).pdf VIP
- 《工程机械设计》第5章-履带式工程机械行走系.ppt VIP
原创力文档

文档评论(0)