- 1
- 0
- 约2.03千字
- 约 4页
- 2026-05-18 发布于上海
- 举报
2026年强化学习工程师考试题库(附答案和详细解析)(0506)
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心特性是?
A.历史无关性
B.状态空间连续性
C.奖励函数非线性
D.动作空间离散性
答案:A
解析:MDP的马尔可夫性要求未来状态仅取决于当前状态与动作,与历史无关(A正确)。状态/动作空间可连续可离散(B/D错误),奖励函数设计无限制(C错误)。
Q-Learning算法属于哪种学习范式?
A.同轨策略(On-policy)
B.离轨策略(Off-policy)
C.基于模型(Model-based)
D.直接策略搜索
答案:B
解析:Q-Learning使用ε-greedy策略探索,但用最优动作更新Q值(max操作),属于离轨策略(B正确)。SARSA是同轨策略(A错误),Q-Learning无环境模型(C错误)。
二、多项选择题(共10题,每题2分,共20分)
贝尔曼方程可应用于以下哪些场景?()
A.策略评估(PolicyEvaluation)
B.值迭代(ValueIteration)
C.蒙特卡洛控制(MonteCarloControl)
D.动态规划更新
答案:ABD
解析:贝尔曼方程是动态规划的核心(D正确),用于策略评估(A正确)和值迭代(B正确)。蒙特卡
您可能关注的文档
- 2026年注册信息系统审计师(CISA)考试题库(附答案和详细解析)(0511).docx
- 2026年注册化工工程师考试题库(附答案和详细解析)(0511).docx
- 2026年注册园林工程师考试题库(附答案和详细解析)(0504).docx
- 2026年注册金融工程师(CFE)考试题库(附答案和详细解析)(0508).docx
- 2026年红帽认证工程师(RHCE)考试题库(附答案和详细解析)(0515).docx
- 2026年资产评估师职业资格考试题库(附答案和详细解析)(0511).docx
- 2026年项目管理专业人士(PMP)考试题库(附答案和详细解析)(0429).docx
- SDK接入使用协议.docx
- 《古文观止》读后感.docx
- 一把钥匙开一扇门作文.docx
最近下载
- PSCAD电力电子仿真讲义.doc VIP
- 跨越高速架线施工方案详解.docx VIP
- 第17课《短文两篇——爱莲说》公开课一等奖创新教学设计-统编版语文七年级下册_1.docx VIP
- T_CCUA 048-2025 政务信息系统运行维护费用定额测算方法.pdf VIP
- 2022 年医疗卫生招聘(临床医学) 事业单位编考试题库.docx VIP
- 2026应急管理部上海消防研究所事业编制人员招聘12名笔试备考题库及答案解析.docx VIP
- 新改版苏教版四年级下册科学全册知识点梳理(期末复习专用).pdf VIP
- 汽车发动机构造与维修试题及答案.docx VIP
- 2026年部编版一年级下册语文单元综合素养评价试卷(全套).docx VIP
- 资料文稿coc模组翻译黑水溪blackwater creek.pdf
原创力文档

文档评论(0)