- 3
- 0
- 约8.53千字
- 约 12页
- 2026-04-17 发布于上海
- 举报
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心假设是?
A.状态转移仅依赖当前状态
B.奖励函数是线性的
C.策略必须是确定性的
D.折扣因子大于1
答案:A
解析:MDP的核心是马尔可夫性质,即状态转移概率仅依赖当前状态,与历史状态无关(A正确)。奖励函数可以是非线性的(B错误);策略可以是随机或确定的(C错误);折扣因子γ∈[0,1)(D错误)。
DQN(深度Q网络)中解决“目标Q值非平稳”问题的关键技术是?
A.经验回放(ExperienceReplay)
B.目标网络(TargetNetwork)
C.ε-greedy探索
D.Huber损失函数
答案:B
解析:目标网络通过延迟更新目标Q值的参数,降低目标与当前网络的相关性,解决非平稳问题(B正确)。经验回放用于消除样本相关性(A错误);ε-greedy是探索策略(C错误);Huber损失用于稳定训练(D错误)。
策略梯度(PolicyGradient)算法直接优化的目标是?
A.动作价值函数Q(s,a)
B.状态价值函数V(s)
C.策略的期望累计奖励
D.贝尔曼方程的解
答案:C
解析:策略梯度的核心是通过梯度上升直接优化策略的期望累计奖励(C正确)。动作/状态价值函数是间接优化对象(A、B错误);贝尔曼方程是值函数方法的基础(D错
您可能关注的文档
- 2026年专利代理师资格考试考试题库(附答案和详细解析)(0308).docx
- 2026年中医养生保健师考试题库(附答案和详细解析)(0222).docx
- 2026年信息治理专家考试题库(附答案和详细解析)(0216).docx
- 2026年国际物流师考试题库(附答案和详细解析)(0313).docx
- 2026年审计专业技术资格考试题库(附答案和详细解析)(0309).docx
- 2026年注册冶金工程师考试题库(附答案和详细解析)(0130).docx
- 2026年注册合规师(CRCMP)考试题库(附答案和详细解析)(0130).docx
- 2026年注册岩土工程师考试题库(附答案和详细解析)(0203).docx
- 2026年注册振动工程师考试题库(附答案和详细解析)(0225).docx
- 2026年注册照明设计师考试题库(附答案和详细解析)(0304).docx
最近下载
- 2025年7月云南省普通高中学业水平合格性考试地理仿真模拟卷01(春季高考适用)(解析版).docx
- 医疗机构眼科医疗质量控制指标(试行).docx
- GRI全球报告倡议组织标准GRI 3- Topic Materials 2021 - Simplified Chinese.pdf VIP
- 2024年海南海口实验中学自主招生化学试题真题(含答案详解).docx VIP
- 重症监护室获得性吞咽障碍识别及管理的最佳证据总结PPT.pptx VIP
- 国际营销英文版 18.docx VIP
- 2025年深圳市中考生物试题卷(含答案).docx
- DB37T 2663.6—2020集约化穴盘育苗技术规程 第6部分:叶用莴苣.docx VIP
- 2024年09月04日海南正奕木业有限公司海南正奕木业有限公司木材加工项目.pdf VIP
- GRI全球报告倡议组织标准GRI 2- General Disclosures 2021 - Simplified Chinese.pdf VIP
原创力文档

文档评论(0)