- 0
- 0
- 约7.68千字
- 约 11页
- 2026-03-22 发布于上海
- 举报
强化学习工程师考试试卷(总分100分)
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心假设是?
A.环境完全可观测
B.当前状态包含所有历史信息
C.奖励函数是线性的
D.策略是确定性的
答案:B
解析:MDP的核心是马尔可夫性质,即当前状态是历史信息的充分统计量(B正确)。环境完全可观测是MDP的前提但非核心假设(A错误);奖励函数和策略的形式不影响MDP的定义(C、D错误)。
策略梯度(PolicyGradient)算法直接优化的目标是?
A.动作价值函数Q(s,a)
B.状态价值函数V(s)
C.策略的期望累计奖励
D.状态转移概率矩阵
答案:C
解析:策略梯度算法通过梯度上升直接优化策略的期望累计奖励(C正确)。价值函数是间接优化目标(A、B错误);状态转移概率由环境决定(D错误)。
Q-learning属于以下哪种学习类型?
A.在线策略(On-policy)
B.离线策略(Off-policy)
C.模型预测控制(MPC)
D.模仿学习
答案:B
解析:Q-learning使用行为策略(如ε-greedy)生成数据,用目标策略(greedy)更新Q值,属于离线策略(B正确)。在线策略如SARSA需保持行为策略与目标策略一致(A错误);MPC依赖环境模型(C错误);模仿学习需专家数据(D错误)。
强化学习中“探索
您可能关注的文档
- 2025年国际会议口译资格认证(CIIC)考试题库(附答案和详细解析)(1230).docx
- 2026年3D打印工程师考试题库(附答案和详细解析)(0218).docx
- 2026年公证员资格考试题库(附答案和详细解析)(0215).docx
- 2026年工程咨询专业技术资格考试题库(附答案和详细解析)(0305).docx
- 2026年心理健康指导师考试题库(附答案和详细解析)(0211).docx
- 2026年数据库系统工程师考试题库(附答案和详细解析)(0207).docx
- 2026年注册展览设计师考试题库(附答案和详细解析)(0313).docx
- 2026年注册工业设计师考试题库(附答案和详细解析)(0224).docx
- 2026年注册焊接工程师考试题库(附答案和详细解析)(0220).docx
- 2026年短视频制作师考试题库(附答案和详细解析)(0120).docx
- 广西南宁市第二中学2025-2026学年八年级下学期开学收心自测英语试卷(含解析).docx
- 广西南宁市武鸣区武鸣高级中学等校2026年高考模拟信息卷数学试题(含解析).docx
- 广西壮族自治区崇左市江州区2025-2026学年八年级上学期期末语文试题(含解析).docx
- 广西壮族自治区防城港市防城区2025—2026学年八年级上学期期末地理试题(含解析).docx
- 部编版一年级下册语文第五单元培优卷A卷(含答案).docx
- 福建省厦门海沧实验中学2025-2026学年高二上学期期末地理试题(含解析).docx
- 甘肃省天水市甘谷县模范初级中学2025-2026学年九年级数学下学期第一次检测考试试题(含解析).docx
- 甘肃省武威市凉州区爱华育新学校2025-2026学年九年级上学期12月月考英语试题(解析版).docx
- 甘肃张掖市2025--2026学年下学期九年级数学阶段反馈试卷(含解析).docx
- 广东惠州博罗县2025-2026学年九年级上学期阶段诊断历史试卷(含解析).docx
原创力文档

文档评论(0)