- 0
- 0
- 约8.86千字
- 约 11页
- 2026-03-19 发布于上海
- 举报
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心假设是?
A.状态转移依赖历史所有状态
B.状态转移仅依赖当前状态
C.奖励函数与动作无关
D.策略必须是确定性的
答案:B
解析:MDP的核心是无后效性(马尔可夫性质),即状态转移概率仅依赖当前状态,与历史状态无关(排除A)。奖励函数通常与状态和动作相关(排除C)。策略可以是随机或确定性的(排除D)。
以下哪项是值函数(ValueFunction)的定义?
A.给定策略下,从某状态出发的期望累计奖励
B.给定状态下,选择某动作的概率
C.策略优化的梯度方向
D.环境状态的转移概率矩阵
答案:A
解析:值函数vπ(s)定义为在策略π下,从状态s出发的期望累计折扣奖励(A正确)。策略π(a|s)是动作概率(B错误)。策略梯度是优化目标的梯度(C错误)。转移概率是环境属性(D错误)。
策略梯度(PolicyGradient)算法直接优化的目标是?
A.值函数的准确性
B.策略的期望累计奖励
C.动作价值函数的近似
D.经验回放的效率
答案:B
解析:策略梯度通过梯度上升直接优化策略的期望回报J(θ)=E[Σγ^tr_t](B正确)。值函数优化是Q-learning的目标(A错误)。动作价值函数近似属于值函数方法(C错误)。经验回放是DQN的技术(D错误)
您可能关注的文档
- 2026年AI产品经理考试题库(附答案和详细解析)(0130).docx
- 2026年亚马逊云科技认证考试题库(附答案和详细解析)(0211).docx
- 2026年人工智能工程师考试题库(附答案和详细解析)(0219).docx
- 2026年价格鉴证师考试题库(附答案和详细解析)(0209).docx
- 2026年保险从业资格考试考试题库(附答案和详细解析)(0303).docx
- 2026年公关策划师考试题库(附答案和详细解析)(0114).docx
- 2026年公益项目管理师考试题库(附答案和详细解析)(0208).docx
- 2026年城市更新咨询师考试题库(附答案和详细解析)(0225).docx
- 2026年应急救援员考试题库(附答案和详细解析)(0207).docx
- 2026年注册地籍测绘师考试题库(附答案和详细解析)(0120).docx
最近下载
- 冀少版(2024)新教材七年级生物下册第三单元第三章《呼吸系统与气体交换》每节课分层练习(含答案)汇编(含三套题).doc VIP
- AITO-问界-M7-车主手册说明书.pdf VIP
- 冀少版(2024新版)七年级下册生物第三章 呼吸系统与气体交换 知识点.docx VIP
- 学堂在线 雨课堂 学堂云 管理沟通的艺术 章节测试答案.docx VIP
- 实验六一种钴(Ⅲ)配合物的制备.ppt VIP
- 冀少版(2024)新教材七年级生物下册《第三章 呼吸系统与气体交换》章末测试卷及答案.doc VIP
- 学堂在线 雨课堂 学堂云 社会研究方法 期末考试答案.docx VIP
- 学堂在线 雨课堂 学堂云 医学科研设计 章节测试答案.docx VIP
- 2025年冀少版七年级下册生物第四单元第五章人体生命活动的调节提升训练(含答案).docx VIP
- 学堂在线 雨课堂 学堂云 《资治通鉴》导读 章节测试答案.docx VIP
原创力文档

文档评论(0)