- 1
- 0
- 约8.59千字
- 约 11页
- 2026-04-14 发布于上海
- 举报
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心要素不包括以下哪项?
A.状态空间(StateSpace)
B.动作空间(ActionSpace)
C.策略(Policy)
D.奖励函数(RewardFunction)
答案:C
解析:MDP的标准定义包含状态空间(S)、动作空间(A)、转移概率(P)、奖励函数(R)和折扣因子(γ)。策略(π)是智能体的决策规则(如π(a|s)表示状态s下选择动作a的概率),属于智能体的属性,而非MDP的结构要素。因此选C。
以下哪种算法属于异策略(Off-Policy)强化学习?
A.Sarsa
B.Q-learning
C.香草策略梯度(VanillaPolicyGradient)
D.A2C(AdvantageActor-Critic)
答案:B
解析:异策略算法使用不同于目标策略的行为策略收集数据。Q-learning通过ε-贪心策略收集数据(行为策略),但更新时使用最大化Q值的目标策略,属于异策略;Sarsa的行为策略和目标策略均为ε-贪心(同策略);策略梯度和A2C均基于同策略(目标策略直接生成数据)。因此选B。
在深度Q网络(DQN)中,经验回放(ExperienceReplay)的主要作用是?
A.减少计算复杂度
B.消除数据间的时间相关性
C
您可能关注的文档
- 2025年医药研发注册师考试题库(附答案和详细解析)(1227).docx
- 2026年国际财资管理师(CTP)考试题库(附答案和详细解析)(0129).docx
- 2026年国际风险管理师(PRM)考试题库(附答案和详细解析)(0216).docx
- 2026年数据库系统工程师考试题库(附答案和详细解析)(0225).docx
- 2026年数据资产管理员考试题库(附答案和详细解析)(0202).docx
- 2026年注册环保工程师考试题库(附答案和详细解析)(0312).docx
- 2026年监理工程师考试题库(附答案和详细解析)(0308).docx
- 2026年网络安全分析师考试题库(附答案和详细解析)(0227).docx
- 2026年翻译资格证(NAATI)考试题库(附答案和详细解析)(0205).docx
- CFA一级财务报表分析题库及解析.doc
- Java中SpringBoot的RESTful接口开发.docx
- VarianceGamma模型对A股肥尾收益的拟合效果检验.docx
- ‘双减’背景下课后服务的质量提升路径.docx
最近下载
- GB∕T 19292.4-2018 金属和合金的腐蚀 大气腐蚀性 第4部分:用于评估腐蚀性的标准试样的腐蚀速率的测定.pdf
- 注塑件设计标准.pdf VIP
- 狼和鸭子儿童故事PPT课件.ppt VIP
- 抢分02 植物的生活(抢分专练)(河北专用)(解析版).docx VIP
- 安全生产事故责任追究办法.docx VIP
- 咸宁介绍PPT模板.pptx VIP
- CK滚筒碾粉机 毕业论文外文翻译.docx VIP
- 舟山市污水处理厂一期工程项目环境影响报告表.pdf VIP
- 华创证券-计算机行业深度研究报告:国产智算芯片:需求强劲性能生态再进阶.pdf VIP
- 廉洁警示教育活动 廉政警示教育活动实施方案 .pdf VIP
原创力文档

文档评论(0)