- 1
- 0
- 约9.64千字
- 约 13页
- 2026-03-19 发布于上海
- 举报
强化学习工程师考试试卷
一、单项选择题(共10题,每题1分,共10分)
马尔可夫决策过程(MDP)的核心要素不包括以下哪项?
A.状态集合S
B.动作集合A
C.奖励函数R
D.监督标签Y
答案:D
解析:MDP的核心要素包括状态集合S、动作集合A、状态转移概率P、奖励函数R和折扣因子γ。监督标签Y是监督学习的核心要素,与MDP无关,因此选D。
以下哪种算法属于“异策略”(Off-Policy)强化学习?
A.Sarsa
B.Q-learning
C.REINFORCE
D.A2C(优势行动者-评论者)
答案:B
解析:异策略算法使用不同于目标策略的行为策略收集数据。Q-learning通过贪心策略更新Q值,但用ε-greedy策略探索,属于异策略;Sarsa使用同策略(行为策略与目标策略相同),REINFORCE和A2C均为基于策略梯度的同策略算法,故选B。
强化学习中“信用分配”(CreditAssignment)问题的本质是?
A.确定智能体与环境的交互频率
B.解决延迟奖励的责任划分
C.优化神经网络的参数初始化
D.平衡探索与利用的策略
答案:B
解析:信用分配问题指当奖励延迟时,如何确定历史动作对最终奖励的贡献程度。例如,在围棋中,一个关键落子可能在几十步后才影响胜负,需回溯确定其贡献。其他选项均未触及核心,故选B。
深度Q网络(DQN)中“经
您可能关注的文档
- 2024年个人所得税专项附加扣除新规.docx
- 2026年中医养生保健师考试题库(附答案和详细解析)(0212).docx
- 2026年出版专业技术人员考试题库(附答案和详细解析)(0125).docx
- 2026年医疗护理员考试题库(附答案和详细解析)(0120).docx
- 2026年智能安防工程师考试题库(附答案和详细解析)(0121).docx
- 2026年注册勘察设计工程师考试题库(附答案和详细解析)(0113).docx
- 2026年美国注册会计师(AICPA)考试题库(附答案和详细解析)(0217).docx
- 2026年翻译资格证(NAATI)考试题库(附答案和详细解析)(0222).docx
- 5G边缘计算对工业互联网的latency优化.docx
- SQL中“索引优化”的方法与性能测试.docx
- 第4章第二节主动运输与胞吞胞吐2026年高一上学期生物人教版必修1.pptx
- 统编版二年级语文下册课件《阅读11 寓言二则》.pptx
- 基因指导蛋白质的合成+—2026学年高一下学期生物人教版必修2.pptx
- 统编版二年级语文下册课件《阅读12 画杨桃》.pptx
- 减数分裂-2025-2026学年高一下学期生物人教版必修2.pptx
- 2.2城镇化(教学课件)-2025-2026学年高中地理必修第二册(人教版2019).pptx
- 统编版二年级语文下册课件《阅读14 古诗二首》.pptx
- 增强儿童免疫力的感冒后护理.pptx
- 7.2 做全球发展的贡献者 课件-2025-2026学年高中政治统编版选择性必修一当代国际政治与经济.pptx
- 统编版二年级语文下册课件《阅读23 黄帝的传说》.pptx
原创力文档

文档评论(0)