- 1
- 0
- 约3.05千字
- 约 7页
- 2026-06-05 发布于江苏
- 举报
深度强化学习王树森习题答案
一、单选题(每题3分,共60分)
1.深度强化学习中用于评估策略好坏的关键指标是()
A.奖励值B.状态价值C.动作价值D.以上都不对
答案:C
解析:动作价值直接反映了在某状态下采取某动作的优劣,用于评估策略好坏。
2.以下哪种算法不属于深度强化学习的无模型算法()
A.QlearningB.A2CC.DQND.DDPG
答案:B
解析:A2C是基于策略梯度的算法属于有模型算法,其他选项是无模型算法。
3.在深度Q网络中,用于近似动作价值函数的是()
A.卷积神经网络B.循环神经网络C.全连接
您可能关注的文档
最近下载
- 人教版(2024)新教材七年级地理下册第八章第二节《东南亚》同步备课教学设计(第2课时).docx VIP
- 智慧园区IOC运营中心解决方案.docx VIP
- 8.2.2 东南亚(第2课时)(课件)-2024-2025学年六年级地理下册(鲁教版五四学制2024).pptx VIP
- NUM 简明调试手册 AxiumPower英文.pdf VIP
- 骨质疏松用药指导.pptx VIP
- PDA TR26(2025版)Sterilizing Filtration of Liquids液体的除菌过滤(英文版).pdf VIP
- 黑吉辽蒙省五年(2021-2025)高考化学真题分类汇编:专题13 有机合成与推断 (解析版).docx VIP
- 2026年中级消防设施操作员理论考试笔试试题含答案.docx VIP
- 2026年高考作文素材积累之20个人物小众又出彩.docx
- 全日制教育硕士(科学与技术教育领域)专业学位研究生培养方案.pdf VIP
原创力文档

文档评论(0)