深度强化学习王树森习题答案.docxVIP

  • 1
  • 0
  • 约3.05千字
  • 约 7页
  • 2026-06-05 发布于江苏
  • 举报

深度强化学习王树森习题答案

一、单选题(每题3分,共60分)

1.深度强化学习中用于评估策略好坏的关键指标是()

A.奖励值B.状态价值C.动作价值D.以上都不对

答案:C

解析:动作价值直接反映了在某状态下采取某动作的优劣,用于评估策略好坏。

2.以下哪种算法不属于深度强化学习的无模型算法()

A.QlearningB.A2CC.DQND.DDPG

答案:B

解析:A2C是基于策略梯度的算法属于有模型算法,其他选项是无模型算法。

3.在深度Q网络中,用于近似动作价值函数的是()

A.卷积神经网络B.循环神经网络C.全连接

文档评论(0)

1亿VIP精品文档

相关文档