网站大量收购独家精品文档,联系QQ:2885784924

2025年春江苏开放大学强化学习060733形考作业3.pdf

2025年春江苏开放大学强化学习060733形考作业3.pdf

  1. 1、本文档共5页,其中可免费阅读2页,需付费260金币后方可阅读剩余内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

2025年春江苏开放大学强化学习060733形考作业3

单选题

1确定性策略梯度算法(DPG)的核心思想是什么?

A通过最大化当前状态的Q值来选择最优动作

B通过最小化策略的损失函数来更新策

C直接通过策略梯度优化确定性策略的参数

D通过生成随机动作来更新策

学生答案:C

2、DQN中用到的技巧有()。

A目标网络、利用、经验回放

B目标网络、探索、经验回放

CQ网络、利用、经验回放

DV网络、探索、经验回放

文档评论(0)

毋我 + 关注
实名认证
内容提供者

教师资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年04月11日上传了教师资格证

1亿VIP精品文档

相关文档