- 1、本文档共5页,其中可免费阅读2页,需付费260金币后方可阅读剩余内容。
- 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
- 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
- 4、文档侵权举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2025年春江苏开放大学强化学习060733形考作业3
单选题
1确定性策略梯度算法(DPG)的核心思想是什么?
A通过最大化当前状态的Q值来选择最优动作
B通过最小化策略的损失函数来更新策略
C直接通过策略梯度优化确定性策略的参数
D通过生成随机动作来更新策略
学生答案:C
2、DQN中用到的技巧有()。
A目标网络、利用、经验回放
B目标网络、探索、经验回放
CQ网络、利用、经验回放
DV网络、探索、经验回放
学生答案:B
3、Actor-Critic算法中的”Actor”和”Critic”各自的作用是什么?
A、Actor负责选择动作,Critic负责计算价值函数并评估Actor的策略
您可能关注的文档
- 国开马克思主义基本原理-形考作业1-8试题及答案.pdf
- 国开护理科研⽅法·形考任务1-4试题及答案.docx
- 国开护理科研⽅法·形考任务1-4试题及答案.doc
- 国开护理科研⽅法·形考任务1-4试题及答案.pdf
- 2025年春江苏开放大学强化学习060733形考作业2.doc
- 2025年春江苏开放大学可持续设计060926第二单元在线测验.pdf
- 2025年春江苏开放大学可持续设计060926第二单元在线测验.docx
- 2025年春江苏开放大学可持续设计060926第二单元在线测验.doc
- 2025年春江苏开放大学计算机网络060218第1次作业.pdf
- 2025年春江苏开放大学计算机网络060218第1次作业.docx
文档评论(0)