江苏开放大学强化学习060733形考作业3.docx

下载文档

0
0
约3.22千字
约 8页
2025-03-13 发布于福建
举报
版权申诉
保障服务

江苏开放大学强化学习060733形考作业3.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

试题列表

单选题

题型：单选题客观题分值5分难度：简单得分：5

确定性策略梯度算法（DPG）的核心思想是什么？

通过最大化当前状态的Q值来选择最优动作

通过最小化策略的损失函数来更新策略

直接通过策略梯度优化确定性策略的参数

通过生成随机动作来更新策略

学生答案：C

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

DQN中用到的技巧有（）。

目标网络、利用、经验回放

目标网络、探索、经验回放

Q网络、利用、经验回放

V网络、探索、经验回放

学生答案：B

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

Actor-Critic算法中的Actor和Critic各自的作用是什么？

Actor负责选择动作，Critic负责计算价值函数并评估Actor的策略

Actor负责计算奖励，Critic负责选择最佳动作

Actor负责计算值函数，Critic负责选择动作

Actor和Critic共同负责选择最优奖励

学生答案：A

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

以下说法是否正确：为了保证强化学习的训练效果，需要打破训练样本数据之间的相关性。

正确

错误

学生答案：A

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

在REINFORCE算法中，策略更新是如何进行的？

通过贪心选择来更新策略

通过最大化当前状态的价值函数来更新策略

使用策略的梯度与回报的乘积来更新策略

使用Q值来直接更新策略参数

学生答案：C

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

以下说法是否正确：强化学习的数据存在马尔可夫性，满足训练神经网络需样本独立同分布的假设前提。

正确

错误

学生答案：B

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

DDPG算法一共有（）个神经网络。

学生答案：D

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

DDPG算法是（）算法和（）算法的结合。

DPGAC

DPAC

SarsaQ-learning

ACQ-learning

学生答案：A

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

基于策略的方法（Policy-basedMethods）与值函数方法（Value-basedMethods）最主要的区别是：

基于策略的方法直接优化策略，而值函数方法通过估计状态或状态-动作值来间接优化策略

基于策略的方法依赖于奖励函数，而值函数方法不依赖于奖励函数

基于策略的方法只在离散空间中有效，而值函数方法在连续空间中有效

基于策略的方法只能应用于强化学习中，而值函数方法可以应用于监督学习

学生答案：A

老师点评：

多选题

题型：多选题客观题分值5分难度：简单得分：5

DQN只能处理（）、（）的动作空间。

低维

高维

离散

连续

学生答案：A；C

老师点评：

题型：多选题客观题分值5分难度：简单得分：5

随机策略梯度方法具有以下缺点()。

即使学到了随即策略，在每一步动作时，还需要对得到的最优策略概率分布进行采样，才能获得具体的动作值。频繁采样非常耗费计算力。

每一步计算策略梯度都需要在整个动作空间进行积分，耗费计算力。

最优策略是输出确定性动作。

最优策略只有一个。

学生答案：A；B

老师点评：

题型：多选题客观题分值5分难度：简单得分：5

DQN的经验回放会构建一个回放缓冲区，每个经验的形式包括以下内容：（）。

某个状态st

在st采取的动作at

得到的奖励rt

下一步采取的动作at+1

进入的下一状态st+1

学生答案：A；B；C；E

老师点评：

题型：多选题客观题分值5分难度：简单得分：5

DQN算法是基于（）算法，结合了价值函数近似与神经网络技术，并采用目标网络和（）等方法进行网络训练。

深度学习的Sarsa

当前网络

深度学习的Q-learning

经验回放

学生答案：C；D

老师点评：

题型：多选题客观题分值5分难度：简单得分：5

DQN中的评论员采用Q函数的话，它的两种写法是（）。

输入状态和动作，输出一个标量。

输入状态和动作，输出多个值。

输入一个状态，输出多个值。

输入一个状态，输出一个标量。

学生答案：A；C

老师点评：

简答题

题型：简答题主观题分值15分难度：简单得分：15

请简述一下DDPG算法？（应包含内容：DDPG网络的结构，输出，相对于DPG的优化目的，至少3个方面的含义，少于三个方面时，每写出一方面得5分，三个方

您可能关注的文档

文档评论（0）

开放大学作业辅导 + 关注: 实名认证

服务提供商

江苏开放大学,北京开放大学，西安开放大学，国开，云南开放大学，浙江电大，贵州电大，甘肃电大，兰大网院，四川电大，天津开放大学

咨询作者（20人已咨询）服务中

1亿VIP精品文档

更多 >

江苏开放大学强化学习060733形考作业3.docx