网站大量收购独家精品文档,联系QQ:2885784924

江苏开放大学强化学习060733形考作业3.docx

江苏开放大学强化学习060733形考作业3.docx

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

试题列表

单选题

题型:单选题客观题分值5分难度:简单得分:5

1

确定性策略梯度算法(DPG)的核心思想是什么?

A

通过最大化当前状态的Q值来选择最优动作

B

通过最小化策略的损失函数来更新策略

C

直接通过策略梯度优化确定性策略的参数

D

通过生成随机动作来更新策略

学生答案:C

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

2

DQN中用到的技巧有()。

A

目标网络、利用、经验回放

B

目标网络、探索、经验回放

C

Q网络、利用、经验回放

D

V网络、探索、经验回放

学生答案:B

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

3

Actor-Critic算法中的Actor和Critic各自的作用是什么?

A

Actor负责选择动作,Critic负责计算价值函数并评估Actor的策略

B

Actor负责计算奖励,Critic负责选择最佳动作

C

Actor负责计算值函数,Critic负责选择动作

D

Actor和Critic共同负责选择最优奖励

学生答案:A

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

4

以下说法是否正确:为了保证强化学习的训练效果,需要打破训练样本数据之间的相关性。

A

正确

B

错误

学生答案:A

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

5

在REINFORCE算法中,策略更新是如何进行的?

A

通过贪心选择来更新策略

B

通过最大化当前状态的价值函数来更新策略

C

使用策略的梯度与回报的乘积来更新策略

D

使用Q值来直接更新策略参数

学生答案:C

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

6

以下说法是否正确:强化学习的数据存在马尔可夫性,满足训练神经网络需样本独立同分布的假设前提。

A

正确

B

错误

学生答案:B

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

7

DDPG算法一共有()个神经网络。

A

1

B

2

C

3

D

4

学生答案:D

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

8

DDPG算法是()算法和()算法的结合。

A

DPGAC

B

DPAC

C

SarsaQ-learning

D

ACQ-learning

学生答案:A

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

9

基于策略的方法(Policy-basedMethods)与值函数方法(Value-basedMethods)最主要的区别是:

A

基于策略的方法直接优化策略,而值函数方法通过估计状态或状态-动作值来间接优化策略

B

基于策略的方法依赖于奖励函数,而值函数方法不依赖于奖励函数

C

基于策略的方法只在离散空间中有效,而值函数方法在连续空间中有效

D

基于策略的方法只能应用于强化学习中,而值函数方法可以应用于监督学习

学生答案:A

老师点评:

多选题

题型:多选题客观题分值5分难度:简单得分:5

1

DQN只能处理()、()的动作空间。

A

低维

B

高维

C

离散

D

连续

学生答案:A;C

老师点评:

题型:多选题客观题分值5分难度:简单得分:5

2

随机策略梯度方法具有以下缺点()。

A

即使学到了随即策略,在每一步动作时,还需要对得到的最优策略概率分布进行采样,才能获得具体的动作值。频繁采样非常耗费计算力。

B

每一步计算策略梯度都需要在整个动作空间进行积分,耗费计算力。

C

最优策略是输出确定性动作。

D

最优策略只有一个。

学生答案:A;B

老师点评:

题型:多选题客观题分值5分难度:简单得分:5

3

DQN的经验回放会构建一个回放缓冲区,每个经验的形式包括以下内容:()。

A

某个状态st

B

在st采取的动作at

C

得到的奖励rt

D

下一步采取的动作at+1

E

进入的下一状态st+1

学生答案:A;B;C;E

老师点评:

题型:多选题客观题分值5分难度:简单得分:5

4

DQN算法是基于()算法,结合了价值函数近似与神经网络技术,并采用目标网络和()等方法进行网络训练。

A

深度学习的Sarsa

B

当前网络

C

深度学习的Q-learning

D

经验回放

学生答案:C;D

老师点评:

题型:多选题客观题分值5分难度:简单得分:5

5

DQN中的评论员采用Q函数的话,它的两种写法是()。

A

输入状态和动作,输出一个标量。

B

输入状态和动作,输出多个值。

C

输入一个状态,输出多个值。

D

输入一个状态,输出一个标量。

学生答案:A;C

老师点评:

简答题

题型:简答题主观题分值15分难度:简单得分:15

1

请简述一下DDPG算法?(应包含内容:DDPG网络的结构,输出,相对于DPG的优化目的,至少3个方面的含义,少于三个方面时,每写出一方面得5分,三个方

文档评论(0)

开放大学作业辅导 + 关注
实名认证
服务提供商

江苏开放大学,北京开放大学,西安开放大学,国开,云南开放大学,浙江电大,贵州电大,甘肃电大,兰大网院,四川电大,天津开放大学

1亿VIP精品文档

相关文档