网站大量收购独家精品文档,联系QQ:2885784924

江苏开放大学强化学习060733形考作业2.docx

江苏开放大学强化学习060733形考作业2.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

试题列表

单选题

题型:单选题客观题分值5分难度:简单得分:5

1

Q表格的概念中,()

A

表格中每一个坐标点对应某时刻智能体的状态

B

以每执行若干步,就对Q表格进行更新

C

与时间差分法毫无关系

D

其表示形式是表格,其中表格的横轴为动作(智能体的动作),纵轴为环境的状态。

学生答案:D

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

2

下列关于策略下状态价值的表达式正确的是()

注:下列选项中表示策略,表示折扣因?,Rt表示t时刻奖励,St表示t时刻状态,At表示t时刻动作。

A

B

C

D

学生答案:A

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

3

动态规划的核心思想是什么?

A

通过分治将问题拆分为更小的子问题

B

通过试探和回溯来探索所有可能的解决方案

C

将问题拆解为子问题并通过存储子问题的解来避免重复计算

D

通过贪心选择每次局部最优解来得到全局最优解

学生答案:C

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

4

蒙特卡洛方法()

A

蒙特卡洛方法需要马尔可夫决策过程的状态转移函数和奖励函数。

B

蒙特卡洛方法需要更新多条轨迹的状态。

C

适用于环境未知的情况。

D

蒙特卡洛方法与动态规划是一个概念。

学生答案:C

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

5

Q表格中Q函数的意义是()

A

在强化学习里面,我们可以每走一步更新一次Q表格,用下一个状态的Q值来更新当前状态的Q值。

B

Q表格,一般它的行数是所有动作的数量。

C

最开始的时候,Q表格会全部初始化任意值。

学生答案:A

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

6

最佳价值函数是()

A

搜索一种策略π,使每个状态的价值最大,V?就是到达每一个状态的极大值。

B

最佳策略使得最终状态的价值函数取得最大值。

C

每个马尔可夫决策过程的环境都是可解的,我们就可以得到一个最佳价值函数。

学生答案:A

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

7

在蒙特卡洛方法中,估计一个问题的期望值通常依赖于:

A

通过穷举所有可能的情况来计算期望

B

随机生成多个样本,并计算它们的平均值

C

通过公式直接计算期望

D

使用动态规划来避免重复计算

学生答案:B

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

8

Bellman方程在计算Q(s,a)时,折扣因子γ的作用是什么?

A

它决定了未来奖励的重要性

B

它用来衡量当前奖励的重要性

C

它是奖励的直接来源

D

它只影响状态的转换

学生答案:A

老师点评:

题型:单选题客观题分值5分难度:一般得分:5

9

下列关于状态价值V(s)的表达式正确的是()

注:下列选项中表示策略,表示折扣因?,表示t时刻奖励,表示t时刻状态,表示t时刻动作。

A

B

C

D

学生答案:D

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

10

概率函数和奖励函数的说法正确的是()

A

无法表现环境的随机性

B

概率函数定量地表达状态转移的概率

C

一个未知的环境中,即概率函数未知的,但是奖励函数是已知的

学生答案:B

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

11

在三连棋游戏中,如果玩家的第?步棋选择?中间,那么下列分析错误的是()

A

电脑下?步选择?或边的概率各为1/2。

B

若电脑选择边,则?类玩家有必胜策略。

C

若电脑选择?,则?类玩家的最佳动作是选择边,有的概率可以获胜。

D

可以获得的期望奖励为1*1/2+1*(1/2)*(2/3)=5/6。

学生答案:C

老师点评:

题型:单选题客观题分值5分难度:简单得分:5

12

Q-learning算法中,Q函数是

A

状态-动作值函数

B

状态函数

C

估值函数

D

奖励函数

学生答案:A

老师点评:

多选题

题型:多选题客观题分值5分难度:简单得分:5

1

在强化学习中,以下哪些因素会影响状态-动作价值函数Q(s,a)的计算?

A

当前状态s和动作a

B

状态转移概率

C

即时奖励R(s,a)

D

折扣因子γ

E

未来状态s及其对应的动作a的价值

学生答案:A;B;C;D;E

老师点评:

题型:多选题客观题分值5分难度:简单得分:5

2

Gym实验环境库中,离散空间用()表示,连续空间用()表示。

A

env.observation_space

B

env.action_space

C

env.space.Discrete

D

env.space.Box

学生答案:C;D

老师点评:

题型:多选题客观题分值5分难度:简单得分:5

3

对于Gym实验环境库,使用()指令可以加载环境,使用()可

文档评论(0)

开放大学作业辅导 + 关注
实名认证
服务提供商

江苏开放大学,北京开放大学,西安开放大学,国开,云南开放大学,浙江电大,贵州电大,甘肃电大,兰大网院,四川电大,天津开放大学

1亿VIP精品文档

相关文档