江苏开放大学强化学习060733形考作业2.docx

下载文档

0
0
约2.57千字
约 9页
2025-03-13 发布于福建
举报
版权申诉
保障服务

江苏开放大学强化学习060733形考作业2.docx

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

试题列表

单选题

题型：单选题客观题分值5分难度：简单得分：5

Q表格的概念中，（）

表格中每一个坐标点对应某时刻智能体的状态

以每执行若干步，就对Q表格进行更新

与时间差分法毫无关系

其表示形式是表格，其中表格的横轴为动作（智能体的动作），纵轴为环境的状态。

学生答案：D

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

下列关于策略下状态价值的表达式正确的是（）

注：下列选项中表示策略，表示折扣因?，Rt表示t时刻奖励，St表示t时刻状态，At表示t时刻动作。

学生答案：A

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

动态规划的核心思想是什么？

通过分治将问题拆分为更小的子问题

通过试探和回溯来探索所有可能的解决方案

将问题拆解为子问题并通过存储子问题的解来避免重复计算

通过贪心选择每次局部最优解来得到全局最优解

学生答案：C

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

蒙特卡洛方法（）

蒙特卡洛方法需要马尔可夫决策过程的状态转移函数和奖励函数。

蒙特卡洛方法需要更新多条轨迹的状态。

适用于环境未知的情况。

蒙特卡洛方法与动态规划是一个概念。

学生答案：C

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

Q表格中Q函数的意义是（）

在强化学习里面，我们可以每走一步更新一次Q表格，用下一个状态的Q值来更新当前状态的Q值。

Q表格，一般它的行数是所有动作的数量。

最开始的时候，Q表格会全部初始化任意值。

学生答案：A

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

最佳价值函数是（）

搜索一种策略π，使每个状态的价值最大，V?就是到达每一个状态的极大值。

最佳策略使得最终状态的价值函数取得最大值。

每个马尔可夫决策过程的环境都是可解的，我们就可以得到一个最佳价值函数。

学生答案：A

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

在蒙特卡洛方法中，估计一个问题的期望值通常依赖于：

通过穷举所有可能的情况来计算期望

随机生成多个样本，并计算它们的平均值

通过公式直接计算期望

使用动态规划来避免重复计算

学生答案：B

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

Bellman方程在计算Q(s,a)时，折扣因子γ的作用是什么？

它决定了未来奖励的重要性

它用来衡量当前奖励的重要性

它是奖励的直接来源

它只影响状态的转换

学生答案：A

老师点评：

题型：单选题客观题分值5分难度：一般得分：5

下列关于状态价值V(s)的表达式正确的是（）

注：下列选项中表示策略，表示折扣因?，表示t时刻奖励，表示t时刻状态，表示t时刻动作。

学生答案：D

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

概率函数和奖励函数的说法正确的是（）

无法表现环境的随机性

概率函数定量地表达状态转移的概率

一个未知的环境中，即概率函数未知的，但是奖励函数是已知的

学生答案：B

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

在三连棋游戏中，如果玩家的第?步棋选择?中间，那么下列分析错误的是（）

电脑下?步选择?或边的概率各为1/2。

若电脑选择边，则?类玩家有必胜策略。

若电脑选择?，则?类玩家的最佳动作是选择边，有的概率可以获胜。

可以获得的期望奖励为1*1/2+1*(1/2)*(2/3)=5/6。

学生答案：C

老师点评：

题型：单选题客观题分值5分难度：简单得分：5

Q-learning算法中，Q函数是

状态-动作值函数

状态函数

估值函数

奖励函数

学生答案：A

老师点评：

多选题

题型：多选题客观题分值5分难度：简单得分：5

在强化学习中，以下哪些因素会影响状态-动作价值函数Q(s,a)的计算？

当前状态s和动作a

状态转移概率

即时奖励R(s,a)

折扣因子γ

未来状态s及其对应的动作a的价值

学生答案：A；B；C；D；E

老师点评：

题型：多选题客观题分值5分难度：简单得分：5

Gym实验环境库中，离散空间用（）表示，连续空间用（）表示。

env.observation_space

env.action_space

env.space.Discrete

env.space.Box

学生答案：C；D

老师点评：

题型：多选题客观题分值5分难度：简单得分：5

对于Gym实验环境库，使用（）指令可以加载环境，使用（）可

您可能关注的文档

文档评论（0）

开放大学作业辅导 + 关注: 实名认证

服务提供商

江苏开放大学,北京开放大学，西安开放大学，国开，云南开放大学，浙江电大，贵州电大，甘肃电大，兰大网院，四川电大，天津开放大学

咨询作者（20人已咨询）服务中

1亿VIP精品文档

更多 >

江苏开放大学强化学习060733形考作业2.docx