强化学习的数学原理_西湖大学中国大学mooc章节课后测试答案期末考试题库2024年.docxVIP

  • 5
  • 0
  • 约4.61千字
  • 约 6页
  • 2025-06-20 发布于浙江
  • 举报

强化学习的数学原理_西湖大学中国大学mooc章节课后测试答案期末考试题库2024年.docx

强化学习的数学原理_西湖大学中国大学mooc章节课后测试答案期末考试题库2024年

关于advantageactor-critic(A2C)方法,哪种描述是错误的?

答案:能够最小化方差的最优基线是状态值

关于actor-critic方法,哪种描述是错误的?

答案:Actor-critic方法是一种基于值(value-based)的方法

关于策略梯度,哪一个描述是错误的?

答案:策略梯度中不涉及任何状态值或者动作值,因此可以在不需要估计值的情况下找到最优策略

关于策略梯度方法中的目标函数,哪一种描述是错误的?

答案:本次课我们详细介绍了如何推导目标函数的梯度

关于我们今天学习的Q-learning(非DQN)算法的描述哪一个是错误的?

答案:它可以估计给定策略的动作值

关于我们今天学习的Sarsa算法的描述哪一个是错误的?

答案:它可以估计给定策略的状态值

关于TD线性算法(theTD-linearalgorithm)的描述哪一个是错误的?

答案:TD线性算法可以直接更新状态值

我们可以在之前介绍的基于表格的Q-learning算法中使用经验回放(experiencereplay)吗?

答案:可以,因为Q-learning是off-policy的

本节课程中我们是否仍在学习时序差分(TD)方法?

答案:是的,但我们使用函数表示而不是表格表示

当使用函数来表示值的时候,如何更改某一个状态的值?

答案:我们需要通过更改参数w来间接更改该状态的值

表格形式和函数形式可以统一吗?

答案:可以,表格表示可以看作是函数表示的特例

为什么deepQ-learning需要两个网络?

答案:因为很难直接计算目标函数的梯度

关于TD和Sarsa算法之间关系的描述哪一个说法是错误的?

答案:它们都估计状态值

以下哪项说法是错误的?

答案:Sarsa可以估计给定策略的状态值

关于时序差分(TD)算法的描述,哪一项是错误的?

答案:TD算法是一种用于求解贝尔曼最优方程的无模型算法

关于TD算法的描述,哪一项是错误的?

答案:即使一个状态/动作在经验样本中没有被访问,它的状态/动作值也可以被估计

关于TDlearning和MClearning的描述哪一个是错误的?

答案:TDlearning可以找到最优策略,而MClearning不可以

在本节课程中,我们展示的网格世界的例子与之前课程中展示的例子不同。关于其不同点,下列哪一项说法是错误的?

答案:它之所以不同,是因为它使用ε-greedy策略来生成经验数据

关于n-stepSarsa的描述,哪一个是错误的?

答案:Q-learning也是n-stepSarsa的特殊情况

关于off-policy和on-policy的描述哪一个是错误的?

答案:Off-policy的算法必须要求Behaviorpolicy和Targetpolicy不同

关于随机梯度下降(SGD)、小批量梯度下降(MBGD)和梯度下降(GD)的描述哪一些是正确的?(可多选)

答案:SGD使用随机梯度来替换GD算法中的真实梯度_SGD是一种特殊的MBGD算法_SGD可以仅使用一个样本来计算随机梯度_MBGD使用多个样本来计算随机梯度

SGD算法和RM算法之间有什么关系?

答案:SGD是一种特殊的RM算法

关于随机梯度下降(SGD)的描述哪一个是错误的?

答案:SGD是一种求解方程根的算法

关于SGD算法能否收敛的描述哪一个是错误的?

答案:由于SGD使用随机梯度随机性很大,因此无法保证收敛性

关于SGD算法收敛过程的描述哪一个是错误的?

答案:由于随机梯度不准确,SGD总是表现出很强的随机性

为什么说增量式均值估计算法(incrementalmeanestimationalgorithm)是一种特殊的SGD算法?

答案:如果我们考虑一个特殊的目标函数,那么相应的SGD算法的表达式与增量式均值估计算法相同

关于Robbins-Monro(RM)算法的描述哪一个是错误的?

答案:它是增量式均值估计算法的一种特殊形式

为什么我们在本次课程中再次考虑均值估计(meanestimation)?哪个描述是错误的。

答案:因为它可以帮助我们更好地理解大数定律

关于我们为什么需要学习随机近似(stochasticapproximation)的原因,下列哪个描述是错误的?

答案:因为它是一种重要的强化学习算法

MCBasic算法是如何得到的?

答案:它是通过修改“策略迭代”算法得到的

关于“ExploringStarts”的描述哪一个是错误的?

答案:它要求在单个episode中,每个状态都必须被访问到

为什么ε-greedy策略能够避开ExploringStarts的要求?(多选题)

答案:因

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档