强化学习的数学原理_西湖大学中国大学mooc章节课后测试答案期末考试题库2024年.docxVIP

下载本文档

5
0
约4.61千字
约 6页
2025-06-20 发布于浙江
举报

强化学习的数学原理_西湖大学中国大学mooc章节课后测试答案期末考试题库2024年.docx

强化学习的数学原理_西湖大学中国大学mooc章节课后测试答案期末考试题库2024年

关于advantageactor-critic(A2C)方法，哪种描述是错误的？

答案:能够最小化方差的最优基线是状态值

关于actor-critic方法，哪种描述是错误的？

答案:Actor-critic方法是一种基于值（value-based）的方法

关于策略梯度，哪一个描述是错误的？

答案:策略梯度中不涉及任何状态值或者动作值，因此可以在不需要估计值的情况下找到最优策略

关于策略梯度方法中的目标函数，哪一种描述是错误的？

答案:本次课我们详细介绍了如何推导目标函数的梯度

关于我们今天学习的Q-learning（非DQN）算法的描述哪一个是错误的？

答案:它可以估计给定策略的动作值

关于我们今天学习的Sarsa算法的描述哪一个是错误的？

答案:它可以估计给定策略的状态值

关于TD线性算法（theTD-linearalgorithm）的描述哪一个是错误的？

答案:TD线性算法可以直接更新状态值

我们可以在之前介绍的基于表格的Q-learning算法中使用经验回放（experiencereplay）吗？

答案:可以，因为Q-learning是off-policy的

本节课程中我们是否仍在学习时序差分（TD）方法？

答案:是的，但我们使用函数表示而不是表格表示

当使用函数来表示值的时候，如何更改某一个状态的值？

答案:我们需要通过更改参数w来间接更改该状态的值

表格形式和函数形式可以统一吗？

答案:可以，表格表示可以看作是函数表示的特例

为什么deepQ-learning需要两个网络？

答案:因为很难直接计算目标函数的梯度

关于TD和Sarsa算法之间关系的描述哪一个说法是错误的？

答案:它们都估计状态值

以下哪项说法是错误的？

答案:Sarsa可以估计给定策略的状态值

关于时序差分（TD）算法的描述，哪一项是错误的？

答案:TD算法是一种用于求解贝尔曼最优方程的无模型算法

关于TD算法的描述，哪一项是错误的？

答案:即使一个状态/动作在经验样本中没有被访问，它的状态/动作值也可以被估计

关于TDlearning和MClearning的描述哪一个是错误的？

答案:TDlearning可以找到最优策略，而MClearning不可以

在本节课程中，我们展示的网格世界的例子与之前课程中展示的例子不同。关于其不同点，下列哪一项说法是错误的？

答案:它之所以不同，是因为它使用ε-greedy策略来生成经验数据

关于n-stepSarsa的描述，哪一个是错误的？

答案:Q-learning也是n-stepSarsa的特殊情况

关于off-policy和on-policy的描述哪一个是错误的？

答案:Off-policy的算法必须要求Behaviorpolicy和Targetpolicy不同

关于随机梯度下降（SGD）、小批量梯度下降（MBGD）和梯度下降（GD）的描述哪一些是正确的？（可多选）

答案:SGD使用随机梯度来替换GD算法中的真实梯度_SGD是一种特殊的MBGD算法_SGD可以仅使用一个样本来计算随机梯度_MBGD使用多个样本来计算随机梯度

SGD算法和RM算法之间有什么关系？

答案:SGD是一种特殊的RM算法

关于随机梯度下降（SGD）的描述哪一个是错误的？

答案:SGD是一种求解方程根的算法

关于SGD算法能否收敛的描述哪一个是错误的？

答案:由于SGD使用随机梯度随机性很大，因此无法保证收敛性

关于SGD算法收敛过程的描述哪一个是错误的？

答案:由于随机梯度不准确，SGD总是表现出很强的随机性

为什么说增量式均值估计算法（incrementalmeanestimationalgorithm）是一种特殊的SGD算法？

答案:如果我们考虑一个特殊的目标函数，那么相应的SGD算法的表达式与增量式均值估计算法相同

关于Robbins-Monro（RM）算法的描述哪一个是错误的？

答案:它是增量式均值估计算法的一种特殊形式

为什么我们在本次课程中再次考虑均值估计（meanestimation）？哪个描述是错误的。

答案:因为它可以帮助我们更好地理解大数定律

关于我们为什么需要学习随机近似（stochasticapproximation）的原因，下列哪个描述是错误的？

答案:因为它是一种重要的强化学习算法

MCBasic算法是如何得到的？

答案:它是通过修改“策略迭代”算法得到的

关于“ExploringStarts”的描述哪一个是错误的？

答案:它要求在单个episode中，每个状态都必须被访问到

为什么ε-greedy策略能够避开ExploringStarts的要求？（多选题）

答案:因

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

强化学习的数学原理_西湖大学中国大学mooc章节课后测试答案期末考试题库2024年.docxVIP