- 5
- 0
- 约4.61千字
- 约 6页
- 2025-06-20 发布于浙江
- 举报
强化学习的数学原理_西湖大学中国大学mooc章节课后测试答案期末考试题库2024年
关于advantageactor-critic(A2C)方法,哪种描述是错误的?
答案:能够最小化方差的最优基线是状态值
关于actor-critic方法,哪种描述是错误的?
答案:Actor-critic方法是一种基于值(value-based)的方法
关于策略梯度,哪一个描述是错误的?
答案:策略梯度中不涉及任何状态值或者动作值,因此可以在不需要估计值的情况下找到最优策略
关于策略梯度方法中的目标函数,哪一种描述是错误的?
答案:本次课我们详细介绍了如何推导目标函数的梯度
关于我们今天学习的Q-learning(非DQN)算法的描述哪一个是错误的?
答案:它可以估计给定策略的动作值
关于我们今天学习的Sarsa算法的描述哪一个是错误的?
答案:它可以估计给定策略的状态值
关于TD线性算法(theTD-linearalgorithm)的描述哪一个是错误的?
答案:TD线性算法可以直接更新状态值
我们可以在之前介绍的基于表格的Q-learning算法中使用经验回放(experiencereplay)吗?
答案:可以,因为Q-learning是off-policy的
本节课程中我们是否仍在学习时序差分(TD)方法?
答案:是的,但我们使用函数表示而不是表格表示
当使用函数来表示值的时候,如何更改某一个状态的值?
答案:我们需要通过更改参数w来间接更改该状态的值
表格形式和函数形式可以统一吗?
答案:可以,表格表示可以看作是函数表示的特例
为什么deepQ-learning需要两个网络?
答案:因为很难直接计算目标函数的梯度
关于TD和Sarsa算法之间关系的描述哪一个说法是错误的?
答案:它们都估计状态值
以下哪项说法是错误的?
答案:Sarsa可以估计给定策略的状态值
关于时序差分(TD)算法的描述,哪一项是错误的?
答案:TD算法是一种用于求解贝尔曼最优方程的无模型算法
关于TD算法的描述,哪一项是错误的?
答案:即使一个状态/动作在经验样本中没有被访问,它的状态/动作值也可以被估计
关于TDlearning和MClearning的描述哪一个是错误的?
答案:TDlearning可以找到最优策略,而MClearning不可以
在本节课程中,我们展示的网格世界的例子与之前课程中展示的例子不同。关于其不同点,下列哪一项说法是错误的?
答案:它之所以不同,是因为它使用ε-greedy策略来生成经验数据
关于n-stepSarsa的描述,哪一个是错误的?
答案:Q-learning也是n-stepSarsa的特殊情况
关于off-policy和on-policy的描述哪一个是错误的?
答案:Off-policy的算法必须要求Behaviorpolicy和Targetpolicy不同
关于随机梯度下降(SGD)、小批量梯度下降(MBGD)和梯度下降(GD)的描述哪一些是正确的?(可多选)
答案:SGD使用随机梯度来替换GD算法中的真实梯度_SGD是一种特殊的MBGD算法_SGD可以仅使用一个样本来计算随机梯度_MBGD使用多个样本来计算随机梯度
SGD算法和RM算法之间有什么关系?
答案:SGD是一种特殊的RM算法
关于随机梯度下降(SGD)的描述哪一个是错误的?
答案:SGD是一种求解方程根的算法
关于SGD算法能否收敛的描述哪一个是错误的?
答案:由于SGD使用随机梯度随机性很大,因此无法保证收敛性
关于SGD算法收敛过程的描述哪一个是错误的?
答案:由于随机梯度不准确,SGD总是表现出很强的随机性
为什么说增量式均值估计算法(incrementalmeanestimationalgorithm)是一种特殊的SGD算法?
答案:如果我们考虑一个特殊的目标函数,那么相应的SGD算法的表达式与增量式均值估计算法相同
关于Robbins-Monro(RM)算法的描述哪一个是错误的?
答案:它是增量式均值估计算法的一种特殊形式
为什么我们在本次课程中再次考虑均值估计(meanestimation)?哪个描述是错误的。
答案:因为它可以帮助我们更好地理解大数定律
关于我们为什么需要学习随机近似(stochasticapproximation)的原因,下列哪个描述是错误的?
答案:因为它是一种重要的强化学习算法
MCBasic算法是如何得到的?
答案:它是通过修改“策略迭代”算法得到的
关于“ExploringStarts”的描述哪一个是错误的?
答案:它要求在单个episode中,每个状态都必须被访问到
为什么ε-greedy策略能够避开ExploringStarts的要求?(多选题)
答案:因
您可能关注的文档
- 诺贝尔奖解析—医学篇_暨南大学中国大学mooc章节课后测试答案期末考试题库2024年.docx
- 诺贝尔生理学或医学奖史话_华中师范大学中国大学mooc章节课后测试答案期末考试题库2024年.docx
- 诺奖经济大师看世界_南昌大学中国大学mooc章节课后测试答案期末考试题库2024年.docx
- 诺奖作家英文作品赏析_哈尔滨工业大学中国大学mooc章节课后测试答案期末考试题库2024年.docx
- 女生穿搭技巧_南昌大学中国大学mooc章节课后测试答案期末考试题库2024年.docx
- 女性中医保健_暨南大学中国大学mooc章节课后测试答案期末考试题库2024年.docx
- 女装结构设计_南通大学中国大学mooc章节课后测试答案期末考试题库2024年.docx
- 女装结构设计_浙江理工大学中国大学mooc章节课后测试答案期末考试题库2024年.docx
- 女子防身术_南昌大学中国大学mooc章节课后测试答案期末考试题库2024年.docx
- 欧洲建筑艺术鉴赏_宁波大学中国大学mooc章节课后测试答案期末考试题库2024年.docx
- 全过程工程管理造价咨询工程监理项目服务方案投标方案(技术部分).doc
- 招标代理服务投标技术服务方案(技术方案).doc
- AI大模型与AIGC技术在公安领域的应用解决方案(99页 PPT).pptx
- 工业4.0智能制造数字工厂规划方案.pptx
- 树立社会主义核心价值观.docx
- 三年(2023-2025)中考历史真题分类汇编(全国)专题21 科技文化与社会生活(解析版).docx
- 2025年中考道德与法治真题完全解读(吉林卷).pdf
- 2025年中考道德与法治真题完全解读(安徽卷).pdf
- 三年(2023-2025)中考历史真题分类汇编(全国)专题14 人民解放战争(解析版).pdf
- 三年(2023-2025)广东中考历史真题分类汇编:专题03 中国近代史(八年级上册)(解析版).docx
最近下载
- 期末专题复习书面表达满分范文必背10篇人教版英语八年级上册(1).docx VIP
- 2026天津市津南创腾经济开发有限公司招聘8人考试笔试参考题库及答案解析.docx VIP
- 四川省成都市双流区2024-2025学年八年级上学期期末历史试题(含答案).docx VIP
- 1岗位操作指南-管家V2.0(A4版)修订稿.pdf VIP
- 山东省菏泽市2024-2025学年高一上学期期末考试语文试题.pdf VIP
- 痤疮护理 ppt课件资料讲解.ppt VIP
- 服装品类商业计划书.pptx VIP
- (正式版)DB15∕T 3202-2023 《高纬度多年冻土区公路工程地质勘察技术规范》.docx VIP
- 160个风机特性曲线.docx VIP
- 月考试卷Unit3-4(试题)人教PEP版英语六年级上册.docx VIP
原创力文档

文档评论(0)