强化学习面试题大全.pdf

下载文档

89
0
约5.04千字
约 3页
2023-09-23 发布于湖北
举报
版权申诉
保障服务

强化学习面试题大全.pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

强化学习⾯试题⼤全主要参考资料： datewhale的强化学习教程：【强推】王树张志华《深度强化学习》强化学习概述简单介绍⼀下强化学习。强化学习包含环境,动作和奖励三部分，主要讨论的问题是：在⼀个环境中，⼀个智能体如何根据⾃⾝所处的环境状态作出⼀系列动作，来最⼤化可以获得的奖励。强化学习和监督学习有哪些区别？（/强化学习相⽐于监督学习难在哪⾥？/强化学习的特点？）监督学习的输⼊样本往往是独⽴同分布的，也就是相互之间往往没有联系。⽽强化学习的输⼊样本之间往往是序列数据，有顺序关系。【例⼦解释：⽐如监督模型（图⽚分类CNN）判断⼀张图是不是猫，那么输⼊这张图就够了，不需要输⼊其它的样本，⽐如狗、马之类的。⽽强化学习的输⼊，⽐如下围棋，下完第⼗个⼦的时候的状态作为⼀个样本，它的结果是会直接影响下完第⼗⼀个⼦时的样本的】【（独⽴同分布是指假设样本空间中全体样本服从⼀个未知分布，每个样本都是独⽴地从这个分布上采样获得的）】监督学习对于每个样本往往有正确的对应标签，⽽强化学习获得的是奖励，⽽这个奖励与对错没有绝对关系，可能当下得到的奖励⼩甚⾄没有，但是未来可以获得更⼤的奖励（延时奖励），从⽽让整体奖励最⼤。强化学习往往有探索利⽤的过程，这是强化学习的特点，监督学习没有。强化学习和⽆监督学习的异同点？两者都没有标签，但是强化学习是通过最⼤化奖励来进⾏学习，⽽⽆监督学习往往是寻找数据⾃⾝的相关性，或者说寻找其数据的隐性结构传统强化学习和深度强化学习的区别？深度强化学习 = 深度学习+传统强化学习。强化学习需要让智能体根据⾃⼰所在的状态来进⾏决策，⽽传统强化学习这时候往往就需要⼈⼯设计特征来描述状态。⽽深度学习往往可以直接输⼊原始状态数据，省去了⼈⼯设计特征的步骤（特征⼯程）。强化学习中的损失函数与深度学习中的损失函数有什么区别? 深度学习中的损失函数是使预测值和真实值之间的差最⼩化，⽽强化学习的损失函数是使累积奖励（回报）的期望最⼤化。描述⼀下序列决策过程。智能体在环境中做出⼀个动作，获取相应奖励（也可能没有），这个动作⼜会改变智能体所处的环境状态，然后智能体在新状态下继续做出动作，以此循环。把智能体整个过程中每个时刻做出的动作、当时的状态以及奖励串起来就是⼀个序列决策过程。什么是奖励，和回报的区别是什么？奖励其实就是环境对智能体的⼀个反馈。回报其实就是智能体的累积奖励。⼀定要注意强化学习或者智能体的⽬的是最⼤化回报，⽽不是最⼤化奖励。或者说不是最⼤化当下奖励，⽽是最⼤化全局的累积奖励。什么是强化学习中的观测？和状态的区别？观测概念的出现是因为，在有的场景下，智能体并不能完全知晓环境中的状态，⽐如玩⽃地主时并不能完全知道对⾯的牌。因此顾名思义，⽤观测概念来表⽰智能体是否能完全知晓环境状态，如果可以，就叫完全可观测的，不可以就叫部分可观测。状态（state）是对环境的完整描述，不会隐藏环境的信息。观测（observation）是对状态的部分描述，可能会遗漏⼀些信息。相应的有⼀个概念叫做部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDP)。什么是动作空间？简单讲就是智能体能做出的所有动作。也分为离散动作空间和连续动作空间。什么是策略函数和价值函数？什么是策略函数和价值函数？策略函数决定智能体⾯对环境不同状态做出各动作的概率价值函数⼜分为动作价值函数和状态价值函数。动作价值函数表⽰智能体在当前环境下做出某动作的价值（期望回报/或者说对未来奖励的⼀个预测），状态价值函数则表⽰在这个状态下，获得的回报的期望。为什么价值函数需要折扣因⼦？因为价值函数毕竟是对未来累积奖励的预估，相较于当下就能得到的奖励，未来可以获得的奖励还是具有⼀定的不确定性，这⾥的折扣因⼦也相当于对未来的不确定性打个折扣强化学习分类⽅式