网站大量收购独家精品文档,联系QQ:2885784924

强化学习面试题大全.pdf

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
强化学习⾯试题⼤全 主要参考资料 : datewhale的强化学习教程 : 【强推】 王树 张志华 《深度强化学习》 强化学习概述 简单介绍⼀下强化学习。 强化学习包含环境,动作和奖励三部分,主要讨论的问题是 :在⼀个环境中,⼀个智能体如何根据 ⾃⾝所处的环境状态作出⼀系列动 作,来最⼤化可以获得的奖励。 强化学习和监督学习有哪些区别? (/强化学习相⽐于监督学习难在哪⾥?/强化学习的特点?) 监督学习的输⼊样本往往是独⽴同分布的,也就是相互之间往往没有联系。⽽强化学习的输⼊样本之间往往是序列数据,有顺序关 系。 【例⼦解释 :⽐如监督模型 (图⽚分类CNN)判断⼀张图是不是猫,那么输⼊这张图就够了,不需要输⼊其它的样本,⽐如 狗、马之类的。⽽强化学习的输⼊,⽐如下围棋,下完第⼗个⼦的时候的状态作为⼀个样本,它的结果是会直接影响下完第⼗⼀个 ⼦时的样本的】 【(独⽴同分布是指假设样本空间中全体样本服从⼀个未知分布,每个样本都是独⽴地从这个分布上采样获得 的)】 监督学习对于每个样本往往有正确的对应标签,⽽强化学习获得的是奖励,⽽这个奖励与对错没有绝对关系,可能当下得到的奖励 ⼩甚⾄没有,但是未来可以获得更⼤的奖励 (延时奖励),从⽽让整体奖励最⼤。 强化学习往往有探索利⽤的过程,这是强化学习的特点,监督学习没有。 强化学习和⽆监督学习的异同点? 两者都没有标签,但是强化学习是通过最⼤化奖励来进⾏学习,⽽⽆监督学习往往是寻找数据 ⾃⾝的相关性,或者说寻找其数据的 隐性结构 传统强化学习和深度强化学习的区别? 深度强化学习 = 深度学习+传统强化学习。 强化学习需要让智能体根据 ⾃⼰所在的状态来进⾏决策,⽽传统强化学习这时候往往就需要⼈⼯设计特征来描述状态。⽽深度学习 往往可以直接输⼊原始状态数据,省去了⼈⼯设计特征的步骤 (特征⼯程)。 强化学习中的损失函数与深度学习中的损失函数有什么区别? 深度学习中的损失函数是使预测值和真实值之间的差最⼩化,⽽强化学习的损失函数是使累积奖励 (回报)的期望最⼤化。 描述⼀下序列决策过程。 智能体在环境中做出⼀个动作,获取相应奖励 (也可能没有),这个动作⼜会改变智能体所处的环境状态,然后智能体在新状态下 继续做出动作,以此循环。 把智能体整个过程中每个时刻做出的动作、当时的状态以及奖励串起来就是⼀个序列决策过程。 什么是奖励,和回报的区别是什么? 奖励其实就是环境对智能体的⼀个反馈。 回报其实就是智能体的累积奖励。⼀定要注意强化学习或者智能体的⽬的是最⼤化回报,⽽不是最⼤化奖励。或者说不是最⼤化当 下奖励,⽽是最⼤化全局的累积奖励。 什么是强化学习中的观测?和状态的区别? 观测概念的出现是因为,在有的场景下,智能体并不能完全知晓环境中的状态,⽐如玩⽃地主时并不能完全知道对⾯的牌。因此顾 名思义,⽤观测概念来表⽰智能体是否能完全知晓环境状态,如果可以,就叫完全可观测的,不可以就叫部分可观测。 状态 (state)是对环境的完整描述,不会隐藏环境的信息。观测 (observation)是对状态的部分描述,可能会遗漏⼀些信息。 相应的有⼀个概念叫做部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDP)。 什么是动作空间? 简单讲就是智能体能做出的所有动作。 也分为离散动作空间和连续动作空间。 什么是策略函数和价值函数? 什么是策略函数和价值函数? 策略函数决定智能体⾯对环境不同状态做出各动作的概率 价值函数⼜分为动作价值函数和状态价值函数。动作价值函数表⽰智能体在当前环境下做出某动作的价值 (期望回报/或者说对未 来奖励的⼀个预测),状态价值函数则表⽰在这个状态下,获得的回报的期望。 为什么价值函数需要折扣因⼦? 因为价值函数毕竟是对未来累积奖励的预估,相较于当下就能得到的奖励,未来可以获得的奖励还是具有⼀定的不确定性,这⾥的 折扣因⼦也相当于对未来的不确定性打个折扣 强化学习分类⽅式

文档评论(0)

151****0181 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档