- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
强化学习⾯试题⼤全
主要参考资料 :
datewhale的强化学习教程 : 【强推】
王树 张志华 《深度强化学习》
强化学习概述
简单介绍⼀下强化学习。
强化学习包含环境,动作和奖励三部分,主要讨论的问题是 :在⼀个环境中,⼀个智能体如何根据 ⾃⾝所处的环境状态作出⼀系列动
作,来最⼤化可以获得的奖励。
强化学习和监督学习有哪些区别? (/强化学习相⽐于监督学习难在哪⾥?/强化学习的特点?)
监督学习的输⼊样本往往是独⽴同分布的,也就是相互之间往往没有联系。⽽强化学习的输⼊样本之间往往是序列数据,有顺序关
系。 【例⼦解释 :⽐如监督模型 (图⽚分类CNN)判断⼀张图是不是猫,那么输⼊这张图就够了,不需要输⼊其它的样本,⽐如
狗、马之类的。⽽强化学习的输⼊,⽐如下围棋,下完第⼗个⼦的时候的状态作为⼀个样本,它的结果是会直接影响下完第⼗⼀个
⼦时的样本的】 【(独⽴同分布是指假设样本空间中全体样本服从⼀个未知分布,每个样本都是独⽴地从这个分布上采样获得
的)】
监督学习对于每个样本往往有正确的对应标签,⽽强化学习获得的是奖励,⽽这个奖励与对错没有绝对关系,可能当下得到的奖励
⼩甚⾄没有,但是未来可以获得更⼤的奖励 (延时奖励),从⽽让整体奖励最⼤。
强化学习往往有探索利⽤的过程,这是强化学习的特点,监督学习没有。
强化学习和⽆监督学习的异同点?
两者都没有标签,但是强化学习是通过最⼤化奖励来进⾏学习,⽽⽆监督学习往往是寻找数据 ⾃⾝的相关性,或者说寻找其数据的
隐性结构
传统强化学习和深度强化学习的区别?
深度强化学习 = 深度学习+传统强化学习。
强化学习需要让智能体根据 ⾃⼰所在的状态来进⾏决策,⽽传统强化学习这时候往往就需要⼈⼯设计特征来描述状态。⽽深度学习
往往可以直接输⼊原始状态数据,省去了⼈⼯设计特征的步骤 (特征⼯程)。
强化学习中的损失函数与深度学习中的损失函数有什么区别?
深度学习中的损失函数是使预测值和真实值之间的差最⼩化,⽽强化学习的损失函数是使累积奖励 (回报)的期望最⼤化。
描述⼀下序列决策过程。
智能体在环境中做出⼀个动作,获取相应奖励 (也可能没有),这个动作⼜会改变智能体所处的环境状态,然后智能体在新状态下
继续做出动作,以此循环。
把智能体整个过程中每个时刻做出的动作、当时的状态以及奖励串起来就是⼀个序列决策过程。
什么是奖励,和回报的区别是什么?
奖励其实就是环境对智能体的⼀个反馈。
回报其实就是智能体的累积奖励。⼀定要注意强化学习或者智能体的⽬的是最⼤化回报,⽽不是最⼤化奖励。或者说不是最⼤化当
下奖励,⽽是最⼤化全局的累积奖励。
什么是强化学习中的观测?和状态的区别?
观测概念的出现是因为,在有的场景下,智能体并不能完全知晓环境中的状态,⽐如玩⽃地主时并不能完全知道对⾯的牌。因此顾
名思义,⽤观测概念来表⽰智能体是否能完全知晓环境状态,如果可以,就叫完全可观测的,不可以就叫部分可观测。
状态 (state)是对环境的完整描述,不会隐藏环境的信息。观测 (observation)是对状态的部分描述,可能会遗漏⼀些信息。
相应的有⼀个概念叫做部分可观测马尔可夫决策过程(Partially Observable Markov Decision Processes, POMDP)。
什么是动作空间?
简单讲就是智能体能做出的所有动作。
也分为离散动作空间和连续动作空间。
什么是策略函数和价值函数?
什么是策略函数和价值函数?
策略函数决定智能体⾯对环境不同状态做出各动作的概率
价值函数⼜分为动作价值函数和状态价值函数。动作价值函数表⽰智能体在当前环境下做出某动作的价值 (期望回报/或者说对未
来奖励的⼀个预测),状态价值函数则表⽰在这个状态下,获得的回报的期望。
为什么价值函数需要折扣因⼦?
因为价值函数毕竟是对未来累积奖励的预估,相较于当下就能得到的奖励,未来可以获得的奖励还是具有⼀定的不确定性,这⾥的
折扣因⼦也相当于对未来的不确定性打个折扣
强化学习分类⽅式
您可能关注的文档
最近下载
- 项目管理知识体系指南.pptx VIP
- 2025年春季学期开学思政第一课:以科技创新铸就民族复兴之魂7篇.pdf
- 青海电网新型储能电站调度运行管理办法-10.10.docx VIP
- (部编版一年级语文下册生字练字帖).pdf
- 计算机控制系统课后习题答案1.pdf VIP
- GB_T 31497-2024 信息技术 安全技术 信息安全管理 监视、测量、分析和评价.pdf
- 《企业现金流量管理国内外文献综述》4000字.docx
- 《公共管理》教学大纲(本科).pdf VIP
- GB55015-2021 建筑节能与可再生能源利用通用规范.docx
- 《电机学》(华中科技大学)中国大学MOOC(慕课)章节测验试题(答案).pdf
文档评论(0)