机器学习笔记——强化学习.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

机器学习笔记——强化学习

1.什么是强化学习?

现在的机器学习算法中,⼤多都是学习怎么做。⽽强化学习则是在不断尝试的过程中,寻找在特定情境下选择哪种⾏为可以获得最⼤回报

(Reward)。

.2.强化学习(RL)和监督学习(SL),⽆监督学习(UL)的关系

(1)监督学习就是给⼀个训练集(训练集含有标签)进⾏学习,得出⼀个“函数”,能够对下⼀次新的输⼊准确预测其输出。⽽这种学习

⽅式在交互式学习环境中不太适⽤,举个例⼦:在⼀场很⼤的台风中,不同位置,不同⽅向的风⼒不同,⽽驾驶员也不能单凭某个位置处某

个⽅向的风⼒值进⾏粗略的飞⾏判断⽽就草率⾏事,这个判断将会影响飞机上乘客的安危以及下⼀秒飞机所处的情境,所以这可以说是⼀个

交互式的学习环境,驾驶员需要不断的尝试并学习飞机在不同情境下的状态以便更好的做出下⼀步判断。在这⾥,驾驶员就相当于强化学

习,不断尝试,不断学习,获取该情境下的最⼤回报。这时利⽤RL就⾮常合适,因为RL不是利⽤正确的⾏为来指导,⽽是利⽤已有的训练

信息来对⾏为进⾏评价。

(2)因为RL利⽤的并不是采取正确⾏动的experience,从这⼀点来看和⽆监督的学习确实有点像,但是还是不⼀样的,⽆监督的学习的

⽬的可以说是从⼀堆未标记样本中发现隐藏的结构,⽽RL的⽬的是最⼤化rewardsignal。

(3)所以,总的来说,RL的特点在于:没有监督者,只有⼀个reward信号;反应回馈是延迟的;时间对RL的影响;⼀次的判决将会对后

⾯的data产⽣影响

RL采⽤的是边获得样例边学习的⽅式,在获得样例之后更新⾃⼰的模型,利⽤当前的模型来指导下⼀步的⾏动,下⼀步的⾏动获得reward

之后再更新模型,不断迭代重复直到模型收敛。在这个过程中,⾮常重要的⼀点在于“在已有当前模型的情况下,如果选择下⼀步的⾏动才

对完善当前的模型最有利”,这就涉及到了RL中的两个⾮常重要的概念:探索(exploration)和开发(exploitation),exploration是指

选择之前未执⾏过的actions,从⽽探索更多的可能性;exploitation是指选择已执⾏过的actions,从⽽对已知的actions的模型进⾏完

善。RL⾮常像是“trial-and-errorlearning”,在尝试和试验中发现好的policy。就⽐如下图中的曲线代表函数f(x),它是⼀个未知的

[a,b]的连续函数,现在让你选择⼀个x使得f(x)取的最⼤值,规则是你可以通过⾃⼰给定x来查看其所对应的f(x),假如通过在[a,0]之间的⼏

次尝试你发现在接近x1的时候的值较⼤,于是你想通过在x1附近不断的尝试和逼近来寻找这个可能的“最⼤值”,这个就称为是

exploitation,但是[0,b]之间就是个未探索过的未知的领域,这时选择若选择这⼀部分的点就称为是exploration,如果不进⾏exploration

也许找到的只是个局部的极值。“exploration”与“exploitation”在RL中同样重要,如何在“exploration”与“exploitation”之间权

衡是RL中的⼀个重要的问题和挑战。

在RL中,agents是具有明确的⽬标的,所有的agents都能感知⾃⼰的环境,并根据⽬标来指导⾃⼰的⾏为,因此RL的另⼀个特点是它将

agents和与其交互的不确定的环境视为是⼀个完整的问题。在RL问题中,有四个⾮常重要的概念:

(1)规则(policy)

Policy定义了agents在特定的时间特定的环境下的⾏为⽅式,可以视为是从环境状态到⾏为的映射,常⽤π来表⽰。policy可以分为

两类:

确定性的policy(Deterministicpolicy):a=π(s)

随机性的policy(Stochasticpolicy):π(a|s)=P[At=a|St=t]

其中,t是时间点,t=0,1,2,3,……

St∈S,S是环境状态的集合,St代表时刻t的状态,s代表其中某个特定的状态;

At∈A(St),A(St)是在状态St下的actions的集合,At代表时刻t的⾏为,a代表其中某个特定的⾏为。

(2)奖励信号(arewardsignal)

Reward就是⼀个标量值,是每个timestep中环境根据agent的⾏为返回给agent的信号,reward定义了在该情景下执⾏该⾏为的好

坏,agent可以根据reward来调整⾃⼰的policy。常⽤R来表⽰。

(3)值函数(valuefunction)

文档评论(0)

177****3106 + 关注
实名认证
文档贡献者

大学本科生

1亿VIP精品文档

相关文档