- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
5.2.3强化学习1.重要术语1)智能体(Agent)。是一个假定的实体,可以在环境中执行操作以获取一定的回报。2)环境(Environment)。智能体所处的场景。3)奖励(Reward)。当执行特定动作或任务时,给予智能体的回报,即:环境的即时返回值。4)状态(State)。环境的当前情况。5)策略(Policy,π)。智能体根据当前状态决定下一步动作的策略,智能体程序可根据该策略决定当前状态下的下一个操作。6)价值(Value)。折扣(Discount)下的长期期望回报,与奖励代表的短期回报相区分,价值则被定义为策略π下当前状态的期望长期返回值。7)价值函数(ValueFunction)。指定状态的值,即奖励的总额。8)环境模型。模拟环境的行为,可以进行推断并确定环境的行为方式。9)Q值或动作值。Q值与价值相似,不同点在于它还多一个参数,也就是当前动作。指当前状态下在策略π下采取某一动作的长期回报。5.2机器学习基础理论5.2.3强化学习2.强化学习概述以向猫传授新技能为例。由于猫不懂中文或任何其他人类语言,因此,无法直接告诉它“做什么”或“不做什么”。但是,我们可以采用不同的策略模拟一种情况,而猫试图以多种不同的方式做出反应。猫是环境中的Agent,家就是猫所处的环境。“坐着”是猫(Agent)的一种状态,而人们在其中使用特定的命令让猫“走路”。Agent通过执行从一个“状态”到另一个“状态”的动作转换来做出反应。5.2机器学习基础理论例如,猫从坐着到走路。智能体(Agent)的反应是一种行动,而策略是一种在给定状态的情况下选择行动的方法,以期获得更好的结果。猫从“坐着”这个状态转换到“走路”这个状态,它会获得奖励(有鱼吃),或由于“坐着不动”而受到惩罚(没有鱼吃)。5.2.3强化学习3.实现强化学习算法的方法实现强化学习算法的三种常见方法如下:1)基于价值的方法。在基于价值的强化学习方法中,应尝试最大化价值函数。在这种方法中,智能体期望策略π下的当前状态得到长期回报。2)基于策略的方法。在基于策略的强化学习方法中,尝试提出一种策略,以使在每个状态下执行的操作都可以在将来获得最大的回报。基于策略的方法有两种:一是确定性策略方法,对于任何状态,策略π都会产生相同的动作。二是随机策略方法,每个动作都有一定的概率。3)基于模型的方法。在这种强化学习方法中,需要为每个环境创建一个虚拟模型,智能体在特定的环境中学习执行任务。5.2机器学习基础理论5.3.1感知器感知器(Perceptron,P)是一种仿照人类大脑的功能进行建模的二进制分类算法,旨在模拟大脑神经元。感知器虽然结构简单,但却具有学习和解决非常复杂问题的能力,图中,x=(x1,x2,x3)为输入向量,y为输出,w=(w1,w2,w3)为权重向量,b为偏置,f为激活函数,激活函数将输出约束到很少的几个值,常用的是输出是0和1。如下式中的函数f是一个非常简单的激活函数:输入训练样本x和初始权重向量w和偏置b,将其进行向量的点乘,然后将点乘求和的结果作用于激活函数f的输入,得到预测输出y,根据预测输出值和实际输出值之间的差距,来调整初始化权重向量w和偏置b。如此反复,直到w和b调整到得到合适的输出结果为止。5.3深度学习基础5.3.1感知器多层感知器(MultilayerPerceptron,MLP)包括多个感知器,它们以多层形式组织,可以求解更复杂的问题。多层感知器是一种前馈人工神经网络模型,其将输入的多个数据集映射到单一的输出的数据集上。一个MLP包含一个输入层,至少一个隐含层和一个输出层。5.3深度学习基础5.3.2神经网络人工神经网络(ArtificialNeuralNetwork,ANN)是由大量称为神经元或感知器的简单元素构成的监督学习系统。每个神经元都可做出简单的决策,并将这些决策传递到以互连层组织的其它神经元。有了足够的训练样本和计算能力,神经网络可以模拟几乎所有功能,并回答几乎任何问题。神经网络分为“浅层”网络和“深层”网络。“浅层”神经网络只有三层神经元:1)第一层是输入层,接收模型的自变量输入。2)第二层是隐含层,只有一层。3)第三层是输出层,输出预测的结果。5.3深度学习基础5.3.
您可能关注的文档
最近下载
- 社会心理指导师理论考试复习题库(含答案).docx VIP
- 社会心理指导师理论考试复习题库资料(含答案).pdf VIP
- 社会心理指导师考试题库.doc VIP
- 起重装卸机械操作工(叉车司机)四级(中级工)理论题库.docx VIP
- 2025年年基础电信企业专业公司网络与信息安全工作考核要点与评分.pdf VIP
- 交通事故中二次撞击现象法律分析.doc VIP
- 2025高考语文64篇古诗文理解性默写.docx VIP
- 2024-2025学年江苏省苏州市高一(上)期中数学试卷(含答案).pdf VIP
- 城投集团招投标管理办法(2020修订).docx VIP
- 代谢性血管疾病的发病机制与防治策略.pdf VIP
文档评论(0)