智能科学与技术导论第5章机器学习及其应用.pptVIP

下载本文档

1
0
约1.96万字
约 53页
2025-05-26 发布于甘肃
举报
版权申诉

智能科学与技术导论第5章机器学习及其应用.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

5.2.3强化学习1.重要术语1）智能体（Agent）。是一个假定的实体，可以在环境中执行操作以获取一定的回报。2）环境（Environment）。智能体所处的场景。3）奖励（Reward）。当执行特定动作或任务时，给予智能体的回报，即：环境的即时返回值。4）状态（State）。环境的当前情况。5）策略（Policy，π）。智能体根据当前状态决定下一步动作的策略，智能体程序可根据该策略决定当前状态下的下一个操作。6）价值（Value）。折扣（Discount）下的长期期望回报，与奖励代表的短期回报相区分，价值则被定义为策略π下当前状态的期望长期返回值。7）价值函数（ValueFunction）。指定状态的值，即奖励的总额。8）环境模型。模拟环境的行为，可以进行推断并确定环境的行为方式。9）Q值或动作值。Q值与价值相似，不同点在于它还多一个参数，也就是当前动作。指当前状态下在策略π下采取某一动作的长期回报。5.2机器学习基础理论5.2.3强化学习2.强化学习概述以向猫传授新技能为例。由于猫不懂中文或任何其他人类语言，因此，无法直接告诉它“做什么”或“不做什么”。但是，我们可以采用不同的策略模拟一种情况，而猫试图以多种不同的方式做出反应。猫是环境中的Agent，家就是猫所处的环境。“坐着”是猫（Agent）的一种状态，而人们在其中使用特定的命令让猫“走路”。Agent通过执行从一个“状态”到另一个“状态”的动作转换来做出反应。5.2机器学习基础理论例如，猫从坐着到走路。智能体（Agent）的反应是一种行动，而策略是一种在给定状态的情况下选择行动的方法，以期获得更好的结果。猫从“坐着”这个状态转换到“走路”这个状态，它会获得奖励（有鱼吃），或由于“坐着不动”而受到惩罚（没有鱼吃）。5.2.3强化学习3.实现强化学习算法的方法实现强化学习算法的三种常见方法如下：1）基于价值的方法。在基于价值的强化学习方法中，应尝试最大化价值函数。在这种方法中，智能体期望策略π下的当前状态得到长期回报。2）基于策略的方法。在基于策略的强化学习方法中，尝试提出一种策略，以使在每个状态下执行的操作都可以在将来获得最大的回报。基于策略的方法有两种：一是确定性策略方法，对于任何状态，策略π都会产生相同的动作。二是随机策略方法，每个动作都有一定的概率。3）基于模型的方法。在这种强化学习方法中，需要为每个环境创建一个虚拟模型，智能体在特定的环境中学习执行任务。5.2机器学习基础理论5.3.1感知器感知器（Perceptron，P）是一种仿照人类大脑的功能进行建模的二进制分类算法，旨在模拟大脑神经元。感知器虽然结构简单，但却具有学习和解决非常复杂问题的能力，图中，x=(x1,x2,x3)为输入向量，y为输出，w=(w1,w2,w3)为权重向量，b为偏置，f为激活函数，激活函数将输出约束到很少的几个值，常用的是输出是0和1。如下式中的函数f是一个非常简单的激活函数：输入训练样本x和初始权重向量w和偏置b，将其进行向量的点乘，然后将点乘求和的结果作用于激活函数f的输入，得到预测输出y，根据预测输出值和实际输出值之间的差距，来调整初始化权重向量w和偏置b。如此反复，直到w和b调整到得到合适的输出结果为止。5.3深度学习基础5.3.1感知器多层感知器（MultilayerPerceptron，MLP）包括多个感知器，它们以多层形式组织，可以求解更复杂的问题。多层感知器是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。一个MLP包含一个输入层，至少一个隐含层和一个输出层。5.3深度学习基础5.3.2神经网络人工神经网络（ArtificialNeuralNetwork，ANN）是由大量称为神经元或感知器的简单元素构成的监督学习系统。每个神经元都可做出简单的决策，并将这些决策传递到以互连层组织的其它神经元。有了足够的训练样本和计算能力，神经网络可以模拟几乎所有功能，并回答几乎任何问题。神经网络分为“浅层”网络和“深层”网络。“浅层”神经网络只有三层神经元：1）第一层是输入层，接收模型的自变量输入。2）第二层是隐含层，只有一层。3）第三层是输出层，输出预测的结果。5.3深度学习基础5.3.

您可能关注的文档

文档评论（0）

dllkxy + 关注: 实名认证

文档贡献者

本文库主要涉及建筑、教育等资料，有问题可以联系解决哦

咨询Ta 进入空间

用户编号：5213302032000001

1亿VIP精品文档

更多 >

智能科学与技术导论第5章机器学习及其应用.pptVIP