第六章机器学习.ppt

下载文档 降价啦

5
0
约3.03万字
约 169页
2019-09-10 发布于湖北
举报
版权申诉
保障服务

第六章机器学习.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

高级人工智能第六章机器学习 (2) 形成知识的方法　　利用归纳方法有多种形成知识的技术，下面列出常用的几种：　　(a) 变量代换常量。这是枚举归纳方法中常使用这种技术。　　(b) 舍弃条件。把无关的子条件舍去，对概念没有直接的影响。　　(c) 增加操作。通过增加操作来形成知识。　　(d) 合取变析取。通过把示例中条件的合取关系变为析取关系来形成一般性知识的。　　(e) 归纳总结。　　(f) 曲线拟合。高级人工智能第六章机器学习 3.观察与发现学习　　观察与发现学习(Learning from observation and discovery)分为观察学习与机器发现两种。前者用于对事例进行概念聚类，形成概念描述；后者用于发现规律，产生定律或规则。　　(1) 概念聚类　　概念聚类是观察学习研究中的一个重要技术，是由米卡尔斯基(R．S．Michalski)在1980年首先提出来的，其基本思想是把事例按一定的方式和准则进行分组，如划分为不同的类，不同的层次等，使不同的组代表不同的概念，并且对每一个组进行特征概括，得到一个概念的语义符号描述。高级人工智能第六章机器学习 (2) 机器发现　　机器发现是指从观察的事例或经验数据中归纳出规律或规则，这是最困难且最富创造性的一种学习。它可分为经验发现与知识发现两种，前者指从经验数据中发现规律和定律，后者是指从已观察的事例中发现新的知识。高级人工智能第六章机器学习 6.3.7 强化学习　　 1.强化学习的概念　　强化学习(reinforcement learning，又称再励学习，评价学习)是一种重要的机器学习方法，在智能控制机器人及分析预测等领域有许多应用．但在传统的机器学习分类中没有提到过强化学习，而在连接主义学习中，把学习算法分为三种类型，即非监督学习(unsupervised learning)、监督学习(supervised leaning)和强化学习．高级人工智能第六章机器学习所谓强化学习就是智能系统从环境到行为映射的学习，以使奖励信号(强化信号)函数值最大，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作．由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习．通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境．高级人工智能第六章机器学习 2.强化学习的基本模型和原理　　强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：如果Agent的某个行为策略导致环境正的奖赏(强化信号)，那么Agent以后产生这个行为策略的趋势便会加强．强化学习的基本模型如图所示。Agent的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大．　　强化学习把学习看作试探评价过程，可用图描述．Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号(奖或惩)反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大．选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值．高级人工智能第六章机器学习强化学习的基本模型高级人工智能第六章机器学习强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是Agent对所产生动作的好坏作一种评价(通常为标量信号)，而不是告诉Agent如何去产生正确的动作．由于外部环境提供了很少的信息，Agent必须靠自身的经历进行学习．通过这种方式，Agent在行动一一评价的环境中获得知识，改进行动方案以适应环境．　　强化学习系统学习的目标是动态地调整参数，以达到强化信号最大．若已知r／A梯度信息，则可直接可以使用监督学习算法．因为强化信号r与Agent产生的动作A没有明确的函数形式描述，所以梯度信息r／A无法得到．因此，在强化学习系统中，需要某种随机单元，使用这种随机单元，Agent在可能动作空间中进行搜索并发现正确的动作．高级人工智能第六章机器学习 3.基于进

您可能关注的文档

文档评论（0）

35425 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第六章机器学习.ppt