人工智能7第七节机器学习.ppt

下载文档 降价啦

6
0
约1.81万字
约 102页
2018-08-20 发布于湖北
举报
版权申诉
保障服务

人工智能7第七节机器学习.ppt

1、本文档共102页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

人工智能7第七节机器学习

机器学习要介绍的内容机器学习概述统计学习理论的方法基于符号的方法连接主义的方法遗传与进化的方法机器学习的定义机器学习还没有统一的定义机器学习的一种定义: 机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。另一种机器学习定义：如果一个计算机程序针对某类任务T的用P衡量的性能根据经验E来自我完善。那么我们称这个计算机程序在从经验E中学习，针对某类任务T，它的性能用P来衡量任何智能系统必须具备学习的能力学习是使得智能主体在与环境交互的过程中改变自己. 机器学习研究的几种观点统计学习理论--基于统计理论进行的推断、预测等学习方法。符号主义采用符号来表示问题域中的实体极其关系,通过对符号语言表示的规则进行搜索，试图用这些符号来推出新的、有效的并且也用这些符号表达的一般规则。连接主义受生物神经网络系统的启发，把知识表示为由小的个体处理单元组成的网络的激活或者抑制状态模式。学习是通过训练数据来修改网络结构和连接权值来实现。遗传和进化观点，在开始时有一组问题的后选解，根据他们解决问题的能力来进化，适者生存，并相互交叉产生下一代解，这样，解不断的增强就像达尔文描述的生物世界一样机器学习问题的表示系统s是要研究的对象，给定输入x，得到输出y LM是所求的学习机，预测输出y’ 机器学习目的根据给定的已知训练样本，求取对系统输入／输出之间依赖关系的估计，使它能够对未知输出作出尽可能准确的预测。机器学习问题的形式化表示已知变量y与输入 x之间存在一定的未知依赖关系，即存在一个未知的联合概率F(x,y)，机器学习根据n个独立同分布观测样本(x1,y1),… (xn,yn) ，在一组函数{f(x,w)}中求一个最优的函数f(x,w0) 对依赖关系进行估计，使预测的期望风险最小机器学习中的三类基本问题模式识别函数逼近概率密度模式识别问题的损失函数模式识别问题，其实是个分类问题多模式识别问题可以分解成若干个两模式识别问题预测函数可只考虑二值函数 y是只取0，1 损失函数可定义为：函数逼近问题的损失函数 y是连续变量，是x的函数 f(x,w)是实函数损失函数可定义为概率密度估计问题的损失函数学习的目的是根据训练样本确定x 的概率分布。将密度函数记为p(x,w)，损失函数可以定义为：经验风险期望风险是预测函数在整个样本空间上出错率的数学期望期望风险必须依赖于联合概率的信息联合概率未知，因此期望风险实际上不可求传统的学习方法采用了经验风险来近似期望风险定义经验风险经验风险最小化经验风险为训练样本集上的平均错误率设计学习函数使经验风险最小化。经验风险最小化与期望风险最小化的等价前提是样本数据足够多只有在样本数趋于无穷大时，其性能才有理论上的保证。但在小样本的情况下，期望风险最小化到经验风险最小化并没有可靠的理论依据，只是直观上合理的想当然做法。在实际应用中，一般难以取得理想的效果。推广能力（泛化能力）学习机器对未来输出进行正确预测的能力称为推广能力（或泛化能力）。在某些情况下，当训练误差过小反而会导致推广能力的下降这就是过学习问题。出现过学习现象的原因：一是因为学习样本不充分；二是学习机器设计不合理。这两个问题是互相关联的。预测问题举例绿色曲线：y=sin(2πx) 蓝点：有随机噪声的样本目标：曲线拟合，以便对新的输入值x’，预测输出y’ 预测函数复杂性与泛化能力从前例可以看出： “最优拟合函数”不一定能正确代表原来的函数模型。原因是：用一个复杂的模型去拟合有限的样本，结果就会丧失推广能力。有限样本下学习机器的复杂性与推广性之间的矛盾。有时，已知问题是某个比较复杂的模型：由于训练样本有限，如用复杂预测函数去学习效果通常不如用相对简单的预测函数。统计学习理论的主要内容统计学习理论被认为是目前针对小样本统计估计和预测学习的最佳理论。它从理论上较系统地研究了：经验风险最小化规则成立的条件、有限样本下经验风险与期望风险的关系如何利用这些理论找到新的学习原则和方法其主要内容包括如下四个方面： ①经验风险最小化原则下统计学习一致性的条件； ②在这些条件下关于统计学习方法推广性的界的结论； ③在这些界的基础上建立的小样本归纳推理原则； ④实现这些新的原则的实际方法。学习过程一致性学习一致性的结论是统计学习理论的基础一致性条件，保证在经验风险最小化原则下得到的最优方法当样本无穷大时趋近于使期望风险最小的最优结果。学习过程的一致性： (x1,y1) …，(xn.yn)是n个独立同分布样本 f(x,w*) 最优预测函数 Min(Remp(w)) = Remp(w*|n) 是经验风险最小值 R