机器学习发展历程PPT.ppt

下载文档 降价啦

62
0
约3.4千字
约 44页
2018-06-06 发布于江苏
举报
版权申诉
保障服务

机器学习发展历程PPT.ppt

1、本文档共44页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习发展历程PPT

机器学习发展历程;连接机器学习符号机器学习遗传机器学习分析机器学习;Dietterich将感知机类的连接机器学习分离出来，并根据划分机理，将其分为两种类型：统计机器学习与集成机器学习。这意味着，感知机类机器学习是重点强调：表示：非线性问题的线性表示泛化：以泛化能力为基础的算法设计 ;“适应性”是控制理论中最重要的概念之一，以往在计算机科学中考虑较少 1975年，Holland首先将这个概念引入计算机科学。1990年左右，MIT的Sutton等青年计算机科学家，结合动态规划等问题，统称其为增强机器学习这样，遗传学习成为实现增强机器学习的一种方法;尽管经过十年，符号机器学习被保留，然而，其目标和内涵已发生很大的变化改变泛化目标为符号描述(数据挖掘)。这意味着，符号机器学习已不是与统计机器学习竞争的研究，而是一个研究目标与其不同的研究范式 ;由于真实世界的问题十分困难，现有的理论、方法，甚至理念已不能满足需要，由此，大量近代数学的研究结果被引入计算机科学，由此，形成新的机器学习范式;从Carbonell到Dietterich的特点是：在算法设计理论上，基础代替随意的算法设计，具体地说，更为强调机器学习的数学基础应用驱动代替理论驱动(认知科学与算法的Open问题)。具体地说，从AI中以“学习”机制驱动(智能)”的研究方式，改变为根据面临的实际问题发展新的理论与方法;目前，统计机器学习的研究主要集中在两个要点上：;计算：非线性算法一般是NP完全的。认识世界：只有在某个空间中可以描述为线性的世界，人们才说，这个世界已被认识(将问题变换为另一个问题) 数学方法：寻找一个映射，将非线性问题映射到线性空间，以便其可以线性表述;*;寻找具有一般意义的线性空间(方法) 目前，机器学习主要采用两种方法：整体线性，Hilbert空间(核映射) 类似分段线性，Madaline或弱分类方法;Hilbert空间是Von Neumman为量子力学数学基础提出的一类具有一般意义的线性内积空间在机器学习中借助Hilbert空间构成特征空间;将线性不可分问题变为线性可分问题的关键是寻找一个映射，将样本集映射到特征空间，使其在特征空间线性可分这样，我们只需以感知机为基础，研究统计机器学习问题。;选择特征空间的基特征空间的基可以采用多项式基或三角函数基寻找一般的方法描述特征空间存在根本性困难(维数灾) 与神经网络相比，核函数的选择可以借助领域知识，这是一个优点;是否可以不显现地描述特征空间，将特征空间上描述变为样本空间上的描述？如果不考虑维数问题，在泛函分析理论上，这是可行的这就是核函数方法;泛化能力描述;PAC界(Valiant[1984]) VC维界(Blumer[1989]) 最大边缘(Shawe-Taylor[1998]);*;算法的理论研究基本已经完成，根据特定需求的研究可能是必要的目前主要集中在下述两个问题上：泛化不等式需要样本集满足独立同分布，这个条件太严厉，可以放宽这个条件？如何根据领域需求选择核函数，有基本原则吗？;神经科学：Hebb神经细胞工作方式数学方法：非线性问题的分段化(类似) 计算技术：Widrow的Madaline模型统计理论：PAC的弱可学习理论;1954年，Hebb使用这个单词来说明视觉神经细胞的信息加工方式假设信息加工是由神经集合体来完成;Widrow的Madaline模型在数学上，其本质是放弃感知机对样本空间划分的超平面需要满足连续且光滑的条件，代之分段的超平面;*;集成机器学习的研究还存在着大量未解决的问题，关于泛化能力的估计(不等式)还存在问题目前，这类机器学习的理论研究主要是观察与积累，大量的现象还不能解释;符号机器学习;符号机器学习不同于统计机器学习，划分样本集合的等价关系是学习所得，符号机器学习是事先定义等价关系，学习只是在这个等价关系下约简样本集合等价关系为： {(x, y) : a(x)=a(y), x, y?U};一个无矛盾规则越短，其覆盖对象越多，因此，符号机器学习的泛化是以信息长度描述的。这样，“最小”树或规则集合就是其目标函数两个因素影响这个目标：其一，从实域到符号域的映射，其二，在符号域上的约简。对“最小”两者都是NP完全的。因此，近似算法是必然的但是，只有在符号域上的约简是符号机器学习特有，因此，其泛化能力受到限制不必与统计机器学习竞争，设立新目标;传统机器学习假设所有用户有相同的需求，其目标函数确定，而数据分析，不同用户有不同需求，目标函数随用户需求而定传统机器学习是“黑箱”，模型无须可解释，但是，数据分析必须考虑对用户的可读性传统机器学习将“例外”考虑为噪音，而数据分析则认为“例外”可能是更有意义的知识;由于这类机器学习主要处理符号，因此，