机器学习研究(王珏)介绍.pptVIP

下载本文档

66
0
约7.56千字
约 93页
2017-06-24 发布于北京
举报
版权申诉

机器学习研究(王珏)介绍.ppt

1、本文档共93页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习研究王珏中国科学院自动化研究所 2003年3月，北京，自动化所反思网络经济的泡沫破灭之后，哪些是值得我们在研究方向上反思的问题呢？我们的研究应注意哪些课题呢？需求---NII计划不分地域地、有效地获得与传输信息。不分地域地、有效地共享硬软资源。有效地利用信息，以提高生产率。保证信息安全。在过去的十年中，做了什么？以浏览器为核心技术的“有效获得信息”的研究取得了预期效果。人们已可以从不同地域有效地获得信息。但是，，，硬软资源的使用在网络上的硬软资源的利用率只有3-5%。大量计算资源没有由于网络设施的支持而被充分利用。硬软件的快速更新，导致对环境的污染。信息的有效使用由于技术发展的滞后，在网络上获得的信息和与提高生产率有关的信息的有效使用率甚至低于1%。占用大量硬软资源的信息正在大量地被浪费。信息安全信息的安全还没有保证。提高信息使用率以机器学习为理论基础的各种方法，是提高信息使用率的有效途径之一。机器学习复杂数据分析(符号机器学习) 机器学习机器学习的一般说明统计机器学习集成机器学习机器学习的研究动力领域应用驱动。算法驱动。领域应用驱动自然语言数据分析。 DNA数据分析。网络与电信数据分析。图像数据分析。金融与经济数据分析。零售业数据分析。情报分析。没有一种算法可以解决复杂的实际问题。需要各种算法集成。算法驱动海量数据(108-10)。算法的泛化能力，或算法可解释。不同类型数据的学习方法。机器学习研究热点的变迁 1989年(Carbonell), 1997年(Dietterich) 符号机器学习。符号机器学习。连接机器学习。集成机器学习。遗传机器学习。统计机器学习。分析机器学习。增强机器学习。机器学习计算的说明令W是这个给定世界的有限或无限所有对象的集合，由于我们观察能力的限制，我们只能获得这个世界的一个有限的子集Q?W。机器学习的任务就是根据这个世界的对象子集Q，计算这个世界的统计分布。这样，在统计意义下，这个分布对这个世界的绝大多数对象是正确的。这就是这个世界的一个模型。三个要求一致性假设：机器学习任务的本质。对样本空间的划分：决定对样本的有效性。泛化能力：决定对世界的有效性。一致性假设假设世界W与被观察的对象集合Q具有某种相同的性质。称为一致性假设。基于统计的假设原则上说，存在各种各样的一致性假设。在统计意义下，一般假设： W与Q具有同分布。或，给定世界W的所有对象独立同分布。划分将被观测的对象集合放到一个n维欧氏空间，寻找一个超平面，使得问题决定的不同对象分在不相交的区域。机器学习主要研究的是这部分内容，即，寻找划分对象集合的超平面(等价关系)。超平面类型光滑且连续的超平面。有限不光滑点，甚至有限不连续点的超平面。光滑连续超平面作为研究基础 Perceptron，人工神经网络是典型例子。困难：对线性不可分的对象集合，如果限制算法是P的，则存在本质性困难。泛化机器学习的首要任务是划分。只有找到一个等价关系(模型)，将不同类的样本划分为不同的类，才能考虑其他问题。泛化是一个确定的划分对世界的分类能力。由于可能存在不同的划分样本集合方法，其泛化能力不同，泛化能力最强的划分就是我们希望的分类器。 Duda的泛化能力描述以样本个数趋近无穷大来描述模型的泛化能力。泛化能力需要使用世界W来刻画，是无法构造的判据。均方差可作为目标函数。评述由于人们没有找到基于样本集合Q的描述泛化能力的数学工具。另外，线性不可分问题是一个困难。在感知机时代，基于Duda泛化理论无法指导机器学习算法的设计，这样，评价机器学习算法只能以划分能力作为指标。 Vapnik对这个问题做出重要贡献。这样，注重从划分变为泛化。以划分能力为目标的研究这类研究的指导思想，一直延续到上个世纪的九十年代。直到今天，还有大量的学者以此作为机器学习的指导思想。以BP算法为核心的神经网络研究是典型例子。划分是机器学习的一个目标，但是，不是预测任务的主要研究目标。神经网络---BP算法使用了一种非线性的基函数。这项研究的意义是为研究者回归感知机做好了舆论的准备。其在科学上的意义，远不如提示人们再次注意感知机的作用更大。统计机器学习理论与SVM 对机器学习的研究者来说，统计机器学习理论所派生的算法SVM似乎更有吸引力。但是，如果研究者忘记SVM所基于的统计基础，就与Vapnik的本意相悖了。事实上，Vapnik的统计理论才是其精华，而基于这个理论的算法只是从这个统计理论派生的自然结果。机器学习的