关于机器学习的领悟与反思.docxVIP

下载本文档

51
0
约7.1千字
约 13页
2021-12-06 发布于天津
举报
版权申诉

关于机器学习的领悟与反思.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE 1 PAGE 1 关于机器学习的领悟与反思近年来，人工智能的强势崛起，特殊是去年AlphaGo和韩国九段棋手李世石的人机大战，让我们深刻地领会到了人工智能技术的巨大潜力。数据是载体，智能是目标，而机器学习是从数据通往智能的技术、方法途径。因此，机器学习是数据科学的核心，是现代人工智能的本质。近年来，人工智能的强势崛起，特殊是去年AlphaGo和韩国九段棋手李世石的人机大战，让我们深刻地领会到了人工智能技术的巨大潜力。数据是载体，智能是目标，而机器学习是从数据通往智能的技术、方法途径。因此，机器学习是数据科学的核心，是现代人工智能的本质。通俗地说，机器学习就是从数据中挖掘出有价值的信息。数据本身是无意识的，它不能自动呈现出有用的信息。怎样才能找出有价值的东西呢？第一步要给数据一个抽象的表示；接着基于表示进行建模；然后估计模型的参数，也就是计算；为了应对大规模的数据所带来的问题，我们还需要设计一些高效的实现手段，包括硬件层面和算法层面。统计是建模的主要工具和途径，而模型求解大多被定义为一个优化问题或后验抽样问题，详细地，频率派方法其实就是一个优化问题。而贝叶斯模型的计算则往往牵涉蒙特卡罗(MonteCarlo)随机抽样方法。因此，机器学习是计算机科学和统计学的交叉学科。借鉴计算机视觉理论创始人马尔(Marr)的关于计算机视觉的三级论定义，我把机器学习也分为三个层次：初级、中级和高级。初级阶段是数据获取以及特征的提取。中级阶段是数据处理与分析，它又包含三个方面：首先是应用问题导向，简洁地说，它主要应用已有的模型和方法解决一些实际问题，这可以理解为数据挖掘；其次，依据应用问题的需要，提出和发展模型、方法和算法以及研究支撑它们的数学原理或理论基础等，这则是机器学习学科的核心内容；第三，通过推理达到某种智能。高级阶段是智能与认知，即实现智能的目标。数据挖掘和机器学习本质上是一样的，其区分是数据挖掘更接近于数据端，而机器学习则更接近于智能端。统计与计算今年刚被选为美国科学院院士的卡内基梅隆大学统计系教授沃塞曼(LarryWasserman)写了一本名字特别霸道的书：《统计学完全教程》(AllofStatistics)。这本书的引言部分有一个关于统计学与机器学习特别好玩的描述。沃塞曼认为，原来统计是在统计系，计算机是在计算机系，这两者是不相来往的，而且相互都不认同对方的价值。计算机学家认为那些统计理论没有用，不解决问题，而统计学家则认为计算机学家只是在“重新创造轮子”，没有新意。然而，他认为现在状况转变了，统计学家熟悉到计算机学家正在做出的贡献，而计算机学家也熟悉到统计的理论和方法论的普遍性意义。所以，沃塞曼写了这本书，可以说这是一本为统计学者写的计算机领域的书，为计算机学者写的统计领域的书。现在大家达成了一个共识：假如你在用一个机器学习方法，而不懂其基础原理，这是一件特别可怕的事情。正是由于这个原因，目前学术界对深度学习还是心存疑虑的。尽管深度学习已经在实际应用中展示出其强大的能力，但其中的原理目前大家还不是太清晰。让我们详细争论计算机与统计学之间的关系。计算机学家通常具有强大的计算能力和解决问题的直觉，而统计学家擅长于理论分析和问题建模，因此，两者具有很好的互补性。Boosting、支持向量机(SVM)、集成学习和稀疏学习是机器学习界也是统计界在近十年或者是近二十年来最为活跃的方向，这些成果是统计界和计算机科学界共同努力成就的。例如，数学家瓦普尼克(Vapnik)等人早在20世纪60年月就提出了支持向量机的理论，但直到计算机界于90年月末创造了特别有效的求解算法，并随着后续大量实现代码的开源，支持向量机现在成为了分类算法的一个基准模型。再比如，核主成分分析(Kernel　Principal　Component　Analysis，KPCA)是由计算机学家提出的一个非线性降维方法，其实它等价于经典多维尺度分析(Multi-Dimensional　Scaling，MDS)。而后者在统计界是很早就存在的，但假如没有计算机界重新发觉，有些好的东西可能就被埋没了。计算机界和统计界的通力合作，成就了机器学习从20世纪90年月中期到21世纪00年月中期的黄金发展时期，主要标志是学术界涌现出一批重要成果，比如，基于统计学习理论的支持向量机、随机森林和Boosting等集成分类方法，概率图模型，基于再生核理论的非线性数据分析与处理方法，非参数贝叶斯方法，基于正则化理论的稀疏学习模型及应用等等。这些成果奠定了统计学习的理论基础和框架。机器学习现在已成为统计学的一个主流方向，很多闻名大学的统计系纷纷从机器