《机器学习：发展与未来》深入浅出地介绍了机器学习及其历史.docVIP

下载本文档

0
0
约4.52千字
约 51页
2024-06-26 发布于江苏
举报
版权申诉

《机器学习：发展与未来》深入浅出地介绍了机器学习及其历史.doc

1、本文档共51页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《机器学习：发展与未来》深入浅出地介绍了机器学习及其历史

《机器学习：发展与未来》

2017年12月

在过去的二十年中，人类手机、存储、传输、处理数据的能力取得了飞速发展，亟需能有效地对数据进行分析利用的计算机算法。机器学习作为智能数据分析算法的源泉，顺应了大时代的这个迫切需求，因此自然地取得了巨大发展、受到了广泛关注。

“现在是大数据时代，但是大数据不等于大价值。”

我们要从大数据里面得到价值的话，就必须要有一些有效的数据分析。正因为这个原因，这几年机器学习特别热。这是从人工智能里面产生的一个学科，利用经验改善系统学习。在计算机系统里面，不管是什么经验，一定是以数据的形式呈现的。所以机器学习必须对数据分析，这个领域发展到今天主要是研究智能数据分析的理论和方法。我们可以看到图灵奖连续两年授予在这方面取得突出成就的学者，这其实一定程度上也表现出了大会对此的重视。

那么究竟什么是机器学习？这里给出一个具体的实例。

|“文献筛选”的故事

什么是文献筛选呢？

这是“循证医学”中，针对特定的临床问题，先要对相关研究报告进行详尽评估。那么人们一般通过PubMed获取相关候选论文的摘要，然后通过人工的方式找到值得全文审读的文章。

为什么要这么做呢？

所以如果没有其他解决途径，“循证医学”可能就没有未来了。为了解决这个问题，降低昂贵的成本，Tufts医学中心引入了机器学习技术。

怎么来做呢？

我们挑出大量的文章，只邀请熟练的专家判断是有关还是无关的，然后基于这个信息建立一个分类模型，用这个分类模型对剩下没有看过的文章做一次预测。其中相关的文章再请专家来审读，这样的话，专家需要读的东西就会大幅度减少。

这样做之后，得到的性能指标已经非常接近、甚至一定程度上超过了原来专家过滤的效果。因为我们知道一个专家三十秒钟读一篇文章，需要连续工作一个月，而且中间出错的可能性太多。现在用机器学习来做只需要一天时间，所以被当成是机器学习对现在机器医学发展的一个很重要贡献而报道出来。

这里面非常关键的一步就是我们怎么样把这个分配模型做出来，其实就是用的机器学习。

|?一张PPT说清机器学习过程

现在假设把数据组织成一个表格的形式，每一行表示一个对象或者一个事件，每一列表示我刻画的对象的属性。比如说每一行指的就是“西瓜”，那最后我们特别关心的是这个“西瓜”好还是不好，我们把它叫做类别标签。

之后，我们经过一个训练过程就得到了模型，今后我们拿到一个没有见过的新数据时，只要知道它的输入，把输入提供给这个模型，这个模型就可以给你一个结果，究竟是好的还是不好的“西瓜”。

所以在现实生活中，我们碰到的各种各样的分类预测预报问题，抽样出来看，如果在计算机上通过数据驱动的方式来解决它，其实就是在做一个机器学习的过程。

把数据变成模型要用到学习算法。有一种说法是计算机科学就是关于算法的学问。那如果从这个道理上来讲的话，机器学习其实就是关于学习算法的设计分析和每个学科领域的应用。

|?人工智能的三个阶段

机器学习本身确实是起源于人工智能，而我们都知道人工智能是1956年达特茅斯会议上诞生的。到今天恰恰是六十周年。那么在过去的六十年里面，其实我们从人工智能的主流技术上看，可以认为是经过了三个阶段。

在最早的一个阶段，大家都认为要把逻辑推理能力赋予计算机系统，这个是最重要的。因为我们都认为数学家特别的聪明，而数学家最重要的能力就是逻辑推理，所以在那个时期的很多重要工作中，最有代表性的就是西蒙和纽厄尔做的自动定理证明系统，后来这两位也因为这个贡献获得了七五年的图灵奖。

但是后来慢慢的就发现光有逻辑推理能力是不够的，因为就算是数学家，他也需要有很多知识，否则的话也证明不出定理来。所以这个时候，主流技术的研究就很自然地进入了第二阶段。

大家开始思考怎么样把我们人类的知识总结出来，交给计算机系统，这里面的代表就是知识工程专家系统。像知识工程之父爱德华·费根鲍姆就因为这个贡献获得了1994年的图灵奖。

但是接下来大家就发现要把知识总结出来交给计算机，这个实在太难了。一方面总结知识很难，另外一方面在有些领域里面，专家实际上是不太愿意分享他的经验的。

所以到底怎么解决这个问题呢？我们想到人的知识就是通过学习来的，所以很自然的人工智能的研究就进入了第三个阶段。

这时候机器学习作为这个阶段的主流研究内容，可以看到机器学习本身其实就是作为突破知识工程的一个武器而出现的。但是，事实上并没有达到目的，今天大多数的机器学习的结果都是以黑箱的形式存在的。另外一方面，为什么机器学习这么热门呢？其实恰恰是因为在二十世纪九十年代中后期，我们人类搜集、存储、管理、处理数据的能力大幅度提升，这时候迫切需要数据分析的技术，而机器学习恰恰是