网站大量收购独家精品文档,联系QQ:2885784924

128-数据科学家基础能力之机器学习【萌萌家】.pdf

128-数据科学家基础能力之机器学习【萌萌家】.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

128|数据科学家基础能力之机器学习

2017-10-11洪亮劼来自北京

《AI技术内参》

想要成为合格的,或者更进一步成为优秀的人工智能工程师或数据科学家,机器学习的各种基

础知识是必不可少的。然而,机器学习领域浩如烟海,各类教材和入门课程层出不穷。特别是

机器学习基础需要不少的数学知识,这对于想进入这一领域的工程师而言,无疑是一个比较高

的门槛。

今天,我来和你聊一聊如何学习和掌握机器学习基础知识,又如何通过核心的知识脉络快速掌

握更多的机器学习算法和模型。

监督学习和无监督学习

要问机器学习主要能解决什么问题,抛开各式各样的机器学习流派和层出不穷的算法模型不

谈,机器学习主要解决的是两类问题:监督学习和无监督学习。掌握机器学习,主要就是学习

这两类问题,掌握解决这两类问题的基本思路。

什么是解决这两类问题的基本思路呢?基本思路,简而言之就是“套路”。放在这里的语境,

那就是指:

1.如何把现实场景中的问题抽象成相应的数学模型,并知道在这个抽象过程中,数学模型有怎

样的假设。

2.如何利用数学工具,对相应的数学模型参数进行求解。

3.如何根据实际问题提出评估方案,对应用的数学模型进行评估,看是否解决了实际问题。

这三步就是我们学习监督学习和无监督学习,乃至所有的机器学习算法的核心思路。机器学习

中不同模型、不同算法都是围绕这三步来展开的,我们不妨把这个思路叫作“三步套路”。

那什么是监督学习呢?监督学习是指这么一个过程,我们通过外部的响应变量(Response

Variable)来指导模型学习我们关心的任务,并达到我们需要的目的。这也就是“监督学习”

中“监督”两字的由来。

也就是说,监督学习的最终目标,是使模型可以更准确地对我们所需要的响应变量建模。比

如,我们希望通过一系列特征来预测某个地区的房屋销售价格,希望预测电影的票房,或者希

望预测用户可能购买的商品。这里的“销售价格”、“电影票房”以及“可能购买的商品”都

是监督学习中的响应变量。

那什么是无监督学习呢?通常情况下,无监督学习并没有明显的响应变量。无监督学习的核

心,往往是希望发现数据内部的潜在结构和规律,为我们进行下一步决断提供参考。典型的无

监督学习就是希望能够利用数据特征来把数据分组,机器学习语境下叫作“聚类”。

根据不同的应用场景,聚类又有很多变种,比如认为某一个数据点属于一个类别,或者认为某

一个数据点同时属于好几个类别,只是属于每个类别的概率不同等等。

无监督学习的另外一个作用是为监督学习提供更加有力的特征。通常情况下,无监督学习能够

挖掘出数据内部的结构,而这些结构可能会比我们提供的数据特征更能抓住数据的本质联系,

因此监督学习中往往也需要无监督学习来进行辅助。

我们简要回顾了机器学习中两大类问题的定义。在学习这两大类模型和算法的时候,有这么一

个技巧,就是要不断地回归到上面提到的基本思路上去,就是这个“三步套路”,反复用这三

个方面来审视当前的模型。另外,我们也可以慢慢地体会到,任何新的模型或者算法的诞生,

往往都是基于旧有的模型算法,在以上三个方面中的某一个或几个方向有所创新。

监督学习的基础

监督学习的基础是三类模型:

1.线性模型

2.决策树模型

3.神经网络模型

掌握这三类模型就掌握了监督学习的主干。利用监督学习来解决的问题,占所有机器学习或者

人工智能任务的绝大多数。这里面,有90%甚至更多的监督学习问题,都可以用这三类模型

得到比较好的解决。

这三类监督学习模型又可以细分为处理两类问题:

1.分类问题

2.回归问题

分类问题的核心是如何利用模型来判别一个数据点的类别。这个类别一般是离散的,比如两类

或者多类。回归问题的核心则是利用模型来输出一个预测的数值。这个数值一般是一个实数,

是连续的。

有了这个基本的认识以后,我们利用前面的思路来看一下如何梳理监督学习的思路。这里用线

性模型的回归问题来做例子。但整个思路可以推广到所有的监督学习模型。

线性回归模型(LinearRegression)是所有回归模型中最简单也是最核心的一个模型。我们

依次来看上面所讲的“三步套路”。

首先第一步,我们需要回答的问题是,线性回归对现实场景是如何抽象的。顾名思义,线性回

归认为现实场景中的响应变量(比如房价、比如票房)和数据特征之间存在线性关系。而线性

回归的数学假设有两个部分:

1.响应变量的预测值是数据特征的线性变换。这里的参数是一组系数。而预测值是系数和数据

特征的线性组合。

2.响应变量的预测值和真实值之间有一个误差。这个误差服从一个正态(高斯)分布,分布的

您可能关注的文档

文档评论(0)

133****9720 + 关注
实名认证
内容提供者

物业管理师证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年04月23日上传了物业管理师证

1亿VIP精品文档

相关文档