- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
128|数据科学家基础能力之机器学习
2017-10-11洪亮劼来自北京
《AI技术内参》
想要成为合格的,或者更进一步成为优秀的人工智能工程师或数据科学家,机器学习的各种基
础知识是必不可少的。然而,机器学习领域浩如烟海,各类教材和入门课程层出不穷。特别是
机器学习基础需要不少的数学知识,这对于想进入这一领域的工程师而言,无疑是一个比较高
的门槛。
今天,我来和你聊一聊如何学习和掌握机器学习基础知识,又如何通过核心的知识脉络快速掌
握更多的机器学习算法和模型。
监督学习和无监督学习
要问机器学习主要能解决什么问题,抛开各式各样的机器学习流派和层出不穷的算法模型不
谈,机器学习主要解决的是两类问题:监督学习和无监督学习。掌握机器学习,主要就是学习
这两类问题,掌握解决这两类问题的基本思路。
什么是解决这两类问题的基本思路呢?基本思路,简而言之就是“套路”。放在这里的语境,
那就是指:
1.如何把现实场景中的问题抽象成相应的数学模型,并知道在这个抽象过程中,数学模型有怎
样的假设。
2.如何利用数学工具,对相应的数学模型参数进行求解。
3.如何根据实际问题提出评估方案,对应用的数学模型进行评估,看是否解决了实际问题。
这三步就是我们学习监督学习和无监督学习,乃至所有的机器学习算法的核心思路。机器学习
中不同模型、不同算法都是围绕这三步来展开的,我们不妨把这个思路叫作“三步套路”。
那什么是监督学习呢?监督学习是指这么一个过程,我们通过外部的响应变量(Response
Variable)来指导模型学习我们关心的任务,并达到我们需要的目的。这也就是“监督学习”
中“监督”两字的由来。
也就是说,监督学习的最终目标,是使模型可以更准确地对我们所需要的响应变量建模。比
如,我们希望通过一系列特征来预测某个地区的房屋销售价格,希望预测电影的票房,或者希
望预测用户可能购买的商品。这里的“销售价格”、“电影票房”以及“可能购买的商品”都
是监督学习中的响应变量。
那什么是无监督学习呢?通常情况下,无监督学习并没有明显的响应变量。无监督学习的核
心,往往是希望发现数据内部的潜在结构和规律,为我们进行下一步决断提供参考。典型的无
监督学习就是希望能够利用数据特征来把数据分组,机器学习语境下叫作“聚类”。
根据不同的应用场景,聚类又有很多变种,比如认为某一个数据点属于一个类别,或者认为某
一个数据点同时属于好几个类别,只是属于每个类别的概率不同等等。
无监督学习的另外一个作用是为监督学习提供更加有力的特征。通常情况下,无监督学习能够
挖掘出数据内部的结构,而这些结构可能会比我们提供的数据特征更能抓住数据的本质联系,
因此监督学习中往往也需要无监督学习来进行辅助。
我们简要回顾了机器学习中两大类问题的定义。在学习这两大类模型和算法的时候,有这么一
个技巧,就是要不断地回归到上面提到的基本思路上去,就是这个“三步套路”,反复用这三
个方面来审视当前的模型。另外,我们也可以慢慢地体会到,任何新的模型或者算法的诞生,
往往都是基于旧有的模型算法,在以上三个方面中的某一个或几个方向有所创新。
监督学习的基础
监督学习的基础是三类模型:
1.线性模型
2.决策树模型
3.神经网络模型
掌握这三类模型就掌握了监督学习的主干。利用监督学习来解决的问题,占所有机器学习或者
人工智能任务的绝大多数。这里面,有90%甚至更多的监督学习问题,都可以用这三类模型
得到比较好的解决。
这三类监督学习模型又可以细分为处理两类问题:
1.分类问题
2.回归问题
分类问题的核心是如何利用模型来判别一个数据点的类别。这个类别一般是离散的,比如两类
或者多类。回归问题的核心则是利用模型来输出一个预测的数值。这个数值一般是一个实数,
是连续的。
有了这个基本的认识以后,我们利用前面的思路来看一下如何梳理监督学习的思路。这里用线
性模型的回归问题来做例子。但整个思路可以推广到所有的监督学习模型。
线性回归模型(LinearRegression)是所有回归模型中最简单也是最核心的一个模型。我们
依次来看上面所讲的“三步套路”。
首先第一步,我们需要回答的问题是,线性回归对现实场景是如何抽象的。顾名思义,线性回
归认为现实场景中的响应变量(比如房价、比如票房)和数据特征之间存在线性关系。而线性
回归的数学假设有两个部分:
1.响应变量的预测值是数据特征的线性变换。这里的参数是一组系数。而预测值是系数和数据
特征的线性组合。
2.响应变量的预测值和真实值之间有一个误差。这个误差服从一个正态(高斯)分布,分布的
您可能关注的文档
- 058-简单推荐模型之一:基于流行度的推荐模型【萌萌家】.pdf
- 061-基于隐变量的模型之一:矩阵分解【萌萌家】.pdf
- 062-基于隐变量的模型之二:基于回归的矩阵分解【萌萌家】.pdf
- 066-高级推荐模型之三:优化复杂目标函数【萌萌家】.pdf
- 067-推荐的Exploit和Explore算法之一:EE算法综述【萌萌家】.pdf
- 068-推荐的Exploit和Explore算法之二:UCB算法【萌萌家】.pdf
- 070-推荐系统评测之一:传统线下评测【萌萌家】.pdf
- 071-推荐系统评测之二:线上评测【萌萌家】.pdf
- 073-现代推荐架构剖析之一:基于线下离线计算的推荐架构【萌萌家】.pdf
- 074-现代推荐架构剖析之二:基于多层搜索架构的推荐系统【萌萌家】.pdf
- 129-数据科学家基础能力之系统【萌萌家】.pdf
- 130-数据科学家高阶能力之分析产品【萌萌家】.pdf
- 131-数据科学家高阶能力之评估产品【萌萌家】.pdf
- 132-数据科学家高阶能力之如何系统提升产品性能【萌萌家】.pdf
- 133-职场话题:当数据科学家遇见产品团队【萌萌家】.pdf
- 134-职场话题:数据科学家应聘要具备哪些能力?【萌萌家】.pdf
- 135-职场话题:聊聊数据科学家的职场规划【萌萌家】.pdf
- 137-数据科学团队养成:电话面试指南【萌萌家】.pdf
- 138-数据科学团队养成:Onsite面试面面观【萌萌家】.pdf
- 141-数据科学家团队组织架构:水平还是垂直,这是个问题【萌萌家】.pdf
最近下载
- 2025年上海民办进华中学-新初一分班语文模拟试题(5套,附答案).pdf VIP
- 广州中医药大学方剂学模拟题.pdf VIP
- 围术期心肌缺血的处理.ppt
- 营养性疾病患儿护理—维生素D缺乏性佝偻病患儿护理(儿科护理课件).pptx VIP
- 浙教版八年级数学下册期中期末挑战满分冲刺卷特训03平行四边形(题型归纳)(原卷版+解析).docx VIP
- (水工建筑物课程设计.doc VIP
- 2024年第十二届海峡两岸青少年思维能力展示活动福建海选赛五年级数学A卷(无答案).docx
- 思维导图基础入门.pptx
- 北京市朝阳区2023-2024学年高二下学期期末英语检测试题(附答案).docx
- DB50_T 989-2020 地质灾害治理工程施工技术规范.pdf
文档评论(0)