二零二三年 优质公开课SparkMllib介绍.pptx

二零二三年 优质公开课SparkMllib介绍.pptx

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Spark-Mllib介绍;1.掌握spark-mllib机器学习库 2.了解spark-mllib机器学习库;1.机器学习简介 2.Spark Mllib简介 3.相关推荐实例;什么是机器学习?维基百科上给出了如下定义: 机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。 机器学习是对能通过经验自动改进的计算机算法的研究。 机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。 机器学习的三要素: 算法 经验 性能; 上图表明机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据。 ;监督学习: 监督是从给定的训练数据集中学习一个函数(模型),当新的数据到来时,可以根据这个函数(模型)预测结果。 监督学习的训练集要求包括输入和输出,也可以说是特征和目标。训练集中的目标是由人标注(标量)的。在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果。 在建立预测模型时,监督式学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断调整预测模型,直到模型的预测结果达到一个预期的准确率。;无监督学习: 与监督学习相比,无监督学习的训练集没有人为标注的结果。 在无监督式学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。 常见的应用场景包括关联规则的学习以及聚类等。 非监督学习看起来非常困难,目标是我们不告诉计算机怎么做,而是让计算机自己去学习怎样做一些事情。 半监督学习: 半监督学习是介于监督学习与无监督学习之间一种机器学习方式,是模式识别和机器学习领域研究的重点问题。 它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。;强化学习: 强化学习通过观察来学习动作的完成,每个动作都会对环境有所影响,学习对象根据观察到的周围环境的反馈来做出判断。 在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式。;MLlib(Machine Learnig lib) 是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。 Spark的设计初衷就是为了支持一些迭代的Job, 这正好符合很多机器学习算法的特点。 Spark官方首页中展示了Logistic Regression算法在Spark和Hadoop中运行的性能比较:;速度快: 机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得足够小的误差或者足够收敛才会停止。 迭代时如果使用Hadoop的MapReduce计算框架,每次计算都要读/写磁盘以及任务的启动等工作,这会导致非常大的I/O和CPU消耗。 而Spark基于内存的计算模型天生就擅长迭代计算,多个步骤计算直接在内存中完成,只有在必要时才会操作磁盘和网络,所以说Spark正是机器学习的理想的平台。 通信小: 从通信的角度讲,如果使用Hadoop的MapReduce计算框架,JobTracker和TaskTracker之间由于是通过heartbeat的方式来进行的通信和传递数据,会导致非常慢的执行速度。 而Spark具有出色而高效的Akka和Netty通信系统,通信效率极高。;MLlib目前支持4种常见的机器学习问题: 分类、回归、聚类和协同过滤。 Mllib结构图:;MLlib主要包含三个部分: 底层基础:包括Spark的运行库、矩阵库和向量库 算法库:包含广义线性模型、推荐系统、聚类、决策树和评估的算法 实用程序:包括测试数据的生成、外部数据的读入等功能;机器学习是一门人工智能的科学。 MLlib 是Spark对常用的机器学习算法的实现库,同时包括相关的测试和数据生成器。 Mllib和MR相比,有速度上的天生优势。 MLlib主要包含三个部分:底层基础、算法库、实用程序。

文档评论(0)

中小学K12教育 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档