- 0
- 0
- 约6.94万字
- 约 478页
- 2026-02-26 发布于安徽
- 举报
Spark大数据技术与应用案例教程主讲教师:
目录项目一Spark入门项目二SparkRDD——弹性分布式数据集项目三SparkSQL——结构化数据处理项目四SparkStreaming——实时计算框架
目录项目五SparkMLlib——机器学习库项目六GraphFrames——图计算框架项目七综合案例——分析银行个人信贷 业务数据
项目五SparkMLlib——机器学习库
任务一加载鸢尾花数据任务二提取鸢尾花的特征任务三使用聚类算法处理鸢尾花数据任务四使用分类算法处理鸢尾花数据
第6页在大数据时代,仅依靠人工处理庞杂的数据已无法满足需求,因此促进了机器学习的迅速发展。Spark提供了强大的机器学习库MLlib,用户使用它可以实现大数据与机器学习的无缝对接。本项目结合分析鸢尾花数据案例,介绍SparkMLlib的组成、基本数据类型、运行流程、特征化工具(如特征提取、特征转换、特征选择等)、聚类算法和分类算法。
第7页了解SparkMLlib的组成。熟悉SparkMLlib的基本数据类型。理解SparkMLlib的运行流程。
第8页能使用SparkMLlib的特征提取、特征转换和特征选择等特征化工具处理数据。能使用SparkMLlib的聚类算法处理数据。能使用SparkMLlib的分类算法处理数据。
第9页能熟练运用机器学习算法解决日常生活中的数据分析问题。培养自主学习意识,提升实践操作能力。
任务一加载鸢尾花数据
第11页使用SparkMLlib对鸢尾花数据进行处理和分析之前,需要先加载数据创建DataFrame。在加载鸢尾花数据之前,我们先认识一下机器学习,并学习SparkMLlib的组成、基本数据类型和运行流程。
第12页一、认识机器学习机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析和算法复杂度理论等多门学科。它使用计算机工具模拟或实现人类的学习行为以获取新的知识或技能,并重新组织已有的知识结构以不断改善自身的性能。
第13页按照不同的维度,机器学习有多种分类方式。从学习方式的维度进行划分,机器学习可以以下几种方式。监督学习无监督学习半监督学习一、认识机器学习
第14页一、认识机器学习监督学习是一种比较简单且直接的学习方法,它利用含有标签的数据集对学习模型进行训练,然后得到预测模型,最后利用测试集对预测模型的性能进行评估。(1)监督学习
第15页一、认识机器学习无监督学习是在没有标签的数据集里发现数据之间潜在关系的学习方法。无监督学习是一种没有明确目的的学习方法,无法提前知道结果,且它的学习效果几乎无法量化。(2)无监督学习
第16页一、认识机器学习半监督学习是一种介于监督学习和无监督学习之间的学习方法。它利用少量有标签的数据集和大量无标签的数据集进行训练,旨在扩展模型的覆盖范围,并提高模型的泛化能力。(3)半监督学习
第17页一、认识机器学习半监督学习通常应用于数据标注成本较高或难以获得大量含有标签的数据集的场景。(3)半监督学习
第18页二、SparkMLlib概述传统的机器学习算法通常需要对整个数据集进行操作,这可能会导致计算时间过长或内存不足等问题。随着HDFS等分布式文件系统的出现,海量数据存储成为可能。
第19页二、SparkMLlib概述由于MapReduce自身的限制,使用MapReduce实现分布式机器学习算法仍然存在延迟高、磁盘开销大等问题。为此,Spark提供了一个基于海量数据的机器学习库MLlib,使得开发者可以通过调用API实现基于海量数据的机器学习过程。
第20页二、SparkMLlib概述SparkMLlib包含了一系列通用的学习算法和工具,涵盖了特征提取、特征转换、特征选择、聚类、分类、回归和协同过滤等。此外,SparkMLlib还提供了底层的优化功能和高层的管道API,用于构建复杂的机器学习工作流程。
第21页二、SparkMLlib概述SparkMLlib的组成如图所示。
第22页三、SparkMLlib的基本数据类型SparkMLlib提供了一系列基本数据类型,用于支持底层的机器学习算法。常见的基本数据类型包括本地向量、本地矩阵和标注点等。其中,本地向量和本地矩阵作为公共接口提供简单的数据模型;标注点表示监督学习中的一个训练样本。
第23页三、SparkMLlib的基本数据类型详细说明如表所示。数据类型说明本地向量(localVector)本地向量是一个数值数组,表示特征集合或样本。根据元素的存在情况和存储方式,本地向量可分为稠密本地向量(densel
您可能关注的文档
最近下载
- 2024年党员自我剖析材料2023版最新党员自我剖析材料范文.docx VIP
- Pulse MIG-500FR使用说明书2.pdf
- 2025年房地产经纪人二手房买卖与租赁投资回报率比较分析专题试卷及解析.pdf VIP
- 桩基检测及岩芯取样方案.pdf VIP
- HZ-JY杭州市道路检查井设计图集2016.docx VIP
- 《DLT 904-2015火力发电厂技术经济指标计算方法》专题研究报告.pptx VIP
- 江苏安全技术职业学院单招《数学》真题精华版附答案详解.docx VIP
- 2024年第二季度入党积极分子思想汇报.docx VIP
- 转炉炼钢操作与控制 知识点1:转炉炼钢发展概况 转炉炼钢操作与控制认知.ppt VIP
- 2026年镇江市高等专科学校单招职业适应性测试模拟测试卷完整.docx VIP
原创力文档

文档评论(0)