《Spark大数据技术与应用案例教程》 项目五: Spark MLlib——机器学习库.pptx

《Spark大数据技术与应用案例教程》 项目五: Spark MLlib——机器学习库.pptx

Spark大数据技术与应用案例教程主讲教师:

目录项目一Spark入门项目二SparkRDD——弹性分布式数据集项目三SparkSQL——结构化数据处理项目四SparkStreaming——实时计算框架

目录项目五SparkMLlib——机器学习库项目六GraphFrames——图计算框架项目七综合案例——分析银行个人信贷 业务数据

项目五SparkMLlib——机器学习库

任务一加载鸢尾花数据任务二提取鸢尾花的特征任务三使用聚类算法处理鸢尾花数据任务四使用分类算法处理鸢尾花数据

第6页在大数据时代,仅依靠人工处理庞杂的数据已无法满足需求,因此促进了机器学习的迅速发展。Spark提供了强大的机器学习库MLlib,用户使用它可以实现大数据与机器学习的无缝对接。本项目结合分析鸢尾花数据案例,介绍SparkMLlib的组成、基本数据类型、运行流程、特征化工具(如特征提取、特征转换、特征选择等)、聚类算法和分类算法。

第7页了解SparkMLlib的组成。熟悉SparkMLlib的基本数据类型。理解SparkMLlib的运行流程。

第8页能使用SparkMLlib的特征提取、特征转换和特征选择等特征化工具处理数据。能使用SparkMLlib的聚类算法处理数据。能

文档评论(0)

1亿VIP精品文档

相关文档