- 2
- 0
- 约3.15千字
- 约 3页
- 2018-11-09 发布于湖北
- 举报
Spark 简介以及与Hadoop 的对比
1 Spark 简介
1.1 Spark 概述
Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算框
架,Spark 基于 map reduce 算法实现的分布式计算,拥有 Hadoop MapReduce 所具有的
优点;但不同于 MapReduce 的是 Job 中间输出和结果可以保存在内存中,从而不再需要读
写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 map reduce 的算
法。
1.2 Spark 核心概念
1.2.1 弹性分布数据集(RDD)
RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式
来操作分布式数据集的抽象实现。RDD 是 Spark 最核心的东西,它表示已被分区,不可变的
并能够被并行操作的数据集合,不同的数据集格式对应不同的 RDD 实现。RDD 必须是可序
列化的。RDD 可以 cache 到内存中,每次对 RDD 数据集的操作之后的结果,都可以存放到
内存中,下一个操作可以直接从内存中输入,省去了 MapReduce 大量的磁盘 IO 操作。这对
于迭代运算比较常见的机器学习算法, 交互式
原创力文档

文档评论(0)