- 11
- 0
- 约3.15千字
- 约 3页
- 2017-03-13 发布于湖北
- 举报
Spark简介以及与Hadoop的对比1Spark简介
Spark 简介以及与Hadoop 的对比
1 Spark 简介
1.1 Spark 概述
Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算框
架,Spark 基于 map reduce 算法实现的分布式计算,拥有 Hadoop MapReduce 所具有的
优点;但不同于 MapReduce 的是 Job 中间输出和结果可以保存在内存中,从而不再需要读
写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 map reduce 的算
法。
1.2 Spark 核心概念
1.2.1 弹性分布数据集(RDD)
RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式
来操作分布式数据集的抽象实现。RDD 是 Spark 最核心的东西,它表示已被分区,不可变的
并能够被并行操作的数据集合,不同的数据集格式对应不同的 RDD 实现。RDD 必须是可序
列化的。RDD 可以 cache 到内存中,每次对 RDD 数据集的操作之后的结果,都可以存放到
内存中,下一个操作可以直接从内存中输入,省去了 MapReduce 大量的磁盘 IO 操作。这对
于迭代运算比较常见的机器学习算法, 交互式
您可能关注的文档
- 项目可行性研究报告Word模板.doc
- 首都医科大学关于规范研究生开题报告内容的通知.doc
- (A包段).PDF
- 1.本课题所涉及的内容国内(外)研究现状综述.doc
- 1.本书代码的运行环境.doc
- 2011群硕软件校园招聘.PDF
- 2012年度国家863计划信息技术领域备选项目.PDF
- AdobeCREATIVESUITE3.PDF
- AgilentM9216A.PDF
- AlteraSoC软件开发工具流程.PDF
- ORing工业网络解决方案.pdf
- 如何使用XMind与制作3:4比例美观图片.pdf
- 重症医学相关精神障碍药物合理使用专家共识解读.pptx
- 重症医学专业医疗质量控制指标(2024年版).pptx
- 重症医学专业医疗质量控制指标(2024年版)解读.pptx
- “鸭力全消 喜乐出圈”商场购物中心五一玩梗出圈季活动方案.pptx
- 商场购物中心大悦城(潮π广场)打造计划美陈升级改造方案.pptx
- MUSIC FESTIVAL音乐节线上整合营销传播运营策划方案.pptx
- 26HR-162:企业招聘分析:招聘配置工作总结分析报告.pdf
- 白酒国窖1573冰·JOYS夏季交响音乐品鉴私宴会营销活动方案.pptx
原创力文档

文档评论(0)