- 8
- 0
- 约6.23千字
- 约 14页
- 2017-02-11 发布于江苏
- 举报
Spark学习大纲Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件,也就是BDAS(伯克利数据分析栈),这些组件逐渐形成大数据处理一站式解决平台。从各方面报道来看Spark抱负并非池鱼,而是希望替代Hadoop在大数据中的地位,成为大数据处理的主流标准,不过Spark还没有太多大项目的检验,离这个目标还有很大路要走。Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集(Scala 提供一个称为 Actor 的并行模型,其中Actor通过它的收件箱来发送和接收非同步信息而不是共享数据,该方式被称为:Shared Nothing 模型)。它具有运行速度快、易用性好、通用性强和随处运行等特点。Spark术语RDD全称为 Resilient Distributed Dataset,弹性分布式数据集。就是分布在集群节点上的数据集,这些集合可以用来进行各
您可能关注的文档
最近下载
- 五一劳动节主题班会 6.ppt VIP
- 中华民族共同体概论讲稿专家版《中华民族共同体概论》大讲堂之 第八讲 供奉中国与中华民族内聚发展(辽宋夏金时期).doc VIP
- DGJ08-2143-2021 公共建筑绿色设计标准(2024局部修订).docx VIP
- 天津一中高二下期末试卷(数学).pdf VIP
- ABB Manual - NGC8206 French (Rev AB) 手册(英语)说明书.pdf
- 河南中国移动ai面试题库及答案.doc
- 《思政元素融入初中生物课程中的探索与实践》.docx VIP
- 2026年事业单位会计题库及答案.docx
- 2025年《中华民族共同体概论》-第十四讲 新中国与中华民族的新纪元(1949—2012)-专家大讲堂讲义.docx VIP
- 300立方米柴油储罐设计.docx VIP
原创力文档

文档评论(0)