Spark学习技术重点.docxVIP

  • 8
  • 0
  • 约6.23千字
  • 约 14页
  • 2017-02-11 发布于江苏
  • 举报
Spark学习大纲Spark简介Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理念,迅速成为社区的热门项目,围绕着Spark推出了Spark SQL、Spark Streaming、MLLib和GraphX等组件,也就是BDAS(伯克利数据分析栈),这些组件逐渐形成大数据处理一站式解决平台。从各方面报道来看Spark抱负并非池鱼,而是希望替代Hadoop在大数据中的地位,成为大数据处理的主流标准,不过Spark还没有太多大项目的检验,离这个目标还有很大路要走。Spark使用Scala语言进行实现,它是一种面向对象、函数式编程语言,能够像操作本地集合对象一样轻松地操作分布式数据集(Scala 提供一个称为 Actor 的并行模型,其中Actor通过它的收件箱来发送和接收非同步信息而不是共享数据,该方式被称为:Shared Nothing 模型)。它具有运行速度快、易用性好、通用性强和随处运行等特点。Spark术语RDD全称为 Resilient Distributed Dataset,弹性分布式数据集。就是分布在集群节点上的数据集,这些集合可以用来进行各

文档评论(0)

1亿VIP精品文档

相关文档