大數据处理框架之spark.pptVIP

下载本文档

17
0
约小于1千字
约 13页
2017-04-10 发布于上海
举报

大數据处理框架之spark.ppt

大數据处理框架之spark

大数据处理框架之spark 分享人：黄宇鹏目录背景 Hadoop回顾 Spark简介 Spark原理 Spark on Yarn Yarn 生态系统建议背景大数据时代 Hadoop在数据挖掘中的不足多次迭代，I/O延时大中间结果的序列化和反序列化简单的MR模式 VS 复杂的数据挖掘算法函数式编程图计算 Hadoop回顾 MapReduce过程 Map()函数 Reduce()函数执行一次，结果写入磁盘 Shuffle过程序列化和反序列化写磁盘 Spark简介基于内存的分布式计算框架适合多次迭代的计算支持多种操作，例如：map，filter，join等提供多种数据处理工具，SQL，Streaming等支持多种开发语言Scala，java，python. 与hadoop结合进行数据处理对hdfs,hive,hbase进行访问处理速度快 Spark 简介运行模式 Standalone模式 Spark On Mesos模式 Spark On Yarn模式 Spark 原理 Spark主从结构 Driver 任务调度容错处理 Worker 执行各种操作保存数据 Spark 原理 RDD（Resilient Distributed Datasets）弹性分布式数据集：一个只读、可分区的记录集合（对象）可进行多种操作：transformatio

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大數据处理框架之spark.pptVIP