大數据处理框架之spark.pptVIP

  • 17
  • 0
  • 约小于1千字
  • 约 13页
  • 2017-04-10 发布于上海
  • 举报
大數据处理框架之spark

大数据处理框架之spark 分享人:黄宇鹏 目录 背景 Hadoop回顾 Spark简介 Spark原理 Spark on Yarn Yarn 生态系统 建议 背景 大数据时代 Hadoop在数据挖掘中的不足 多次迭代,I/O延时大 中间结果的序列化和反序列化 简单的MR模式 VS 复杂的数据挖掘算法 函数式编程 图计算 Hadoop回顾 MapReduce过程 Map()函数 Reduce()函数 执行一次,结果写入磁盘 Shuffle过程 序列化和反序列化 写磁盘 Spark简介 基于内存的分布式计算框架 适合多次迭代的计算 支持多种操作,例如:map,filter,join等 提供多种数据处理工具,SQL,Streaming等 支持多种开发语言Scala,java,python. 与hadoop结合进行数据处理 对hdfs,hive,hbase进行访问 处理速度快 Spark 简介 运行模式 Standalone模式 Spark On Mesos模式 Spark On Yarn模式 Spark 原理 Spark主从结构 Driver 任务调度 容错处理 Worker 执行各种操作 保存数据 Spark 原理 RDD(Resilient Distributed Datasets) 弹性分布式数据集:一个只读、可分区的记录集合(对象) 可进行多种操作:transformatio

文档评论(0)

1亿VIP精品文档

相关文档