Spark 高效的分布式计算架构.pptVIP

  • 15
  • 0
  • 约9.1千字
  • 约 36页
  • 2020-09-16 发布于天津
  • 举报
spark 高效的分布式计算架构 何奇 14112852181 Life is short , you need spark! Life is short , you need spark! 目标 Scope (解决什么问题) 在大规模的特定数据集上的迭代运算或重复查询检索 官方定义: a MapReduce-like cluster computing framework designed for low-latency interativejobs and interactive use from an interpreter 目的理解 ? 首先, MapReduce-like 是说架构上和多数分布式计算框架类 似, Spark 有分配任务的主节点( Driver )和执行计算的工作 节点( Worker ) ? 其次, Low-latency 基本上应该是源于 Worker 进程较长的生命 周期,可以在一个 Job 过程中长驻内存执行 Task ,减少额外的 开销 ? 然后对 interative 重复迭代类查询运算的高效支持,是 Spark 的 出发点了。最后它提供了一个基于 Scala 的 Shell 方便交互式的 解释执行任务 小小示意图 那是如何实现的? ? 核心思路或架构: ? RDD : Spark 的核心概念是 RDD (resilient distri

文档评论(0)

1亿VIP精品文档

相关文档