基于spark我们做了什么.pptVIP

  • 111
  • 0
  • 约2.4千字
  • 约 24页
  • 2017-10-30 发布于天津
  • 举报
基于spark我们做了什么

基于Spark构建即席查询平台 自我介绍 基础架构部 分布式计算团队 孙垚光 09年-11年:Linux内核 网络协议栈优化 11年-今:分布式计算 批处理/内存计算/流式等 目录 即席查询 为什么是Spark 基于Spark,我们做了什么 应用案例 后续规划 即席查询 面向“人”的查询 即席(Ad-Hoc): 查询模式相对不固定 数据没有(时间/成本)做过多预处理 数据暂时不知如何处理 交互式(Interactive) 查询具有较高时效性 为什么是Spark MPP vs Hadoop MPP(Impala) Hadoop(Hive/SparkSQL) 扩展性 1000台以内/PB以下 千台以上/PB以上 查询延迟 毫秒~秒 秒~分钟 架构复杂性 中等 复杂 容错 无 有 调度策略 Gang/Transaction 分批调度 与存储结合程度 紧密 一般 基于Spark我们做了什么 更易用 更稳定 安全/资源隔离 性能/时效性 整体架构 基于Spark我们做了什么 更易用 Platform as a Service 用户不再关心部署/升级/调参/监控 各种形式的API Web/CLI/JDBC/SDK/Tools等 合理/简洁的概念抽象 Resource/Project/Dataset/Table/Partition 账单 Query粒度的资源消耗 基于Spark我们做了什么

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档