大数据即席查询技术.pptVIP

  • 6
  • 0
  • 约2.85千字
  • 约 28页
  • 2019-06-07 发布于河南
  • 举报
百度大数据即席查询服务 百度开放云 即席查询服务(BigSQL) • BigSQL定位/特点 • BigSQL架构 • BigSQL关键技术 • BigSQL在Baidu内部的应用 • 下一步计划 即席查询服务(BigSQL) • BigSQL定位/特点 • BigSQL架构 • BigSQL关键技术 • BigSQL在Baidu内部的应用 • 下一步计划 Ø大数据即席查询(Ad-Hoc Query)平台 ØPAAS:开箱即用,用户无需关心机器/集群的运维/细节 Ø高性能/规模:裸机/优化/最大PB量级以上 Ø低成本:多租户共享集群/按使用付费 BigSQL 定位 Ø 数据格式:半结构化(CSV/JSON/Parquet/Protobuf等) Ø 使用接口:易用/多样化(RestAPI/Console/CLI/JDBC) Ø 语法集:兼容开源SparkSQL/HQL Ø 按使用付费:按(Query复杂度+扫描数据量)计费 Ø 多用户协同:灵活的权限管理 BigSQL 特点 • 面向“人”的查询 ü交互式(Interactive): Ø查询具有较高时效性 ü即席(Ad-Hoc): Ø查询模式相对不固定 Ø数据没有(时间/成本)做过多预处理 Ad-Hoc Query Ad-HocQuery OLAP 数据密度 弱(半)结构化 高度结构化 加工过程 粗(浅)加工 深度加工 查询模式 相对随机 相对固定 即席查询 vs 多维分析 MPP/Impala SQLonHadoop/SparkSQL 扩展性 1000台以内/PB以下 千台以上/PB以上 查询延迟 毫秒~秒 秒~分钟 架构复杂性 中等 复杂 容错 无 有 调度策略 Gang/Transaction 分批 启停开销 小/常驻进程 大/现启动 与存储结合程度 紧密 松散 MPP/Shared-Nothing BigSQLService WebServe r Tools/SDK BOS BigSQL 示意图 User Query User Query Streaming Batch 即席查询服务(BigSQL) • BigSQL定位/特点 • BigSQL架构 • BigSQL关键技术 • BigSQL在Baidu内部的应用 • 下一步计划 REST API 接入层(Http Server) SessionManager SparkContext SessionWorker Query Query Scheduler Compute Storage Cluster SparkContext SessionWorker Query Query SparkContext SessionWorker Query Query SDK CLI Tools MetaStore IAM 账单 监控 State Store Console BigSQL 整体架构 Ø 易用性:各种形式的API Ø 可用性:关键节点容错 Ø 安全:租户认证和鉴权、Quota限制 Ø 账单 Ø 监控 BigSQL整体架构:接入层 计算引擎(Spark) SessionWorker SessionWorker SessionWorker SessionWorker APP Executor Executor APP Executor Executor Executor 分布式缓存(Cache Manager) 存储引擎(DFS/Column Storage) APP Executor APP Executor Executor BigSQL整体架构:引擎层 接入层 即席查询服务(BigSQL) • BigSQL定位/特点 • BigSQL架构 • BigSQL关键技术 • BigSQL在Baidu内部的应用 • 下一步计划 高性能Shuffle BigSQL 关键技术(一) 高性能Shuffle BigSQL 关键技术(一) BigSQL 关键技术(一) 数据缓存层 BigSQL 关键技术(二) User User 接入层 计算引擎(Spark) Cache Manager Cache 存储引擎(HDFS + Parquet) 数据缓存策略 l 按需缓存 Ø Query运行时触发Cache miss,异步load到缓存 l 数据预取 Ø 周期性Load相关Table/Partition到缓存 Ø 根据过去Query信息统计热点数据,提前Load到缓存 典型案例:跨地域查询加速(提升至少一个数量级) BigSQL 关键技术(二) 优化执行 l 智能参数优化 Ø 利用Combine类I

文档评论(0)

1亿VIP精品文档

相关文档