百度大数据即席查询技术探讨.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
百度大数据即席查询服务 Baidu BigSQL/孙垚光 自我介绍 基础架构部 分布式计算团队 孙垚光 09年-11年:Linux 内核/网络协议栈优化 11年-今:分布式计算/百度开放云 Hadoop/Spark 百度开放云 即席查询服务 (BigSQL) • BigSQL定位/特点 • BigSQL架构 • BigSQL关键技术 • BigSQL在Baidu 内部的应用 • 下一步计划 即席查询服务 (BigSQL) • BigSQL定位/特点 • BigSQL架构 • BigSQL关键技术 • BigSQL在Baidu 内部的应用 • 下一步计划 BigSQL 定位 Ø大数据即席查询 (Ad-Hoc Query )平台 ØPAAS :开箱即用,用户无需关心机器/集群的运维/细节 Ø高性能/规模:裸机/优化/最大PB量级以上 Ø低成本:多租户共享集群/按使用付费 BigSQL 特点 Ø 数据格式:半结构化 (CSV/JSON/ Parquet/ Protobuf等) Ø 使用接口:易用/ 多样化 (RestAPI/Console/CLI/J DBC ) Ø 语法集:兼容开源SparkSQL/ HQL Ø 按使用付费:按 (Query复杂度+扫描数据量)计费 Ø 多用户协同:灵活的权限管理 Ad-Hoc Query • 面向 “人”的查询 ü交互式 (Interactive ): Ø查询具有较高时效性 ü 即席 (Ad-Hoc ): Ø查询模式相对不固定 Ø数据没有 (时间/成本)做过多预处理 即席查询 vs 多维分析 Ad-Hoc Query OLAP 数据密度 弱 (半)结构化 高度结构化 加工过程 粗 (浅)加工 深度加工 查询模式 相对随机 相对固定 MPP/Shared-Nothing MPP/Impala SQL on Hadoop/SparkSQL 扩展性 1000 台以内/ PB以下 千台以上/ PB以上 查询延迟 毫秒~秒 秒~分钟 架构复杂性 中等 复杂 容错 无 有 调度策略 Gang/Transaction 分批 启停开销 小/常驻进程 大/现启动 与存储结合程度 紧密 松散 BigSQL 示意图 User User Query Query BigSQLService Streaming Batch WebServe To

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档