- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
百度大数据即席查询服务
Baidu BigSQL/孙垚光
自我介绍
基础架构部 分布式计算团队 孙垚光
09年-11年:Linux 内核/网络协议栈优化
11年-今:分布式计算/百度开放云
Hadoop/Spark
百度开放云
即席查询服务 (BigSQL)
• BigSQL定位/特点
• BigSQL架构
• BigSQL关键技术
• BigSQL在Baidu 内部的应用
• 下一步计划
即席查询服务 (BigSQL)
• BigSQL定位/特点
• BigSQL架构
• BigSQL关键技术
• BigSQL在Baidu 内部的应用
• 下一步计划
BigSQL 定位
Ø大数据即席查询 (Ad-Hoc Query )平台
ØPAAS :开箱即用,用户无需关心机器/集群的运维/细节
Ø高性能/规模:裸机/优化/最大PB量级以上
Ø低成本:多租户共享集群/按使用付费
BigSQL 特点
Ø 数据格式:半结构化 (CSV/JSON/ Parquet/ Protobuf等)
Ø 使用接口:易用/ 多样化 (RestAPI/Console/CLI/J DBC )
Ø 语法集:兼容开源SparkSQL/ HQL
Ø 按使用付费:按 (Query复杂度+扫描数据量)计费
Ø 多用户协同:灵活的权限管理
Ad-Hoc Query
• 面向 “人”的查询
ü交互式 (Interactive ):
Ø查询具有较高时效性
ü 即席 (Ad-Hoc ):
Ø查询模式相对不固定
Ø数据没有 (时间/成本)做过多预处理
即席查询 vs 多维分析
Ad-Hoc Query OLAP
数据密度 弱 (半)结构化 高度结构化
加工过程 粗 (浅)加工 深度加工
查询模式 相对随机 相对固定
MPP/Shared-Nothing
MPP/Impala SQL on Hadoop/SparkSQL
扩展性 1000 台以内/ PB以下 千台以上/ PB以上
查询延迟 毫秒~秒 秒~分钟
架构复杂性 中等 复杂
容错 无 有
调度策略 Gang/Transaction 分批
启停开销 小/常驻进程 大/现启动
与存储结合程度 紧密 松散
BigSQL 示意图
User User
Query Query
BigSQLService
Streaming Batch
WebServe
To
您可能关注的文档
最近下载
- 柯林斯词频分级词汇(一到五星).docx VIP
- 母婴护理知识大全课件.pptx
- GB∕T30146-2023 《安全与韧性 业务连续性管理体系 要求》“8.1运行策划和控制”理解与实施指导材料(2024A0).docx VIP
- GB∕T30146-2023 《安全与韧性 业务连续性管理体系 要求》“8.3业务连续性策略和解决方案”理解与实施指导材料(2024A0).docx VIP
- GB∕T30146-2023 《安全与韧性 业务连续性管理体系 要求》“8.2 业务影响分析和风险评估”理解与实施指导材料(2024A0).docx VIP
- GB∕T30146-2023 《安全与韧性 业务连续性管理体系 要求》“8.5演练策划”理解与实施指导材料(2024A0).docx VIP
- 中考现代文阅读——邓宗良《母亲的叶搭饼》.docx VIP
- GB∕T30146-2023 《安全与韧性 业务连续性管理体系 要求》“8.6业务连续性文件和能力评价”理解与实施指导材料(2024A0).docx VIP
- 华住加盟管理指导手册.pdf VIP
- (5MWh方案)--【314电芯液冷】100MW200MWh储能方案书.docx
文档评论(0)