百度MPP数据仓库Palo开源架构解读与应用.pdfVIP

百度MPP数据仓库Palo开源架构解读与应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
百度在线数据仓库Palo ——开源架构解读及应用 百度大数据部牟宇航 2017.12 Palo • 名字由来:PALO -OLAP • A MPP-based Interactive Data Analysis SQL DB • 百TB ~ PB级别,结构化数据,毫秒/秒级分析 • 百度大数据部研发,第三代OLAP 产品 – Doris - OlapEngine - Palo • 百度内部署1000+台,单一业务最大500TB • 17年8月开源,10月通过“大数据产品能力评测” 场景一 • 某在线报表业务 • 为网站站长提供流量分析,网站分析,受众分析等多种分析服务 • 300+表 ,数据清洗结构化后百TB+ ,单日增量1TB+ • 查询峰值QPS 2000+ ,日查询量千万级 • 一致性(会话内单调一致性、更新一致性) • 导入5分钟一次 • 查询平均延时30+ms 场景二 • 某业务数据集市 • 集运营、业务分析、订单管理、会员管理、客户关系管理等数十个管理分析平台 一体的综合数据平台 • 100+主题视图、10-100TB • 标准SQL ,Ad-Hoc (即席查询),秒级分析 场景三 • 某在线多维分析平台 • 100+表,最大单表50+维度列、10+指标列,任意组合,秒级分析 • 10-100TB 场景 • 以前 • 报表:Hadoop + MySQL • 分析:Hadoop + Hive • 现在 在线报表 在线多维分析 在线数据仓库 Palo 即席查询 Palo在百度大数据技术栈的位置 Palo在友商技术栈的应用 在线数据仓库——OLAP • Online Analytical Processing • Online vs. Offline (Interactive vs. Batch) • Analytical Processing vs. Transactional Processing OLTP OLAP 面向应用 日常交易处理 明细查询,分析决策 访问模式 简单小事务,操作少量数据 复杂聚合查询,查询大量数据 数据 当前最新数据 历史数据 数据规模 GB TB ~ PB 数据更新 实时更新 批量更新 数据组织 满足3NF 反范式,星型模型 OLAP-商业产品 产品 简介 技术特点 收购情况 Netezza 2000年在美国成立 软硬一体机 2010年9月20日,IBM出资17.8亿美 Netezza TwinFin 采用FPGA数据过滤代替索引 元收购 Greenplum 2003年在美国成立 行存 + 列存 2010年7月6日,EMC出资3亿美元收 Greenplum Database Shared-No

文档评论(0)

喜宝 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档