- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
OLAP系统建设
Agenda
•
•
•
•
•
OLAP需求
系统定位
系统挑战
系统架构
未来工作
OLAP前端展示
OLAP后端查询
• 需求
– 查询IT168网站在4月1日到4月12日期间的各地
域访问情况
• SQL
• SELECT province, SUM(pv) FROM StatsTable WHERE
site=‘IT168’ AND date BETWEEN “2014-04-01” AND
“2014-04-12” GROUP BY province
两类需求场景
• 报表场景
–
–
–
–
查询模式可预知,查询维度组合有限
查询QPS高( 1万次/秒 )、毫秒延时
SLA高,7*24小时不间断服务
面向百万网站主、百万广告主
• 多维分析场景
–
–
–
–
查询模式不可预知,任意维度组合
查询QPS低(~10次/秒)、分钟级别延时
SLA不高,可工作时间提供服务
面向内部分析人员、决策人员
OLAP需求位置
报告
报表
多维分析
Adhoc查询
数据挖掘
从上往下:
1. 分析维度从少到多
2. 计算复杂度从低到高
3. 从以人为主转为以机器为主
4. 用户专业程度越来越高,越来越少
OLTP
OLAP
用户
普通用户
用户量大
决策人员,高级管理人员
用户量小
功能
日常操作处理
简单的事务,事务驱动
分析决策
复杂的查询,分析驱动
DB设计
面向应用
面向主题
数据
最新的,细节的,二维的
历史的,聚合的,多维的
数据大小
数GB
数百TB
查询更新
读/写数十条记录
读上亿条记录
OLTP vs OLAP
Agenda
•
•
•
•
•
OLAP需求
系统定位
系统挑战
系统架构
未来工作
数据仓库
OLAP
系统
预处理+传输
ETL处理
日志收集和清洗
OLAP在大数据体系位置
OLAP前端系统
OLAP后端系统
OLAP系统
发起查询,展
示图表、曲线
分析业务
多维建模
如商业版BIEE
如定制的Web系统
OLAP后端系统定位
• 提供百T级别Cube的存储与高效查询服务
• 响应报表与多维分析需求
Agenda
•
•
•
•
•
OLAP需求
系统定位
系统挑战
系统架构
未来工作
系统挑战
• 多维分析: rollup, drill-down, slicing和dicing
• 维度任意组合数据量巨大,交互式响应
•
•
•
•
•
•
系统挑战
每日十T级别数据,如何快速导入?
如何提供SQL查询?
经常加表、改表、删表,应对?
经常数据出错,如何恢复?
磁盘经常出现故障,怎么办?
……
Agenda
•
•
•
•
•
OLAP需求
系统定位
系统挑战
系统架构
未来工作
系统架构
元数据
管理
数据
导入
查询层(SQL接口)
存储层
存储模型细节
• 数据块存储
– 每个块含256行
– 块内部列存储
– 块整体压缩
• 稀疏索引
– 索引常驻内存
– 每个块对应一个索引项
数据块
索引文件
site=IT168
date 系统特点和性能
• 核心特点:
– 大规模并行处理MPP查询引擎
– 行列混合存储引擎
• 减少扫描量
–
–
–
–
物化视图
索引
列式存储
压缩
• 性能:
– 100节点,单机 CPU 12核 ,内存64G, SAS硬盘 2T,1GB网卡
– 低并发大查询 :最大扫描速度100GB/s,单个查询响应时间:毫秒
~小时,数据压缩比1:4~1:10
– 高并发小查询:最大并发100,000qps
Agenda
•
•
•
•
•
OLAP需求
系统定位
系统挑战
系统架构
未来工作
未来工作
• 数据流准实时
• 存储引擎优化
• 查询优化
大数据Style
• 百度大数据部
– 打造世界一流大数据平台
• 想了解更多?欢迎加盟
QA
文档评论(0)