实时计算平台(Garuda)
原理和实践
离哲(阿里巴巴-数据平台)
提纲
1 盘点 场景 定义
2 Garuda总览
3 技术剖析
4 应用案例
23:41
1实时计算盘点
• 1.1流式计算(Stream Computing)
• 1.2即时计算(Realtime Computing)
• 1.3持续计算(Continuous Computing)
23:41
1.1流式计算
u 流式计算
– 对庞大的连续数据流进行实时固定规则的提取、
过滤、分析等操作 ,从中获取有效的知识和信
息
u 特点
u 实时性
u 可加性
u 可逆性
u 确定性
23:41
1.场景
23:41
1.2.2 即时计算-相关概念
• OLAP
– OnLine Analytical Processing
• RT OLAP (Realtime OLAP)
– Real-Time Objects/Cube/Dimension
• 在线数据分析
– 访问量低/半结构化/无需定义/低成本
– 代表:
• Google Big Query (Dremel)
• Cloudera Impala (Trevni )
• 在线数据应用
– 高并发/预定义/高成本初始化/低成本复用
– 代表:Garuda
23:41
1.2.2 即时计算-特点
• 海量数据 • SQL
•无法预算 • Schema Free
• 高并发 •低延时
•高可用 •计算精确
分布式/全索引
23:41
1.2.3 持续计算
聚合计算
Garuda
动态(Meta+扫描) 静态(全索引)
实时ETL Galaxy/Storm…
数据源 TT MetaQ MySQL Insert ODPS/Hadoop
23:41
2 Garuda 由来
• Garuda [ɡɑ:rudɑ:]
• 印度神话 迦楼罗
• 中国神话 大鹏
• 最重的动物 +最快的速度
大鹏一日同风起
扶摇直上九万里
原创力文档

文档评论(0)