实时计算平台Garuda原理和实践.pdf

实时计算平台(Garuda) 原理和实践 离哲(阿里巴巴-数据平台) 提纲 1 盘点 场景 定义 2 Garuda总览 3 技术剖析 4 应用案例 23:41 1实时计算盘点 •  1.1流式计算(Stream Computing) •  1.2即时计算(Realtime Computing) •  1.3持续计算(Continuous Computing) 23:41 1.1流式计算 u  流式计算 –  对庞大的连续数据流进行实时固定规则的提取、 过滤、分析等操作 ,从中获取有效的知识和信 息 u  特点 u  实时性 u  可加性 u  可逆性 u  确定性 23:41 1.场景 23:41 1.2.2 即时计算-相关概念 •  OLAP –  OnLine Analytical Processing •  RT OLAP (Realtime OLAP) –  Real-Time Objects/Cube/Dimension •  在线数据分析 –  访问量低/半结构化/无需定义/低成本 –  代表: •  Google Big Query (Dremel) •  Cloudera Impala (Trevni ) •  在线数据应用 –  高并发/预定义/高成本初始化/低成本复用 –  代表:Garuda 23:41 1.2.2 即时计算-特点 •   海量数据 •   SQL •无法预算  • Schema Free •   高并发 •低延时  •高可用  •计算精确  分布式/全索引 23:41 1.2.3 持续计算 聚合计算 Garuda 动态(Meta+扫描) 静态(全索引) 实时ETL Galaxy/Storm… 数据源 TT MetaQ MySQL Insert ODPS/Hadoop 23:41 2 Garuda 由来 •  Garuda [ɡɑ:rudɑ:] •  印度神话 迦楼罗 •  中国神话 大鹏 •  最重的动物 +最快的速度 大鹏一日同风起 扶摇直上九万里

文档评论(0)

1亿VIP精品文档

相关文档