- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hologres用户交流群 Hologres官网
Hologres开发者社区技术圈 阿里云开发者 “藏经阁”
海量免费电子书下载
目录
Hologre产品介绍与技术揭秘 4
快速上手Hologres 16
Hologres+Flink实时数仓详解 26
MaxCompute+Hologres数据仓库详解 33
开源OLAP升级Hologres详解 46
Hologre产品介绍与技术揭秘 4
Hologre产品介绍与技术揭秘
概要:近年来,随着数据实时化的诉求加剧,催生了一系列的实时数仓架构,Lambda架
构也应运而生,但是随着场景的复杂度和业务多维需求,Lambda架构的痛点也越来越明
显。HSAP的理念则是服务分析一体化,在本文中,来自阿里巴巴的资深技术专家将会深
度剖析HSAP技术实现Hologres的设计原理,解读其产品典型场景。
作者 | 仙隐 (金晓军)阿里巴巴资深技术专家
一、传统数据仓库
目前来说,大数据相关的业务场景一般有实时大屏、实时BI报表、用户画像和监控预
警,如下图所示。
实时大屏业务,一般用在公司领导做决策的辅助工具,在对外展示,比如实时成交额等
场景也会经常用到,是一种展示公司实力的方式。
实时BI报表是运营和产品经理经常用到的一个业务。
用户画像常用在广告推荐场景中,通过更详细的算法给用户贴上标签,使得推荐算法更
加有针对性,更加有效。
预警监控,比如对网站、APP进行流量监控,在达到一定阈值的时候可以进行报警。
5 Hologre产品介绍与技术揭秘
对于上面这些大数据业务场景,在很早之前业界就开始通过数据仓库的建设来满足这些
场景的需求,比较传统的是如下图所示的离线数据仓库,其大致流程就是:首先,将各类数
据收集起来;然后经过ETL处理,再经过层层建模对数据进行聚合、筛选等处理;最后在
需要的时候通过应用层的工具对数据进行展现,或者生成报表。
上面这种方式虽然可以对接多种数据源,但是存在一些很明显的痛点:
ETL逻辑复杂,存储、时间成本过高;
数据处理链路非常长;
无法支持实时/近实时的数据,只能处理T+1的数据。
二、Lambda架构
随着实时计算技术的兴起,出现了Lambda架构。Lambda架构的原理如下图所示,
其思路其实是相当于在传统离线数仓的基础上再加上一个处理实时数据的层,然后将离线数
仓和实时链路产生的数据在Serving层进行Merge,以此来对离线产生的数据和实时产生
的数据进行查询。
从2011年至今,Lambda架构被多数互联网公司所采纳,也确实解决了一些问题,但
是随着数据量的增大、应用复杂度的提升,其问题也逐渐凸显,主要有:
Hologre产品介绍与技术揭秘 6
由多种引擎和系统组合而成,开发和维护成本高,学习成本高;
数据在不同的View 中存储多份,空间浪费,数据一致性的问题难以解决;
从使用上来说,Batch,Streaming以及Merge Query等处理过程中均使用不同的
language,使用起来并不容易;
学习成本非常高,增大了应用成本。
下图是阿里巴巴在2011年到2016年间沉淀下来的一套实时数仓架构,其本质上也是
Lambda架构,然而随
文档评论(0)