09-不同场景下的数仓架构选型经验分享.pptx

09-不同场景下的数仓架构选型经验分享.pptx

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

分享标题分享人姓名+title不同场景下的数仓架构选型经验分享

目录数仓组件数仓选型

Hive及对应引擎Hive出道至今依旧巅峰,打通了分布式存储HDFS和分布式计算引擎,成为了大数据领域最重要的桥梁,也是大数据平台不可或缺的角色。Hive对应的计算引擎主要有以下几个:MapReduce太慢,已经成为历史;Tez速度快,编译太麻烦,也很少见到了。Impala速度快,但是绑定在CDH生态,截至目前我没用过。Spark速度中等,运行稳定,目前是Hive生态的顶梁柱。Presto速度快,开源稳定,还支持jdbc,一直在成长中,目前也是仅次于Spark的查询引擎。Doris和StarRocks也可以作为Hive的查询引擎,作为新起之秀,有性能优势。

HDFS和对象存储HDFS是一个分布式文件系统,设计用于存储和处理大规模数据集。它是Hadoop生态系统的一部分,并作为Hadoop的默认存储系统。HDFS将数据划分为多个块并存储在多个节点上,提供了高容错性和可伸缩性。HDFS适用于顺序读写大型文件,特别适合批处理任务和大规模数据分析。然而,HDFS的随机读写性能相对较差,不适合频繁更新和随机访问的场景。对象存储是一种将数据存储为对象的存储模型,每个对象包含数据、元数据和唯一标识符。对象存储通常使用云存储服务提供,如AmazonS3、GoogleCloudStorage和AzureBlobStorage。对象存储提供了高度可伸缩性、耐久性和可用性,并且可以存储大量的非结构化数据。对象存储适用于分布式应用、备份和归档、多媒体存储和共享等场景。它具有简单的API和灵活的访问控制,支持按需付费模型。HDFS虽然成本更高,但是目前占据优势地位。主要原因是:①HDFS具有更高的吞吐量,对象存储需要考虑网络成本;②HDFS搭建方案成熟,具有广泛的使用场景和经验;对象存储如果采用云方案,就存在较高的宽带成本,如果本地搭建,安全性和稳定性又大打折扣;③开源生态的Hive还不支持对象存储,导致对象存储还不能广泛应用;④HDFS是伴随Hadoop开源的,但是对象存储大多都绑定在商业云生态上,开源软件的成熟度不高。

批处理和OLAP查询批处理(BatchProcessing):批处理是一种将数据作为一批批量处理的方式,数据按照批次收集、存储和处理。批处理通常涉及大规模数据集,将数据划分为批次后进行离线处理。批处理适用于对整体数据集进行分析和计算,可以处理历史数据和大规模计算任务。OLAP查询(OnlineAnalyticalProcessing):OLAP查询是一种实时或交互式查询方式,用于查询和分析数据仓库或数据立方体中的数据。OLAP查询支持复杂的分析操作,例如切片、切块、钻取和旋转。它的目标是提供快速、灵活的数据分析和探索能力,以支持决策和业务分析。数据模型:在传统的数据库时代,批处理和OLAP查询是一体的,是Hive数仓时代优先重点发展了批处理,才造成了二者的分离。MapReduce和Spark就是典型的批处理计算引擎,追求大数据场景下的稳定和高并发,舍弃了OLAP查询快的要求;而Presto和ClickHouse则是OLAP查询引擎的典型代表,尽可能用最大的资源在最短的时间内完成SQL查询。

分布式架构和MPP架构架构模式:分布式架构:分布式架构是一种将数据和计算任务分布在多个节点上的架构模式。每个节点都有自己的计算和存储资源,节点之间通过网络进行通信和协调。这种架构可以实现横向扩展和高可用性,适用于大规模数据处理和分析。典型的分布式架构包括Hadoop、Spark等。MPP架构:MPP架构是一种将数据和计算任务分布在多个节点上,并使用专用硬件和软件来实现高性能并行处理的架构模式。MPP架构中的每个节点都有自己的计算和存储资源,并通过高速互联网络进行通信和协调。MPP架构通常用于数据仓库和分析型数据库系统,以支持高并发的在线分析和查询任务。数据处理方式:分布式架构:分布式架构通常使用分布式计算模型,如MapReduce或Spark,将数据划分为多个数据块,并在各个节点上并行处理。数据处理是通过将计算任务分发到各个节点上,然后收集和整合结果来完成的。MPP架构:MPP架构使用并行处理技术,在多个节点上同时执行查询和分析任务。数据通常以列存储的方式存储,并且查询会被拆分成多个子任务,每个子任务在不同的节点上并行执行,然后将结果合并。分布式架构和MPP架构的目的是一样的,就是多台廉价服务器组合程集群处理大数据计算。二者的边界逐渐变得越来越模糊,最大的区别可能就是计算资源是否由yarn分配,以及执行过程有稍许差异。传统的Greenplum、Teradata、惠普Vertica、DB2DPF架构数据库是MPP架构早期的典型代表。

文档评论(0)

优选文档 + 关注
实名认证
内容提供者

专注于发布优质文档,喜欢的可以关注一下哦~

1亿VIP精品文档

相关文档