09-不同场景下的数仓架构选型经验分享.pptx

下载文档

0
0
约6.55千字
约 18页
2024-05-02 发布于广西
举报
版权申诉
保障服务

09-不同场景下的数仓架构选型经验分享.pptx

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分享标题分享人姓名+title不同场景下的数仓架构选型经验分享

目录数仓组件数仓选型

Hive及对应引擎Hive出道至今依旧巅峰，打通了分布式存储HDFS和分布式计算引擎，成为了大数据领域最重要的桥梁，也是大数据平台不可或缺的角色。Hive对应的计算引擎主要有以下几个：MapReduce太慢，已经成为历史；Tez速度快，编译太麻烦，也很少见到了。Impala速度快，但是绑定在CDH生态，截至目前我没用过。Spark速度中等，运行稳定，目前是Hive生态的顶梁柱。Presto速度快，开源稳定，还支持jdbc，一直在成长中，目前也是仅次于Spark的查询引擎。Doris和StarRocks也可以作为Hive的查询引擎，作为新起之秀，有性能优势。

HDFS和对象存储HDFS是一个分布式文件系统，设计用于存储和处理大规模数据集。它是Hadoop生态系统的一部分，并作为Hadoop的默认存储系统。HDFS将数据划分为多个块并存储在多个节点上，提供了高容错性和可伸缩性。HDFS适用于顺序读写大型文件，特别适合批处理任务和大规模数据分析。然而，HDFS的随机读写性能相对较差，不适合频繁更新和随机访问的场景。对象存储是一种将数据存储为对象的存储模型，每个对象包含数据、元数据和唯一标识符。对象存储通常使用云存储服务提供，如AmazonS3、GoogleCloudStorage和AzureBlobStorage。对象存储提供了高度可伸缩性、耐久性和可用性，并且可以存储大量的非结构化数据。对象存储适用于分布式应用、备份和归档、多媒体存储和共享等场景。它具有简单的API和灵活的访问控制，支持按需付费模型。HDFS虽然成本更高，但是目前占据优势地位。主要原因是：①HDFS具有更高的吞吐量，对象存储需要考虑网络成本；②HDFS搭建方案成熟，具有广泛的使用场景和经验；对象存储如果采用云方案，就存在较高的宽带成本，如果本地搭建，安全性和稳定性又大打折扣；③开源生态的Hive还不支持对象存储，导致对象存储还不能广泛应用；④HDFS是伴随Hadoop开源的，但是对象存储大多都绑定在商业云生态上，开源软件的成熟度不高。

批处理和OLAP查询批处理（BatchProcessing）：批处理是一种将数据作为一批批量处理的方式，数据按照批次收集、存储和处理。批处理通常涉及大规模数据集，将数据划分为批次后进行离线处理。批处理适用于对整体数据集进行分析和计算，可以处理历史数据和大规模计算任务。OLAP查询（OnlineAnalyticalProcessing）：OLAP查询是一种实时或交互式查询方式，用于查询和分析数据仓库或数据立方体中的数据。OLAP查询支持复杂的分析操作，例如切片、切块、钻取和旋转。它的目标是提供快速、灵活的数据分析和探索能力，以支持决策和业务分析。数据模型：在传统的数据库时代，批处理和OLAP查询是一体的，是Hive数仓时代优先重点发展了批处理，才造成了二者的分离。MapReduce和Spark就是典型的批处理计算引擎，追求大数据场景下的稳定和高并发，舍弃了OLAP查询快的要求；而Presto和ClickHouse则是OLAP查询引擎的典型代表，尽可能用最大的资源在最短的时间内完成SQL查询。

分布式架构和MPP架构架构模式：分布式架构：分布式架构是一种将数据和计算任务分布在多个节点上的架构模式。每个节点都有自己的计算和存储资源，节点之间通过网络进行通信和协调。这种架构可以实现横向扩展和高可用性，适用于大规模数据处理和分析。典型的分布式架构包括Hadoop、Spark等。MPP架构：MPP架构是一种将数据和计算任务分布在多个节点上，并使用专用硬件和软件来实现高性能并行处理的架构模式。MPP架构中的每个节点都有自己的计算和存储资源，并通过高速互联网络进行通信和协调。MPP架构通常用于数据仓库和分析型数据库系统，以支持高并发的在线分析和查询任务。数据处理方式：分布式架构：分布式架构通常使用分布式计算模型，如MapReduce或Spark，将数据划分为多个数据块，并在各个节点上并行处理。数据处理是通过将计算任务分发到各个节点上，然后收集和整合结果来完成的。MPP架构：MPP架构使用并行处理技术，在多个节点上同时执行查询和分析任务。数据通常以列存储的方式存储，并且查询会被拆分成多个子任务，每个子任务在不同的节点上并行执行，然后将结果合并。分布式架构和MPP架构的目的是一样的，就是多台廉价服务器组合程集群处理大数据计算。二者的边界逐渐变得越来越模糊，最大的区别可能就是计算资源是否由yarn分配，以及执行过程有稍许差异。传统的Greenplum、Teradata、惠普Vertica、DB2DPF架构数据库是MPP架构早期的典型代表。