新一代大数据技术架构LakeHouse湖仓一体.docxVIP

新一代大数据技术架构LakeHouse湖仓一体.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
新一代大数据技术架构LakeHouse湖仓一体 摘要: 当前的大数据技术应用趋势表明,客户对单一的数据湖和数仓架构并不满意。近年来几乎所有的数据仓库都增加了对Parquet和ORC格式的外部表支持,这使数仓用户可以从相同的SQL引擎查询数据湖表,但它不会使数据湖表更易于管理,也不会消除仓库中数据的ETL复杂性、陈旧性和高级分析挑战。 KeenData LakeHouse(湖仓一体)作为新一代大数据技术架构,将逐渐取代单一数据湖和数仓架构,成为大数据架构的下一站灯塔。? KeenData LakeHouse(湖仓一体)可定义为基于低成本,可直接访问存储的数据管理系统,它结合了数据湖和数据仓库的主要优势,开放格式的低成本存储可通过前者的各种系统访问,而后者则具有强大的管理和优化功能。数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为企业的数据治理带来更多的便利性。 一、企业数据架构发展史 1.1第一阶段:传统数仓 传统数据仓库是指从业务数据中创建信息数据库,将业务数据库的数据收集到集中式仓库来帮助企业领导者获得分析见解,然后将其用于决策支持和商业智能,它是单个数据存储,出于分析性报告和决策支持目的而创建。 传统数仓存储的数据类型,主要是以关系型数据库组织起来的结构化数据。数据通过转换、整合以及清理,导入到目标表中。在数仓中,数据存储的结构与其定义的schema是强匹配的。针对实时数据处理,非结构化数据处理能力较弱,以及在数据量支持方面相对有限。 1.2第二阶段:数据湖 数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施,它就像一个大型仓库存储企业多样化原始数据以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理。拥有强大的信息处理能力和处理几乎无限的并发任务或工作的能力。 数据湖从企业的多个数据源获取原始数据,数据可能是任意类型的信息,从结构化数据到完全非结构化数据,并通过与各类外部异构数据源的交互集成,支持各类企业级应用。结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。 1.3数据湖与数据仓库的区别: 在储存方面上:数据湖中的数据为非结构化的,所有数据都保持原始形式仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取。在将数据加载到数据仓库之前,会对数据进行清理与转换。 在数据抓取中:数据湖捕获半结构化和非结构化数据。而数据仓库则只捕获结构化数据并将其按模式组织。数据湖的目的是非常适合深入分析的非结构化数据。数据科学家可能会用具有预测建模和统计分析等功能的高级分析工具。而数据仓库就非常适用于BI分析等操作用途,因为它具有高度结构化。 1.4第三阶段:KeenData LakeHouse(湖仓一体) KeenData LakeHouse架构成为当下架构演进最热的趋势,将数据仓库的高性能与管理能力与数据湖的灵活性相互融合。? 企业创建数据仓库来支持商业智能,主要场景包括编制报表、发布下游数据集市(Data Marts),以及支持自助式商业智能等。数据湖来自于数据科学对数据的探索,主要场景包括通过快速实验创建和检验假设,以及利用半结构化和非结构化数据等。 KeenData LakeHouse的最佳实践是基于存算分离架构来构建。存算分离最大的问题在于网络,特别是对于高频访问的数仓数据,网络性能至关重要。实现Lakehouse 的可选方案很多,比如Delta,Hudi,Iceberg。虽然三者侧重点有所不同,但是都具备数据湖通用的一些功能,比如:统一元数据管理、支持多元分析引擎、支持高阶分析和计算存储分离。 如上图所示:蓝色数据流是离线数据流,实现离线数据湖能力,数据通过批量集成,存储到Hudi,再通过Spark进行加工。红色数据流是实时流,数据通过CDC实时捕获,通过Flink实时写入Hudi;通过Redis做变量缓存,以实现实时数据加工处理,之后送到诸如Clickhouse 、Redis、Hbase等专题集市里对外提供服务。 KeenData LakeHouse有了自己的角色和定位,但是一项技术的发展壮大还不能就此停止,它还必须在完善自身功能的基础上去解决因为它的出现而导致的善后问题以及它出现之前的历史遗留问题,只有这样,它才能被真正广泛接受。比如对于已有的系统,特别是企业已经存在的庞大规模的基于HDFS存储的数据仓库和基于MPP架构的实时数据仓库系统,如何按照KeenData LakeHouse架构来实行? 二、KeenData LakeHouse湖仓一体敏捷数据平台 基于企业内的这些场景,融合数据湖和数据仓库的优势,不断优化数据架构

文档评论(0)

steven + 关注
实名认证
文档贡献者

系统集成项目管理工程师、AMAC基金从业资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年08月23日上传了系统集成项目管理工程师、AMAC基金从业资格证

1亿VIP精品文档

相关文档