数据湖与湖仓一体架构实践.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据湖与湖仓一体架构实践 一、什么是数据湖? 数据湖是保存大量原始格式数据的中心位置。与以文件或文件夹形式存储数据的分层数据仓库相比,数据湖采用扁平化架构和对象存储方式来存储数据。?对象存储具有元数据标签和唯一标识符,便于跨区域定位和检索数据,提高性能。通过利用廉价的对象存储和开放格式,数据湖使许多应用程序能够利用数据。 数据湖是为了应对数据仓库的局限性而开发的。虽然数据仓库为企业提供高性能和可扩展的分析,但它们昂贵、专有,不能处理大多数公司正在寻求解决的现代用例场景。 数据湖通常用于将企业的所有数据合并到一个单一的中心位置,在那里数据可以“原样”保存,而不需要像数据仓库那样预先强加一个模式(即数据组织方式的正式结构)。细化过程中所有阶段的数据都可以存储在数据湖中:原始数据可以与组织的结构化、表格式数据源(如数据库表)以及在细化原始数据过程中生成的中间数据表一起被接入和存储。 与大多数数据库和数据仓库不同,数据湖可以处理所有数据类型——包括非结构化和半结构化数据,如图像、视频、音频和文档——这对今天的机器学习和高级分析用例至关重要。 二、为什么要使用数据湖? 首先,数据湖是开放格式的,因此用户可以避免被锁定在数据仓库这样的专有系统中,而数据仓库在现代数据体系结构中已经变得越来越重要。数据湖还具有高度的持久性和低成本,因为它们具有扩展和利用对象存储的能力。 此外,对非结构化数据的高级分析和机器学习是当今企业最重要的战略重点之一。以各种格式(结构化、非结构化、半结构化)摄取原始数据的独特能力,以及前面提到的其他优点,使数据湖成为数据存储的明确选择。 当架构正确时,数据湖能够: 为数据科学和机器学习提供支持:数据湖允许将原始数据转换为结构化数据,以便在低延迟的情况下进行SQL分析、数据科学和机器学习。原始数据可以以较低的成本无限期地保留,以便将来在机器学习和分析中使用。 对数据进行集中、合并和分类:集中式数据湖消除了数据烟囱的问题(如数据重复、多个安全策略和协作困难),为下游用户提供了一个查找所有数据源的单一位置。 快速无缝地集成各种数据源和格式:任何和所有数据类型都可以收集并无限期地保留在数据湖中,包括批处理和流数据、视频、图像、二进制文件等。由于数据湖为新数据提供了一个着陆区域,它总是最新的。 通过向用户提供自助服务工具使数据大众化:数据湖非常灵活,让拥有完全不同技能、工具和语言的用户能够同时执行不同的分析任务。 三、数据湖的挑战 尽管数据湖有很多优点,但数据湖带来的各种挑战会减缓创新和生产力。数据湖缺乏保证数据质量和可靠性所需的特性。看似简单的任务可能会大幅降低数据湖的性能,而且由于安全性和治理特性较差,数据湖无法满足业务和监管需求。 (1)可靠性的问题 如果没有适当的工具,数据湖可能会出现数据可靠性问题,使数据科学家和分析师难以对数据进行推理。这些问题可能源于难以组合批量数据和流数据、数据损坏和其他因素。 (2)缓慢的性能 随着数据湖中数据规模的增加,传统查询引擎的性能通常会变慢。一些瓶颈包括元数据管理、不正确的数据分区等。 (3)缺乏安全特性 由于缺乏可见性和删除或更新数据的能力,数据湖很难得到妥善的保护和治理。这些限制使其很难满足监管机构的要求。 解决数据湖挑战的方法是lakehouse,它通过在上面添加事务存储层来解决数据湖的挑战。一个lakehouse,使用类似于数据仓库的数据结构和数据管理功能,但直接在云数据湖上运行。最终,lakehouse允许传统的分析、数据科学和机器学习以一种开放的格式共存于同一个系统中。 lakehouse为企业数据分析、BI和机器学习项目提供了广泛的新用例,这些项目可以释放巨大的商业价值。通过使用SQL查询数据湖中的数据,数据分析师能获得丰富的见解,数据科学家可以加入和丰富的数据集生成ML模型与更高的精度,数据工程师可以构建自动化ETL管道,BI人员可以创建视觉仪表盘和报表工具,比以前更快和更容易。这些用例都可以在数据湖上同时执行,无需提升和移动数据,即使有新数据流入。 数据湖与数据仓库一般特征 Data lake Data lakehouse Data warehouse 数据类型 所有类型:结构化数据、半结构化数据、非结构化(原始)数据 所有类型:结构化数据、半结构化数据、非结构化(原始)数据 结构化数据 成本 $ $ $$$ 格式 开放格式 开放格式 封闭的专有格式 扩展性 扩展以低成本保存任何数量的数据,而不用考虑数据类型 扩展以低成本保存任何数量的数据,而不用考虑数据类型 由于供应商的成本,向上扩展的成本会呈指数级增长 目标用户 有限:数据科学家 统一:数据分析师、数据科学家、机器学习工程师 有限:数据分析师 可靠性 低质量,数据沼泽 高质量,数据可靠 高质量,数据可靠 易用性

文档评论(0)

一生习武之人 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档