- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据管理
数据治理视角下的湖仓一体架构研究
1,21
陈氢宋仕伟
(1.湖北工业大学经济与管理学院,武汉430068;2.湖北循环经济发展研究中心,武汉430068)
摘要:海量分布异构数据给企业数据治理带来严重挑战,加速数据仓库和数据湖向结合二者功能的湖仓
一体转变。通过比较数据仓库、数据湖和湖仓一体之间的差异性,分析湖仓一体的优势及其面临的挑战,再通
过划分业务领域并映射到数据视角来构建分布式湖仓一体架构,综合已有研究和相关技术构建湖仓一体功能
模块,并阐述动态流批一体数据流转过程。分布式湖仓一体架构包括数据领域解耦、跨领域数据共享、联合数
据治理等构建理念;湖仓一体功能模块主要包括数据源、湖仓一体核心功能区和用户;流批一体数据流转过程
包括批量数据过程和实时数据过程。本研究可为湖仓一体融入有效数据治理过程,构建较为完善的湖仓一体
架构体系,从而为相关研究或企业提供参考。
关键词:数据治理;数据湖;湖仓一体;数据共享
中图分类号:G203DOI:10.3772/j.issn.1673-2286.2023.04.003
引文格式:陈氢,宋仕伟.数据治理视角下的湖仓一体架构研究[J].数字图书馆论坛,2023(4):19-28.
2024全行业数字化转型企业建设解决方案
多源异构数据爆炸式增长带来数据沼泽、信息孤仓一体功能模块及动态流批一体数据流转过程,形成
岛等问题,导致无用数据和陈旧数据产生,而数据湖凭具有一定可行性、通用性和可扩展性的湖仓一体架构
借原始格式存储、数据存储类型多样和开放访问等优体系,以支持企业决策。
势解决了数据存入问题,但其缺乏事务管理支持能力、
数据治理能力,从而限制了数据产出。因此,企业多以1相关研究
将数据提取/加载/转换(ELT)到数据湖后再提取/转
换/加载(ETL)到数据仓库中的方式打通湖仓之间管1.1湖仓一体的内涵
道以同时获取二者优势,但这种二层架构存储成本高、
[1]
数据一致性和可靠性不足、对高级分析的支持有限。Databricks公司于2020年率先提出湖仓一体概念,
在此基础上,业界提出湖仓一体(lakehouse),在数据并将其描述为“一个新的、开放的数据管理架构,将数
湖上添加高级管理层具化数据仓库功能,实现多元化据湖的灵活性、成本效益和规模与数据仓库的数据管
[2][3]
数据存储、存储计算资源分离、事务管理支持、丰富场理和事务管理结合起来”;Armbrust等将其定义
景分析应用等优势组合。为“基于低成本和可直接访问的存储数据管理系统,
当前少数企业已面向业务需求实施湖仓一体解决同时具备传统分析型数据库管理系统的管理和性能特
方案,但仍存在功能不完善、架构不通用、治理不成征,如事务管理、数据版本、审计、索引、缓存和查询优
熟、数据难共享、系统难扩展等挑战。为此,本文从数化”。目前并无对湖仓一体的统一且成熟的定义,相关
据治理的视角出发,基于数据仓库、数据湖、湖仓一体研究多引用Armbrust等的说法。
三代数据平台的差异性,分析湖仓一体面临的挑战,提国外学者分别定义了自下而上[数据源/数据湖/元
出分布式湖仓一体架构,并综合当前研究构建静态湖数据、缓存和索引层/应用程序编程接口(API)层/消费
收稿日期:2023-02-28
年第卷第期19
2
文档评论(0)