- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
1.1
数据湖介绍
1.1.1
什么是数据湖
数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化数据,
可以按照原样存储数据,无需对数据进行结构化处理,并运行不同类型的分析,对数据进行加
工,例如:大数据处理、实时分析、机器学习,以指导做出更好地决策。
1.1.2
为什么需要数据湖
当前基于Hive的离线数据仓库已经非常成熟,在传统的离线数据仓库中对记录级别的数据进行更
新是非常麻烦的,需要对待更新的数据所属的整个分区,甚至是整个表进行全面覆盖才行,由于
离线数仓多级逐层加工的架构设计,数据更新时也需要从贴源层开始逐层反应到后续的派生表中
去。
随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直
聚焦并探索于实时数仓建设。根据数仓架构演变过程,在Lambda架构中含有离线处理与实时处
理两条链路,其架构图如下:
正是由于两条链路处理数据导致数据不一致等一些列问题所以才有了Kappa架构,Kappa架构如
下:
Kappa架构可以称为真正的实时数仓,目前在业界最常用实现就是Flink
+
Kafka,然而基于
Kafka+Flink的实时数仓方案也有几个非常明显的缺陷,所以在目前很多企业中实时数仓构建中经
常使用混合架构,没有实现所有业务都采用Kappa架构中实时处理实现。Kappa架构缺陷如下:
1)
Kafka无法支持海量数据存储。对于海量数据量的业务线来说,Kafka一般只能存储非常短时间
的数据,比如最近一周,甚至最近一天。
2)
Kafka无法支持高效的OLAP查询,大多数业务都希望能在DWD\DWS层支持即席查询的,但
是Kafka无法非常友好地支持这样的需求。
3)
无法复用目前已经非常成熟的基于离线数仓的数据血缘、数据质量管理体系。需要重新实现一
套数据血缘、数据质量管理体系。
4)
Kafka不支持update/upsert,目前Kafka仅支持append。
为了解决Kappa架构的痛点问题,业界最主流是采用“批流一体”方式,这里批流一体可以理解
为批和流使用SQL同一处理,也可以理解为处理框架的统一,例如:Spark、Flink,但这里更重
要指的是存储层上的统一,只要存储层面上做到“批流一体”就可以解决以上Kappa遇到的各种
问题。
数据湖技术可以很好的实现存储层面上的“批流一体”,这就是为什么大数据中需要数据湖的原
因。
1.2
Paimon介绍
Apache
Paimon
是一种数据湖格式(lake
format),用于构建实时数据湖仓(Lakehouse)架
构,支持
Flink
和
Spark
的流处理和批处理操作。Paimon
采用
LSM(Log-structured
merge-
tree)
结构来支持高效的数据摄取、更新和查询,尤其适用于实时数据流处理和大规模批数据处
理了操作,可以实现更高效的实时更新和复杂的数据分析功能。
上图展示了
Paimon
在数据集成和数据分析中的使用,Paimon
采用
LSM
树
作为其存储引擎的
核心结构,通过这种数据结构高效地处理大规模数据的写入和更新操作,数据底层通过
分布式文
件系统(例如
HDFS、OSS
或
S3)进行持久化存储。
Paimon可以做如下数据集成操作:
从
MySQL
和
日志数据源
进行实时数据摄取(Real-time
Ingestion),将增量变化导入
Paimon。
整个数据库同步(Entire
Database
Sync),支持对整个数据库的同步,适合一次性导入数
据。
模式演化同步(Schema
Evolution
Sync),支持数据库模式的动态变化。
部分更新(Partial-Update),支持只更新部分字段而不影响其余数据。
批量覆盖(Batch
Overwrite),可以进行全量的批量覆盖操作,适用于需要重写数据的场
景。
基于Paimon可以实现如下数据查询和分析功能:
增量快照(Incremental
Snapshot),支持增量快照查询,可以高效地获取数据变化。
变更日志生成(Changelog
Producing),生成数据的变更日志,适合实时
您可能关注的文档
最近下载
- 中华人民共和国人民陪审员法全文最新解读课件.pptx VIP
- 新能源行业光储能微电网能量管理系统解决方案【50页PPT】.pptx VIP
- 电力系统分析理(第二版 刘天琪 邱晓燕)课后思考题答案(不包括计算).doc VIP
- 突发事件之车站大客流组织讲解.pptx VIP
- 护理三基考试题库7000题.pdf VIP
- 4 古代诗歌四首《次北固山下》 王湾 教学课件 初中语文统编版(2024)七年级上册 第一单元.pptx
- 电力系统分析理论-课后答案(刘天琪-邱晓燕-著)-科学出版社.pdf VIP
- 隧道工程-盾构施工技术(课件).ppt VIP
- 高速铁路隧道工程施工质量验收标准培训课件参考.ppt VIP
- 老虎岩生活垃圾填埋场沼气发电建设项目环境影响报告表.doc VIP
文档评论(0)