7.1-邸星星-流式湖仓架构优化与应用实践.pdfVIP

7.1-邸星星-流式湖仓架构优化与应用实践.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

流式湖仓架构优化与应用实践

邸星星

汽车之家–研发与数据中心

01020304

背景及现状业务实践Paimon优化实践未来规划

01背景及现状

背景:实时离线分开存储

实时:

离线:

背景:实时离线分开存储

分开存储会不可避免的导致同一SQL口径分别需要做实时/离线两套SQL开发:

•实时SQL一般的数据新鲜度会达到在秒级,离线一般会在天/小时级别

•对于较复杂的SQL,Flink会使用大量资源

•针对实时清洗任务有些情况下不能只考虑数据本身,还要考虑一些流的特点,比如上游任务处理逻辑是否会导致

数据/水位乱序

例:多流Join任务场景:数据匹配到立刻发送给下游,否则等待30分钟,基于事件时间驱动。但是上游任务同样有

这样的逻辑。这个时候就需要考虑水位会有30分钟的乱序。

实时离线

数据新鲜度延迟在秒级延迟在天/小时级

资源占用率高低

针对复杂的SQL的开发效率低高

背景:实时离线分开存储

我们在20年底开始引入Iceberg做为实时/离线存储同源的解决方案

优点:

•架构简洁、健壮

•集成Flink可以实现分钟级数据新鲜度

•支持排序、索引可以高效的提升查询效率

•通过自身维护元数据可以减少HiveMetaStore的压力,灵活高效地处理表结构变更

缺点:Iceberg更专注于批处理,对于流方面功能支持不够完善

•缺少增量且有序读功能

•缺少在线自动schema变更功能

•缺少部分更新功能

现状:选择Paimon统一流批存储

我们在23年开始调研Paimon,Paimon专注于实现流式湖仓的解决方案,我们通过Flink对Paimon表分层加工,使

用Spark/Hive/StarRocks进行查询,数据新鲜度达到分钟级别

实时分析

离线分析离线分析离线分析

现状:选择Paimon统一流批存储

优势:

•提供了类似Iceberg的简洁健壮的架构,并且功能非常强大

•提供了增量且有序的数据读取功能与Flink集成得非常完善

•提供了部分更新能力

•作为一个比较新的数据湖,没有太多的历史负担,这对于其他数据湖来讲有着非常巨大的优势

现状:选择Paimon统一流批存储

引入Paimon带来的收益:

开发效率时效性资源

开发效率提升时效性整体提升资源节省

02业务实践

Paimon在之家的业务实践

1、新用户转化分析

•使用Paimon主键表的部分更新功能

•使用StarRocks建物化视图加速Paimon表查询

2、流量日志入湖

•使用Paimon的Append表

•使用Paimon的SortCompaction功能加速查询效率,减少资源使用

3、资源入湖

•使用Paimon主键表的Upsert功能

您可能关注的文档

文档评论(0)

150****8957 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档