- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
FlinkCDC+HUDI海量数据入湖在顺丰的实践
覃立辉/大数据研发工程师
2022-5-21
01
顺丰数据集成背景
CONTENT02
FlinkCDC实践问题与优化
目录
03
未来规划
#1顺丰数据集成背景
业务场景
速运智慧物流IoT万物互联
发展历程
2022
FlinkCDC
2019
Flink+canal
2017
Jstorm+canal
历史入湖架构
•全量与增量存在数据重复•需要下游Upsert或Merge写入
•组件多,链路长,资源消耗大,维护复杂
核心需求
0102030405
全量增量自动最⼤限度地减能在已存在的任能同时进行全能确保数据在
切换,并保证少对源数据库务中,添加新表量与增量(日同一主键ID
数据准确性的影响,尽量的数据采集。避志)采集,不下是按历史顺
不使用锁。免一张表一个任能暂停日志采集,序发生的,不
务把DB机器带以降低新增表对能有后发生的事
宽打满其他表日志采集件先发送到下游。
带来的延迟。
为什么选择FlinkCDC
l无缝对接Flink生态
l无锁读取,断点续传,水
l全量与增量自动切换,保平扩展
证数据准确性
#2FlinkCDC实践问题与优化
FlinkCDC2.0原理
1.基于FLIP-27架构实现,先全量同步,在
Enumerator把表切分成多个split块。把
切分好的SnapshotSplit分配给
SourceRead执行全量数据采集。
2.采集完成后,SourceRead
您可能关注的文档
- 用搜索释放生成式人工智能的商业潜能.pdf
- 37手游基于云平台的大数据建设实践.pdf
- Flink CDC 在大健云仓的实践.pdf
- Flink X Hologres构建企业级一站式实时数仓 (2).pdf
- Flink CDC + OceanBase构建数据集成方案.pdf
- Flink X Hologres构建企业级一站式实时数仓.pdf
- Flink K8s Operator 实时计算方案.pdf
- FlinK+Hologres实时数仓在Lazada的建设及应用.pdf
- MongoDB CDC Connector 的实现原理和使用实践.pdf
- 阿里妈妈Dolphin智能计算引擎基于Flink+Hologres实践- 徐闻春.pdf
文档评论(0)