- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据汇聚平台建设及挑战
DtabendLabs吴炳锡
数据汇聚平台的背景及挑战
新一代湖仓Databend如何应对
Databend建设数据汇聚平台整体架构
在汇聚平台上构建数据集市
▶
▶
▶
▶
数据汇聚平台的背景及挑战
数据汇聚平台的背景
实时数据报表
即度查询
跑批
补数数据
任务监控
任务调度
跑批
自助查询
HDFS
/OSS
/IceBerg
/Hudi
业务端A
业务端B
...
MySQL统计库
Hive
Mr+Spark
Maxwell
Clickhouse
Flume/fluentd
MySQL统计库
Presto
客户端
sqoop
Kafka
Nginx日志
Redis
实时上报接口
Maxwell
MySQL
Clickhouse/GreenPlum
ES
Hudi/Icebreg/Paimon
Trino/Implala
各种大模型
数据汇聚平台的背景及挑战
数据汇聚平台的背景及挑战
当前的挑战
数据搬家数据核对清洗数据
存储扩容数据重分布
分区设计(有技术)
工作内容
重启服务
数据归档
算力扩容
IT基础架构的进化,也会出现新的产品进化,让生活变的更美好
数据汇聚平台的背景及挑战
我们需要的
数据汇聚平台的背景及挑战
新一代湖仓Databend如何应对
Databend建设数据汇聚平台整体架构
在汇聚平台上构建数据集市
▶
▶
▶
▶
•向量化计算,提升单机计算性能和集群能力
•存储、计算分离思想,提升分布式计算能力,支持Multicluster模式
•借鉴Git,MVCC列式存储引擎,支持事务及数据回溯
•全面支持HDFS/Cloud-basedObjectStorage等20多种存储协议
•基于便宜的对象存储也能方便的做实时性分析
•内置Stream(CDC)+Task实现内置流批一体化方案
•完全使用Rust研发,代码自主可控
•高弹性+强分布式,致力于解决大数据分析成本和复杂度问题
Databend=ClickHouse+Snowflake+Rust
新一代湖仓Databend如何应对
•应用系统产生ndjosn,parquet,csv
•利用OpenDAL直接写入对象存储
•使用对象存储替换消息队列
•Databend通过stage加载,每秒可以实现百级行的数据加载
Databend内置:
1.数据批量,并行装载
2.完善的数据处理过程
3.功能上:Bitmap类型及函数(留存)漏斗函数
新一代湖仓Databend如何应对
支持数据秒级写入(游戏/广告业务)
利用bucket做队列OpenDal
应用系统
Databend
bucket
S3
新一代湖仓Databend如何应对
Files
CSV/JSON/XML...
SaaSApplicationsRESTAPIs
ApplicationEventsWebhook
Databases
RDBMS/NoSQL
流计算方案
ExtractLoad
DATAWAREHOUSE
ANALYTICS
Transform
Analyze
Transform
ETL
ELT(Databend)
定议
从数据源抽取,利用一个或是多个服务处理完数据,加到目标库中使用
从数据源抽取,加载到目标库中转化及处理
Extract
利用程序去抽取
利用程序去抽取
Transform
结合消息队列+程序做相应的转换
在Databend中利用SQL处理原始数据,在Databend中处理
Load
处理好的数据加载到目标中
支持:csv,tsv,json,parquet直接加载
原始数据直接加载到Databend中
数据输出
需要抽取工具
支持unload出来:csv,tsv,json,parquet
Speed
依赖转换程序的多少,一个Clickhouse环境:120台+的转换程序,50台左右的Clickhouse
并行加载,压缩,并行处理
成本
多个服务,更高的成本
结构单一,低成本
技术栈
kafka,spark,flink,zookeeper多数据数据文件解析,任务调度,数据加工,大量开发工作
只有一个Databend,SQL是唯一的接口语言,了解S3
新一代湖仓Databen
您可能关注的文档
- 2025面膜消费趋势报告.docx
- 2025年Q1中高端男装电商数据复盘.docx
- 2025年第二季度全球和地区并购活动预测.docx
- 2025年第一季度上海不动产投资市场季报.docx
- 2025全球领导力展望|中国报告 (1).docx
- 2025上海车展总结.docx
- ByConity(王蕴博):ByConity的架构与设计:从ClickHouse到云原生.docx
- Kyligence(马洪宾):预计算价值的量化和对大企业数据平台建设的意义.docx
- Manus没有秘密-屠龙之术播客.docx
- NineData(叶正盛):NineData数据复制技术原理与实践跨云10000公里实时数据复制.docx
- 深度解析2025年美妆市场,挖掘女性消费者需求趋势报告.docx
- 供应链金融如何解决中小企业融资难题:2025年实践与政策建议.docx
- 2025年城市燃气管道更新改造项目社会稳定风险评估及风险应对策略报告.docx
- 2025年电动汽车充电储能技术标准与规范制定研究报告.docx
- 基于大数据的2025年水上乐园游乐设施设计评估与运营分析.docx
- 公立医院医疗服务成本控制2025年策略与未来十年趋势分析.docx
- 2025年非遗手工艺品电商化发展的产业政策与市场环境.docx
- 2025年非遗手工艺品电商化对农村电商创业环境的影响.docx
- 2025年新能源商用车辆市场需求与绿色物流应用场景研究报告.docx
- 婴幼儿配方食品营养配方优化在婴幼儿视力保护与近视防控中的应用报告.docx
最近下载
- 《西方国家古代和近代政治制度的演变》同步课件.pptx VIP
- 西方现代思想讲义.docx VIP
- 矿用本安型无线网络摄像仪使用说明书.doc VIP
- 国外心理危机干预研究.pdf VIP
- 足球中的物理知识PPT课件.pptx VIP
- 新人教版(2022新课标)英语七年级上册教学课件 Stater Unit1 第一课时.pptx
- 手术区域皮肤消毒PPT大纲.pptx VIP
- KDW127-12矿用隔爆兼本安型直流稳压电源使用说明书资料.pdf VIP
- 初中道德与法治新人教版七年级上册第三单元第10课第2框《滋养心灵》教学课件(2024秋).pptx VIP
- 5.5导学ppt:指导老年人的营养膳食 (1)课件讲解.pptx VIP
文档评论(0)