- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
ByConity的架构与设计:从ClickHouse到云原生
演讲人:王蕴博
王蕴博
字节跳动首席开源布道师、开源基础设施负责人。中国计算机学会(CCF)开源发展委员会副秘书长,CCFGitLink社区负责人,CCFGLCC发起人兼组委会主席。前腾讯开源联盟委员(TOSA),前滴滴开源办公室负责人。
长期专注于大数据、DevOps、AI等方向;对开源治理、项目孵化、开源合规等具有丰富的经验。
目录
CONTENTS
背景和设计理念存算分离架构设计用户案例分享社区和未来规划
ByConity历史
发布0.2.0版开源一周年5
发布0.2.0版
开源一周年5月19日北京
2024.5
支持数据湖、ELT、
RBAC、提升冷读优化
2023.12
2023.12
2024.4ByConity开源
2024.4
ByConity开源0.1.0-GA
2023.9
ByConity
ByConity启动开源
CNCHByteHouse云数仓版2023.5发布
CNCH
ByteHouse云数仓版
2023.5
发布0.3.0版本
倒排索引、ELT能力增强、共享存储的选主方式、冷热性能提升
大规模使用
大规模使用ClickHouse
2022.52020.1新版本发布
2022.5
2020.1
新版本发布
2018
ByConity设计之初
开源●
开源
●开源让软件更早接触用户,了解用户真实需求;
●吸引外部开发者参与,汇聚领域人才参与,传播影响力;
●更加高效的迭代,软件更佳安全和健康
●开源OpenCore模式促进商业化,拓展海外市场
云原生●重用云基础设施,
云原生
●重用云基础设施,高可靠性和降低成本;
●整个系统和架构设计从开始就基于云的需求;
●存算分离避免了传统分布式系统的一些性能瓶颈和复杂性
开源从“命名”开始
Byte—一ByConityCommunity
Convert
ByConity是通过开源,融合一群希望打破常规技术的开发者,改变数据的使用方式
基于云原生架构
●服务层(CloudService)
●MetaDate:FoundationDB/ByteKV
●Server:表元数据缓存、查询SQL解析、计划生成、调度和下发
●ResourceManager:服务发现、负载心跳检测
●TSO:全局唯?单调递增的时间戳
●DaemonManager:调度和管理任务
●计算组(VirtualWarehouse,VW)
●Worker:执行片段的执?,后台任务的执?、LocalDiskCache
●每个表可以设置默认的ReadVW(查询)和WriteVW(导入和Merge)
●存储层(CloudStorage)
●支持HDFS、S3
ByConity
ByConity的特性
读写分离
资源隔离
数据强一致性弹性扩缩容
数据强一致性
弹性扩缩容
高性能
高性能
存算分离的设计思考
●需要统一的元信息管理系统
●分布式文件系统大多数存在元信息管理压力问题(nn)
●分布式统一存储系统大多不支持rewrite,一些对象存储系统甚至不支持append
●分布式对象存储系统大多move代价都比较高
●iolatency通常情况对比本地文件系统下都存在增加的情况
统一的元数据管理
●提供高可用和高性能的元数据读写服务
●完备事务语义的支持
●后端存储系统可插拔,方便扩展
●高效的Part缓存管理
●一致性hash
数据存储结构
●合并小文件,每个part所有数据存储在一个文件中
●保持按列存储特性
数据变更
●文件生成后不再变动
●deltapart+basepart●partchain(merge-on-write)
●读放大
数据合并
●异步merge
●Oldparts通过GC清理
数据缓存
●一致性hash分配parts
●热数据worker节点自动缓存
●改进bucket-lru算法
●避免数据reshuffling
唯一键(UNIQUEKEY)
实际场景
●数据源(如Kafka)包含重复数据,如何保障数仓表的数据质量?
●业务数据流包含行更新,如何高效实时同步和分析?
●如何提高RDBMS-数仓的同步时效性,并支持高效
您可能关注的文档
- 2025Q1上海市汽车市场分析报告-吉图咨询.docx
- 2025Q1深圳市汽车市场分析报告-吉图咨询.docx
- 2025Q1武汉市汽车市场分析报告-吉图咨询.docx
- 2025Q1西安市汽车市场分析报告-吉图咨询.docx
- 2025Q1重庆市汽车市场分析报告-吉图咨询.docx
- 2025面膜消费趋势报告.docx
- 2025年Q1中高端男装电商数据复盘.docx
- 2025年第二季度全球和地区并购活动预测.docx
- 2025年第一季度上海不动产投资市场季报.docx
- 2025全球领导力展望|中国报告 (1).docx
- Kyligence(马洪宾):预计算价值的量化和对大企业数据平台建设的意义.docx
- Manus没有秘密-屠龙之术播客.docx
- NineData(叶正盛):NineData数据复制技术原理与实践跨云10000公里实时数据复制.docx
- PingCAP(戴涛):构建面向未来的金融核心系统.docx
- PingCAP(姚维):Gen AI时代趋势中的TiDB.docx
- starrocks(张友东):Data Lakehouse:你的下一个数据仓库.docx
- Zilliz(刘力):Milvus:百亿级向量数据库的探索.docx
- 北京大学(吕海波):后摩尔定律时代的数据库研发.docx
- 巩飞&李经纬:多元智能时代,zCloud引领数据库运维的智能与敏捷革新.docx
- 国金证券(吴非洲):多元融合创新——国金证券数据库资源池化探索与实践.docx
文档评论(0)