- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
表语义的湖仓一体架构OmniTable解析Security Level:部门:计算技术开发部作者:廖登宏日期:2022-11-09湖仓一体开源项目介绍OmniTable关键技术OmniTable RoadmapDelta Lake/Iceberg/Hudi开源表格式,构建数据湖底座LakeHouseDelta Lake:基于Lakehouse的存储层Iceberg: 高性能的表语义层元数据:PB级表和表分析管理能力,Unity Catalog支持ACL和RBAC能力数据导入:Autoloader为主,支持Schema演进,支持Spark,Flink, Pulsar 增量的数据入湖处理计算引擎:主力Spark,Flink,Presto/Hive支持,同时新增Photon向量化查询引擎,提升ML/DL数据处理效率底层存储:支持HDFS、S3、Azure等分布式存储Metastore:具备自我管理元数据信息的能力支持ACID:在每次upsert完成后都会产生新的日志和快照;表管理能力:表语义呈现,提供表的创建,数据的更新、删除等;多种操作API:提供Java//Python表管理API以及基于Spark、Flink、Hive、Presto的管理;底层存储:基于HDFS、S3、Azure,Iceburg划分为三层,catalog层、metadata层以及data layer,Catalog可以支持HDFS/Hivemetastore和NessieOmnitable: 结构化的表语义存算协同框架Engine layerSparkopenGaussopenLooKeng特点Table API高效元数据管理,其中元数据与数据分开。通过过滤掉不必要的Split,以执行数据过滤,来帮助加快数据读取的索引。支持NDP工作负载感知的表重组,收集所需的元数据,并创建新的索引以提高性能。关键特性Table ManagementOmniDataDistributead IndexWorkload Aware FrameworkFlinkStructured semantics (tables, tensor)OmniTableTable ManagementMetadata managementSnapshotsTransactionsStatisticsClusteringSchema EvolutionCompactionMetadata CacheAutomatic Adaptive Workload Aware AccelerationData PartitioningCachingIndexClusteringStorage Accelerated LayerdecompressionNDP (OmniData)encryption and decryptionPersistent Data Format Access LayerCarbonDataJSONORCParquetopenGaussRead/Write I/OPersistent file system storage layerHDFSObject StorageCephMetadata ManagementFeatures如果要检索的数据大小相同,元数据增长不会减缓对特定数据的访问根据规范单独维护的分区列表,便于查找和修剪保存数据文件的分区列表列表分为2个级别,以帮助修剪和扫描拆分分区文件列表和分区文件可减少每次查找的IO分区文件可跨数据导入追加扫描只读取最小分区文件采用基于快照的并发来支持ACID与现有的大数据处理引擎不同,元数据处理并不是单独在协调器/驱动程序中完成的,而是分布式的,以便快速检索和更大的元数据处理Distributed Index痛点:在现有的大数据索引技术中,应用于调度阶段的索引通常存在单节点瓶颈,大量的索引文件无法存储在协调器/驱动节点的内存中,过滤效果较差。频繁的索引倒换会导致CPU空闲,影响业务。对于执行阶段使用的索引,将大数据格式的数据和索引集成在一起。因此,只有打开文件才能读取索引,过滤效果延迟,整体效果较差。关键技术:统一索引服务,可部署在存储侧或计算侧。该服务包含不同粒度的索引文件,并提供不同级别的过滤效果。例如,在调度和执行阶段,使用文件级或行组级索引文件进行过滤。每个索引服务只负责过滤部分分区文件。也就是说,根据元数据管理系统,加载索引,过滤对应数据分区不需要的文件。可扩展的索引类型,支持各种稀疏和密集索引。预期收益:In-Memory的索引存储能力提升N倍,避免了单个协调节点的瓶颈。分布式索引在大数据分析场景下IO降低5倍以上,端到端性能提升300%。Adaptive Automatic Workload Aware Acceler
您可能关注的文档
- Abracon阿布雷肯Real Time Clocks AB-RTCMC-32.768KHZ-AIGZ-S7-T IC RTC CLK CALENDAR I2C 8-CLCC Datasheet规格书.pdf
- Abracon阿布雷肯Quartz Crystals ABLS7M-12.000MHZ-B-2-T CRYSTAL 12.0000MHZ 18PF SMD Datasheet规格书配置表说明书.pdf
- Abracon阿布雷肯Oscillators AMPMADA-1.0000 MEMS OSC XO 1.0000MHZ CMOS SMD Datasheet规格书配置表说明书.pdf
- Abracon阿布雷肯Oscillators AMJMADA-100.0000 MEMS OSC XO 100.0000MHZ CMOS SMD Datasheet规格书配置表说明书.pdf
- Abracon阿布雷肯Quartz Crystals ABLS6M-25.000MHZ-D-2Y-T CRYSTAL 25.0000MHZ 18PF SMD Datasheet规格书配置表说明书.pdf
- Abracon阿布雷肯Antennas ACAG0301-5500-T 5.5GHZ WIFI, ISM CHIP ANT SMD Datasheet规格书配置表说明书.pdf
- Abracon阿布雷肯RF Filters 746-455-BU Ceramic Filter Bandpass 455kHz Datasheet规格书配置表说明书.pdf
- Abracon阿布雷肯Quartz Crystals ABLS-10.000MHZ-16-A-4-H-T CRYSTAL 10.0000MHZ 16PF SMD Datasheet规格书配置表说明书.pdf
- Abracon阿布雷肯Supercapacitors ADCR-E02R7SA105MB CAP 1F 2.7V TH Datasheet规格书配置表说明书.pdf
- Abracon阿布雷肯Resonators ASR390E-T SAW RES 390.0000MHZ SMD Datasheet规格书配置表说明书.pdf
- 国际企业盈利能力多元化影响因素研究.docx
- 2025年事业单位工勤技能-甘肃-甘肃工程测量工四级(中级工)历年参考题典型考点含答案解析.docx
- 2025年住院医师规培-江苏-江苏住院医师规培(皮肤科)历年参考题典型考点含答案解析.docx
- 高危妊娠并发症的急救护理策略.pptx
- 2025年事业单位工勤技能-湖南-湖南行政岗位工四级(中级工)历年参考题典型考点含答案解析.docx
- 2025年中国医药化工行业市场前景预测及投资价值评估分析报告.docx
- 人教版一年级数学下册测试题2025年.docx
- 2025年事业单位工勤技能-广西-广西电工一级(高级技师)历年参考题典型考点含答案解析.docx
- 2025重庆垫江县裴兴镇人民政府招聘公益岗1人备考题库含答案详解(培优).docx
- 2025年矿山爆破网络连接安全操作培训模板.docx
原创力文档


文档评论(0)