starrocks(张友东):Data Lakehouse:你的下一个数据仓库.docxVIP

starrocks(张友东):Data Lakehouse:你的下一个数据仓库.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

墨天轮中国数据库联盟

墨天轮

AllChinaDatabaseUnion

DTC2024.4.12-13

数据技术嘉年华

智能·云原生·一体化——DB与AI协同创新,模型与架构融合发展

DataTechnologyCarnival

DataLakehouse:你的下一个数据仓库

Data

张友东镜舟科技CTO

StarRocksTSCMember

AboutStarRocks镜舟

镜舟

基于StarRocks的商业化公司StarRocks社区中国最大贡献者

StarRocks

Linux基金会开源项目

大型企业用户360+

GithubStar7600+

社区参与者15000+

数据分析:挖掘数据的价值

Howtomakeithappen?用户画像、

Howtomakeithappen?

用户画像、ABTest

Whydidithappen?

实时分析、预测

Ad-hoc查询

Whathappend?

BI报表

描述性分析探寻式分析

描述性分析探寻式分析

指导性分析

DataWarehouse

DTC2024

StagingAreaDataMartsUsersDataSources

StagingArea

DataMarts

Users

DataSources

Warehouse

●数据质量:经过ETL处理,结构化

·事务处理:支持更新与事务处理

OperationalSystemPurchasingAnalytics·

OperationalSystem

Purchasing

Analytics

●数据治理:面向主题,易于治理

Metadata

ETL目ReportingSalesOperational

ETL

Reporting

Sales

OperationalSystem

SummarydataRawdata

Summary

data

Rawdata

·数据孤岛问题

·成本与扩展性

·高级数据分析(AI)

FlatFiles

MiningInventory

Mining

DataLake

核心优势

·统一

·Singlesourceoftruth

·低成本、可扩展

·开放

·不同应用灵活访问

·Openformat、灵活schema

问题与挑战

·数据分析性能

●数据管理与治理

DataLake

DataWarehouse/Mart

DataLake

Ifyouthinkofadatamartasastoreofbottledwater-cleansedandpackagedandstructuredforeasyconsumption-thedatalakeisalargebodyofwaterinamorenaturalstate.

湖仓分层架构

——DTC2024-

核心优势

·数据统一入湖管理

·湖上数据按需导入数据仓库支持BI应用场景

·湖上数据同时支持AI应用场景

问题与挑战

·数据可靠性:两份数据口径不一致

●数据时效性:先入湖,再同步到数据仓库

·高级数据分析:数据仓库私有化格式

·总体成本:复杂的ETL、冗余的存储

BIReportsAlML

DataWarehouse

ETL

DataLake

Structured,Semi-strucuredUnstructuredData

数据分析架构演进

DTC2024

TeradataHadoop-HiveSnowflakeRedshiftBigquery

Teradata

Hadoop-Hive

·云原生存算分离架构

·支持主流数据湖查询

Datawarehouse

Data

Lakehouse

Datalake

Hadoop数据湖ApacheIceberg

Hadoop数据湖

·支持ACID等高级数据管理特性

·基于数据湖数据的分析技术提升

·Datalayout、Indexing、Caching

2010s1980s2020s

2010s

1980s

DataLakeh

文档评论(0)

哈哈 + 关注
实名认证
文档贡献者

嗨,朋友,我都会用最可爱的语言和最实用的内容,帮助你更好地理解和应对职场中的各种挑战!

1亿VIP精品文档

相关文档