- 1、本文档共31页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
T3 出行基于湖仓一体构建数据中台的实践与思考
T3 出行/ Apache Hudi PMC Committer / 杨 华
2020.12
目录
一、数据湖、数据仓库与数据中台
二、湖仓一体的架构介绍
三、湖仓一体上数据中台的探索与实践
什么是数据湖 ?
AWS的定义:
A data lake is a centralized repository that allows you to store all your structured and
unstructured data at any scale. You can store your data as-is, without having to first structure
the data, and run different types of analytics—from dashboards and visualizations to big data
processing, real-time analytics, and machine learning to guide better decisions.
数据湖是一个集中式存储库 ,允许您以仸意规模存储所有结构化和非结构化数据。您可以按原样存储数据
(无需先对数据进行结构化处理),幵运行不同类型的分析– 从控制面板和可视化到大数据处理、实时分
析和机器学习,以指导做出更好的决策。
什么是数据仓库 ?
AWS的定义:
A data warehouse is a central repository of information that can be analyzed to make more informed decisions. Data flows
into a data warehouse from transactional systems, relational databases, and other sources, typically on a regular cadence.
Business analysts, data engineers, data scientists, and decision makers access the data through business intelligence (BI)
tools, SQL clients, and other analytics applications.
Data and analytics have become indispensable to businesses to stay competitive. Business users rely on reports,
dashboards, and analytics tools to extract insights from their data, monitor business performance, and support decision
making. Data warehouses power these reports, dashboards, and analytics tools by storing data efficiently to minimize the
input and output (I/O) of data and deliver query results quickly to hundreds and thousands of users concurrently.
数据仓库是信息(对其进行分析可做出更明智的决策)的中央存储库。通常,数据定期从事务系统、关系数据库和其他来源流入数据仓
库。业务分析师、数据工程师、数据科学家和决策者通过商业智能 (BI) 工具、SQL 客户端和其他分析应用程序访问数据。
数据和分析已然成为各大企业保持竞争力所不可或缺的部分。企业用户依靠报告、控制面板和分析工具从其数据中获得洞察力、监控企
业绩效以及更明智地决策。数据仓库通过高效地存储数据以便最大限度地减少数据输入和输出 (I/O) ,幵快速地同时向成千上万的用户
提供查询结果,为这些报告、控制面板和分析工具 由数据仓库提供支持。
数据湖与数据仓库的区别与协作关系?
特性 数据仓库 数据湖
数据 来自事务系统,运营数据库和业务线应用程
您可能关注的文档
- 企业技术中台的实践与思考.pdf
- 商业银行基于中台战略的架构规划.pdf
- 数据中台建设四步方法论:采、存、通、用.pdf
- 数据中台全景图:从战略到实践的最佳路径.pdf
- 双中台的融合设计.pdf
- 苏宁数据中台建设与技术实践.pdf
- 小鹏汽车技术中台演进之路.pdf
- 新零售SaaS业务的中台架构实践.pdf
- 业务中台-从概念到落地.pdf
- 业务中台建设方法之“中台需求结构化”.pdf
- 2024年河北省张家口市蔚县吉家庄镇招聘社区工作者真题及答案详解1套.docx
- 2024年河北省唐山市迁安市马兰庄镇招聘社区工作者真题及完整答案详解1套.docx
- 2024年河北省保定市涞源县南屯乡招聘社区工作者真题附答案详解.docx
- 2024年河北省保定市涿州市孙庄乡招聘社区工作者真题及答案详解1套.docx
- 2024年河北省沧州市黄骅市南大港管理区虚拟乡招聘社区工作者真题含答案详解.docx
- 2024年河北省廊坊市永清县管家务回族乡招聘社区工作者真题及答案详解1套.docx
- 高级工程师待遇改革方案(3篇).docx
- 高边坡工程施工方案审查(3篇).docx
- 高级工程师推荐方案范文(3篇).docx
- 高层土木工程施工方案模板(3篇).docx
最近下载
- 院感知识试题(附答案).docx VIP
- 分布式光伏电站屋顶租赁协议(标准范本).docx
- 高温防暑安全培训课件.pptx VIP
- 11SG534带水平段钢斜梯(45°)(OCR).pdf VIP
- 一升二数学《暑假作业》 每日一练.docx VIP
- 《商务-谈判》课程标准).doc VIP
- 对我国长距离浆体管道输送工程设计的思考-论文发表.PDF VIP
- 110(66)kV~500kV架空输电线路运行规范.ppt VIP
- 牛津译林版九年级上册英语Unit 1-Unit 8语法知识点复习提纲.pdf VIP
- 《GBT20001.3-2015标准编写规则第3部分:分类标准》(2025版)深度解析.pptx
文档评论(0)