- 4
- 0
- 约1.04万字
- 约 25页
- 2021-09-15 发布于湖南
- 举报
透过数字化转型再谈数据中台(三):一文遍历大数据架构变迁史 /
在前面两篇“关于数字化转型的几个见解”、“唯一性定理中的数据中台”提到了数据中台发展问题。比如概念发展太快,信息量过载,以及存在广义、狭义的数据中台定义的差别等,涉及到的这些知识都离不开数据架构的范畴,所以这一篇我会通过大数据架构发展的视角来总结与分享。(一些知识继承自己在2015年写的《从数据仓库到大数据,数据平台这25年是怎样进化的?》,又名我所经历的大数据平台发展史系列),主要涉及三个方面:
从数仓架构到大数据架构总共三个时代九种架构的演进
自己整理的大数据技术栈
最新一代的Data Mesh 架构的数据平台
一、数据平台的发展在悄然发生变化
从现在的企业发展来看,大家的诉求重点已经从经营与分析转为数据化的精细运营。在如何做好精细化运营过程中,企业也面临着来自创新、发展、内卷等的各方面压力。随着业务量、数据量增长,大家对数据粒度需求从之前的高汇总逐渐转为过程化的细粒度明细数据,以及从T+1的数据转为近乎实时的数据诉求。
大量的数据需求、海量的临时需求,让分析师、数据开发疲惫不堪。这些职位也变成了企业资源的瓶颈,传统BI中的 Report、OLAP 等工具也都无法满足互联网行业个性化的数据需求。大家开始考虑如何把需求固定为一个面向最终用户自助式、半自助的产品,来快速获取数据并分析得到结果,数据通过各类数据产品对外更有针对性的数据价值传递。
(关于数据产品一个题外补充:当总结出的指标、分析方法(模型)、使用流程与工具有机的结合在一起时数据产品就此产生,随着数据中台数据平台的建设逐渐的进入快速迭代期,数据产品、数据产品经理这两个词逐渐的升温并逐渐到今天各大公司对数产品经理岗位的旺盛诉求,目前这两方面的方法论也逐步的体系化、具象化)。
在这十几年中,影响数据仓库、数据平台、数据中台、数据湖的演进变革的因素也很多,比如不断快速迭代的业务模式与膨胀的群体规模所带来的数据量的冲击,新的大数据处理技术的驱动。还有落地在数据中台上各种数据产品的建设,比如工具化数据产品体系、各种自助式的数据产品、平台化各数据产品的建设。这些数据建设能力的泛化,也让更多的大众参与数据中台的建设中 ,比如一些懂SQL的用户以及分析师参与数据平台直接建设比重增加 。还有一些原本数据中台具备的能力也有一些逐步地被前置到业务系统进行处理。
二、一张图看清楚大数据架构发展
数据仓库在国外发展多年,于大约在 1998-1999 年传入中国。进入中国以后,发展出了很多专有名词,比如数据仓库、数据中心、数据平台、数据中台、数据湖等,从大数据架构角度来看可用三个时代九种架构来做总结,其中前四代是传统数据仓库时代的架构,后面五代是大数据架构模式。
其中有两个承前启后的地方:
一个特殊地方是,传统行业第三代架构与大数据第一代架构在架构形式上基本相似。传统行业的第三代架构可以算是用大数据处理技术重新实现了一遍。
传统行业第四代的架构中实时部分在现代用大数据实时方式做了新的落地。
如下图所示:
三个时代:非互联网、互联网、移动互联网时代,每一种时代的业务特点、数据量、数据类型各不相同,自然数据架构也是有显著差异的。
表格源自:《我所经历的大数据平台发展史》
三、从数据到大数据的数据架构总结
我自己对传统数据仓库的发展,简单抽象为为五个时代、四种架构(或许也不是那么严谨)。
五个时代大概,按照两位数据仓库大师 Ralph kilmball、Bill Innmon 在数据仓库建设理念上碰撞阶段来作为小的分界线:
大概在 1991 年之前,数据仓库的实施基本采用全企业集成的模式。
大概在 1992 年企业在数据仓库实施基本采用 EDW 的方式,Bill Innmon 博士出版了《如何构建数据仓库》,里面清晰的阐述了EDW架构与实施方式。
1994-1996 年是数据集市时代,这个时代另外一种维度建模、数据集市的方式较为盛行起来,其主要代表之一 Ralph Kimball 博士出版了他的第一本书“The DataWarehouse Toolkit”(《数据仓库工具箱》),里面非常清晰的定义了数据集市、维度建模。
大概在 1996-1997 年左右的两个架构竞争时代。
1998-2001 年左右的合并年代。
在主要历史事件中提到了两位经典代表人物:Bill Innmon、Ralph kilmball。这两位在数据界可以算是元祖级别的人物。现在数据中台/平台的很多设计理念依然受到他俩90年代所提出方法论为依据。
经典的 BIll Inmon 和 Ralph kilmball 争论
Bill Inmon 提出的遵循的是自上而下的建设原则,Ralph kilmball提出自下而上的建设原则,两种方法拥护者会在不同场合争论哪一种方法论更有
您可能关注的文档
- 数据分析经典模型——朴素贝叶斯.doc
- 数据分析面试必备:核心指标下降怎么分析?.doc
- 数据分析入门——数据分析惯用的五种分析方法.doc
- 数据分析师的日常工作是什么?.doc
- 数据分析师天天跑数?教你三句话,远离取数机.doc
- 数据分析思维:一文读懂漏斗分析.doc
- 数据分析为什么是产品入门必备技能.doc
- 数据分析——异常数据识别.doc
- 数据分析——因子分析怎么用?.doc
- 数据分析中的硬实力与软实力「如何锻造解决问题的能力」.doc
- (2026)教师招聘考试题库(附答案).docx
- (2026)教师招聘义务教育道德与法治课程方案(2022版)必考题库及答案.docx
- 2026部编版三年级语文下册全册教案.pdf
- (2026)部编版小学二年级语文下册全册教案.docx
- 高温合金行业研究报告:AI算力与航空航天共振,驱动需求加速释放2026.2.pdf
- 2025年酒店业人工智能(AI)革命研究报告(英).pdf
- 山东省菏泽市郓城县2025-2026学年度第一学期期末教学质量监测八年级英语试题(无答案).pdf
- 内蒙古自治区锡林郭勒盟2026届高三上学期期末测试政治试卷(含答案).pdf
- 贵州省贵阳市南明区2025-2026学年八年级上学期期末地理试题(无答案).pdf
- 山东烟台市栖霞市2025-2026学年八年级上学期期末道德与法治试题(无答案).pdf
最近下载
- 电厂凝结水精处理系统调试.pdf VIP
- EIM Starter Unit 8 Don’t do that单元知识要点.docx VIP
- 公共文件dragonaging老化工具说明.pdf VIP
- 深度解析(2026)《GBT 905-1994冷拉圆钢、方钢、六角钢尺寸、外形、重量及允许偏差》.pptx VIP
- 储能项目工程可研.pdf VIP
- (正式版)HG-T 21633-2024 玻璃钢管和管件选用规定.pdf VIP
- 滚轴筛检修工艺规程.docx VIP
- 2023注册消防工程师(消防安全技术实务)题库含答案【基础题】.docx
- 2023年宁夏回族自治区中卫市【辅警协警】笔试真题(含答案).docx VIP
- 中级注册安全工程师考试题库精编.docx
原创力文档

文档评论(0)