- 20
- 0
- 约5.74千字
- 约 10页
- 2018-08-28 发布于湖北
- 举报
光环大数据--大数据培训知名品牌
大数据和Hadoop 时代的维度建模和Kimball 数据集市_光环大数据培训
维度建模已死?
在回答这个问题之前,让我们回头来看看什么是所谓的维度数据建模。
为什么需要为数据建模?
有一个常见的误区,数据建模的目的是用 ER 图来设计物理数据库,实际上
远不仅如此。数据建模代表了企业业务流程的复杂度,记录了重要的业务规则和
概念,并有助于规范企业的关键术语。它清晰地阐述、协助企业揭示商业过程中
模糊的想法和歧义。此外,可以使用数据模型与其他利益相关者进行有效沟通。
没有蓝图,不可能建造一个房子或桥梁。所以,没有数据模型这样一个蓝图,为
什么要建立一个数据应用,比如数据仓库呢?
为什么需要维度建模?
维度建模是数据建模的一种特殊方法。维度建模有两个同义词,数据集市和
星型结构。星型结构是为了更好地进行数据分析,参考下面图示的维度模型,可
以有一个很直观的理解。通过它可以立即知道如何通过客户、产品、时间对订单
进行分割,如何通过度量的聚集和比较对订单业务过程进行绩效评估。
维度建模最关键的一点,是要定义事务性业务过程中的最低粒度是什么。如
光环大数据
光环大数据--大数据培训知名品牌
果切割或钻入数据,到叶级就不能再往下钻取。从另一个角度看,星型结构中的
最低粒度,即事实和维度之间没有进行任何聚集的关联。
数据建模和维度建模
标准数据建模的任务,是消除重复和冗余的数据。当数据发生变化时,我们
只需在一个地方修改它,这有助于保证数据的质量,避免了不同地方的数据不同
步。参考下面图示的模型,它包含了代表地理概念的几张表。在规范化模型中,
每个实体有一个独立的表,数据建模只有一张表:geography。在这张表中,city
会重复出现很多次。而对于每个 city,如果 country 改变了名字,就不得不在
很多地方进行更新。
注:标准数据模型总是遵守 3NF 模式。
标准的数据建模,本身并不是为了商业智能的工作负载而设计的。太多的表
会导致过多的关联,而表关联会导致性能下降,在数据分析中我们要尽力去避免
光环大数据
光环大数据--大数据培训知名品牌
这种情形发生。数据建模过程中,通过反规范化把多个相关表合并成一个表,例
如前面例子里的多个表被预合并成一个 geography 表。
那么为何部分人认为维度建模已死?
一般人都认可数据建模的方式,而把维度建模当成特殊处理方式,它们都是
有价值的。那为什么在大数据和 Hadoop 的时代,部分人会认为维度建模没用
了?
“数据仓库之死”
首先,一些人混淆了维度建模和数据仓库。他们认为数据仓库已死,于是得
出结论:维度建模也可以被丢进历史的垃圾箱。这种论点在逻辑上是连贯的,但
是,数据仓库的概念远没有过时。我们总是需要集成的、可靠的数据来产生商业
智能仪表盘(BI Dashboards)。
光环大数据
光环大数据--大数据培训知名品牌
只读结构的误解
第二个常听见的争论,比如“我们遵循只读方式的结构(Schema),所以不
需要对数据再进行建模了”。依我看来,这是数据分析过程中最大的误解之一。
我同意起初仅转储原始数据,这时不过多考虑结构是有意义的。但是,这不应该
成为不对数据进行建模的借口。只读方式的结构只是降低了下游系统的能力和责
任,一些人不得不咬牙去定义数据类型。访问无模式数据转储的每一个进程都需
要自己弄清楚发生了什么,而这完全是多余的。通过定义数据类型和正确的结构,
可以很容易地避免这些工作。
再谈反规范化和物理模型
是否那些宣传维度建模的观点实际上已过时了?的确有些观点比上面列出的
两条更好,要理解它
您可能关注的文档
最近下载
- 行者讲课脉法下篇.doc VIP
- (人教版)数学一年级上册寒假应用题“天天练”作业设计,含30份题组,附参考答案.doc
- 多参数监护仪技术参数和要求.doc VIP
- HL德國創新機能家電烤箱HL-840用户手册.pdf
- (高清!)2025年3月29日河北省事业单位联考C类《职测》真题及答案.pdf VIP
- ZORRO遥控器中文说明书.pdf
- 多参数监护仪技术参数.doc VIP
- 05R417-1 室内管道支吊架建筑工程图集 高清.docx VIP
- 2025届安徽省江南十校高三下学期第一次联考(一模)数学试题含答案.pdf VIP
- 三年级上册数学思维训练题30题,拓展孩子思维能力201123.pdf VIP
原创力文档

文档评论(0)