大数据及Hadoop时代的维度建模及Kimball数据集市_光环大数据培训.pdfVIP

  • 20
  • 0
  • 约5.74千字
  • 约 10页
  • 2018-08-28 发布于湖北
  • 举报

大数据及Hadoop时代的维度建模及Kimball数据集市_光环大数据培训.pdf

光环大数据--大数据培训知名品牌 大数据和Hadoop 时代的维度建模和Kimball 数据集市_光环大数据培训 维度建模已死? 在回答这个问题之前,让我们回头来看看什么是所谓的维度数据建模。 为什么需要为数据建模? 有一个常见的误区,数据建模的目的是用 ER 图来设计物理数据库,实际上 远不仅如此。数据建模代表了企业业务流程的复杂度,记录了重要的业务规则和 概念,并有助于规范企业的关键术语。它清晰地阐述、协助企业揭示商业过程中 模糊的想法和歧义。此外,可以使用数据模型与其他利益相关者进行有效沟通。 没有蓝图,不可能建造一个房子或桥梁。所以,没有数据模型这样一个蓝图,为 什么要建立一个数据应用,比如数据仓库呢? 为什么需要维度建模? 维度建模是数据建模的一种特殊方法。维度建模有两个同义词,数据集市和 星型结构。星型结构是为了更好地进行数据分析,参考下面图示的维度模型,可 以有一个很直观的理解。通过它可以立即知道如何通过客户、产品、时间对订单 进行分割,如何通过度量的聚集和比较对订单业务过程进行绩效评估。 维度建模最关键的一点,是要定义事务性业务过程中的最低粒度是什么。如 光环大数据 光环大数据--大数据培训知名品牌 果切割或钻入数据,到叶级就不能再往下钻取。从另一个角度看,星型结构中的 最低粒度,即事实和维度之间没有进行任何聚集的关联。 数据建模和维度建模 标准数据建模的任务,是消除重复和冗余的数据。当数据发生变化时,我们 只需在一个地方修改它,这有助于保证数据的质量,避免了不同地方的数据不同 步。参考下面图示的模型,它包含了代表地理概念的几张表。在规范化模型中, 每个实体有一个独立的表,数据建模只有一张表:geography。在这张表中,city 会重复出现很多次。而对于每个 city,如果 country 改变了名字,就不得不在 很多地方进行更新。 注:标准数据模型总是遵守 3NF 模式。 标准的数据建模,本身并不是为了商业智能的工作负载而设计的。太多的表 会导致过多的关联,而表关联会导致性能下降,在数据分析中我们要尽力去避免 光环大数据 光环大数据--大数据培训知名品牌 这种情形发生。数据建模过程中,通过反规范化把多个相关表合并成一个表,例 如前面例子里的多个表被预合并成一个 geography 表。 那么为何部分人认为维度建模已死? 一般人都认可数据建模的方式,而把维度建模当成特殊处理方式,它们都是 有价值的。那为什么在大数据和 Hadoop 的时代,部分人会认为维度建模没用 了? “数据仓库之死” 首先,一些人混淆了维度建模和数据仓库。他们认为数据仓库已死,于是得 出结论:维度建模也可以被丢进历史的垃圾箱。这种论点在逻辑上是连贯的,但 是,数据仓库的概念远没有过时。我们总是需要集成的、可靠的数据来产生商业 智能仪表盘(BI Dashboards)。 光环大数据 光环大数据--大数据培训知名品牌 只读结构的误解 第二个常听见的争论,比如“我们遵循只读方式的结构(Schema),所以不 需要对数据再进行建模了”。依我看来,这是数据分析过程中最大的误解之一。 我同意起初仅转储原始数据,这时不过多考虑结构是有意义的。但是,这不应该 成为不对数据进行建模的借口。只读方式的结构只是降低了下游系统的能力和责 任,一些人不得不咬牙去定义数据类型。访问无模式数据转储的每一个进程都需 要自己弄清楚发生了什么,而这完全是多余的。通过定义数据类型和正确的结构, 可以很容易地避免这些工作。 再谈反规范化和物理模型 是否那些宣传维度建模的观点实际上已过时了?的确有些观点比上面列出的 两条更好,要理解它

文档评论(0)

1亿VIP精品文档

相关文档