数据仓库多维数据模型的设计.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库多维数据模型的设计 . 1、数据仓库基本概念 1.1、主题(Subject ) 主题就是指我们所要分析的具体方面。例如:某年某月某地区某机型某款 App 的安装 情况。主题有两个元素:一是各个分析角度(维度),如时间位置;二是要分析的具体量 度,该量度一般通过数值体现,如 App 安装量。 1.2、维(Dimension) 维是用于从不同角度描述事物特征的,一般维都会有多层(Level:级别),每个 Level 都会包含一些共有的或特有的属性(Attribute ),可以用下图来展示下维的结构和组成: 以时间维为例,时间维一般会包含年、季、月、日这几个 Level,每个 Level 一般都会 有 ID、NAME、DESCRIPTION 这几个公共属性,这几个公共属性不仅适用于时间维, 也同样表现在其它各种不同类型的维。 1.3、分层(Hierarchy) OLAP 需要基于有层级的自上而下的钻取,或者自下而上地聚合。所以我们一般会在 维的基础上再次进行分层,维、分层、层级的关系如下图: . 数据仓库多维数据模型的设计 . 每一级之间可能是附属关系(如市属于省、省属于国家),也可能是顺序关系(如天 周年),如下图所示: 1.4、量度 量度就是我们要分析的具体的技术指标,诸如年销售额之类。它们一般为数值型数据。 我们或者将该数据汇总,或者将该数据取次数、独立次数或取最大最小值等,这样的数据 称为量度。 1.5、粒度 数据的细分层度,例如按天分按小时分。 1.6、事实表和维表 事实表是用来记录分析的容的全量信息的,包含了每个事件的具体要素,以及具体发生 . 数据仓库多维数据模型的设计 . 的事情。事实表中存储数字型 ID 以及度量信息。 维表则是对事实表中事件的要素的描述信息,就是你观察该事务的角度,是从哪个角 度去观察这个容的。 事实表和维表通过 ID 相关联,如图所示: 1.7、星形/雪花形/事实星座 这三者就是数据仓库多维数据模型建模的模式 上图所示就是一个标准的星形模型。 雪花形就是在维度下面又细分出维度,这样切分是为了使表结构更加规化。雪花模式 可以减少冗余,但是减少的那点空间和事实表的容量相比实在是微不足道,而且多个表联 结操作会降低性能,所以一般不用雪花模式设计数据仓库。 事实星座模式就是星形模式的集合,包含星形模式,也就包含多个事实表。 . 数据仓库多维数据模型的设计 . 1.8、企业级数据仓库/数据集市 企业级数据仓库:突出大而全,不论是细致数据和聚合数据它全都有,设计时使用事 实星座模式 数据集市:可以看做是企业级数据仓库的一个子集,它是针对某一方面的数据设计的 数据仓库,例如为公司的支付业务设计一个单独的数据集市。由于数据集市没有进行企业 级的设计和规划,所以长期来看,它本身的集成将会极其复杂。其数据来源有两种,一种 是直接从原生数据源得到,另一种是从企业数据仓库得到。设计时使用星形模型 . 数据仓库多维数据模型的设计 . 2、数据仓库设计步骤 2.1、确定主题 主题与业务密切相关,所以设计数仓之前应当充分了解业务有哪些方面的需求,据此 确定主题。 2.2、确定量度 在确定了主题以后,我们将考虑要分析的技术指标,诸如年销售额之类。量度是要统 计的指标,必须事先选择恰当,基于不同的量度将直接产生不同的决策结果。 2.3、确定数据粒度 考虑到量度的聚合程度不同,我们将采用“最小粒度原则”,即将量度的粒度设置到最 小。例如如果知道某些数据细分到天就好了,那么设置其粒度到天;但是如果不确定的话, 就将粒度设置为最小,即毫秒级别的。 2.4、确

文档评论(0)

小蜗牛 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档