- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库多维数据模型的设计
.
1、数据仓库基本概念
1.1、主题(Subject )
主题就是指我们所要分析的具体方面。例如:某年某月某地区某机型某款 App 的安装
情况。主题有两个元素:一是各个分析角度(维度),如时间位置;二是要分析的具体量
度,该量度一般通过数值体现,如 App 安装量。
1.2、维(Dimension)
维是用于从不同角度描述事物特征的,一般维都会有多层(Level:级别),每个 Level
都会包含一些共有的或特有的属性(Attribute ),可以用下图来展示下维的结构和组成:
以时间维为例,时间维一般会包含年、季、月、日这几个 Level,每个 Level 一般都会
有 ID、NAME、DESCRIPTION 这几个公共属性,这几个公共属性不仅适用于时间维,
也同样表现在其它各种不同类型的维。
1.3、分层(Hierarchy)
OLAP 需要基于有层级的自上而下的钻取,或者自下而上地聚合。所以我们一般会在
维的基础上再次进行分层,维、分层、层级的关系如下图:
.
数据仓库多维数据模型的设计
.
每一级之间可能是附属关系(如市属于省、省属于国家),也可能是顺序关系(如天
周年),如下图所示:
1.4、量度
量度就是我们要分析的具体的技术指标,诸如年销售额之类。它们一般为数值型数据。
我们或者将该数据汇总,或者将该数据取次数、独立次数或取最大最小值等,这样的数据
称为量度。
1.5、粒度
数据的细分层度,例如按天分按小时分。
1.6、事实表和维表
事实表是用来记录分析的容的全量信息的,包含了每个事件的具体要素,以及具体发生
.
数据仓库多维数据模型的设计
.
的事情。事实表中存储数字型 ID 以及度量信息。
维表则是对事实表中事件的要素的描述信息,就是你观察该事务的角度,是从哪个角
度去观察这个容的。
事实表和维表通过 ID 相关联,如图所示:
1.7、星形/雪花形/事实星座
这三者就是数据仓库多维数据模型建模的模式
上图所示就是一个标准的星形模型。
雪花形就是在维度下面又细分出维度,这样切分是为了使表结构更加规化。雪花模式
可以减少冗余,但是减少的那点空间和事实表的容量相比实在是微不足道,而且多个表联
结操作会降低性能,所以一般不用雪花模式设计数据仓库。
事实星座模式就是星形模式的集合,包含星形模式,也就包含多个事实表。
.
数据仓库多维数据模型的设计
.
1.8、企业级数据仓库/数据集市
企业级数据仓库:突出大而全,不论是细致数据和聚合数据它全都有,设计时使用事
实星座模式
数据集市:可以看做是企业级数据仓库的一个子集,它是针对某一方面的数据设计的
数据仓库,例如为公司的支付业务设计一个单独的数据集市。由于数据集市没有进行企业
级的设计和规划,所以长期来看,它本身的集成将会极其复杂。其数据来源有两种,一种
是直接从原生数据源得到,另一种是从企业数据仓库得到。设计时使用星形模型
.
数据仓库多维数据模型的设计
.
2、数据仓库设计步骤
2.1、确定主题
主题与业务密切相关,所以设计数仓之前应当充分了解业务有哪些方面的需求,据此
确定主题。
2.2、确定量度
在确定了主题以后,我们将考虑要分析的技术指标,诸如年销售额之类。量度是要统
计的指标,必须事先选择恰当,基于不同的量度将直接产生不同的决策结果。
2.3、确定数据粒度
考虑到量度的聚合程度不同,我们将采用“最小粒度原则”,即将量度的粒度设置到最
小。例如如果知道某些数据细分到天就好了,那么设置其粒度到天;但是如果不确定的话,
就将粒度设置为最小,即毫秒级别的。
2.4、确
您可能关注的文档
最近下载
- 《医德医风培训》PPT课件.pptx VIP
- 水电站运行考试题库 .pdf VIP
- 食品安全与操作规范(高职烹饪类和餐饮类专业 )全套教学课件.pptx
- 智能制造系统集成应用(初级)任务13 RFID功能测试.ppt VIP
- 汽车钣金件检具设计规范.pdf VIP
- 2025中国潮玩经济行业研究报告.pdf
- 25题工程管理类岗位常见面试问题含HR问题考察点及参考回答.docx VIP
- 数字技术赋能旅游业高质量发展的理论机理与路径探索.docx VIP
- 2025秋人教版八上《道德与法治》八年级上册新学期开学教学计划及进度安排.docx VIP
- “飞天”凌空——跳水姑娘吕伟夺魁记 语文统编版八年级上册(公开课一等奖创新教学设计).docx VIP
文档评论(0)