04维度建模的高级专题说课.ppt

  1. 1、本文档共54页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚集事实表(Aggregate Fact Table) 聚集事实表 聚集:从最低粒度的事实表中衍生出来的预先计算的汇总数据 聚集事实表:汇总的数据形成的表 聚集是一种调整性能的机制 目的:效率 聚集事实表 事实表的大小:5×365×4000×300=20亿 产品键 产品名称 产品代码 产品分类 时间键 日 月 年 产品键 时间键 商店键 促销键 单元销售 销售额 商店键 商店名称 地址 地域 地区 促销键 促销名 促销类别 …… 销售事实 商店(300个) 促销 产品(40000,假如每天 每个商店只售出4000种) 时间(5年的数据) 粒度:每天每个商店每个产品对应事实表中 的一行 聚集事实表 事实表的大小 电话呼叫监控 时间维度:5年 每天跟踪的呼叫数量:1.5亿 基础事实表大小:2740亿 信用卡交易跟踪 时间维度:5年 信用卡用户数量:1.5亿 平均每帐户每月交易数:20 基础事实表记录的最大条数:1800亿 最低粒度的事实表好大!!! 聚集事实表 事实表的大小 最低粒度的数据的保存是必须的 虽然查询到一条具体的事实表的一条记录的时候是极少发生的 但,为了进行各种分析(钻取)必须保存低粒度的数据 因为有商店的具体数据,才有按商店分类的结果 因为有产品保存的细节数据,才有按产品分类的结果 …… 现在问题转化为:在事实表中保存最低粒度的数据,我们如何来处理庞大的事实表以生成需要的查询结果?(还要考虑效率的问题) 聚集事实表 对聚集的需求 对于不同的查询,需要检索/汇总不同的记录数。(假设:每个品牌有500个品种) 一个产品、1个商店、一天:1 一个产品、所有商店、一天:300 一个品牌、一个商店、一天:500 一个品牌、所有商店、一年如果有一个汇总表,按照品牌每年、商店汇总,则这条信息的查询就从300条记录中选取!) …… 聚集表的记录数远远少于事实表 构造聚集表是提高查询性能的一种非常有效的方法 聚集事实表 对事实表进行聚集 聚集事实表将最低粒度的数据按照维度多层结构进行汇总,形成更高层次的数据。 产品键 产品 分类 部门 时间键 日 月 年 产品键 时间键 超市键 销售价 … 超市键 超市名 地域 地区 维度层次结构 聚集事实表 对事实表进行聚集 在基础事实表中,各条记录反映的是多层结构中最低层次的数据。 在每个维度的更高层次上,可以生成一系列的聚集表。 单路聚集 二路聚集 三路聚集 聚集事实表 商店 地域 地区 所有商店 产品 目录 部门 所有产品 日期 月 季度 年 商店 产品 时间 构造聚集事实表:单路聚集 如果从一个维度层次结构中的一个层次升到更高层次,而其它 维度保持在最低粒度。 聚集事实表 商店 地域 地区 所有商店 产品 目录 部门 所有产品 日期 月 季度 年 商店 产品 时间 构造聚集事实表:二路聚集 从两个维度多层结构中的一个层次升到更高层次,而其它维度 保持在最低粒度 聚集事实表 商店 地域 地区 所有商店 产品 目录 部门 所有产品 日期 月 季度 年 商店 产品 时间 构造聚集事实表:三路聚集 如果从三个维度层次结构中的一个层次上升到更高层次 聚集事实表 所有的聚集表皆是从基础事实表衍生而来。 衍生的聚集事实表与一个或者多个衍生的维度表连接 产品键 产品名称 分类 部门 时间键 日 月 年 产品键 时间键 商店键 促销键 销售额 …… 商店键 商店名称 地址 地域 地区 销售事实 商店 产品 时间 分类键 时间键 商店键 促销键 销售额 …… 单路聚集:销售事实 分类键 分类 部门 从产品表衍生 出来的维度表 分类 聚集事实表和衍生维度表 聚集事实表 聚集受稀疏性的影响 聚集真的能够急剧减少记录的条数么? 例如: Table Facts Records=40000×300×1825=220亿,由于每天每个商店最多卖出的商品为4000件,所以实际的记录数大约为:20亿,稀疏率10% 产品=40000 商店=300 时间=5年=1825天 聚集表:按天、按商店的品牌的销售总数(单路聚集表)Total Records=80×300×1825实际当中可能会出现,实际的总数不如基础表那样到10%的稀疏率。可能最多达到50%的稀疏率。 品牌=80 商店=300 时间=1825 工程实践经验:在构造聚集表时,确保每一个聚集表能够聚集10条来自更低层次的表的记录。越多越好,这样聚集程度才能提高。 聚集事实表 聚集的选项 现实中维度表的层次结构很多,同一个维度也有分几个层次的 现实中维度表的数目远不至3个,聚集不只3路,聚集表的数目会很多 聚集表所能减少的记录数量的比例和稀疏程度相关。稀疏程度最高会达

文档评论(0)

舞林宝贝 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档