- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库实例(dw3)
数据仓库 (三) 2.6 数据仓库的设计 数据仓库设计大致有如下几个步骤: 2.6 数据仓库的设计 2.6 数据仓库的设计 确定系统边界 要做的决策类型有哪些? 决策者感兴趣的是什么问题? 这些问题需要什么样的信息? 要得到这些信息需要包含哪些数据源? 2.6 数据仓库的设计 确定主要的主题 即明确数据仓库的分析对象,然后对每个主题的内容进行较详细的描述,包括: 确定主题及其属性信息 描述每个属性的取值情况 固定不变的 半固定的 经常变化的 确定主题的公共码键 主题间的关系:主题间联系及其属性 在确定上述内容后,就可以用传统的实体联系模型(E-R模型)来表示数据仓库的概念数据模型。例如: 2.6 数据仓库的设计 2.6 数据仓库的设计 2.6 数据仓库的设计 2.6 数据仓库的设计 2.6 数据仓库的设计 商品固有信息: 商品表(商品号,商品名,类型,颜色,…)/* 细节数据 */ 商品采购信息: 采购表1(商品号,供应商号,供应日期,供应价,…)/* 细节数据 */ 采购表2(商品号,时间段1,采购总量,…)/* 综合数据 */ …… 采购表n(商品号,时间段n,采购总量,…) 商品销售信息: 销售表1(商品号,顾客号,销售日期,售价,销售量,…)/* 细节数据 */ 销售表2(商品号,时间段1,销售总量,…)/* 综合数据 */ …… 销售表n(商品号,时间段n,销售总量,…) 商品库存信息: 库存表1(商品号,库房号,库存量,日期,…)/* 细节数据 */ 库存表2(商品号,库房号,库存量,星期,…)/* 样本数据 */ …… 库存表n(商品号,库房号,库存量,年份,…) 其它导出数据:…… 2.6 数据仓库的设计 2.6 数据仓库的设计 2.6 数据仓库的设计 2.6 数据仓库的设计 在常见的一些分析处理操作中,可能需要执行多表连接操作。为了节省I/O开销,可以把这些表中的记录混合存放在一起,以减低表的连接操作的代价。这样的技术我们称为 合并表。 合并表技术与传统关系数据库中的集簇(Clustering)技术类似。 2.6 数据仓库的设计 按照数据的处理顺序调整数据的物理存放位置,以减少减少系统的磁盘I/O的开销。 2.6 数据仓库的设计 2.6 数据仓库的设计 在面向某个主题的分析过程中,通常需要访问不同表中的多个属性,而每个属性又可能参与多个不同主题的分析过程。因此可以通过修改关系模式把某些属性复制到多个不同的主题表中去,从而减少一次分析过程需要访问的表的数量。 采用该种数据组织方法回带来大量的数据冗余存储,数据仓库系统必须保证这些冗余数据的一致性。由于数据仓库中的数据是稳定的,很少执行更新操作,不会因此带来过高的数据更新的代价,却可以有效地提高数据仓库系统的性能。 2.6 数据仓库的设计 类似于在逻辑设计阶段的数据分割。 可以根据表中每个属性数据的访问频率和稳定性程度对表的存储结构进行分割。 对于访问频率较高的属性,可以单独考虑其物理存储组织,以便选择合适的索引策略和特定的物理组织方式。 对于需要频繁更新的属性,也可以单独组织其物理存储,以免因数据更新而带来的空间重组、重构等工作。 2.6 数据仓库的设计 在原始的细节数据的基础上进行一些统计和计算,生成导出数据,并保存在数据仓库中。 采用该方法既可以避免在分析过程中执行过多的统计或计算操作,减少输入/出的次数,又避免了不同用户进行的重复统计操作可能产生的偏差。 2.6 数据仓库的设计 用于记录数据仓库中数据于‘最’有关的统计结果的索引被称为‘广义索引’。如: 当月销售额最高的商店? 当月销售情况最差的商品? …… 这样的广义索引的数据量是非常小的,可以在每次进行数据仓库数据加载工作时生成或刷新这样的广义索引。用户可以从已经建立的广义索引里直接获取这些统计信息,而不必对整个数据仓库进行扫描。 2.6 数据仓库的设计 2.6 数据仓库的设计 在数据仓库建立后,就可以建立分析、决策型的应用系统。 在应用系统的使用过程中不断加深理解,改进主题,依照原型法的思想使系统更趋完善。 在系统的运行过程中,随着数据源中数据的不断变化,需要通过数据刷新操作来维护数据仓库中数据的一致性。 2.7 联机分析处理(OLAP) 联机事务处理:OLTP On-Line Transaction Processing 联机分析处理:OLAP On-Line Analytical Processing 2.7 联机分析处理(OLAP) OLAP中的几个基本概念: 对象(Object) 在分析型处理中我们所关心和分析的对象。 例如:商品的销售金额 维(Dimension) 观察分析对象的角度。 例如:可以从三个‘维’角度观察‘销售金额’这个对象
文档评论(0)