第二章数据仓库的基本概念报告.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章数据仓库的基本概念报告

* * * * 粒度划分举例:银行业(I) 银行环境中的双重粒度 轻度综合粒度——长达10年的每月帐户记录 档案级 37 粒度划分举例:银行业(II) 银行环境中双重粒度的另一种形式: 上个月的顾客文件 过去十年的连续顾客记录 38 粒度划分举例:制造业 制造业环境中的粒度级别 轻度综合级 档案级 39 * (2)数据的分片策略 提高数据仓库性能的另一项重要技术是数据分片(分割)。它是数据仓库中继粒度问题之后的第2个主要的设计问题。 为什么需要数据分片 在OLTP环境中,修改操作较为频繁,采用数据分片技术容易导致记录在 分片之间的转移,转移代价较高;在OLAP环境中,数据极少更新,利用 数据分片技术可以大大提高性能。 减少内存的使用空间:系统仅需要将用户查询所涉及的数据调入内存 Join操作代价较低:将一个大的Join操作分解为若干个小Join操作之和 数据分片后,可以利用并行操作提升查询的效率 增加灵活性。例如:在不同的时间段,可以有不同的模式定义 43 * 数据分片示意图 如果全部销售记录过于庞大,可将其按年度进行分割成5个较小的数据单元。 44 数据分片:选择分片的标准 选择分片的标准 数据量的大小(而非记录行数) 数据分片处理的对象的特征以及属性之间的相关性 例如:商品按类和时间作为分片的标准 供应商按地区和时间作为分片的标准 易于实现(实施) 例如:按时间、业务类型 例如:按时间与商品类对销售数据进行综合(粒度划分) 每一粒度再按时间与商品类进行分片,分片 后仍便于做高度综合。 与粒度划分策略统一起来 数据分片:数据分片的策略 对于给定的磁盘个数,进行数据分片的方法 范围分片:利用属性值的范围进行数据分片 优点:数据逻辑比较清楚 缺点:导致数据分配的不平衡 循环轮转法:按照一定顺序,依次存放各个数据。数据分配 均匀。 45 Hashing方法:把任意长度的输入,通过散列算法,变换成固定长度的输出。这种变换是一种压缩映射,即,散列值的空间通常远小于输入的空间。(数据分配均匀) * (3)增加导出字段 基本概念: 导出字段:在原始数据的基础上进行总结或计算而生成的数据; 这些数据可以在以后的应用中直接利用,避免了重复计算。 52 导出数据 事先在源数据基础上,进行汇总或计算,生成导出 数据 导出数据,只计算一次就可以永久使用了 (4)引入冗余 一项数据属性(主外码不算此类)存在于多个 关系模式中 例如:在采购表/销售表中增加商品名称、商品类型 等 提高了性能,省去了Join操作 50 51 引入冗余:例 尽管描述信息冗余,但很少更新,提高了查询性能 * 数据仓库的特点? 数据立方体? 数据仓库的三级模式结构? 数据仓库设计与数据库设计的区别? 提高数据仓库设计性能的途径? 复习与思考问题 * * * * * * * * * * * * * * * * 2)集中式存储 集中式存储: 直接通过FC交换机来直接访问所有的数据而不需要通过其他节点; 可将节点从数据存储管理的负担中解脱出来,实现数据存储和数据处理的分离。 * 集中式存储 * 存储策略 考虑因素: 数据的重要程度; 粒度; 使用频率; 响应时间等。 采取措施: 重要程度高、使用频率高或对响应时间要求高的数据存放在高速存储设备上;反之,则存储在低速存储设备上。 2.4 数据仓库的设计 DW设计与DB设计方法比较 处理类型不同 DB : 操作型数据环境,面向业务 DW: 面向主题的分析型数据环境,面向分析,从基本主题开 始,不断发展新主题 面向需求不同 DB : 一组较确定的应用(业务处理)需求; 较确定的数据流 DW: 需求不确切(定);分析处理需求灵活; 没有固定模式;用户对分析处理需求不甚明了; 其设计很难以需求为基础 3 DW设计与DB设计方法比较(续Ⅰ) 设计目标不同 DB : 事务处理的性能(OLTP),支持多用户并发访问,高效 的增、删、改操作 DW: 建立DSS的数据环境, 全局的分析环境,支持用户快速的 分析和查询 数据来源不同 DB : 企业的业务流程中产生的数据 DW: 系统内部,主要从OLTP系统中获取,经过转换、重组、 综合; 同时包括部分外部信息 4 DW设计与DB设计方法比较(续Ⅱ) 设计方法不同 DB : SDLC(System Developme

文档评论(0)

ee88870 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档