第2章数据仓库环境(免费阅读).pptVIP

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* * * 不是在每天的基础上组织的,是以较长时间生成的,它是操作型数据间隔一段时间的快照 * 依据二个或多个简单直接文件可以生成一个连续文件,连续文件可以通过把一个快照追加到一个以前生成的连续文件上来创建 * * * * * * 审计与数据仓库 能对数据仓库进行审计,但不该审计,原因在于: 原先在数据仓库中没有的数据会突然出现 当需要审计能力时,数据进入数据仓库的时间标定过程会发生急剧变化 当需要审计能力时,数据仓库的备份和恢复限制会发生急剧变化 会使数据粒度处于最低的级别上 数据的同构/异构 数据仓库中的数据是异构的 第一次划分是按企业主要主题进行的,但每一个主题域还有更细的划分,主题域中的数据又划分到多个表中。 数据的同构/异构 数据仓库中的数据按下列标准划分: 主题域 表 数据在表中的位置 基于数据仓库数据建立的体系结构,数据的各个部分非常容易理解和访问。 数据仓库中的错误数据 数据仓库中的数据出错时,具有多种解决方案.但每种方法都是优势与劣执共存,没有一种是绝对正确或错误的.只是在某种条件下一种占优. 例:假设7月1日在操作型系统中,账户ABC加入了一条5000美元的账目。7月2日在数据仓库中为账户ABC产生了这5000美元账目的一个快照。接着,在8月15日发现错误。这个账目不是5000美元,而是750美元。那么,该如何纠正这个错误呢? 数据仓库中的错误数据 修正方法一:直接将7月2日的数据5000修改为750,问题: 数据集成破坏 更新必须在数据仓库环境中进行 许多时候不是要修正一个条目,而是很多 修正方法二:加入修正条目。在8月16日加入两个条目,一条是-5000,另一条是+750,这可能是最新数据的最好反映,但也有不足: 也可能要修正很多条目 数据仓库中的错误数据 有时候由于修正公式非常复杂,以致根本不能调整 修正方法三:重新设置8月16日账户为正确值750,不考虑以前的活动,缺点: 及时简单地将账户重设为当前值需要对应用与过程进行约定 不能对过去的错误进行准确解释。 * * * * * 所有的特性之中,集成是最重要的. 但多个应用之间在编码,命名习惯,物理属性,属性度量单位等方面的一致性很难保证一致性. 这样就必须采用方法消除应用层的许多不一致性, 确保数据仓库中的表述的一致性 * * 这是第一章我们讲过的集成的例子 * 数据仓库中的数据很少更新, 保存了数据的历史状况 * 时变性的意思是数据仓库中的每个数据单元只是在某一时间是准确的 任何情况下,记录都包含某种形式的时间标志用以说明数据在那一时间是准确的 * 数据仓库环境中数据存在不同的细节级 数据一旦过期,就由当前细节级进入早期细节级. 综合后的数据由当前细节级进入轻度综合级,然后由轻度综合级再进入高度综合级 * * 通过一个公共关键字联系起来,可以存储在不同介质上 * 可能有多个DBMS管理,或者根本没有DBMS管理 * 当数据围绕主题组织时,每个关键字都有一个时间元素 * * * * * 因而, 最佳解决办法是在企业中采用多重粒度级的形式 * * * * * 如省\区\县的地图,由应用程序控制更灵活 * * 以天进行综合---对一个顾客的一个帐号每天的所有活动进行合计,并在一天一天的基础上进入数据仓库 第2章 数据仓库环境 数据仓库的定义 以1992年W.H.Inmon出版《Building the Data Warehouse》为标志,数据仓库速度发展起来,Inmon也被誉为 “数据仓库之父”。 W.H.Inmon对数据仓库的定义是:“数据仓库是支持决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。 数据仓库是体系结构化环境的核心,是决策支持系统DSS处理的基础 数据仓库的特征 数据仓库是面向主题 (Subject-Orientation) 的; 数据仓库是集成 ( Integration ) 的; 数据仓库是稳定/非易失性 ( Nonvolatile ) 的; 数据仓库是随时间变化 ( Time Vagrancy ) 的; 数据仓库是信息的概括和聚集。 面向主题 汽车 人寿 健康 意外伤亡 操作型环境 应 用 顾客 保险单 保险费 索赔 数据仓库 主 题 集成 操作型环境 应用A m,f 应用B 1,0 应用C x,y 应用D 男,女 数据仓库 m,f 编码 应用A 管道cm 应用B 管道inches 应用C 管道mcf 应用D 管道yds 管道cm 属性度量 应用A 描述 应用B 描述 应用C 描述 应用D 描述 应用A char(10) 应用B dec fixed(9,2) 应用C pic ‘9999999’ 应用D char(12

文档评论(0)

peain + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档