数据仓库的管理和应用.pptxVIP

  • 7
  • 0
  • 约8.1千字
  • 约 64页
  • 2018-09-14 发布于上海
  • 举报
数据仓库的管理和应用

内容提要5.1 数据仓库管理5.2 数据仓库的决策支持与决策支持系统5.3 数据仓库应用实例5.1 数据仓库管理5.1.1 用户使用数据仓库的管理5.1.2 数据管理为什么需要对数据仓库进行管理?数据仓库中的数据也会随时间的延伸迅速的增长。(1)数据仓库收集历史数据。(2)数据仓库包含满足未知需求的数据集。(3)数据仓库既包括了详细数据也包括了汇总数据。(4)数据仓库还包含外部数据。5.1.1 用户使用数据仓库的管理1. 信息使用者使用数据仓库的性能优化2. 探索者使用数据仓库的性能优化1.信息使用者使用数据仓库的性能优化非规格化创建数据阵列预连接表格预聚集数据聚类数据压缩数据定期净化数据合并查询2.探索者使用数据仓库的性能优化(1)概括分析分析数据的完整性和准确性(数据质量)。(2)抽取数据抽取的任务就是从数据仓库中抽取指定的数据,并组织起来,送入支持探索者分析的探索仓库中。(3)建模通过概括分析来理解数据,通过抽取来准备数据,通过建模来分析数据。5.1.2 数据管理5.1.2.1 休眠数据5.1.2.2 脏数据的产生和清理5.1.2.3 监视数据5.1.2.4 元数据管理5.1.2.1 休眠数据1.休眠数据概念休眠数据是那些存在于数据仓库中当前不使用,将来也很少使用或不使用的数据。数据仓库中的数据随着时间的延续,数据被使用的情况会减少,休眠数据随之逐年增加。 一些事实:国外的统计表明:第1年内,数据仓库近期数据和综合数据几乎被全部使用。第2年内,休眠数据开始出现,数据仓库中的数据不少未被使用。第3年内,休眠数据在增长。第4年内,休眠数据迅速增长。设数据仓库的数据量为D,数据处理次数为n,平均每次处理数据的字节数为d,则一年中数据处理的总数据量为:n?d。在各次数据处理过程中,可能会出现数据的重复使用,我们用系数a表示为: 2.休眠数据的产生与查找(1)休眠数据的产生①在数据仓库中输入了过多的近期基本数据。 ②过多的增加了不必要的综合数据。③超过预测需求的历史数据均是休眠数据 (2)查找休眠数据查找休眠数据的最好方法是监视用户查询数据仓库的活动。① 监视用户查询的SQL语句。② 监视返回给用户的查询结果数据集。数据仓库管理员能知道哪些数据没有被使用,它们很可能就是休眠数据。 3.删除休眠数据(1)直接删除休眠数据 ①删除用户不访问的数据。 ②通过数据访问模型来删除休眠数据。 (2)对休眠数据归档存储(3)邻线(Near Line)存储 “邻线” 存储是一种二级数据存储方式。 “邻线”介于“在线(On Line)”和“离线(Off Line)”之间,将休眠数据从数据仓库的在线存储中转移到邻线存储中,平时不参与数据仓库的运行。5.1.2.2脏数据的产生和清理 脏数据是指在数据源中抽取、转换和装载到数据仓库的过程中出现的多余数据和无用数据。 1.产生脏数据的途径 (1)开始时定义了一些多余的数据或由于一些不合适的转换规则在转换过程中产生的无用数据。 (2)来自不同数据源的数据在数据结构、数据编码、数据定义等方面是不兼容的,在集成这些数据时未对所有不同情况的数据都转换成统一形式,产生遗漏或用了不匹配的转换方法而产生脏数据。 (3)输入的数据已经过期。 (4)用户需求的改变或数据质量有了新的要求时,那些没有适应改变要求的数据成了无用的脏数据。 2.清理脏数据(1)检查抽取数据的定义和数据转换规则的正确性,对那些不合适的定义与规则所造成的脏数据进行清理。(2)在对多个数据源进行集成时,清除那些遗漏或不匹配方法而产生的脏数据。 (3)对过期数据,对数据量较少时进行重新整理;对数据量大时,增加一些时间限制的规则来帮助对数据的使用。 5.1.2.3 监视数据1.监视休眠数据2.监视脏数据5.1.2.4元数据管理1.评估元数据的价值(1) 在应用程序中:描述应用程序的操作数据的机制和控制运行机制的元数据,使系统开发人员就能够理解应用程序内部结构和数据之间相互关系。5.1.2.4 元数据管理1.评估元数据的价值(1) 在应用程序中:描述应用程序的操作数据的机制和控制运行机制的元数据,使系统开发人员就能够理解应用程序内部结构和数据之间相互关系。(2) 在数据仓库环境中元数据通过三种方式发挥作用。 描述源数据和目标的数据模型 在填充数据时描述转换集成的数据流 允许终端用户使用有意义的导航数据(3) 获取数据和使用数据的元数据是元数据价值最大的用途。2.管理元数据(1)支持企业范围内的体系结构理解各种元数据目录,以及它们在企业范围内的体系结构的作用。 (2)基于知识库的方法 元数据一般存储在属性知识库中。转移到一个共享的、公共的元数据知识库中。 (3)配置管理元数据知识库必须提供标准的管理能力,如注册、退出、版本控制等。 (4)支持开放的元数据

文档评论(0)

1亿VIP精品文档

相关文档