数据仓库技术讲述.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库技术 提纲 数据仓库技术的产生 数据仓库的定义和特征 数据仓库中的数据组织 数据的粒度 数据仓库的数据组织结构 数据的分割 数据仓库的数据组织模式 ETL 数据集市 OLAP 定义和实例 OLAP的多维数据分析 OLTP与OLAP 数据仓库系统(DWS) 1 数据仓库技术的产生 数据仓库(Data Warehouse)技术完全是在决策需求的驱动下产生与发展起来的。 “数据太多,信息不足”的现状 异构环境的数据的转换和共享 利用数据进行数据处理转换为利用数据支持决策 操作型数据库无法满足决策支持系统对数据库系统的要求 专为决策服务的数据库系统称为数据仓库(Data Warehouse,简称DW)。 2.1 数据仓库的定义 以1992年W.H.Inmon出版《Building the Data Warehouse》为标志,数据仓库速度发展起来,Inmon也被誉为 “数据仓库之父”。 W.H.Inmon对数据仓库的定义是:“数据仓库是支持决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合。 2.2 数据仓库的特征 3 数据仓库中的数据组织 3.1 数据的粒度 3.2 数据仓库的数据组织结构 3.3 数据的分割 3.4 数据仓库的数据组织模式 3.5 数据的追加 3.1 粒度 粒度——是指数据仓库的数据单位中保存数据的细化或总合程度的级别。 细化程度越高,粒度级就越小; 细化程度越低,粒度级就越大。 粒度——细节的级别 粒度的划分决定了数据仓库中数据量的大小和查询的详细程度。 多重粒度 粒度的一个例子 3.2 数据仓库的数据组织结构 3.3 分割 分割——将当前细节数据分散到各自的物理单元中去以便能分别独立处理,以提高数据处理效率。 分片——数据分割后的独立单元。 数据的分割 提高了数据管理的灵活性 重构、索引、重组、恢复、监控 分割的标准:日期、地域、业务领域。 分割的一个例子 3.4 数据仓库的数据组织模式 星型模式(star schema) 雪花模式(snowflake schema) 混合模式 3.5 ETL 数据抽取、转换、装载(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。 数据抽取、转换和装载(ETL) 数据仓库的数据来源于多个数据源,主要是企业内部数据;存档的历史数据;企业的外部数据。这些数据源可能是在不同的硬件平台上,使用不同的操作系统。源数据是以不同的格式存放在不同的数据库中。  数据仓库需要将这些源数据经过抽取、转换和装载的过程,存储到数据仓库的数据模型中。可以说,数据仓库的数据获取需要经过抽取(Extraction)、转换(Transform)、装载(Load)三个过程即ETL过程。 3.5.1 数据抽取 确认数据源 数据抽取技术 1.确认数据源 列出对事实表的每一个数据项和事实 列出每一个维度属性 对于每个目标数据项,找出源数据项 一个数据元素有多个来源,选择最好的来源 确认一个目标字段的多个源字段,建立合并规则 确认一个目标字段的多个源字段,建立分离规则 确定默认值 检查缺失值的源数据 2.数据抽取技术 当前值。 源系统中存储的数据都代表了当前时刻的值。当商业交易时,这些数据是会发生变化的。 周期性的状态。 这类数据存储的是每次发生变化时的状态。例如,对于每一保险索赔,都经过索赔开始、确认、评估和解决等步骤,都要考虑有时间说明。 3.5.2 数据转换 数据转换的基本功能 数据转换类型 数据整合和合并 如何实施转换 1.数据转换的基本功能 选择:从源系统中选择整个记录或者部分记录。 分离/合并:对源系统中的数据进行分离操作或者合并操作。 转化:对源系统进行标准化和可理解化。 汇总:将最低粒度数据进行汇总。 清晰:对单个字段数据进行重新分配和简化 。 2.数据转换类型 (1)格式修正 (2)字段的解码 (3)计算值和导出值 (4)单个字段的分离 (5)信息的合并 (6)特征集合转化 (7)度量单位的转化 (8)关键字重新构造 (9)汇总 (10)日期/时间转化 3.数据整合和合并 数据整合和合并是将相关的源数据组合 成一致的数据结构,装入数据仓库。 (1)实体识别问题 数据来源于多个不同的客户系统,对相同客户可能分别有不同的键码,将它们组合成一条单独的记录。 (2)多数据源相同属性不同值的问题 不同系统中得到的值存在一些差别 ,需要给出合理的值。 4.如何实施转换 自己编写程序实现数据转换 使用转换工具 3.5.3 数据装载 (1)数据装载方式 (2)数据装载类型 1.数据装载方式 基本装载 按照装载的目标表,将转换过的数据输入到目标表中去。

文档评论(0)

2266670 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档