数据仓库概念、的设计与应用.ppt.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库概念、的设计与应用.ppt

数据仓库的特性 面向主题 典型的主题领域:客户;产品;交易;帐目 集成的 数据提取、净化、转换、装载 非易失的 数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新 随时间的变化性 数据仓库中的时间期限要远远长于操作型系统中的时间期限(5~10年); 数据仓库中的数据是一系列某一时刻生成的复杂的快照; 数据仓库的键码结构总是包含某时间元素。 数据仓库的结构 早期细节级 当前细节级 轻度综合级 数据集市 高度综合级 元数据 操作型转换 数据仓库设计中的几个重要概念 ETL ETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 元数据 关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。 粒度 数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。 分割 结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。 典型的元数据包括: 数据仓库表的结构 数据仓库表的属性 数据仓库的源数据(记录系统) 从记录系统到数据仓库的映射 数据模型的规格说明 抽取日志 访问数据的公用例行程序 数据仓库设计中的几个重要概念 (续) Data Mart 数据集市 -- 小型的,面向部门或工作组级数据仓库。 Operation Data Store 操作数据存储 — ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject -Oriented)、集成的、可变的、 当前或接近当前的。 data model 数据模型 -- (1)逻辑数据结构,包括由DBMS为有效进行数据库处理提供的操作和约束;(2)用于表示数据的系统(例如,ERD或关系型模型)。 artifact 人工关系 --在DSS环境中用于表示参照完整性的一种设计技术。 企业数据模型到数据仓库数据模型的转换 除去纯粹用于操作型环境的数据 在企业键码结构中增加时间元素 增加导出数据 创建人工关系 数据模型的规范化/反规范化 为了减少程序在表中的跳转、节省I/O,需将多个相关的表合并; 引入冗余数据; 当访问概率有很大悬殊时,要对数据做进一步分离; 在物理数据库的设计中引入导出数据可以减少I/O; 建立所谓的“创造的”索引或创造的简要记录(如卷中的前十名顾客是——) 数据仓库体系结构 OLTP 数据源 数据仓库 数据集市 ? 数据采集及整合 数据的映射规则、模型 。。。 (元数据管理) 数据仓库项目流程管理及系统性能管理和监控 ? 数据展现及决策 生产 财务 结算 外部 航线 分析 总量 分析 市场 分析 InfoPump 数据分析、DM 终端用户 终端用户 从操作型的现存系统到数据仓库中数据转换工作的难点 现有系统缺乏数据集成,跨越不同应用的数据集成性很差 存取现存系统的效率,扫描已有文件成了数据仓库体系结构设计者主要面对的问题 时基的变化 数据要浓缩 概念:数据周期、简要记录 数据周期:是指从操作型数据发生改变起,到这个变化反映到数据仓库中所用的时间。 从操作型环境知道数据的改变到这个变化反映到数据仓库中至少应该经历24小时。 简要记录:或聚集记录,是把不同操作型数据的详细信息聚集在一个记录中而形成的记录。 好处:①减少数据量; ②为用户的访问和分析提供了一种紧凑的方便的数据组织形式; 缺点:信息的详细程度将会降低。 数据仓库的建模 数据模型 所有的实体都是平等关系。 仅仅从数据模型的角度来着手设计数据仓库会产生一种“平面”效应。 星型连接 事实表:位于星型连接的中央,它是被大量载入数据的实体。 维表:周围的其它实体。 在很多情况下:文本数据与数值数据是分离开的。 通过数据预连接和建立有选择的数据冗余,设计者为访问和分析过程大大简化了数据。 星型连接应用于设计数据仓库中很大的实体,而数据模型则应用于数据仓库中较小的实体。 Vendor data Vendor data Vendor data vendor_id 供应商 cust_id 客户 order_id 发货 Order data Order data order_id 订单 Cust data Cust data Cust data Nonkey data Order data Order data Order

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档