网站大量收购独家精品文档,联系QQ:2885784924

数据仓库简介.ppt

  1. 1、本文档共17页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库简介.ppt

数据仓库简介 崔雪征 cuixuezheng@ 是什么 数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。 面向主题的(subject-oriented): 数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。 集成的(integrated): 通常,构造数据仓库时将多个异种数据源,如关系数据库、一般文件和联机分析处理记录,集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。 非易失的(Nonvolatile): 数据仓库中的数据通常以批量方式载入访问,但在数据仓库中并不进行数据更新。当产生变化时,一个新的快照记录就会写入数据仓库。 随时间变化的(Time-Variant): 数据仓库中的每个数据单元只是在某一时间是准确的。在一些情况下,记录加有时间戳,而在另外一些情况下记录则包含一个事务的时间。记录都包含某种形式的时间标志用以说明数据在那一时间是准确的。 1.1981年NCR公司(national cash register corporation)为Wal mart 建立了第一个数据仓库,总容量超过101TB 2.商务智能的瓶颈是从数据到知识的转换。1983年,该teradata公司利用并行处理技术为美国富国银行(Wells Fargo Bank)建立了第一个决策支持系统。 3. 1988年,为解决企业集成问题,IBM公司的研究员Barry Devlin和Paul Murphy创造性的提出了一个新的术语:数据仓库(Data Warehouse) 4.1992年,比尔·恩门(Bill Inmon)出版了《Building the Data Warehouse》一书,第一次给出了数据仓库的清晰定义和操作性极强的指导意见,真正拉开了数据仓库得以大规模应用的序幕。 5.1993年,毕业于斯坦福计算机系的博士拉尔夫·金博尔,也出版了一本书:《The Data Warehouse Toolkit》,他在书里认同了比尔·恩门对于数据仓库的定义,但却在具体的构建方法上和他分庭抗礼。最终拉尔夫金博尔尔由下而上,从部门到企业的数据仓库建立方式迎合人们从易到难的心理,得到了长足的发展。 历史 早期的数据库主要是一些独立的数据库,应用于企业数据处理的各个方面--从事务处理到批处理,再到分析型处理。将操作型数据库和分析型数据库分离开,主要是出于以下原因: 1、服务于操作型需求的数据在物理上不同于分析型需求的数据 2、操作型数据的用户群体不同于分析型数据所支持的用户群体 3、操作型环境的处理特点与分析型环境的处理特点从根本上不同 特征 OLTP OLAP 特征 操作处理 信息处理 面向 事务 分析 用户 办事员、数据库专业人员 知识工人(经理、主管、分析员) 功能 日常操作 长期信息需求、决策支持 DB设计 基于E-R,面向应用 星型、雪花,面向主题 数据 当前的 历史的 汇总 原始的,高度详细 汇总的,统一的 视图 详细,一般关系 复杂查询 存取 读、写 基本为读 关注 数据进入 信息输出 操作 主关键字上索引/散列 大量扫描 访问记录数 数十个 数千万 用户数 数千 数百 DB数量 GB 100GB到TB 优先 高性能、高可靠性 高灵活性,端点用户自治 度量 事务吞吐量 查询吞吐量,响应时间 与OLTP区别 设计要点 星型模型是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。所有维表都直接连接到“?事实表”。 雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 ?层次 区域,这些被分解的表都连接到主维度表而不是事实表。 事实表 事实表存储了从机构业务活动或者事件中提炼出来的性能度量 粒度 粒度越细,越可以支撑多样的需求;粒度越粗,对特定需求性能支持越好。 维表 事实表仅有键和数值型度量所组成,与事实表不同,维度表不具有健壮性和完整性,它们当中充满了“大而笨重”的描述字段。 缓慢变化维 纵表与横表 纵表灵活,性能需特别关注;横表性能好,需特别关注灵活性。 技术要点 特点 数据量大 弱事务,写少读多 完整性和一致性需求弱 应对 批处理 Mpp数据库 多维数据库 Hadoop等分布式框架 列式存储 多种存储介质 压缩 分区 Load Bitmap索引 无主外键 不记日志(弱日志)

文档评论(0)

docinpfd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档