- 1、本文档共17页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库简介.ppt
数据仓库简介 崔雪征 cuixuezheng@ 是什么 数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持管理人员决策的数据集合。 面向主题的(subject-oriented): 数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。 集成的(integrated): 通常,构造数据仓库时将多个异种数据源,如关系数据库、一般文件和联机分析处理记录,集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结构、属性度量等的一致性。 非易失的(Nonvolatile): 数据仓库中的数据通常以批量方式载入访问,但在数据仓库中并不进行数据更新。当产生变化时,一个新的快照记录就会写入数据仓库。 随时间变化的(Time-Variant): 数据仓库中的每个数据单元只是在某一时间是准确的。在一些情况下,记录加有时间戳,而在另外一些情况下记录则包含一个事务的时间。记录都包含某种形式的时间标志用以说明数据在那一时间是准确的。 1.1981年NCR公司(national cash register corporation)为Wal mart 建立了第一个数据仓库,总容量超过101TB 2.商务智能的瓶颈是从数据到知识的转换。1983年,该teradata公司利用并行处理技术为美国富国银行(Wells Fargo Bank)建立了第一个决策支持系统。 3. 1988年,为解决企业集成问题,IBM公司的研究员Barry Devlin和Paul Murphy创造性的提出了一个新的术语:数据仓库(Data Warehouse)4.1992年,比尔·恩门(Bill Inmon)出版了《Building the Data Warehouse》一书,第一次给出了数据仓库的清晰定义和操作性极强的指导意见,真正拉开了数据仓库得以大规模应用的序幕。 5.1993年,毕业于斯坦福计算机系的博士拉尔夫·金博尔,也出版了一本书:《The Data Warehouse Toolkit》,他在书里认同了比尔·恩门对于数据仓库的定义,但却在具体的构建方法上和他分庭抗礼。最终拉尔夫金博尔尔由下而上,从部门到企业的数据仓库建立方式迎合人们从易到难的心理,得到了长足的发展。 历史 早期的数据库主要是一些独立的数据库,应用于企业数据处理的各个方面--从事务处理到批处理,再到分析型处理。将操作型数据库和分析型数据库分离开,主要是出于以下原因: 1、服务于操作型需求的数据在物理上不同于分析型需求的数据 2、操作型数据的用户群体不同于分析型数据所支持的用户群体 3、操作型环境的处理特点与分析型环境的处理特点从根本上不同 特征 OLTP OLAP 特征 操作处理 信息处理 面向 事务 分析 用户 办事员、数据库专业人员 知识工人(经理、主管、分析员) 功能 日常操作 长期信息需求、决策支持 DB设计 基于E-R,面向应用 星型、雪花,面向主题 数据 当前的 历史的 汇总 原始的,高度详细 汇总的,统一的 视图 详细,一般关系 复杂查询 存取 读、写 基本为读 关注 数据进入 信息输出 操作 主关键字上索引/散列 大量扫描 访问记录数 数十个 数千万 用户数 数千 数百 DB数量 GB 100GB到TB 优先 高性能、高可靠性 高灵活性,端点用户自治 度量 事务吞吐量 查询吞吐量,响应时间 与OLTP区别 设计要点 星型模型是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimension Table)组成。所有维表都直接连接到“?事实表”。 雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的 ?层次 区域,这些被分解的表都连接到主维度表而不是事实表。 事实表 事实表存储了从机构业务活动或者事件中提炼出来的性能度量 粒度 粒度越细,越可以支撑多样的需求;粒度越粗,对特定需求性能支持越好。 维表 事实表仅有键和数值型度量所组成,与事实表不同,维度表不具有健壮性和完整性,它们当中充满了“大而笨重”的描述字段。 缓慢变化维 纵表与横表 纵表灵活,性能需特别关注;横表性能好,需特别关注灵活性。 技术要点 特点 数据量大 弱事务,写少读多 完整性和一致性需求弱 应对 批处理 Mpp数据库 多维数据库 Hadoop等分布式框架 列式存储 多种存储介质 压缩 分区 Load Bitmap索引 无主外键 不记日志(弱日志)
您可能关注的文档
- 接收装置的规划.pdf
- 控制装置课程设计.doc
- 控压钻井技术在塔中区块的应用及效果分析.pdf
- 提高繁殖力措施.doc
- 携创亿商九大亮点剖析.ppt
- 摩托车构造.ppt
- 摩擦与润滑.ppt
- 摩擦及摩擦理论课件.ppt
- 摩擦学试验报告.doc
- 操纵避碰大纲.doc
- 建筑施工技术(智慧建造)知到智慧树期末考试答案题库2025年深圳职业技术大学.docx
- 建筑施工技术(千年土木 小筑拾遗)知到智慧树期末考试答案题库2025年潍坊工程职业学院.docx
- 建筑施工技术知到智慧树期末考试答案题库2025年常德职业技术学院.docx
- 建筑施工技术知到智慧树期末考试答案题库2025年广西工业职业技术学院.docx
- 幼儿园教师培训与衔接计划.docx
- 建筑施工技术知到智慧树期末考试答案题库2025年临沂职业学院.docx
- 建筑施工技术知到智慧树期末考试答案题库2025年上海济光职业技术学院.docx
- 建筑施工技术知到智慧树期末考试答案题库2025年九江职业大学.docx
- 建筑施工技术知到智慧树期末考试答案题库2025年长春工程学院.docx
- 建筑环境学知到智慧树期末考试答案题库2025年江西理工大学.docx
最近下载
- 2025年中国铁路武汉局集团有限公司招聘毕业生(四)【135人】笔试参考题库附带答案详解.docx
- 最新高二语文下学期期末试卷附答案一套.docx VIP
- 外研版高中《英语》(新标准)必修二Unit6 单元整体教学设计附作业设计.docx
- 毛概电子书.doc
- 紫外线钣金灰行业报告.pptx
- 外研版高中《英语》(新标准)必修二Unit5 单元整体教学设计附作业设计.doc
- CQC13464225-2024电力储能用锂离子电池安全与性能认证规则.pdf
- 外研版高中《英语》(新标准)必修二Unit1 单元整体教学设计附作业设计.doc
- 洪洞悦昌煤业副斜井施工组织设计方案.docx
- (四调)武汉市2025届高中毕业生四月调研考试 数学试卷(含答案详解).pdf
文档评论(0)