- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十七课--数据仓库和数据集市详解
数据仓库和数据集市 Copyright?2007-2009 创智新程 数据仓库和数据集市 目标 什么是数据仓库 数据仓库系统体系结构 操作数据库与数据仓库的区别 维度建模的相关概念 维度建模的基本步骤 数据集市 数据仓库的定义 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volation)、反映历史变化(Time Variant)的集合数据,用于支持管理决策和信息的全局共享。 --W.H.Inmon 面向主题的 数据仓库是面向不同的主题域进行组织。一个主题通常与多个操作型信息系统相关。 集成的 数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 相对稳定的 数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。 反映历史变化的 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。 数据仓库系统体系结构 数据仓库系统体系结构 数据源 数据存储及管理 OLAP引擎 前端工具 操作数据库与数据仓库的区别 操作数据库系统的主要任务是联机事务处理OLTP。 数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP。 维度建模的相关概念 数据仓库 数据集市 事实 维度 数据挖掘 维度建模的相关概念 分析空间 数据仓库中一定量的数据,用于进行数据挖掘以发现新信息同时支持管理决策。 切片 一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。 星型模型 一种使用关系数据库实现多维分析空间的模型。 雪花模型 不管什么原因,当星型模型的维度需要进行规范化时,星型模型就演化为雪花模型。 多维数据模型 一种非规范化的关系模型。 由一组属性构成的表所组成。 表跟表之间的关系通过关键字和外键来定义。 以良好的可理解性和方便的产生报表来进行数据组织,很少考虑修改的性能。 通过SQL或者相关的工具实现数据的查询和维护。 多维数据模型 数据仓库和OLAP工具基于多维数据模型,该模型将数据看作数据立方体形式。 数据立方体允许以多维对数据建模和观察。 多维数据模型的组成 维 事实 数据立方体 多维数据模型举例 关系表与多维Cube 多维建模技术 星型和雪花模式是主要的存在形式。 星型模式包含一个大的包含大批数据的事实表和一系列维表。 雪花模式是星型模式的变种,不同的是将某些维表规范化。 事实表 每一个事实表通常包含了处理所关心的一系列的度量值。 每一个事实表的行包括: 具有可加性的数值型的度量值。 文本事实通常具有不可预见的内容,很难进行分析。 与维表相连接的外键。 通常具有两个和两个以外的外键。 外键之间表示维表之间多对多的关系。 事实表 事实表的特征 非常大 包含几百几千条甚至几万、几十万的记录。 内容相对的窄 列数较少 经常发生变化 现实世界中新事件的发生-〉事实表中增加一条记录。 典型情况下,仅仅是数据的追加。 事实表的使用 各类度量值的聚类计算 维表 每一张维表对应现实世界中的一个对象或者概念。 例如:客户、产品、日期、地区、商场 维表的特征 包含了众多描述性的列 维表的范围很宽(具有多个属性) 通常情况下,跟事实表相比,行数相对较少 通常10万条 内容相对固定 几乎就是一类查找表 任务一:设计Northwind数据库的星型模型 解题步骤 定义OLAP的数据集市:包括使用星型模型或雪花模型。 事实的选择:通过事实表的共有特性及四种常见样式来选择适当的事实种类。四种常见的事实样式为:事务事实、快照事实、线性项目事实、事件/状态事实。 维的创建。 聚合体的设计。 任务一:设计Northwind数据库的星型模型 设计分析 OLAP数据来源:Northwind数据库共有8个表,分别是Orders、OrderDetails、Customers、Products、Categories、Employe es、Shippers及Suppliers。 Time_Dim时间维 Northwind销售系统的日期以Orders的出货日为事实的时间,因此产生一个Time_Dim。 任务一:设计Northwind数据库的星型模型 设计分析 事实表的主轴: Orders和OrderDetails两个表的连接。 OrderDetails中包括了数值字段:UnitPrice、Quantity及Discount。可以推算出事实所需要的度量值:运费、销售金额、销售数
您可能关注的文档
- 技术检测中心基本情况简介分解.ppt
- 第六课学习、休息与娱乐详解.ppt
- 技术交底(倒插笼)分解.doc
- 第六讲状态空间搜索策略上详解.ppt
- 第十一章CSS属性详解.ppt
- 技术交底001分解.doc
- 第十一章-畜禽遗传资源多样性保护详解.ppt
- 第六课可爱的吉祥物.详解.ppt
- 第十一章供应链企业组织结构与业务流程重构详解.ppt
- 第十一章关系词(54-60)详解.doc
- 中国农业科学院农业资源与农业区划研究所2024年度公开招聘笔试备考题库及答案详解1套.docx
- 中国城市规划设计研究院2025年度公开招聘笔试模拟试题带答案详解.docx
- 2025年银川市公安局面向宁夏警官职业学院招聘285名警务辅助人员笔试模拟试题及完整答案详解1套.docx
- 2025年衢州市公安局第一期招聘54名警务辅助人员笔试模拟试题含答案详解.docx
- 2025年辽宁沈阳理工大学招聘高层次人才142人笔试模拟试题及答案详解1套.docx
- 中国民航科学技术研究院2024年度面向社会公开招聘工作人员笔试模拟试题及答案详解一套.docx
- 中国地质科学院矿产资源研究所2025年度公开招聘工作人员(第一批)笔试模拟试题及参考答案详解一套.docx
- 中国地质科学院地质力学研究所2024年度社会在职人员公开招聘笔试备考题库及答案详解1套.docx
- 中国疾病预防控制中心2024年度公开招聘学校卫生领域学科带头人笔试备考题库参考答案详解.docx
- 中国热带农业科学院南亚热带作物研究所2025年第二批公开招聘工作人员笔试模拟试题及答案详解一套.docx
文档评论(0)