- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章 数据仓库和OLAP技术
第2章 数据仓库与OLAP 本章学习目标: 掌握数据仓库的定义,四个基本特征 理解数据集市的概念,与数据仓库区分 了解数据仓库的体系结构 掌握数据仓库中数据组织方式 掌握数据处理过程 熟悉元数据的概念、元数据管理的原理 掌握OLAP的定义和特点 熟悉OLAP的数据模型 掌握OALP的多维数据分析 熟悉数据仓库的设计,包括数据模型的设计、粒度、维度设计 第2章 数据仓库与OLAP 2.1 数据仓库定义 2.2 数据仓库体系结构 2.3 数据组织结构和形式 2.4 数据抽取E、转换T和装载L(ETL) 2.5 元数据管理 2.6 OLAP的定义和特点 2.7 OLAP的数据模型 2.8 OALP的多维数据分析 2.9 数据仓库与OLAP范例 2.1 数据仓库定义 William H.Inmon:数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理人员的决策。 四个基本特征 数据仓库的数据是面向主题的 数据仓库的数据是集成的 数据仓库的数据是非易失的 数据仓库的数据是随时间不断变化的 面向主题 主题(Subject):特定的数据分析领域与目标。 面向主题:为特定的数据分析领域提供数据支持。 主题是一个抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它对应企业中某一宏观分析领域所涉及的分析对象。 面向主题 为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。 数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。 面向主题示例 例:一个面向事务处理的“商场”数据库系统,其数据模式如下 采购子系统: 订单(订单号,供应商号,总金额,日期) 订单细则(订单号,商品号,类别,单价,数量) 供应商(供应商号,供应商名,地址,电话) 销售子系统: 顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话) 销售(员工号,顾客号,商品号,数量,单价,日期) 面向事务 库存管理子系统: 领料单(领料单号,领料人,商品号,数量,日期) 进料单(进料单号,订单号,进料人,收料人,日期) 库存(商品号,库房号,库存量,日期) 库房(库房号,仓库管理员,地点,库存商品描述) 人事管理子系统: 员工(员工号,姓名,性别,年龄,文化程度,部门号) 部门(部门号,部门名称,部门主管,电话) 面向主题示例 上述数据模式基本上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的,没有实现真正的数据与应用分离,其抽象程度也不够高。 如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。 主题一:商品 商品固有信息:商品号,商品名,类别,颜色等 商品采购信息:商品号,供应商号,供应价,供应日期,供应量等 商品销售信息:商品号,顾客号,售价,销售日期,销售量等 商品库存信息:商品号,库房号,库存量,日期等 主题二:供应商 供应商固有信息:供应商号,供应商名,地址,电话等 供应商品信息:供应商号,商品号,供应价,供应日期,供应量等 主题三:顾客 顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等 顾客购物信息:顾客号,商品号,售价,购买日期,购买量等 面向主题 在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合。 不同的主题之间也有重叠的内容,但这种重叠是逻辑上的,而不是物理存储上的重叠;是部分细节的重叠,而不是完全的重叠。 面向主题 每个主题所需数据的物理存储: 多维数据库(MDDB—Multi-Dimensional DataBase)用多维数组形式存储数据。 关系数据库。用一组关系来组织数据的存储,同一主题的一组关系都有一个公共的关键字,存放的也不是细节性的业务数据,而是经过一定程度的综合形成的综合性数据。 集成的 集成性是指数据仓库中数据必须是一致的。数据仓库的数据是从原有的分散的多个数据库、数据文件和数据段中抽取来的,数据来源可能既有内部数据又有外部数据。 数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而
您可能关注的文档
最近下载
- 监控报价清单表-监控报价模板.xlsx VIP
- (2025秋新版)人教版二年级数学上册全册教案.doc
- 2026年河北水利发展集团有限公司公开招聘工作人员41名笔试模拟试题及答案解析.docx VIP
- 未成年人网络保护条例知识竞赛试题(含答案).docx VIP
- 2025高中信息技术课标.docx
- AS NZS 61000.4.3-2013 国外国际规范.pdf VIP
- _2025年证券专项《证券投资顾问》必背100句.pdf VIP
- 《无机非金属材料》全册完整教学课件.pptx VIP
- _2025年证券专项《证券投资顾问》超高频考点汇总.pdf VIP
- 在线网课学习课堂《医学信息素养(广州医大)》单元测试考核答案.docx VIP
文档评论(0)