数据仓库第二章数据仓库组.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库第二章数据仓库组

Chapter Two 数据仓库组成部分 本章学习目标 数据仓库的定义 区分数据仓库和数据集市 学习数据仓库的每一个组成部分 介绍元数据的概念和它的重要性 提纲 2.1 定义的特点 2.2 数据仓库和数据集市 2.3 数据仓库的组成部分 2.4 元数据MetaData 数据仓库的创始者 Bill Inmon : “A Data Warehouse is a subject oriented, integrated, nonvolatile, and time variant collection of data in support of management’s decisions.” “数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合” 数据仓库的开拓者Sean Kelly,认为数据仓库中的数据是: 彼此分离 可利用的 综合的 2.1 定义的特点 “面向主题”的数据 在操作型系统中,各行业的数据集合都是围绕单独的应用程序进行组织的 在数据仓库中 数据是按主题而不是按照应用程序存储的。 数据是跨应用程序的 “综合”的数据 数据仓库中的数据来自不同的数据库、文件、数据段。(内部或者外部,不同的平台) 数据进入数据仓库前,需要进行的标准化工作: 命名规则 编码 数据特性 度量单位 数据的“时间特性” 数据仓库中的每一个数据结构都包含了时间要素。 数据仓库中的数据是和时间变化相关的数据 可以对过去进行分析 与当前的信息相关 可以对未来进行预测 数据的非易变性 操作型系统的数据实时地进行更新,每次交易发生都要更新;数据仓库中的数据非实时性更新 数据仓库中的数据用来进行查询和分析的 不能在数据仓库中实时地删除数据 不能在数据仓库中修改数据 Data Granularity 数据粒度:数据的细节程度 在操作型系统中,数据粒度一般都很细。一般不保存加和的数据。 在数据仓库中,保存加和这一个数据项。一般来说,按不同层次组织数据,用户是从高层次向低层次的细节过渡。 根据需求的不同,需要不同层次的数据细节。 2.2 数据仓库和数据集市 数据仓库和数据集市是一个混淆不清的概念。是学术界争论的话题 Bill Inmon(1998):“今年IT经理面对的最重要的问题就是到底先建数据仓库还是先建立数据集市”,今天依然如此。 在建立数据仓库前,我们需要考虑下列这些问题: 采取自上而下还是自下而上的方法 企业范围还是部门范围 先建立数据仓库还是数据集市 数据集市是否相互独立 数据仓库 vs. 数据集市(Data Mart) 自上而下的方法 优点 可以从整个企业的角度看待数据 有机的结合,不是彼此分离的数据集市组成 数据内容唯一、集中存储 集中控制和集中的规则 对反复的查询能够做出快速的反映 缺点 需要花费较多的时间建造 失败风险很大 需要高水平的总和技能 费用很高 自下而上的方法 优点 实施快速而方便 良好的投资回报 失败的风险较小 可以先建立重要的数据集市 项目团队可以从中学习和成长 缺点 每个数据集市对数据的视角都较窄 每个数据集市都有多余的数据 总有矛盾和不一致的数据 增加无法管理的接口 折中的思想,主要推崇者为著名的数据库专家Ralph Kimball,主要步骤如下: 从整个企业的角度来计划和定义需求 为完整的仓库创造一个体系结构 使数据内容一致而且标准化 将数据仓库作为一组超级数据集市来实施,每次一个 2.3 数据仓库的组成部分 数据仓库:各个功能块或组件 2.3.1 源数据部分 主要类别 生产数据:多个系统多种数据的标准化、转换、整合 内部数据:表格、文档 存档数据:旧的历史的数据 外部数据:社会的企业,社会的人 2.3.2 数据准备部分 ETL(ETCL) 数据抽取(Extract):多源、异构数据的抽取 数据转换(Transform): 清洗、标准化等过程 数据装载(Load) 这个过程需要很多的时间 最初的装载工作需要载入大量的数据 更新周期的决定(年、季、月、日) 2.3.3数据存储部分 数据仓库的数据存储器是一个独立的部分 与操作型的数据库分开存储 大多数数据仓库都采用关系数据库管理系统 2.3.4 信息传递部分 多种信息传递方式 特别的报表 复杂的查询 多维分析 统计分析 主管信息系统的需求 数据挖掘 2.4 元数据MetaData 描述数据的数据 数据仓库内容的一本字典 元数据是数据仓库数据本身信息的数据 元数据的类型 操作型元数据 包含了所有操作型数据源的信息 抽取和转换元数据 包含了源数据系统的数据抽取信息(抽取方法、抽取商业规则) 最终用户元数据 允许最终用户使用自己的商业术语和自己一般认可的方式来找寻信息 元数据对于数据仓库极其重要 小结 数据仓库定义的特点是:面

文档评论(0)

ipad0a + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档