数据仓库第二章数据仓库组成部分.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Chapter Two 数据仓库组成部分 * 本章学习目标 数据仓库的定义 区分数据仓库和数据集市 学习数据仓库的每一个组成部分 介绍元数据的概念和它的重要性 提纲 2.1 定义的特点 2.2 数据仓库和数据集市 2.3 数据仓库的组成部分 2.4 元数据MetaData * 数据仓库的创始者 Bill Inmon : “A Data Warehouse is a subject oriented, integrated, nonvolatile, and time variant collection of data in support of management’s decisions.” “数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合” 数据仓库的开拓者Sean Kelly,认为数据仓库中的数据是: 彼此分离 可利用的 综合的 包含时间标记的 面向主题的 非易失性的 能访问的 * 2.1 定义的特点 “面向主题”的数据 在操作型系统中,各行业的数据集合都是围绕单独的应用程序进行组织的 在数据仓库中 数据是按主题而不是按照应用程序存储的。 数据是跨应用程序的 订单处理 客户贷款 顾客帐单 可接收帐款 索赔处理 储蓄帐目 销售 产品 客户 帐户 索赔 政策 操作型应用程序 数据仓库主题 * 储蓄帐户 支票帐户 贷款帐户 主题=帐户 来自应用程序的数据 数据仓库主题 “综合”的数据 数据仓库中的数据来自不同的数据库、文件、数据段。(内部或者外部,不同的平台) 数据进入数据仓库前,需要进行的标准化工作: 命名规则 编码 数据特性 度量单位 * 数据的“时间特性” 数据仓库中的每一个数据结构都包含了时间要素。 数据仓库中的数据是和时间变化相关的数据 可以对过去进行分析 与当前的信息相关 可以对未来进行预测 * 数据的非易变性 操作型系统的数据实时地进行更新,每次交易发生都要更新;数据仓库中的数据非实时性更新 数据仓库中的数据用来进行查询和分析的 不能在数据仓库中实时地删除数据 不能在数据仓库中修改数据 决策支持系统 操作型系统 OLTP数据库 数据仓库 读取 增加 修改 删除 读取 * Data Granularity 数据粒度:数据的细节程度 在操作型系统中,数据粒度一般都很细。一般不保存加和的数据。 在数据仓库中,保存加和这一个数据项。一般来说,按不同层次组织数据,用户是从高层次向低层次的细节过渡。 根据需求的不同,需要不同层次的数据细节。 每日数据 帐户 交易日期 数额 存款 取款 月汇总 帐户 月份 交易数 取款 存款 期初结余 期末结余 季度汇总 帐户 月份 交易数 取款 存款 期初结余 期末结余 银行数据仓库的三个层次 数据粒度 * 2.2 数据仓库和数据集市 数据仓库和数据集市是一个混淆不清的概念。是学术界争论的话题 Bill Inmon(1998):“今年IT经理面对的最重要的问题就是到底先建数据仓库还是先建立数据集市”,今天依然如此。 在建立数据仓库前,我们需要考虑下列这些问题: 采取自上而下还是自下而上的方法 企业范围还是部门范围 先建立数据仓库还是数据集市 数据集市是否相互独立 * 数据仓库 vs. 数据集市(Data Mart) 数据仓库 数据集市 完整的,从企业整体考虑的 部门的 所有数据集市的集合 一个单独的商业处理过程 从阶段区域得到的数据 星型结构 通过展示的方式进行查询 适合数据连接和分析技术 基于公司数据视角的结构 基于适合部门数据视角的结构 通过实体-关系模式进行组织 * 自上而下的方法 优点 可以从整个企业的角度看待数据 有机的结合,不是彼此分离的数据集市组成 数据内容唯一、集中存储 集中控制和集中的规则 对反复的查询能够做出快速的反映 缺点 需要花费较多的时间建造 失败风险很大 需要高水平的总和技能 费用很高 * 自下而上的方法 优点 实施快速而方便 良好的投资回报 失败的风险较小 可以先建立重要的数据集市 项目团队可以从中学习和成长 缺点 每个数据集市对数据的视角都较窄 每个数据集市都有多余的数据 总有矛盾和不一致的数据 增加无法管理的接口 * 折中的思想,主要推崇者为著名的数据库专家Ralph Kimball,主要步骤如下: 从整个企业的角度来计划和定义需求 为完整的仓库创造一个体系结构 使数据内容一致而且标准化 将数据仓库作为一组超级数据集市来实施,每次一个 * 2.3 数据仓库的组成部分 数据仓库:各个功能块或组件 * 2.3.1 源数据部分 主要类别 生产数据:多个系统多种数据的标准化、转换、整合 内部数据:表格、文档 存档数据:旧的历史的数据 外部数

文档评论(0)

浪漫唯美-文档菜鸟 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档