- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3章 数据仓库的数据获取与管理
第3章 数据仓库的数据获取与管理 对数据仓库的数据组织有一文的认识, 明确数据仓库数据的抽取、集成过程握粒度、分割和数据追加等概念。 能够全面理解数据库体系化环境的概念。 第3章 数据仓库的数据获取与管理 ? 3.1 数据仓库的数据获取 ? 3.1 数据仓库的数据获取 数据仓库中的数据是集成了各个异构信息源中的数据形成的。而数据库中的数据真正要存储在数据仓库中, 还必须经过抽取、转换和装载的一个过程, 该过程即 ETL (Extraction, Transform Load) 过程。 数据仓库中的数据来自于多种业务数据源, 这些数据源可能是在不同的硬件平台上, 使用不同的操作系统, 因而数据以不同的格式存在不同的数据库中。如何向数据仓库中加载这些数量大、种类多的数据, 已成为建立数据仓库所面临的一个关键问题。 ? 3.1 数据仓库的数据获取 ? 在数据迁移的过程中, 通常需要将操作数据转换成另一种格式, 以更加适用于数据仓库设计。在大多数情况下, 转换是将数据汇总, 以使它更有意义。 在转换过程中, 确保能找出一种最好的方法以保证数据从传统的存储到数据仓库存储的同步策略。 同步策略应当把重点放在转换语言的标准化、数据移动平台、通信策略和支持策略方面。 数据仓库与操作数据存储器之间的同步过程能够采取不同的结构。 除寻找自动化转换工具之外, 还应估计数据转换的复杂性。大多数传统的数据存储方法缺乏标准, 常常有些不规则的数据或数据关系让人摸不着头脑。 ? 3.1 数据仓库的数据获取 ? 一些有用的工具正在不断改进以促进转换过程的自动化, 包括复杂问题, 如隐藏的数据、传统标准的缺乏及不统一的关键数据。 提取数据是数据仓库成功的关键。在提取过程中, 数据会被格式化, 并分发给需要从操作环境中共享数据的资源。元数据的工作是定义和解释数据资源和数据标准。因此, 在操作数据上执行的转换过程应该用元数据中定义的标准数据格式放置数据。 经过一段时间的发展, 人们最终认识到 ETL 工具的重要性, 于是相关的 ETL 工具也纷纷出台, 其中比较著名的是 IBM 的 Visual Warehouse, Ardent 公司的 Data Stage 等。 ? 数据质量 ? 3.1 ? 数据质量 数据质量制约着决策用户能否制定正确的决策; ? 查数据质量的标准 ⑴ 数据是准确的 数据必须保证它的准确性。如姓名、地址对营销部门必须正确。 ⑵ 数据符合它的类型要求和取值要求 定义了字段类型后, 所有记录都应该有类型 (如字符型、实数型等) 。数据在该字段的取值应在指定的范围内, 如性别只有 “男” 或 “女”。 ? 数据质量 ? 3.1 ? ⑶ 数据具有完整性和不冗余 数据应该是完整的, 对不同的需求, 都能获得所需要的数据。更新数据时不会由于多用户同时使用数据而发生冲突和丢失。由于业务需要所出现的数据冗余也应该尽量减少。 ⑷ 数据是集成的和一致的 数据是从多个部门和多个平台集成而来。数据的集成将减少冗余数据, 保持数据的一致性, 减少接口处理等, 实现数据共享。数据应该在形式逻辑上与内容上是一致的。 ? 数据质量 ? 3.1 ? ⑸ 数据是及时的,遵循业务规则,满足业务要求 对不同时间要求的数据 (如按月) 能按时提供, 达到及时性要求。数据要遵循业务规则, 如贷款余额不能是负数。对不同部门均能提供所需的数据。 ? 按数据质量标准净化和清洁数据 数据具有高质量时, 它才是一种资产, 错误的数据会导致错误的决策。例如, 地址的错误造成找不到顾客;向没有孩子的夫妇推荐学生用具, 会造成不好的影响。数据在进入数据仓库前, 必须按照数据质量标准进行净化和清洁。 ? 数据变换 ? 3.1 ? 数据变换 数据变换中最简单的形式是变换一次,改变一个数据属性而不考虑该属性的背景或与它相关的其他信息。 ? 数据类型转换 最常见的简单变换是转换一个数据元的类型。当应用程序存储某个类型的数据只在该应用程序的背景下有意义, 在企业水平上却没有意义时, 就常常要求进行这类变换。 这类转换可通过编码程序中的简单程序逻辑或者运用数据仓库数据变换工具完成。 ? 数据变换 ? 3.1 ? ? 日期/时间格式的转换 因为大多数业务环境都有许多不同的日期和时间类型, 所以几乎每个数据仓库的实现都必须将日期和时间变换成标准的仓库格式, 这可以通
您可能关注的文档
最近下载
- 铭记历史吾辈自强.pptx VIP
- [研究生入学考试题库]考研日语真题2021年.docx VIP
- 质量安全红线管理专项督查工作手册(第13版)(2).pdf VIP
- Altium Designer 24电路设计基础与应用教程 课件 第二章 元器件库的创建.pptx
- 沪江法语A1学生讲义完整版141页.pdf
- [研究生入学考试题库]考研日语阅读理解分类模拟题10.docx VIP
- 毛石混凝土挡土墙专项施工方案.pdf VIP
- 1例基于5A护理模式下百日咳重症肺炎患儿肺康复个案护理.pptx VIP
- 心理学基础教学课件白学军-第6章 记忆.pptx VIP
- 路基防护矮墙施工方案.docx VIP
文档评论(0)