- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 数据仓库中的ETL和元数据 第二章 目录 2.1 ETL 2.2 元数据 2.3 外部数据 2.4 本章小结 2.1 ETL 2.1.1 ETL概念(1) 在构建数据仓库的过程中,占据大量工作时间、在日常运行中经常出现问题并且问题最多的一个工作就是从业务数据库向数据仓库抽取、转换、加载数据。究其原因,是因为源数据往往来自于各种不同种类和形式的业务系统。为了保证数据仓库中数据的质量,需要一种支持多种数据源,具有数据“净化提炼”功能、数据加工功能和自动运行功能的抽取类程序。ETL正是这样的抽取程序。 数据仓库的ETL系统是数据仓库中数据整理阶段的一个主要工具,它与元数据管理相结合,提供对不同数据源的数据进行抽取、转换和加载的功能。ETL是数据从业务系统抽取转化到数据仓库的过程,具体包括了如下6个子过程:数据提取(Data Extract)、数据验证(Data Verification)、数据清理(Data Cleaning)、数据集成(Data Integration)、数据聚集(Data Aggregation)和数据加载(Data Load)。6个子过程之间的关系以及ETL过程中数据和元数据的流动见图2.1。 2.1.1 ETL概念(2) 通常而言,开发一个数据仓库项目包括了三个主要步骤:需求/建模,ETL开发和前端开发。其中,ETL是构建数据仓库的重要一环,同时也是构建数据仓库的基础与前提,是数据仓库从业务系统获得数据的必经之路。用户从数据源抽取出所需的数据,经过数据清洗和转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。 2.1.1 ETL概念(3) 在数据仓库建设的业务需求和数据分析阶段,我们将创建许多种数据映射信息。ETL 数据映射表是指导ETL过程设计的最佳方式,可以将该表用作与业务客户就数据映射和ETL过程问题进行交流的方式。ETL数据映射表有不同的级别,如实体级别和属性级别。每个级别中都具有不同级别的详细数据映射信息。表2.1是一个实体级别的ETL数据映射表的简化例子。该表中的每个“X”表示到操作细节或较低级数据映射文档的链接。 2.1.1 ETL概念(4) 1. 数据提取(Data Extract) 数据提取是捕获源数据的过程。有两种捕获数据的主要方法: ● 完全刷新 ● 增量更新 完全刷新,顾名思义,是对移入数据仓库的数据进行完全复制。该复制可能替换数据仓库中的内容,及时在新的时间点上添加完整的新副本,或者与目标数据进行比较,以便在目标中生成一条修改记录。增量更新的关注重点是只捕获源数据中修改的数据。 数据的提取须既能满足决策的需要,又不影响业务系统的性能,所以进行数据提取时应制定相应的策略,包括提取方式、提取时机、提取周期等内容。 在制定提取策略时,需要对数据的种类、数据的特征以及数据内容等各项因素综合考虑。通常情况下,流水型增长且数据量大的数据适合采用增量更新的方式;经常变化更新的数据适合采用完全刷新的方式;对于两者结合的数据,优先考虑增量更新方式,其次才考虑完全刷新的方式。 对于提取周期要考虑实际业务的需要和提取进行的系统代价,在可能的情况下,尽量缩短提取周期。 2.1.1 ETL概念(5) 2. 数据验证(Data Verification) 数据验证是一个处理不尽人意(less-than-perfect)的数据的过程。 在数据仓库建设的业务数据分析阶段,一般产生了一组数据质量假设。这些假设将指定客户和仓库建设者双方在数据质量问题上的职责。仓库建设者通常通过数据清理和增强等方法保证仓库的质量,而客户则可以从数据源本身出发,来有效地解决数据质量问题,这常常是保证数据质量的关键问题。例如: ● 丢失的数据恢复。 ● 模糊的数据转换。 ● 业务操作应用程序带来的数据质量问题 —— 只能从应用程序本身解决的数据质量问题。 一般应该在数据仓库建设的合同文档中包含数据质量假设,因为如果没有用正确的方法及时解决业务数据的质量问题,它可能严重影响数据仓库建设的时间表。数据质量假设可能是与客户进行时间表协商的一个重要条件。 2.1.1 ETL概念(6) 即使假设客户将承担其责任,解决他们业务数据源中的数据质量问题,但将来仍然可能在业务数据源中再次产生质量较差的数据。
您可能关注的文档
- 资产评估理论与实务 作者 宋传联 ZCPG第八章.ppt
- 资产评估理论与实务 作者 宋传联 ZCPG第七章.ppt
- 资产评估理论与实务 作者 宋传联 ZCPG第三章.ppt
- 资产评估理论与实务 作者 宋传联 ZCPG第十章.ppt
- 资产评估理论与实务 作者 宋传联 ZCPG第五章.ppt
- 资产评估理论与实务 作者 宋传联 ZCPG第一章.ppt
- 资料 例7-1.ppt
- 自动变速器维护与维修 作者 赵计平 1.1自动变速器概述.ppt
- 自动化生产线安装与调试 作者 何用辉项目4 任务三 PPI通信实现自动化生产线联机调试.ppt
- 自动化生产线安装与调试 作者 何用辉项目4 任务一 自动化生产线机械结构调整知识与能力目标.ppt
- 绿电2022年系列报告之一:业绩利空释放,改革推动业绩反转和确定成长.docx
- 化学化工行业数字化转型ERP项目企业信息化规划实施方案.pdf
- 【研报】三部门绿电交易政策解读:溢价等额冲抵补贴,绿电交易规模有望提升---国海证券.docx
- 中国债券市场的未来.pdf
- 绿电制绿氢:实现“双碳”目标的有力武器-华创证券.docx
- 【深度分析】浅析绿证、配额制和碳交易市场对电力行业影响-长城证券.docx
- 绿电:景气度+集中度+盈利性均提升,资源获取和运营管理是核心壁垒.docx
- 节电产业与绿电应用年度报告(2022年版)摘要版--节能协会.docx
- 2024年中国人工智能系列白皮书-智能系统工程.pdf
- 如何进行行业研究 ——以幼教产业为例.pdf
文档评论(0)