- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第3章 ETL技术 主讲人:孙水华 副教授 信息科学与工程学院 内 容 ETL相关概念 ETL过程建模 ETL增量抽取机制 ETL过程数据质量控制 ETL并行处理技术 小结 3.1 ETL相关概念 5.日志表方式 对于建立了业务系统的生产数据库,可以在数据库中创建业务日志表,当特定需要监控的业务数据发生变化时,由相应的业务系统程序模块来更新维护日志表内容。增量抽取时,通过读日志表数据决定加载哪些数据及如何加载。日志表的维护需要由业务系统程序用代码来完成。 6.系统日志分析方式 该方式通过分析数据库自身的日志来判断变化的数据。关系型数据库系统都会将所有的DML操作存储在日志文件中,以实现数据库的备份和还原功能。ETL增量抽取进程通过对数据库的日志进行分析,提取对相关源表在特定时间后发生的DML操作信息,就可以得知自上次抽取时刻以来该表的数据变化情况,从而指导增量抽取动作。有些数据库系统提供了访问日志的专用的程序包(例如Oracle的LogMiner),使数据库日志的分析工作得到大大简化。 ETL实施过程中究竞选择哪种增量抽取机制,要根据实际的数据源系统环境进行决策,需要综合考虑源系统数据库的类型、抽取的数据量、对源业务系统和数据库的控制能力以及实现难度等各种因素,甚至结合各种不同的增量机制以针对环境不同的数据源系统进行ETL实施。 3.4 ETL过程数据质量控制 数据仓库中的数据来自于多种数据源,这些数据源可能处于不同的硬件平台上,使用不同的操作系统和数据库管理系统,因而数据在编码、命名、数据类型、语义等方面都存在着较大的冲突。 造成数据质量问题的原因很多,比如由系统集成和历史数据造成的原因主要有以下这些:(1)业务系统不同时期数据模型不一致;(2)业务系统不同时期业务过程的变化;(3)旧系统模块在运营、人事、财务、办公系统等相关信息不一致;(4)遗留系统和新业务管理系统数据集成不完备。 3.4.1 数据质量问题分类 根据处理的是单数据源还是多数据源以及问题出在模式层还是实例层,将数据质量问题分为四类:单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题。 表3-1表示了ETL过程中出现的数据质量问题分类以及每一类中典型的数据质量问题。 单数据源模式层问题主要包括模式设计的不合理、完整性约束的缺少(如:唯一性约束、参照完整性约束)。 单数据源实例层问题主要是数据记录错误,如拼写错误、数据丢失值、无效的数据值、相似重复记录、值与字段名不匹配等。 多数据源模式层问题除了单数据源模式层问题外,还包括数据模型异构、命名和结构冲突等问题。 多数据源实例层问题除了单数据源实例层问题外,还包括数据冗余、互相矛盾和不一致等问题。 * * 数据仓库与数据挖掘技术 在构建商业智能系统的时候,如何正确有效地将分散在各个不同数据源中的信息整合到系统中成为了整个系统成败的关键,直接影响到系统的运行效率和最终结果。ETL正是解决这一问题的有力工具。 ETL是指把数据从数据源装人数据仓库的过程,即数据的抽取(Extract)、转换(Transform)和装载(Load)过程。ETL过程的实质就是符合特定规则的数据流动过程,从不同异构数据源流向统一的目标数据。其间,数据的抽取、清洗、转换和装载形成串行或并行的过程,每个过程都必须符合特定的规则。根据国内外众多实践得到的共识,ETL规则设计和实施所需工作量约占整个项目的60%~80%。由于ETL过程的重要性和复杂性,如何设计正确、高效的ETL过程已经成为了商业智能系统构建过程中无法回避的重要问题。 在设计ETL的时候需要从以下几个方面进行考虑,那就是数据理解、数据抽取、数据清洗、数据转换和数据加载。 3.1.1 数据理解 在设计ETL过程之前,有一项非常重要但经常被人们所忽略的工作,那就是数据理解。数据理解是通过大量的调研和统计工作,了解数据的存储方式、数据量的大小、数据的格式、数据的业务含义等信息,同时还需要统计各种数值型数据的最大值、最小值和平均值,统计非数值型数据中各种不同的取值以及各种不同取值的个数。有了以上信息,ETL以后各个步骤的设计才能做到有的放矢,达到正确、高效的目的。 3.1.2 数据抽取 从源文件和源数据库中获取相关数据用于填充数据仓库,称为数据抽取。并非所有包含在不同操作型业务系统中的数据都需要抽取,通常只需要其中的一个子集。抽取数据的一个子集是基于对源系统和目标系统的扩展分析,一般会由终端用户和数据仓库专家共同决定。 在集成
您可能关注的文档
- 建筑工程经济和管理教案.ppt
- 教育教学工作计划2014.3.doc
- 教育科学的地研究ALL.doc
- 数值计算方法 非线性方程和方程组数值解法.ppt
- 数字化变电站自动化系统研制及测试技术的地研究.ppt
- 数字化后视频和音频等媒体信息具有海量性.ppt
- 数字化校园统一身份认证系统模型的地研究和实现.ppt
- 数字图像处理_胡学龙等_第05章_图像编码和压缩0607.ppt
- 数字图像处理技术和应用课件 第1章.ppt
- 数字水印技术基础.doc
- 山东福贞金属包装有限公司2号车间三色机、涂布机技术改造项目环评资料环境影响.docx
- 山东金睿达金属表面处理有限公司电镀投资项目环评资料环境影响.docx
- 2024年新华师大版七年级数学上册全册教学课件.pptx
- 2024年新华师大版数学七年级上册全册教学课件.pptx
- 2024年新华师大版数学七年级上册全册教学课件(新版教材).pptx
- 2024年新华师大版数学七年级上册全册课件.pptx
- 2024年新人教版八年级上册物理大单元设计全册教学课件(附光单元案例).pptx
- 2024年新人教版八年级上册物理大单元设计全册课件(附光单元案例).pptx
- 2025年春新星球版地理七年级下册全册课件.pptx
- 2024年新华师大版数学七年级上册全册课件(新版教材).pptx
最近下载
- 2025甘肃甘南州专业化管理的村党组织书记招聘45人笔试备考题库及一套答案详解.docx VIP
- 05G525_吊车轨道联结及车挡 .docx VIP
- 《交流电机的维护与检修》课件.ppt VIP
- 妇产科学教学课件:女性生殖系统生理.ppt VIP
- (通用)大学生人文知识竞赛题库及答案(通用版).pptx VIP
- DB42╱T 1528.1-2019 湖北省农业用水定额 第1部分:农田灌溉用水定额.docx VIP
- 财务风险管理及防范对策研究.pptx VIP
- 儿童特应性皮炎的药物治疗.pptx
- 一种在无有机模板剂条件下合成MCM-49型沸石分子筛的方法.pdf VIP
- 三相异步电动机的铭牌.pptx VIP
文档评论(0)