ETL概述.docxVIP

下载本文档

10
0
约4.07千字
约 5页
2017-02-05 发布于重庆
举报
版权申诉

ETL概述.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ETL概述

ETL概述ETL，Extraction- Transformation-Loading的缩写，即数据抽取（Extract）、转换（Transform）、装载（Load）的过程，它是构建数据仓库的重要环节。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程，目的是将企业中的分散、零乱、标准不统一的数据整合到一起，为企业的决策提供分析依据。ETL是BI项目重要的一个环节。通过ETL，我们可以基于源系统中的数据来生成数据仓库。ETL为我们搭建了OLTP系统和 OLAP系统之间的桥梁，是数据从源系统流入数据仓库的通道。通常情况下，在BI项目中ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到 BI项目的成败。ETL架构创建ETL系统的时候，头脑里应并存的两条主线：规划设计主线和数据流主线规划设计主线：需求和实现===〉架构===〉系统实施===〉测试和发布数据流主线：抽取===〉清洗====〉规格化====〉提交架构的时候，我们必须作出关于创建ETL系统创建方法的主要的决定，其中包括：手工编码VS工具实现方式一般有以下3种：一种是借助ETL工具(如Oracle的 OWB、SQLServer2000的DTS、SQLServer2005的SSIS服务、Informatic等)实现，一种是SQL方式实现，另外一种是ETL工具和SQL相结合。前两种方法各有各的优缺点，借助工具可以快速的建立起ETL工程，屏蔽了复杂的编码任务，提高了速度，降低了难度，但是缺少灵活性。SQL的方法优点是灵活，提高ETL运行效率，但是编码复杂，对技术要求比较高。第三种是综合了前面二种的优点，会极大地提高ETL的开发速度和效率。批处理式数据流还是流式数据流ETL系统的标准架构是从数据源中周期性的以批处理的方式进行抽去数据，流经整个系统，最后以批处理的方式对最终用户表进行批量更新。大部分数据仓库主要基于此种架构方式。如果数据仓库的加载的实时性变得很急迫，批处理的方式就会被打破，替代的方法就是流式数据流，记录级数据从原系统不停的流向最终用户数据库和屏幕。批处理到流处理方式的转变会改变所有的一切，尽管必须也有抽取，清晰，转换和提交步骤，但是这些步骤必须经过修改，以便适应实时性记录处理需求，尤其是对于快速流方式而言，很多关于数据到达甚至参照完整性方面的常规假设都必须进行修改。水平任务依赖还是垂直任务依赖水平任务依赖还是垂直任务依赖水平方式组织任务流是指每个最终的数据库加载相互独立运行，因此，如果有订货和配送两项任务，这两项数据库加载任务会相互独立运行，这通常意味着抽取，清洗，转换和提交的步骤在两个工作流之间是非同步的。垂直方式任务流会对多个离散的作业进行同步，这样最终的数据库加载会同步进行。尤其是多个系统使用共同的维表的时候，比如客户或者供应商等，之前的步骤一定要同步，这样，如果之前的步骤没有完全执行完，后面的步骤，比如转换或者提交就不会往下进行。恢复和重启从一开始建立ETL系统的时候，就应当考虑如何保证系统从非正常结束状态下的恢复和重启能力。比如有一个ETL作业是从全部的产品种类中抽取某个品牌产品的销售业绩，这样的任务不允许执行两次。在设计每一个ETL作业时都需要这样来考虑问题，因为每个作业迟早都会出现非正常终止或者错误地执行多次的情况。无论如何，必须想办法防止发生这种情况。元数据来自于关系型数据库表和数据模型设计工具的元数据比较容易获取，但这些元数据可能只占系统全部元数据的25%。还有25%的元数据会在数据清洗过程中产生。对于ETL小组而言，最大的元数据难题是在哪里以及以何种方式存储流程信息。ETL工具的一个重要的优势在于它们能够自动维护流程元数据。如果是使用手写编写ETL系统，用户则必须构建流程元数据的中央资料库。初次之外，自动调度、异常处理、质量控制和安全也是ETL架构设计中不可忽视的环节。ETL过程抽取这一部分需要在调研阶段做大量的工作，首先要搞清楚数据是从几个业务系统中来,各个业务系统的数据库服务器运行什么DBMS,是否存在手工数据，手工数据量有多大，是否存在非结构化的数据等等，当收集完这些信息之后才可以进行数据抽取的设计。源系统的原始数据在进行大的转换之前通常直接写入到磁盘。来自于结构化源系统的数据（比如IMS 数据库，或者XML数据集）在这一步中经常写入到文本文件或者关系型数据库表中。这使得最初的抽取尽可能简单和快速，对于源数据的不同来源，有以下不同的实现方法对于与存放DW的数据库系统相同的数据源处理方法这一类数据源在设计上比较容易。一般情况下，DBMS(SQLServer、Oracle)都会提供数据库链接功能，在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select语句直接访问。对于与DW数据库系统不同的数据源的处