1. 1、本文档共35页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ETL方法论课案

ETL技术研究 作者:TD数据仓库项目组 时间:2008-4-15 目 录 1 引言 1 1.1 背景 1 1.2 参考资料 1 1.3 术语定义及说明 1 2 ETL 概念 2 2.1 ETL概念 2 2.2 ETL本质 2 2.2.1 背景 2 2.2.2 ETL本质之一(过程) 2 2.2.3 ETL本质之二(分类) 3 2.2.4 ETL本质之三(转化) 4 2.2.5 ETL本质之四(数据质量) 6 2.2.6 ETL本质之五(质量保证) 7 2.2.7 ETL本质之六(元数据漫谈) 8 2.3 ETL 任务 8 3 ETL 工具 9 3.1 说明 9 3.2 工具选择 10 4 ETL模式 11 4.1 说明 11 4.2 四种数据ETL模式 11 5 ETL体系结构 12 5.1 说明 12 5.2 关键技术 13 5.2.1 数据抽取 13 5.2.2 数据转换和加工 14 5.2.3 数据装载 15 5.3 ETL 几个重要问题 15 5.3.1 数据的有效性检查 15 5.3.2 数据的清洗和转换 15 5.3.3 数据的聚合与分割 16 5.3.4 数据安全性 16 5.4 实施步骤 16 6 ETL数据集成解决方案 18 6.1 说明 18 6.2 数据集成模型框架 18 6.2.1 数据集成模型分类 18 6.2.2 数据集成实现技术 19 6.2.3 数据高速缓存器是关键 19 6.2.4 数据集成对于企业信息系统的作用 20 7 ETL 行业应用解决方案 20 7.1 说明 20 7.2 金融行业解决方案 21 7.2.1 用户需求背景 21 7.2.2 方案设计 21 7.2.3 方案描述 22 7.3 保险行业解决方案 22 7.3.1 用户需求背景 22 7.3.2 方案设计 22 7.3.3 方案描述 23 7.4 零售行业 23 7.4.1 用户需求背景 23 7.4.2 方案设计 24 7.4.3 方案描述 24 8 ETL 优化策略 24 8.1 说明 24 8.2 SQL优化 25 8.2.1 索引正确使用 25 8.2.2 游标正确使用 25 8.2.3 删除全表多用TRUNCATE 26 8.2.4 多用COMMIT 26 8.2.5 常用(NOT)EXISTS替代(NOT)IN 26 8.2.6 优化GROUP BY 26 8.2.7 常用UNION-ALL 替换UNION 26 8.2.8 分离表和索引 27 8.3 加载策略优化(增量加载) 27 8.3.1 时间戳 27 8.3.2 增量文件 27 8.3.3 数据快照 27 8.3.4 日志文件 27 8.3.5 业务逻辑 28 9 ETL 常见问题和处理方法 28 9.1 说明 28 9.2 硬件、操作系统、网络导致异常 28 9.2.1 解决方法 28 9.3 数据源数据传输、质量导致异常 29 9.3.1 解决方法 29 9.4 ETL过程处理导致异常 30 9.4.1 解决方法 30 9.5 目标数据模型导致异常 30 9.5.1 解决方法 30 9.6 开发、维护阶段人工干预导致异常 30 9.6.1 解决方法 30 引言 背景 ETL是商业智能(BI)的重要组成部分。我们先看一下在中的定义: ETL,是英文Extract-Transform-Load的缩写,即填充、更新数据仓库的数据抽取、转换、装载的过程。这是实现商业智能之前的数据采集步骤。这一步骤完成之后,对库中数据的数据挖掘、分析处理才可以进行。对于ETL而言,”是什么”是很容易理解的,也就是将分散的、不易利用的数据进行整理,变成规则清晰的、易于利用的、(可能同时还是)集中的数据。在ETL过程之外,就可以基于报表分析系统、多维分析系统和数据挖掘系统等,进行进一步的数据分析利用。 这一过程可以通过Hard Codding,即编写程序实现,也可以通过各种ETL工具实现。 对于ETL,实际常见的问题有两个: 1、为什么要做ETL,而不是直接利用数据?   这个原因有多种多样,比如可能原始数据量太大,需要加以提炼;可能业务数据的服务器面临性能压力,不希望分析工作影响性能;可能源数据的异构性和低质量,需要加以规范;还有可能有些数据直接利用起来有困难,例如SAP系统中的数据。 2、不同ETL工具与方法的差异主要是什么?   由于ETL是一个可以用Hard Codding并不大困难就可以实现的过程,因此很容易会问”为什么要用ETL工具”。实际上,Hard Codding也是一种可供选择ETL方法,而各种工具与方法主要的差异在于两点,一是设计与建立ETL过程的

文档评论(0)

jiayou10 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档