ETL及kettle介绍..docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ETL及kettle介绍.

ETL知识ETL定义定义定义:数据的抽取(Extract)、转换(Transform)、装载(Load)的过程。目标:数据优化。以最小代价(包括对日常操作的影响和对技能的要求) 将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据 。前提确定ETL范围通过对目标表信息的收集,确定ETL的范围选择ETL工具考虑资金运行的平台、对源和目标的支持程度、可编程的灵活性、对源数据变化的监测、数据处理时间的控制、管理和调度功能、对异常情况的处理确定解决方案抽取分析、变化数据的捕获、目标表的刷新策略、数据的转换及数据验证原则应尽量利用数据中转区对运营数据进行预处理。保证数据的安全性、集成与加载的高效性。 ETL的过程应是主动“拉取”,而不是从内部“推送”,其可控性将大为增强。 流程化的配置管理和标准协议 数据质量的保证正确性(Accuracy):数据是否正确体现在现实或可证实的来源 完整性(Integrity):数据之间的参照完整性是否存在或一致 一致性(Consistency):数据是否被一致的定义或理解 完备性(Completeness):所有需要的数据是否都存在 有效性(Validity):数据是否在企业定义的可接受的范围之内时效性(Timeliness):数据在需要的时间是否有效可获取性(Accessibility):数据是否易于获取、易于理解和易于使用 数据格式错误(如缺失数据、数据值超出范围或数据格式非法等)数据一致性:数据源系统为了性能的考虑,会在一定程度上舍弃外键约束,这通常会导致数据不一致。例如在帐务表中会出现一个用户表中没有的用户ID,在例如有些代码在代码表中找不到等。模式及比较两种模式异构同构模式比较的维度:特点环境ETL过程总流程数据抽取数据清洗数据转换数据加载数据抽取流程数据来源文件系统,业务系统抽取方式根据具体业务进行全量或增量抽取抽取效率将数据按一定的规则拆分成几部分进行并行处理抽取策略根据具体业务制定抽取的时间、频度,以及抽取的流程数据清洗流程清洗规则:数据补缺对空数据、缺失数据进行数据补缺操作,无法处理的作标记数据替换对无效数据进行数据的替换格式规范化将源数据抽取的数据格式转换成为便于进入仓库处理的目标数据格式主外键约束通过建立主外键约束,对非法数据进行替换或导出到错误文件重新处理数据转换流程转换规则数据合并多用表关联实现,大小表关联用lookup,大大表相交用join(每个字段加索引,保证关联查询的效率)数据拆分按一定规则进行数据拆分行列互换排序/修改序号去除重复记录数据验证:lookup,sum,count数据加载流程实现方式优点缺点时戳方式在业务表中统一添加字段作为时戳,当OLTP系统更新修改业务数据时,同时修改时戳字段值源数据抽取相对简单清楚,速度快,适合数据的增量加载需要修改业务表中的数据结构,业务数据变动时工作量比较大,相对风险较大日志表方式在OLTP系统中添加日志表,业务数据发生变化时,更新维护日志表内容不需要修改业务表中的数据结构。源数据抽取简单清楚,速度快,适合数据的增量加载业务系统中更新记录日志操作麻烦全表对比方式抽取所有源数据,在更新目标表之前先根据主键和字段进行数据比对,有更新的进行update或insert对系统表结构没有任何影响,管理维护统一,可以实现数据的增量加载数据比对复杂,设计比较复杂,执行速度慢全表删除插入方式删除目标表数据,将源数据全部插入ETL规则简单,速度快对维表加代理健不适应,OLTP系统有删除数据时,不能在数据仓库体现被删数据,不能实现增量加载问题分析字符集问题字符集定义字符集是字符(包含字母,数字,符号和非打印字符等)以及所指定的内码所组成的特定的集合。是基于某种操作系统平台和某种语言集支持的。语言集的集合被称为语言组,它可能包含一种或多种语言。C/S字符集转换直接转换对于同一语言组的不同字符集之间,可以直接进行字符的转换,不会产生乱码通过Unicode转换Unicode支持超过650种语言的国际字符集 Unicode系统缺省字符集utf-8缓慢变化维处理缓慢变化维定义在现实世界中,维度的属性并不是静态的,会随着时间的流失发生缓慢的变化。这种随时间发生变化的维度我们一般称之为缓慢变化维。处理方式不保留历史数据 保留历史数据起始-结束日期字段标识真/假状态字段标识版本号字段标识代理键字段标识自增序列构造算法保留且分析历史信息添加新的维度列(数据增多,维度列增多)增量、实时同步的处理整表匹配同一个库中进行写触发器客户是否允许创建触发器是否影响数据库性能读数据库日志Oracle:设定物化视图日志断点续传利用源表的索引机制,抽取时按”数据块”顺序抽取 采取DBLink的机制,结合oracle自身机制优化效率 生成本地文件块,FTP传输减少对带宽影响。若中

文档评论(0)

sd7f8dgh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档