白皮书DSGETLPlus数据实时抽取增强解决方案Oracle.docVIP

白皮书DSGETLPlus数据实时抽取增强解决方案Oracle.doc

  1. 1、本文档共38页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
白皮书DSGETLPlus数据实时抽取增强解决方案Oracle.doc

ETL数据实时抽取增强解决方案 迪思杰(北京)数码技术有限公司 2009-6-2 目录 1 ETL抽取现状 3 1.1 实时ETL抽取改造目标 4 2 DSG ETLPlus解决方案概要 5 2.1 技术要点分析 6 2.2 解决方案优势 6 3 DSG ETLPlus部署方案 8 3.1 部署结构 8 3.2 软硬件环境要求 9 3.3 ETL接口文件说明 9 4 名词术语 13 5 ETL配置文件 14 5.1 (一)、配置文件作用 14 5.2 (二)、配置文件格式说明 14 5.3 (三)、可以支持的转换操作 16 5.4 (四)、配置文件格式实例说明: 17 6 函数 24 6.1 概述 24 6.2 定制函数 24 6.3 数值函数 26 6.4 字符串函数 26 6.5 时间日期处理函数 27 6.6 转换处理函数 29 6.7 杂项函数 33 7 限制条件 35 7.1 (-)、对单行记录进行转换可能造成的数据不一致: 35 7.2 (二)外部查询的限制条件说明 36 ETL抽取现状 现有的ETL产品都是通过sql接口从生产数据库上抽取,或者是由生产数据库的应用开发商根据ETL的要求定期生成接口文件。这是ETL常见的两种接口方式。 在目前的ETL抽取机制中,一般有以下几种限制条件: (1)ETL抽取频率为1天一次 无论是ETL直接从生产数据库中读取数据,还是通过生成数据文件的方式来传输数据。其频率一般都是每天进行一次。因为无论是直接抽取还是生成数据文件,都只能选择在夜间业务量较小的时间段完成。 (2)无法有效处理增量数据识别问题 按照ETL的设计原理,每天从生产系统抽取数据最好是当天的变化数据,这样能大幅度缩短抽取时间,将对生产系统的性能影响降到最低。为了实现增量数据的抽取,就必须具备识别增量数据的条件,通常的做法包括: 通过生产系统中的table中的某个字段来表示该数据是否发生了改变,以及发生改变的日期; 在生产系统中的table上增加timestamp字段,用来记录该条记录发生变化的时间; 由应用厂商来根据业务逻辑判断,将当天的改变数据自动生成接口文件。 以上三种方式不能适合所有的情况,尤其是那些经常进行UPDATE的操作的表更是难以处理。 不得以,很对用户的ETL对那些无法识别增量的table进行每天一次全量抽取,通过全量数据来和前一次抽取的数据之间进行比较来判断数据的增、删、改。 这种方式最大的问题在于: 每天抽取的数据量过于庞大。每天上亿到几十亿条记录都重新处理将占用大量资源和时间; 每次的抽取对生产系统占用大量的资源,严重影响到生产系统的正常运行。 实时ETL抽取改造目标 因此,数据抽取领域需要一个ETL抽取增强的解决方案,以期望达到以下目标: 解决目前需要应用厂商提供接口文件的复杂程度,以及需要每天对update的记录进行全表抽取所带来的问题 为未来更加实时的ETL抽取奠定基础,例如将来可实现每几分钟、10分钟的抽取间隔; 降低ETL抽取对生产系统的性能影响 避免每天的全量数据处理 提供增量识别机制 DSG ETLPlus解决方案概要 DSG ETLPlus解决方案的目的是为ETL工具提供一个增量实时数据抽取解决方案。 该工具利用对生产系统ORACLE redo log的跟踪机制,来对生产系统的数据进行变化跟踪,然后将跟踪到的变化数据传输到中间数据库上,在中间数据上对数据进行整合、过滤和判断,并且生产数据接口,将接口文件提供给ETL工具使用。 ETL软件可以从接口数据文件中获取增量数据,同时ETL也可以从镜像库中获取所有需要的其他数据(例如首次数据抽取,或者全量数据抽取) 上图为DSG ETLPlus的工作原理图,从中我们可以看出ETLPlus不是去替代现有的ETL工具,而是对现有的ETL工具进行增强,增强之处在于: (1))))) 在ETLPlus部署中,需要一个中间数据库系统,该系统需要服务器、磁盘阵列和ORACLE数据库,ETLPlus将生成的ETL接口文件保存到该服务器的文件系统上供ETL工具读取。 软硬件环境要求 以上方案中提到了需要一个ETLPlus的中间数据库(这里我们叫做接口数据库),该接口数据库有两个目的: 保存了ETL所需要的表的完全数据,这些表和生产系统保持实时同步 这些表可用作全量抽取时使用,让全量抽取的时候也不需要到生产数据库上获取 帮助生成增量接口数据文件,因为对于INSERT ,DELETE操作来说,完全可以依赖于从源表读取来的redo log生成完整的接口数据;但是对于UPDATE操作来说,无法根据redo log的数据来生成完成一条记录,而必须借助于接口数据库中的完整数据。 该中间数据库可在ODS系统或者数据仓库系统中预留部分空间即可。 ETL接口文件说明 接口

文档评论(0)

ziyouzizai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档