- 1、本文档共38页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
白皮书DSGETLPlus数据实时抽取增强解决方案Oracle.doc
ETL数据实时抽取增强解决方案
迪思杰(北京)数码技术有限公司
2009-6-2
目录
1 ETL抽取现状 3
1.1 实时ETL抽取改造目标 4
2 DSG ETLPlus解决方案概要 5
2.1 技术要点分析 6
2.2 解决方案优势 6
3 DSG ETLPlus部署方案 8
3.1 部署结构 8
3.2 软硬件环境要求 9
3.3 ETL接口文件说明 9
4 名词术语 13
5 ETL配置文件 14
5.1 (一)、配置文件作用 14
5.2 (二)、配置文件格式说明 14
5.3 (三)、可以支持的转换操作 16
5.4 (四)、配置文件格式实例说明: 17
6 函数 24
6.1 概述 24
6.2 定制函数 24
6.3 数值函数 26
6.4 字符串函数 26
6.5 时间日期处理函数 27
6.6 转换处理函数 29
6.7 杂项函数 33
7 限制条件 35
7.1 (-)、对单行记录进行转换可能造成的数据不一致: 35
7.2 (二)外部查询的限制条件说明 36
ETL抽取现状
现有的ETL产品都是通过sql接口从生产数据库上抽取,或者是由生产数据库的应用开发商根据ETL的要求定期生成接口文件。这是ETL常见的两种接口方式。
在目前的ETL抽取机制中,一般有以下几种限制条件:
(1)ETL抽取频率为1天一次
无论是ETL直接从生产数据库中读取数据,还是通过生成数据文件的方式来传输数据。其频率一般都是每天进行一次。因为无论是直接抽取还是生成数据文件,都只能选择在夜间业务量较小的时间段完成。
(2)无法有效处理增量数据识别问题
按照ETL的设计原理,每天从生产系统抽取数据最好是当天的变化数据,这样能大幅度缩短抽取时间,将对生产系统的性能影响降到最低。为了实现增量数据的抽取,就必须具备识别增量数据的条件,通常的做法包括:
通过生产系统中的table中的某个字段来表示该数据是否发生了改变,以及发生改变的日期;
在生产系统中的table上增加timestamp字段,用来记录该条记录发生变化的时间;
由应用厂商来根据业务逻辑判断,将当天的改变数据自动生成接口文件。
以上三种方式不能适合所有的情况,尤其是那些经常进行UPDATE的操作的表更是难以处理。
不得以,很对用户的ETL对那些无法识别增量的table进行每天一次全量抽取,通过全量数据来和前一次抽取的数据之间进行比较来判断数据的增、删、改。
这种方式最大的问题在于:
每天抽取的数据量过于庞大。每天上亿到几十亿条记录都重新处理将占用大量资源和时间;
每次的抽取对生产系统占用大量的资源,严重影响到生产系统的正常运行。
实时ETL抽取改造目标
因此,数据抽取领域需要一个ETL抽取增强的解决方案,以期望达到以下目标:
解决目前需要应用厂商提供接口文件的复杂程度,以及需要每天对update的记录进行全表抽取所带来的问题
为未来更加实时的ETL抽取奠定基础,例如将来可实现每几分钟、10分钟的抽取间隔;
降低ETL抽取对生产系统的性能影响
避免每天的全量数据处理
提供增量识别机制
DSG ETLPlus解决方案概要
DSG ETLPlus解决方案的目的是为ETL工具提供一个增量实时数据抽取解决方案。
该工具利用对生产系统ORACLE redo log的跟踪机制,来对生产系统的数据进行变化跟踪,然后将跟踪到的变化数据传输到中间数据库上,在中间数据上对数据进行整合、过滤和判断,并且生产数据接口,将接口文件提供给ETL工具使用。
ETL软件可以从接口数据文件中获取增量数据,同时ETL也可以从镜像库中获取所有需要的其他数据(例如首次数据抽取,或者全量数据抽取)
上图为DSG ETLPlus的工作原理图,从中我们可以看出ETLPlus不是去替代现有的ETL工具,而是对现有的ETL工具进行增强,增强之处在于:
(1)))))
在ETLPlus部署中,需要一个中间数据库系统,该系统需要服务器、磁盘阵列和ORACLE数据库,ETLPlus将生成的ETL接口文件保存到该服务器的文件系统上供ETL工具读取。
软硬件环境要求
以上方案中提到了需要一个ETLPlus的中间数据库(这里我们叫做接口数据库),该接口数据库有两个目的:
保存了ETL所需要的表的完全数据,这些表和生产系统保持实时同步
这些表可用作全量抽取时使用,让全量抽取的时候也不需要到生产数据库上获取
帮助生成增量接口数据文件,因为对于INSERT ,DELETE操作来说,完全可以依赖于从源表读取来的redo log生成完整的接口数据;但是对于UPDATE操作来说,无法根据redo log的数据来生成完成一条记录,而必须借助于接口数据库中的完整数据。
该中间数据库可在ODS系统或者数据仓库系统中预留部分空间即可。
ETL接口文件说明
接口
您可能关注的文档
最近下载
- NB/T 47055-2017 锅炉涂装和包装通用技术条件 国家行业规范.pdf VIP
- 固体废物热值测定实验.doc VIP
- 成都市树德实验中学初一新生分班(摸底)数学模拟考试(含答案).docx VIP
- 成都电子科技大学实验中学语文新初一均衡分班试卷含答案.doc VIP
- 成都电子科技大学实验中学新初一分班语文试卷含答案.doc VIP
- 成都电子科技大学实验中学新初一分班语文试卷.doc VIP
- 成都电子科技大学实验中学新初一均衡分班语文试卷.doc VIP
- 成都电子科技大学实验中学新初一分班数学试卷含答案.doc
- 14J936变形缝建筑构造.pptx VIP
- ZrO2-III 液晶显示氧化锆氧量分析仪说明书.pdf VIP
文档评论(0)