2006关于数据增量抽取模拟实现.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2006-2007 年 中国IT应用技术蓝皮书 IT168 2007 年1 月 关于数据增量抽取的模拟实现 ITPUB 技术专家 郑亮 风子 摘 要 ETL 是数据仓库的一个重要处理环节,为了减少对业务数据库性能压力, 一般都是采取增量抽取的方式,增量抽取包括读取日志文件、前后映像对比、时间戳等等 技术。本文讨论的是基于时间戳的形式对数据进行增量抽取,并就此给与原理讲解和代码 实现。 关 键 词 数据增量抽取 数据仓库 ETL 数据登台区 时间戳 1. 增量抽取原理 ETL 是数据仓库的一个重要处理环节,Extract 即是从业务数据库中抽取数据,Transform 即是根据业务逻辑规则对数据进行加工的过程,Load 即是把数据加载到数据仓库的过程。 通常为了尽可能的减少对业务系统的压力和性能影响,或者因为网络传输异构数据库等 原因,一般都是根据特定的增量抽取原则,将数据从业务数据库导出到 flat 文本文件或者 XML 文件中,也叫数据缓存区或者数据登台区(这名字起得特别别扭)。本文讨论的是从业 务数据库直接抽取到数据仓库。数据仓库是一种体系架构,而不是一种纯粹的技术。实际上, 大多数数据库都提供了类似的不同数据库直接连接的接口,例如SQLServer 的链接数据库, Oracle 的透明网关等等。 关于数据的增量抽取也是一个重要的讨论话题,其原因主要是在超大数据量情况下任何 关系数据库都无法满足数据处理的要求。在《数据仓库》(Inmon)一书中,主要描述了以下 3 种方法: 1、数据增量抽取,主要是基于时间戳的; 2、扫描增量文件,实际上就是关系数据库的归档日志; 3、前后映像对比。 当然每种方法都有其优势和劣势,本文旨在讨论基于时间戳的数据增量抽取的实现,无 意探讨和比较这三种方法的优劣。 当然在进行基于时间戳的数据增量处理之前,首先要满足以下假设。 1、假设在业务数据库中存在着一个特定的时间属性,作为增量抽取的唯一标识。 2、假设在这个字段上存在着索引字段。这样我们的数据增量抽取模拟脚本就不会遭遇 到性能瓶颈。当然我们还会通过将大事务尽可能变成小事务的原则进行优化。 3、假设业务数据库和数据仓库能够以某种方式直接连接。 4 、抽取过程中,尽量避免数据转换、清洗的动作,以减少对业务数据库的性能影响。 在满足了以上条件之后,我们才能进一步考虑数据增量抽取脚本的实现。 增量抽取t2~t1 之间 的数据 当前最大时 当前最大时 间戳 t1 间戳t2 业务数据库 数据增量抽取的原理 数据仓库 下面开始对基于时间戳的数据增量抽取进行系统设计: 1、建立链接数据库。 2、首先需要定义一张数据字典表,定义需要进行处理的任务,其中主要包括业务数据 库和目标数据库的表名、字段列表、以及where 条件等。 序 字段名称 字段描述 字段类型 备注 号 1 TaskName 任务名称 Varchar(3 2) 2 TargetTable 数据仓库目标表名称 Varchar(3 2) 3

文档评论(0)

kehan123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档