2006关于数据增量抽取模拟实现.pdfVIP

下载本文档

3
0
约1.68万字
约 15页
2017-06-13 发布于福建
举报
版权申诉

2006关于数据增量抽取模拟实现.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

2006-2007 年中国IT应用技术蓝皮书 IT168 2007 年1 月关于数据增量抽取的模拟实现 ITPUB 技术专家郑亮风子摘要 ETL 是数据仓库的一个重要处理环节，为了减少对业务数据库性能压力，一般都是采取增量抽取的方式，增量抽取包括读取日志文件、前后映像对比、时间戳等等技术。本文讨论的是基于时间戳的形式对数据进行增量抽取，并就此给与原理讲解和代码实现。关键词数据增量抽取数据仓库 ETL 数据登台区时间戳 1. 增量抽取原理 ETL 是数据仓库的一个重要处理环节，Extract 即是从业务数据库中抽取数据,Transform 即是根据业务逻辑规则对数据进行加工的过程，Load 即是把数据加载到数据仓库的过程。通常为了尽可能的减少对业务系统的压力和性能影响，或者因为网络传输异构数据库等原因，一般都是根据特定的增量抽取原则，将数据从业务数据库导出到 flat 文本文件或者 XML 文件中，也叫数据缓存区或者数据登台区（这名字起得特别别扭）。本文讨论的是从业务数据库直接抽取到数据仓库。数据仓库是一种体系架构，而不是一种纯粹的技术。实际上，大多数数据库都提供了类似的不同数据库直接连接的接口，例如SQLServer 的链接数据库， Oracle 的透明网关等等。关于数据的增量抽取也是一个重要的讨论话题，其原因主要是在超大数据量情况下任何关系数据库都无法满足数据处理的要求。在《数据仓库》(Inmon)一书中，主要描述了以下 3 种方法： 1、数据增量抽取，主要是基于时间戳的； 2、扫描增量文件，实际上就是关系数据库的归档日志； 3、前后映像对比。当然每种方法都有其优势和劣势，本文旨在讨论基于时间戳的数据增量抽取的实现，无意探讨和比较这三种方法的优劣。当然在进行基于时间戳的数据增量处理之前，首先要满足以下假设。 1、假设在业务数据库中存在着一个特定的时间属性，作为增量抽取的唯一标识。 2、假设在这个字段上存在着索引字段。这样我们的数据增量抽取模拟脚本就不会遭遇到性能瓶颈。当然我们还会通过将大事务尽可能变成小事务的原则进行优化。 3、假设业务数据库和数据仓库能够以某种方式直接连接。 4 、抽取过程中，尽量避免数据转换、清洗的动作，以减少对业务数据库的性能影响。在满足了以上条件之后，我们才能进一步考虑数据增量抽取脚本的实现。增量抽取t2~t1 之间的数据当前最大时当前最大时间戳 t1 间戳t2 业务数据库数据增量抽取的原理数据仓库下面开始对基于时间戳的数据增量抽取进行系统设计： 1、建立链接数据库。 2、首先需要定义一张数据字典表，定义需要进行处理的任务，其中主要包括业务数据库和目标数据库的表名、字段列表、以及where 条件等。序字段名称字段描述字段类型备注号 1 TaskName 任务名称 Varchar(3 2) 2 TargetTable 数据仓库目标表名称 Varchar(3 2) 3