- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2006-2007 年
中国IT应用技术蓝皮书
IT168
2007 年1 月
关于数据增量抽取的模拟实现
ITPUB 技术专家 郑亮 风子
摘 要 ETL 是数据仓库的一个重要处理环节,为了减少对业务数据库性能压力,
一般都是采取增量抽取的方式,增量抽取包括读取日志文件、前后映像对比、时间戳等等
技术。本文讨论的是基于时间戳的形式对数据进行增量抽取,并就此给与原理讲解和代码
实现。
关 键 词 数据增量抽取 数据仓库 ETL 数据登台区 时间戳
1. 增量抽取原理
ETL 是数据仓库的一个重要处理环节,Extract 即是从业务数据库中抽取数据,Transform
即是根据业务逻辑规则对数据进行加工的过程,Load 即是把数据加载到数据仓库的过程。
通常为了尽可能的减少对业务系统的压力和性能影响,或者因为网络传输异构数据库等
原因,一般都是根据特定的增量抽取原则,将数据从业务数据库导出到 flat 文本文件或者
XML 文件中,也叫数据缓存区或者数据登台区(这名字起得特别别扭)。本文讨论的是从业
务数据库直接抽取到数据仓库。数据仓库是一种体系架构,而不是一种纯粹的技术。实际上,
大多数数据库都提供了类似的不同数据库直接连接的接口,例如SQLServer 的链接数据库,
Oracle 的透明网关等等。
关于数据的增量抽取也是一个重要的讨论话题,其原因主要是在超大数据量情况下任何
关系数据库都无法满足数据处理的要求。在《数据仓库》(Inmon)一书中,主要描述了以下
3 种方法:
1、数据增量抽取,主要是基于时间戳的;
2、扫描增量文件,实际上就是关系数据库的归档日志;
3、前后映像对比。
当然每种方法都有其优势和劣势,本文旨在讨论基于时间戳的数据增量抽取的实现,无
意探讨和比较这三种方法的优劣。
当然在进行基于时间戳的数据增量处理之前,首先要满足以下假设。
1、假设在业务数据库中存在着一个特定的时间属性,作为增量抽取的唯一标识。
2、假设在这个字段上存在着索引字段。这样我们的数据增量抽取模拟脚本就不会遭遇
到性能瓶颈。当然我们还会通过将大事务尽可能变成小事务的原则进行优化。
3、假设业务数据库和数据仓库能够以某种方式直接连接。
4 、抽取过程中,尽量避免数据转换、清洗的动作,以减少对业务数据库的性能影响。
在满足了以上条件之后,我们才能进一步考虑数据增量抽取脚本的实现。
增量抽取t2~t1 之间
的数据
当前最大时 当前最大时
间戳 t1 间戳t2
业务数据库 数据增量抽取的原理 数据仓库
下面开始对基于时间戳的数据增量抽取进行系统设计:
1、建立链接数据库。
2、首先需要定义一张数据字典表,定义需要进行处理的任务,其中主要包括业务数据
库和目标数据库的表名、字段列表、以及where 条件等。
序 字段名称 字段描述 字段类型 备注
号
1 TaskName 任务名称 Varchar(3
2)
2 TargetTable 数据仓库目标表名称 Varchar(3
2)
3
您可能关注的文档
- 22.2动植物主要类群练习题.doc
- 025、离心铸造复合双金属组合轧辊生产工艺方法.pdf
- 27个提升效率iOS开源库推荐.pdf
- 30年来武昌湖湿地退化过程及原因_周葆华.pdf
- 035Java编程switch多分支语句用法.pdf
- 36. 反射机制及工厂设计模式.docx
- 36_程序及编译器的组合优化方法1.0.ppt
- 048、美好乡村规划建设路径探索——以安徽省凤阳县小岗村村庄规划(2012-2030)为例.pdf
- 49处理简单数据文件.doc
- 51CTO下载-webservice简介及开发实例.doc
- 2006年7月系统工程理论及实践第7期.pdf
- 2006年9月计算机等级考试二级C++笔试试题和.pdf
- 2007-2011教育学综合考研国家统考历年真题和答案详解.pdf
- 2007年上半年数据库系统工程师上午试题和答案.doc
- 2009年3月-2011年3月全国计算机等级考试Java_二级笔试试题和答案.doc
- 2009年3月和9月全国计算机等级考试二级JAVA真题和答案.doc
- 2009年9月全国计算机等级考试四级数据库工程师真题和答案.doc
- 2009年中山大学环境及资源保护法学A考研真题答案.pdf
- 2010年高考话题作文素材:宽容、挫折、感恩、生命、理想、压力及动力.doc
- 2010年宗教及公共生活调查(Religion and Public Life Survey, 2010)_数据挖掘_科研数据集.pdf
最近下载
- 律师制度与实务课件:律师收费.pptx
- xx集团粮食仓储及加工基地可行性研究报告.docx
- (正式版)-B 5768.2-2022 道路交通标志和标线 第2部分:道路交通标志.docx VIP
- 青少年法制教育讲稿-甘肃省副省长罗笑虎为中小学生作毒品预防教育报告全文.docx VIP
- 2025年水平定向钻市场调查报告.docx
- 辅导员大一新生入学教育主题班会.pptx VIP
- 天津布兰德新摩尔企业策划咨询有限公司公司简介.ppt VIP
- intouch hmi与archestra集成本机成功安装.pdf VIP
- 中国染料化工项目经营分析报告.docx
- 2025-2026学年浙美版(2024)小学美术二年级上册教学计划及进度表.docx
文档评论(0)