- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
不规范业务数据增量抽取策略的研究.doc
不规范业务数据增量抽取策略的研究
摘要:针对不规范的业务数据增量抽取,文章提出基于游标和主键的业务局部比对的抽取策略,该策略具有不影响业务系统、实现容易、效率高等特点。
Abstract: Based on non-standard business data incremental extraction, the article proposed an extraction strategy based on comparison of cursor and primary key local business, the strategy has not affected business systems with easy implementation and high efficiency.
关键词:不规范;业务数据;研究
Key words: non-standard; business data; research
中图分类号:TP31 文献标识码:A文章编号:1006-4311(2010)36-0176-02
1业务数据结构表概述
表1是某K单位政务系统A业务数据表代表,经分析,发现该表没有表示数据更新的标志字段。规范设计的数据表应如表2所示,是表1增加数据增量标志而得到的。这样,在表2中插入一条数据,从入库时间和更新标志将容易判断那条数据是新增的。
从业务需求表1,将无法直接判断哪些是数据新增的。
2基于游标和主键的业务局部比对的抽取策略
分析传统数据增量抽取策略,研究适合于业务系统A业务数据表的数据增量抽取策略。
2.1 业务数据局部比对。
分析传统抽取策略。鉴于业务系统A的业务数据表都是不规范的数据表,没有数据增量标志。分析传统的时间戳、日志表、全表比对、全表删除插入四种数据增量抽取策略,都不是很合适。对于时间戳方式,虽然业务数据表中没有时间戳标志,但可考虑在应用系统中建立触发器[4][5],但是这样将对业务系统将产生影响;对于日志表方式,业务系统采用的是Sybase,没有像Oracle Logminer[6]等第三方软件对业务系统进行日志分析;对于全表比对和全表删除插入都是适应用于数据量比较小的情况。
分析业务数据表,业务系统A均有于时间区段有关的字段“汇交年月”。因此可采用“局部数据比对”,即将数据表限制在特定的时间段进行比对。如限制系统执行日之前的一个月以内。这样将确保所有的增量数据均包含在内,以达到增量抽取的目的。
2.2 基于游标的主键比对。
虽然采用业务数据局部比对解决了数据增量抽取,但是局部比对需要对源表与目标表一个月内的数据进行比较。比较的数据量在几十万到一百万,比较大。本文采用基于游标的主键比对大大提高性能。下面描述基于游标的主键比对是怎样进行的。
表3是一张不规范的业务数据表,而表4是和表3对应的经规范化业务数据表,新增了删除标志、更新标志、插入标志及时间戳四个字段以标识新增数据。
第一次全量抽取时,即将表3中所有的数据抽取到表4中。由于是全量抽取,所以对于目标表而言,全部的数据都应该是插入的。并假设这次全量抽取的时间是2006-10-10 10:00。
全量抽取后,以后作增量抽取,即只抽取源表中变化的数据,包括删除、更新、插入的数据。
假设三天后,表3中的业务数据由于数据更新变成表5中的数据。从表5中,可以看到主键为101和106的数据被物理删除了、新增了主键为108的一条数据及主键为102数据的字段2的值C被更新成了Z。
筛选源表和目标表数据,为了提高速度,限制游标只能读,并且只能向前。基于游标主键比对的思想为源表和目标表的主键进行依次比较:①当它们的主键不等时,主键小的一端的游标每次递增一个单位,再比较;②当它们的主键相等时,源表和目标表的游标同时递增一个单位;③当在源表中的主键被比较完而目标表还有主键时,表明目标表中这些主键的数据都是在源表中被删除的;4)当目标表中的主键被比较完而源表还有主键时,表明源表中这些主键的数据都是新增的。
现描述游标主键比对是怎样进行的,下面1-6是基于游标主键比对的先后次序。其中,源表表示表5中的数据,目标表表示表6中的数据。
2.2.1 源表的主键102目标表的主键101,表示源表中主键为101的数据被删除了,所以在目标表中主键为101的数据的删除标志标为1,同时修改时间戳。
2.2.2 源表的游标不增加,目标表的游标加1,此时,源表的主键102与目标表的主键102相等。比较关键字段,如字段1、字段2。
2.2.3 源表和目标表的游标都递增1,此时,源表和目标表的主键都为103。比较关键字段。
您可能关注的文档
- 三起三落中英街.doc
- 三金壮秧剂试验总结.doc
- 三门峡市旅游城镇化开发模式研究.doc
- 三问《蒙娜丽莎》.doc
- 上一代是书面体“80后”是动漫体.doc
- 上善若水 至爱无声.doc
- 上大学机会城乡差距巨大等.doc
- 上市企业盈利模式国内外研究现状.doc
- 上市公司利润操纵行为产生的影响因素.doc
- 上市公司如何实现内部控制?.doc
- 生成式人工智能在初中历史课堂中的历史事件复现与教学策略教学研究课题报告.docx
- 《数据仓库在智慧城市应急管理决策支持系统中的突发事件预测与应急处理》教学研究课题报告.docx
- 农村土地流转与农业规模化经营中的农业信息化发展研究教学研究课题报告.docx
- 高中艺术展览与艺术史教学融合的实践与反思教学研究课题报告.docx
- 《新型冠状病毒肺炎康复患者心理干预中心理干预效果与康复心理康复成本相关性研究》教学研究课题报告.docx
- 《食品企业生产现场精益生产实施与产品质量控制优化》教学研究课题报告.docx
- 初中阶段人工智能教育大数据安全审计与监管的挑战与对策教学研究课题报告.docx
- 《金融科技在金融监管中的技术创新与风险控制研究》教学研究课题报告.docx
- 新时代初中物理教学中的社会主义核心价值观融入研究教学研究课题报告.docx
- 《家政服务行业职业素养提升培训的培训效果与培训内容实用性关系研究》教学研究课题报告.docx
文档评论(0)