基于变异MD5的快照差分算法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第31卷第 12期 微 计 算 机 应 用 Vo1.31No.12 2010年 l2月 MICR0C0MPUTER APPLICAT10NS Dec.2010 基于变异 MD5的快照差分算法 唐向阳 陈维维 房元平 (暨南大学信息科学技术学院 广州 510632) 摘要:如何有效、及时地检测和抽取信息源的增量数据是数据仓库及各种数据集成 的首要问题,而对于简单的数据源通常用 比较数据源两个时刻的快照的方法来检测增量数据。本文从传统SortMerge快照差分算法代价和效率人手 ,分析提升其效率 和速度的可能方法,并提出基于变异的M5的SortMerge算法,有效减少比较的数据量和输入输出的数据量 ,显著的提高了算 法的效率。 关键词:快照差分 增量检测 MD5 SortMerge SnapshotDiffrentialAlgorithm UsingVariedMD5 TANG Xiangyang,CHEN Weiwei,FANG Yuanping (CollegeofInformationScienceandTechnology,Ji’nanUniversity,Guangzhou,510632,China) Abstract:Detectingandextractingmodificationfrom informationsourcesefficientlyandtimelyisakeypartofdatawarehousingand otherdataintegrating.Forunsophisticatedsources,periodicallycomparingthesnapshotsofthedatasourceistheusualwayofdetecting modifications.WerecommendthepossiblewaysofimprovingtheoriginalSortMergesnapshotdifferentialalgorithm byanalysisitsspeed andcosts,andproposeanew algorithm usingavariedMD5algorithm tocompressitscontents,whichefficientlyreducestheIO costs andfaster’speed. Keywords:SnapshotDifferential,ModificationDetecting,MD5,Sort Merge. ‘ 随着人类社会信息化进程的不断推进和计算机技术的飞速发展,数字化的信息总量呈现几何级数增 长,如果能够集成和有效高效地利用这些数据信息,将会给人类社会带来极大的效益。数据集成的基础和 最早的工作是进行增量检测,目前关于数据源增量检测方法大体上有基于时问戳法,基于触发器法,基于 日 志分析法 ,基于变更轨迹表法 ,以及基于快照差分法 等 。 对于增量数据检测方法在理论上的研究成果最初由斯坦福大学的W.J.Labio和 H.Garcia—Molina在 1995年发表的一份技术报告 中提出,他们从数据库的连接算法如 Nested—LoopJoin、MergeJoin等出发引 申出多种可用于比较大型数据库快照比较的算法。并在此研究基础上,1996年在文献 [3]中他们又分析总 结出了适用于数据仓库的几种高效的快照差分算法,包括SortMerge、PartitionHash、Window算法等。 本文于2010—09—21收到,2010—11—08收到修改稿。 2 微 计 算 机 应 用 2010年 1 快照差分算法 1.1 问题的形式化描述 对于快照差分问题,在文献[4]中有如下描述:有两个快照sF,sF:,目标是产生一个输出△F={r1, r:,…,r。},其中r为增量记录元组。增量元组的形式以及他们的语义为 (I)Delete,Ki:快照sF 中存

文档评论(0)

jsntrgzxy + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档