烟草工业数据灾备中重复数据删除技术分析.docxVIP

下载本文档

3
0
约3.16千字
约 6页
2021-12-04 发布于天津
举报
版权申诉

烟草工业数据灾备中重复数据删除技术分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE 1 PAGE 1 烟草工业数据灾备中重复数据删除技术分析首先介绍了烟草工业灾备中重复数据删除技术重要要性，然后介绍了重复数据删除的最主要两种方法：基于哈希算法的重复数据删除和基于内容识别的重复数据删除。最终重点分析设计了适用于某综合营销平台系统数据备份恢复的重复数据删除策略，以削减网络带宽占用、节约存储空间、保护业务数据，为综合营销和智能决策的发展供应强有力的支撑。 1.工业数据灾备　　灾难性事故所导致的信息系统崩溃的事件时有发生。在烟草工业，随着烟草一体化建设的推进，数据中心的范畴已逐步形成，数据和系统也逐步集中。结合小型机的双机容错技术。数据中心顺当降低了单点故障的风险，为业务供应持续和有效的服务能力。然而，随着系统和数据的集中，全部数据存储在一个机房，假如灾难性事故导致机房受到破坏，其内的全部数据包括备份数据也会随之破坏，其带来的风险和损失是无法估量的。而数据异地备份能有效解决这个问题。随之而来的问题是要降低数据的存储容量和降低数据网络传输的开销以及加快备份速度。烟草工业数据主要存在以下两个特点：　　1)每天新增数据量大。比如：仅仅在销售环节，全国零售户有也许500万家，平均每周进化一次，假设平均每家只销售15个规格，那么平均每天产生销售记录数为：500x15+7=1070(万)。　　2)数据变动大、重复率高。比如，在笔者所参与的综合营销平台中，仅办公自动化子系统，每天文件流转、版本修订、邮件附件抄送都特别普遍。有时候一个文件要抄送给多人，有时候同一原始文件会产生多个修订版本，使得文件系统中保存有大量的重复数据。　　重复数据删除技术是一种能够大规模消退冗余数据，降低数据存储成本的重要技术。它的工作方式是查找不同文件中不同位置的重复数据块，重复的数据块用指示符取代，使得在备份中重复数据块只保留一份，从而可以在已有的磁盘上存储更多的备份数据。重复数据删除后，再通过WAN进行异地备份，则能削减备份数据量，节约网络带宽，加快数据备份和恢复速度。本文将围绕企业数据灾备，研究如何使用重复数据删除技术，提高数据存取效率，降低数据保护成本。　　2.重复数据删除方法　　2.1基于哈希(Hash)算法的重复数据删除　　哈希算法主要用于文件级和数据块级别的重复数据删除。在重复数据删除技术的实现中，通常采用SHA-1和MD5算法计算并检查数据块的“指纹”，推断该数据块是否与已经存在数据块重复。假如该数据块已经存在，则只需要保留指向该数据块的指针，否则，则要保留该数据块，并将该数据块的“指纹”保存在索引表中，供以后使用。基于哈希算法的重复数据删除的流程图如图1所示：图1基于哈希算法的重复数据删除流程　　文件级的重复数据删除主要是识别内容完相同的两个文件，从而避免相同文件多个备份。用散列函数计算文件哈希值的方法来比较文件是否相同，可以快速的扫描整个目录，查找速度特别快。文件级的重复数据删除的缺点也很明显，就是当文件稍稍修改了一点，都会变成不同的文件，重复数据删除率会大打折扣。　　数据块级的重复数据肭除就是将文件分块，然后进行重复删除。分块的方式有固定大小分块和可变大小分块。两者相比，固定分块可以更快的扫描新到数据流，获取更高重复删除速率；而可变分块可以供应更大的重复数据删除率。两者之间根本差异即空间和时间的矛盾，实际应用中，还要依据应用环境和需求来选择相应分块方式。　　通常，为了快速识别数据块是否已经备份，会将哈希索引保留在内存中。当备份的数据块数据增加时，索引也增加。因此，总有一天，索引会将内存填满。现在大部分基于散列的系统的都是独立的。　　2.2基于内容识别的重复数据删除　　从字节级别上分析数据流通常能够“识别内容”。这种方法主要是对比记录的数据格式。在备份数据时，首先从数据流中提取元数据，并将之与备份系统中已经存储的元数据进行对比。当元数据匹配成功时，则将新的数据对象与备份系统中对应的数据对象进行逐字节比较，假如完全相同，则删除新数据，用备份系统中的数据对象索引替换；假如不同，则找动身生变化的数据，将增量保存并计算并插入索引。该方法的流程如图2所示：图2基于内容识别的重复数据删除流程图　　3.综合营销平台备份策略分析设计　　笔者参与开发的综合营销平台主要功能有：OA办公、业务处理、决策支持和会员俱乐部等。平台数据存储备份整体架构如图3所示：图3平台数据存储备份整体架构　　由此平台系统的功能打算，工作人员主要是在白天(上班时间)使用系统，系统产生大量企业内业务数据和办公数据；而决策支持的所需大批量数据主要由国家