备份系统中在线重复数据删除优化的研究-计算机技术专业论文.docxVIP

下载本文档

1
0
约4.44万字
约 55页
2018-09-19 发布于上海
举报
版权申诉

备份系统中在线重复数据删除优化的研究-计算机技术专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

备份系统中在线重复数据删除优化的研究-计算机技术专业论文

独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到，本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本论文保密□，在年解密后适用本授权书。不保密□。（请在以上方框内打“√”）学位论文作者签名：指导教师签名：日期：年月日日期：年月日华中科技大学硕士学华中科技大学硕士学位论文 I I 摘要研究发现，应用系统所保存的数据中高达 60%是冗余的，而且随着时间的推移越来越多。为了提高存储效率，节约存储容量和成本，重复数据删除技术应运而生，并已成为近年来存储备份系统研究的热门话题。传统的在线重复数据删除技术面临着面对大数据量时的数据指纹索引查找瓶颈问题。目前相关的解决办法基本都是围绕优化索引服务器端的效率来做研究。而实际备份应用中一个普遍的现象是，备份用户端的数据会随着每天或每周一次的备份逐渐呈现出较强的局部相似性这一特点。利用这一点，研究在备份用户端加入本地指纹索引查找功能来缓解索引服务器压力和减少索引查找延迟，是避免服务器索引瓶颈的一个新思路。本文提出了一种源端索引策略，该策略适用于在线、源端重删的备份系统，在原始单纯的服务器指纹索引模式上，加入了源端指纹索引模式。该模式的工作方式是在备份客户端保存其历史备份的数据指纹表，当选择该模式进行指纹判重时会优先查找备份客户端的数据指纹表，源端索引模式在用户备份数据的局部相似性较高的情况下可以使较多备份数据在源端就能够进行指纹判重。源端索引策略还利用布隆过滤器数据结构和文件相似性检测的相关原理，在在线重复数据删除中加入了一个索引模式选择模块，能够在用户备份之前根据备份文件和本地索引文件的相似性来选择索引模式，达到了充分利用备份客户端备份数据特性来缓解服务器索引压力，节省带宽和提高备份效率的目的。最后采用 B-Cloud 数据备份系统进行性能测试，实验结果表明，源端索引模式在备份客户端数据局部相似性提高的情况下，索引效率要高于传统的服务器索引模式，且局部相似性越高，备份客户端的指纹索引效率越高；同时，选择索引模式模块判断文件相似性的准确度较高；另外还测试了不同分块大小的备份系统中源端索引策略的性能，发现源端索引策略在分块越小、服务器索引压力越大的系统中的效果越明显。关键词：备份系统，重复数据删除技术，指纹索引，源端索引策略 II II Abstract Studies have found that up to 60% of the saved data in application systems is redundant, and this number grows as time goes by. In order to improve storage efficiency, as well as to save storage capacity and cost, data de-duplication technology came into being, and has become a hot topic of the researches of storage and backup systems in recent years.Traditional in-line data de-duplication technology is facing an important issue that when facing massive amount of data fingerprints, the index lookup bottleneck has become a key factor. Most researches are basically about optimizing the indexing efficiency of index server. A common phenomenon in the real data backup applications is that the data of backup