- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
重复数据删除技术的分析与实现-analysis and implementation of deduplication technology
华
华 中 科 技 大 学 硕 士 学 位 论 文
PAGE 10
PAGE 10
1 绪论
1.1 课题背景和意义
全球信息化程度的不断提高正在加速产生海量的高价值数据,而这些指数级增 长的高价值数据给企业的 IT 部门提出了很多挑战。虽然目前存储设备的销售价格在 不断地下降,但是远远赶不上企业内部产生和需要保存的数据的攀升速度。据 IDC
(Internet Data Center)统计,2007 年全球产生了 281EB(1EB=260Byte)的数据, 并且大约以每年 30%至 50%的速度持续增长,其中有 35%的数据源自于企业和由非结 构化的内容组成,而这些数据中含有大量的重复数据。例如:一个办公文档的流转和 版本的修订比较普遍,一个文档可能拥有多个版本,也可能拷贝给多个人,这样就 会有大量的重复数据;另外,同一文件以附件的方式群发给多个人,这也会导致大 量的重复数据,尤其在文件比较大时,这些重复的数据所占用的存储空间将十分可 观。如果在数据备份和归档时将这些重复的数据删除,数据压缩比通常可达到 20:1 甚至更高[1]。
普通的数据压缩技术是对数据的重新编码来消除单个文件内的重复数据来优化 存储容量;而重复数据删除技术是一种非常高级的数据压缩方式,它是通过算法消 除文件之间的重复数据,与普通的数据压缩技术相比,在节省存储空间方面更加有 效。该技术可以在很大程度上减少备份数据的数量,使得基于磁盘的数据备份和归 档成为可能,目前已被广泛应用到备份和归档存储领域[2]。然而,建立完善的备份和 归档系统必须解决以下几个方面令人棘手的问题[3]:
1.全球数字化、信息化的浪潮以及数据的“爆炸式”增长所导致的直接问题是 存储空间的不足。这样,需要购买更多存储介质的成本、存储介质的使用和维护成 本以及数据信息的管理成本等都会迅速增长。
2.对于文件或数据流的网络备份和归档,更多的数据要求网络具有更高网络带 宽。由于网络带宽的限制,传输时间的延长可能会降低系统的运行效率,甚至无法 即时完成数据的网络传送。
3.数据的大量增长也给系统处理能力(如 CPU、I/O 总线等)带来巨大压力, 而系统的处理能力一般较难扩展,通常只能通过硬件的整体升级来完成。如果不通 过技术手段有效地平抑数据量增长对系统处理能力的压力,系统可靠性将面临频繁
硬件升级的严峻挑战,对系统的投资也不能得到充分的利用。
为了解决上述问题,重复数据删除技术是比较理想的解决方案。一方面重复数 据删除技术能大幅度减少所需存储的数据量(只需要备份经过修改的数据),降低数 据对存储空间的需求,使得在存储容量固定的情况下,可以利用有限的存储空间在 更长的时间内存储更多重要的数据;另一方面重复数据删除技术可以避免重复数据 的多次网络传送,使得通过网络传输的数据量呈几何级别递减,进而降低能量消耗 和网络成本,并为数据的复制节省大量的网络带宽[4];同时,也能适当缓解系统处理 能力上的压力。
在今天全球数据量急剧增长的大环境下,在企业业务应用需求和法律法规遵从 的要求下,在全球都在提倡绿色节能环保的大背景下,重复数据删除技术已经成为 了越来越多企业的选择;重复数据删除技术通过减少存储的数据量,改变了数据保 护的方式,同时提升了磁盘备份的经济性,已经逐步被业界公认为备份技术的下一 代发展步骤,是数据中心的“必备”技术[5]。正如某些分析家所说,重复数据删除技 术的产生将改写存储行业的经济规则。
因此,使用重复数据删除技术开发一种安全的、稳定的、高效的备份和归档系 统,无论是在节约存储空间方面,还是在节省网络带宽方面,甚至在能耗节省(实 现“绿色”数据中心)方面都有突出的实际意义。
1.2 重复数据删除技术
重复数据删除也称文件间的数据压缩(Inter-file Data Compression)或智能 压缩(Intelligent Compression)或单实例存储(Single-instancing Storage)[6], 通常用于基于磁盘的存储备份系统,旨在减少存储系统中所使用的存储容量,是存 储备份领域的一项热门技术。ESG(Enterprise Strategy Group)定义重复数据删 除为删除或消除冗余的文件、数据块或字节,确保在存储系统中只有唯一的存储实 例的过程[1]。当遇到重复的数据时,不是进行重复数据的存储,取而代之,增加一个 指向唯一(第一份)数据的指针。重复数据删除通过有效地减少后端存储设备中冗 余的数据,解决了存储容量紧张的问题。
重复数据删除技术是利用文件之间和文件内部的相同或相似性,处理的粒度可 以是文件、数据块、字节甚至位,处理粒度越细,删除冗余数据就越多,存储容量
减少也就越大,但同时系统也越复杂,处理消耗的计算资源也越多。目前,文件之
您可能关注的文档
- 中药中马兜铃酸含量的hplc测定及复方减毒效果的mla试验研究-hplc determination of aristolochic acid in traditional chinese medicine and mla experimental study of compound attenuation effect.docx
- 中国企业海外耕地投资战略风险分析-strategic risk analysis of overseas cultivated land investment by chinese enterprises.docx
- 钟基因per1 per2及肿瘤相关基因在金黄地鼠颊癌不同阶段昼夜节律改变-circadian rhythm changes of clock gene per 1 per2 and tumor related genes in different stages of hamster buccal cancer.docx
- 持久性有机物—十氯联苯在渭河沉积物中吸附动力学及阻滞因子的研究-adsorption kinetics and blocking factors of persistent organic matter - chlorbiphenyl in weihe river sediments.docx
- 音乐周报十年发展研究20002009-research on the ten - year development of music weekly 2000 - 2009.docx
- 中国女足在2006~2011年主要赛事中攻防技战术运用的分析-analysis on the use of offensive and defensive techniques and tactics of chinese women's football team in major events from 2006 to 2011.docx
- 初中化学教学中体验学习的实践与分析-practice and analysis of experience learning in junior high school chemistry teaching.docx
- 转基因斑马鱼和罗非鱼耐寒性能的分析-analysis of cold resistance of transgenic zebrafish and tilapia.docx
- 成对关联刺激对脑卒中患者运动功能之影响的分析-analysis of the effect of paired related stimulation on motor function in stroke patients.docx
- 中华人民共和国档案法第二轮修改的若干问题分析-analysis of some problems in the second revision of the archives law of the people's republic of china.docx
- 中英高等艺术院校设计课程内容比较和课程创新-comparison of design curriculum content and curriculum innovation in chinese and british art colleges.docx
- 城市群竞争力评价与机制研究——以山东半岛城市群为例-evaluation and mechanism of urban agglomeration competitiveness a case study of shandong peninsula urban agglomeration.docx
- 转甜菜碱醛脱氢酶基因烟草对低温胁迫响应-response of tobacco transgenic with betaine aldehyde dehydrogenase gene to low temperature stress.docx
- 城乡一体化土地调查与监测数据库建设——以眉山市青神县为例-construction of land survey and monitoring database for urban - rural integration a case study of qingshen county in meishan city.docx
- 肿瘤代谢体积与标准化摄取值在18f-fdg petct早期评估乳腺癌新辅助化疗疗效价值的对比及与gst-π topoⅱα表达相关性-comparison of tumor metabolic volume and standardized uptake value in early evaluation of breast cancer neoadjuvant chemotherapy with 18f - fdg pet ct and c.docx
- 自主学习模式下的初中英语写作教学分析——以黑龙江省兰西县远大中学为例-an analysis of junior high school english writing teaching under autonomous learning mode —— taking yuanda middle school in lanxi county of heilongjiang province as an example.docx
- 智能电子邮件系统设计与实现-design and implementation of intelligent e - mail system.docx
- 抽水蓄能电站过渡过程计算与导叶关闭规律分析-calculation of transition process and analysis of guide vane closure law of pumped storage power station.docx
- 罗辑思维微信公众号运营策略及其效果分析-the operation strategy and effect analysis of luo jixin's wechat public number.docx
- 承德市绿地系统规划方案研究与评价-research and evaluation of green space system planning scheme in chengde city.docx
最近下载
- 化工生产技术项目苯乙烯的生产.ppt VIP
- 九年级上册历史总复习知识点(可打印).pdf VIP
- 《红星照耀中国》第九章:同红军在一起(续)+带读课(课件)语文统编版2024八年级上册.pptx VIP
- 推拿治疗学不寐课件,十四五推拿治疗学课件.pptx VIP
- 《道德与法治》课程标准测试题含参考答案.pdf VIP
- 酒吧劳动用工合同范本7篇.docx VIP
- 是否应该禁止使用塑料袋和塑料吸管?辩论赛 正方辩词一辩、二辩、三辩、四辩发言稿.docx VIP
- 21年浙江6月卷高考地理真题解析.pptx VIP
- 药店动态质量管理知识(一)答案-2025年执业药师继续教育.docx VIP
- 【中学】【育人故事】唤醒你的“耳朵”.docx VIP
文档评论(0)