- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
企业采购指南_重复数据删除技术选型.pdf
技术应用Tec hnology Applic at ion
企业采购指南:重复数据删除技术选型
文:胡超明
现在有两个不同内容的Word 文档(其显示的文字不同) ,他们之 数据的存储,另外一个进程来检查是否有重复的数据块以及后续的处
间有没有重合的地方呢?或者说,这两个不同的文档之间有没有通用 理。简单地说,就是一边往存储设备中存储数据、一边进行判断。如果
的内容呢?答案是肯定的。如不同的文档之间,可能具有相同的访问权 读入的数据块和已存储的数据块重复了,则会使用指针来替代这个数
限。假设,每个文档需要利用0.5K 的容量来保存这些信息或者属性 据块并删除重复的数据块(或者说可以被后续的数据所覆盖) 。如果没
(如只读或者隐藏等等) 。那么10000 个文件,需要占用多少容量呢?上 有重复的话,则不会对这个数据块进行任何操作( 因为这个数据块实
百万个文件呢?显然,这些通用的信息会造成比较大的浪费。为了节约 际上已经保存在硬盘上了) 。
存储的成本,此时重复删除技术就派上用场了。 这种处理方式主要的缺陷是对于I/O 的要求比较高。其先将数据
重复数据删除技术是一个减少或者消除冗余文件、字节或者数据 保存在存储设备上,然后再由一个独立的进程从硬盘中读取数据来判
块的一个过程。简单地说,就是确保只有独一无二的数据被保存到存 断是否有重复的现象。如果有的话,还需要将其删除。从这个流程中就
储设备中,重复的内容都被压缩了。从而来降低存储成本(如硬盘或者 可以看出,有多个I/O 的过程。所以对硬盘的I/O 提出了比较高的要
维护的成本等等) 。在存储设备中(如用于文件服务器的存储设备) ,往 求。其优势是在存储数据的时候,不需要先在内存中进行缓存、再判
往数据会有比较高的通用性。用户之间、服务器之间、同一种类型的文 断。为此可以节省内存的开销,提高数据存储的效率。
件之间相当一部分内容都是通用的。重复数据删除技术按自然边界将
数据拆分为非常细粒度的子块单元,会采用指针代替相同的子块单 二、联机重复数据删除技术的优缺点分析
元,从而达到显著降低存储空间的目的。这个原理跟数据库中的关系
表有点类似。不过重复数据删除技术的工作原理要比其复杂得多。还 采用联机重复删除技术的方式时,其主要的特点就是数据存储、
好这并不是存储管理员必须要掌握的内容。我们只需要知道,重复数 重复数据删除进程有一个前后的过程,而不是并列。笔者也以数据库
据删除技术有哪几种类型、各自有什么特点、如何根据企业的实际情 备份为例来说明这种方式的特点。当备份数据流到达存储设备时,数
况来选择适用的存储技术等等。 据并不会直接保存在硬盘中,而是先驻留在内存中。然后重复数据删
根据启动重复数据删除技术的时机来区分,可以将重复数据删除 除技术进程会对这个数据进行重复性的判断。如果与硬盘中已有的内
技术分为联机重复数据删除技术和后期处理重复数据删除技术。作为 容重复,则不会将这个数据保存在硬盘中,而是利用指针来代替。相
存储管理员,可以不精通重复删除技术背后的工作原理,但是对于这 反,如果硬盘中没有已知的重复数据则将数据保存在硬盘中。
两种技术的特点必须了解。 使用联机重复数据删除技术主要的优势是可以降低硬盘的I/O
开销。在后期处理重复数据删除技术这种方式中,需要先对所有备份
一、后期处理重复数据删除技术的优缺点分析 数据进行写操作,然后重复数据删除进程需要将写入的数据再次读取
出来,以判断是否有重复的子块。如果有重复子块的话,就需要进行删
假设现在往存储设备中存储数据,那么存储系统是什么时候判断 除的操作。光从这个数据流来看,就用了三次的I/O 操作。这还不包括
是否有重复的子块呢?是存储之间判断,还是存储作业完成之后判断 更新哈希表的I/
您可能关注的文档
最近下载
- 系统性红斑狼疮诊治进展PPT课件.pptx
- 2025年eVTOL航线规划与空域管理关键技术分析报告.docx
- 2025年城市低空交通发展报告:eVTOL航线规划与空域管理.docx
- 低空出行新时代:2025年eVTOL航线设计与空域管理策略研究.docx
- 2025广东春季高考英语试卷.doc VIP
- 广东省2025届春季高考学业水平考试语文试卷(四)(含答案).docx VIP
- 标准图集-22S804 矩形钢筋混凝土蓄水池.pdf VIP
- 2025年广东省高中学业水平考试春季高考数学试题(含答案解析).docx VIP
- 招标代理服务服务方案.doc VIP
- VR技术对博物馆游客游览满意度的提升研究论文.doc VIP
文档评论(0)