- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于BLOOM FILTER过滤算法重复数据删除技术研究与改进
基于BLOOM FILTER过滤算法重复数据删除技术研究与改进
摘要:随着企业数据信息量的不断地增加,海量数据信息的存储和不断备份给企业的存储空间带来了巨大的存储压力。该文深入研究重复数据删除技术,并针对目前重复数据删除技术中存在的数据丢失及性能低等问题以及BLOOM FILTER算法流程和重复数据删除策略的分析和研究,提出了一种重复数据删除技术优化模型。测试分析表明,该优化模型实现了高效和安全的重复数据删除功能,节省了企业内部存储空问的存储成本开销。
关键词:重复数据删除技术;BLOOM FILTER算法;哈希冲突;存储空间
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)21-4969-03
随着信息化时代的推进,各企事业单位的信息数据量不断增长,存储管理员不断努力地处理日益激增的数据,然而存储这些数据对企业而言并不是最佳的解决方案,大量的文件将会加重企业数据备份以及灾难恢复系统的负担。企业与其寻求更多的存储数据的不同方式,如数据删除技术,以存储更少的数据。
重复数据删除技术大致分为两个方向,一方面是数据备份领域,另一方面是基础存储领域。重复数据删除技术通过识别和消除数据环境中的冗余数据,从而大大减少需要保护的数据量,确保同样的数据信息只被保存一次,这样不仅显著提高现有磁盘存储空间的有效容量,从而使保护数据所需的物理磁盘数量更少,还有助于企业对数据的维护管理。这便可以帮助企业减轻硬件投资和后期维护所带来的经济压力。
目前文件、数据块和字节的重复数据删除技术存在的许多不足的问题,如数据容易损坏的危险、数据完整性弱、性能较低等。该文将从改进哈希算法和优化重复数据删除策略两个方面来改进重复数据删除技术。
1 BLOOM FILTER算法
Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低错误率的应用场合下,Bloom Filter通过极少的错误换取了存储空间的极大节省。
Bloom过滤器对集合采用一个位串表示,并支持元素的哈希查找。其算法结构的实质是将集合中的元素通过k 个哈希函数映射到位串向量中。近年来Bloom Filter算法在实际中的应用越来越广泛,关于这种算法的相关研究工作也备受关注。标准的Bloom Filter算法的工作原理如下:如图1所示,数据集合S={s1,s2,…,sn}共有n 个元素通过k 个哈希函数h1,h2,…,hk 映射到长度为m 的位串向量V 中。通常, Bloom过滤器表示的汇总信息就是向量V。每一个哈希函数相互独立且函数的取值范围为{0,1,2,…,m?1}。初始状态下,向量中的每个位都为0,对任意一个元素,第i个哈希函数映射的位置h(i)就会被置为1。注意,如果一个位置多次被置为1,那么只有第一次会起作用,后面几次将没有任何效果。
Bloom Filter算法主要包含两个操作:插入操作和查询操作。元素插入操作就是将元素插入到集合,完成元素到Bloom过滤器的向量表示;元素的查询操作就是利用Bloom判断元素是否在集合中。Bloom过滤器在使用前必须初始化,即将V 向量的各位初始化为0。
2 重复数据删除策略的改进
Bloom Filter算法的代码实现中提供了初始化、插入、查询和退出四个接口,通过调用这四个接口函数就可以实现过滤的功能。
1) 计算请求数据块的指纹值;
2) 以指纹值为输入,通过选取的k个哈希函数计算出k个值,然后查找向量V中相应位置的值;
3) 如果k个位置上的值不全为1,则说明该指纹值一定不在指纹索引表中,此时将该新的指纹值加入到向量V中,转5) ;
4) 如果k个位置上的值全为1,则说明该指纹值可能在指纹索引表中,此时要对该指纹值进行检索操作。若检索成功,则构造下层请求并下发,检索过程结束;若检索失败,则说明Bloom Filter算法出现了误判,接着往下执行。
5) 生成新的指纹索引节点,插入到指纹索引表中,并构造下层请求下发。
3 测试与分析
3.1 系统性能测试与比较分析
在性能测试中在,采用两种模式来进行对比测试,分别为标准iSCSI模式和基于iSCSI的重复数据删除模式。采用PostMark专业测试工具分别对两种模式进行性能测试。为了记录和表述方便,用iet代表标准的iSCSI模式,用dup代表加入重
您可能关注的文档
- 基于ARMLinux系统下Qt串口助手设计.doc
- 基于ARMLINUX视频监控系统设计.doc
- 基于ARMlinux触摸屏MP3制作.doc
- 基于ARMM3IC智能门禁系统设计.doc
- 基于ARMMP3文件对传系统创新设计.doc
- 基于ARMUPS电源网络监控系统研究.doc
- 基于ARMRFID系统设计与实现.doc
- 基于ARMUSB打印机驱动设计.doc
- 基于ARMOLED显示系统设计.doc
- 基于ARM―Linux可编程自动化控制器研究.doc
- 中国国家标准 GB 14287.5-2025电气火灾监控系统 第5部分:测量热解粒子式电气火灾监控探测器.pdf
- 《GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存》.pdf
- GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存.pdf
- 中国国家标准 GB/T 42706.4-2025电子元器件 半导体器件长期贮存 第4部分:贮存.pdf
- 中国国家标准 GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求.pdf
- 《GB/T 19436.2-2025机械电气安全 电敏保护设备 第2部分:使用有源光电保护装置(AOPDs)设备的特殊要求》.pdf
- 《GB 27898.4-2025固定消防给水设备 第4部分:消防气体顶压给水设备》.pdf
- GB 27898.4-2025固定消防给水设备 第4部分:消防气体顶压给水设备.pdf
- GB/T 31270.1-2025化学农药环境安全评价试验准则 第1部分:土壤代谢试验.pdf
- 中国国家标准 GB/T 31270.1-2025化学农药环境安全评价试验准则 第1部分:土壤代谢试验.pdf
原创力文档


文档评论(0)