- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据加密算法综述
4.现有解决方案4.1基于数据消冗技术的大数据加密算法基于数据消冗技术的大数据加密算法是一种结合重复数据删除算法的,基于bloomfilter的大数据消冗算法,是由学者王蒙蒙等对大数据通用加密模型以及加密技术原理等研究后针对大数据加密方案中的速度和实时性问题而提出的一种加密算法[1]。研究发现,目前大数据的中冗余度高达60%以上[2]。,而传统的数据压缩方法在利用数据冗余来提高储存查询效率上,有许多局限,无法处理不同文件之间的数据冗余。而重复数据删除算法,不仅拥有传统方法的优势消除文件内的数据冗余,而且能消除共享数据集内的文件之间的数据冗余[1],这在降低大数据的维数上,提供了一种很好的思路。4.1.1 数据消冗技术重复数据删除技术是基于数据自身的冗余度来检测数据流中的重复数据对象的数据消冗技术。从重复数据删除发生的时间进行分类,可以分为在线和离线。在线是指数据到达存储设备之前进行重复数据删除;离线是指先暂时将所有数据存在缓冲区,等到服务器空闲再进行重复数据删除。重复数据删除技术的实现过程首先将数据文件分割成一组数据块,为每个数据块计算指纹,然后以指纹为关键字进行Hash查找,匹配则表示该数据块为重复数据块,仅存储数据块索引号,否则则表示该数据块是一个新的唯一块,对数据块进行存储并创建相关元信息。这样,一个物理文件在存储系统就对应一个逻辑表示,由一组FP组成的元数据。当进行读取文件时,先读取逻辑文件,然后根据FP序列,从存储系统中取出相应数据块,还原物理文件副本。重复数据删除的过程主要分为:数据划分数据块指纹特征计算数据块检索冗余消除数据存储相同数据检测还是采用相似数据检测和差异编码技术对比传统的存储系统,重复数据删除系统基于内容寻址,而不是基于文件名寻址;尽管减少了写操作,但由于增加了重复数据删除处理过程,较传统存储系统的I/O性能要低;由于每次只写新的数据,重复数据删除系统具有顺序写、随机读的特点。通常情况下,用重复数据删除前的字节数(Bytes In)与处理后的字节数(Bytes Out)之比来衡量数据缩减率(Data Elimination Ratio,DER),如式4-1所示DER通常由两方面因素决定:1采用的划分策略类型;2平均数据分块大小。尽管式4—1所示的数据缩减率已将分块后数据块之间的重复数据和单个数据块内部的数据压缩考虑在内,但没有考虑元数据开销。但重复数据删除系统中的元数据开销是不容忽视的,研究者提出了数据缩减率的修正公式[3],如式4-2所示:其中f为元数据大小的开销,其计算方法如下:其中,Metadata Size表示元数据大小,Average ChunkSize表示平均Chunk大小。常用的还有一种基于Bloom filter的数据消冗技术。Bloomfilter是由 Howard Bloom 在 1970 年提出的二进制向量数据结构,它具有很好的空间和时间效率,被用来检测一个元素是不是集合中的一个成员。基于Bloomfilter的大数据消冗算法的核心思想是利用Bloom filter的数据结构来表示特征值对文件特征进行降维。在检测相同数据块时,引入Bloom filter技术,利用Bloom filter算法计算其相似度,进行更细粒度的匹配。算法的具体实现步骤:初始化hash表。将得到的hash函数值与已经存储在hash表中的值进行比较。若匹配到相同的值,则用指向已存储文件的指针代替此文件;若匹配失败,则将文件进行存储。重复步骤1至2,直至所有文件被检测完毕。对完全文件检测技术中没有重复的数据重新归档。将划分好的数据块输入数据流,构造一个m位的Bloom filter数据结构,并将其所有位初始化为0。选取k个相互独立的hash函数,分别将集合中的每个元素映射到1,...,m的范围内。为每个数据块计算hash值作为组成的序列作为特征值。7.按照Hamming距离和余弦相似度公式计算数据对象之间的相似性,若两者有相同,则用指向已存储文件的指针代替该文件;若两者的值不相同,则将文件进行存储,同时更新hash表,将新文件hash值添加进去。4.1.2基于数据消冗技术的大数据加密算法结合ECC加密算法和分组密码算法的特点,并综合之前的重复数据删除方案,提出了一种适用于大数据加密的对称密码算法和非对称加密算法相结合的加密方案;其中,ECC用于加密hash表内容,对称加密算法用于加密消冗方案处理后的大数据。方案的基本模型如图4-1所示。图4-1 基于数据消冗技术的大数据加密算法模型加密算法步骤:数据预处理数据预处理时需要删除数据中的重复数据,运用之前提到的数据消冗技术,将重复数据的特征信息存储在hash表中,将得到的hash函数值与已经存储于hash表中的值进行比较,相同则用已存储文件的指针替代。敏感信息加密发
文档评论(0)