一种冗余流量消除算法.docx

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
种冗余流量消除算法 摘要】本文提出了一种基于内容的冗余流量消除算 法( RFECB )。算法利用滑动窗口计算数据块的边界点,对 二个边界点的数据块计算其指纹并进行指纹匹配。RFECB 二个边界点的数据块计算其指纹并进行指纹匹配。 RFECB 能够提高冗余消除字节节省百分比,减少了冗余流量在网络 中的传输。 关键词】网络流量;冗余消除;内容分块;协议无关 协议无关的冗余流量消除 协议无关的冗余流量抑制技术是 Spring 教授首次提出来 的[1] ,他有别于基于应用层的协议相关的对象级别的冗余抑 制技术,他的处理对象是单个的数据包,他能识别出数据包 中已被传输的重复字节。 协议无关的 RTE 通常包括以下 3 个步骤 [2] : 冗余流量探测:在源端服务器对于特定方向的每一个数 通过据包, DRE 算法首先对数据包对每个数据包进行分块, 指纹算法计算每个数据块的指纹,然后进行指纹匹配。 通过 指纹匹配:将计算出的指纹和源端服务器的指纹库中的 历史指纹进行比对,比对成功,对数据块进行编码;未比对 成功,将指纹和数据包或数据块分布存入指纹库和数据包库 中,供下次指纹匹配使用。 匹配算法:选出代表指纹后,服务器端把每一个代表指 纹都和指纹库中的指纹做比对,如果有相同的指纹存在于指 纹库中,表示最近发送的数据包与当前数据包有相同的数据 片段, 相同部分的长度至少为 w 字节。 把相同部分逐字节的 往左和往右拓展,最终相同部分的数据被从当前数据包中去 除,并以 { 相同数据起始位置,相同数据长度 }2 个属性组成 的短记号代替。 基于内容的冗余流量消除算法利用滑动窗口对窗口内 的数据进行弱hash计算,当hash值满足预先设置条件时, 便标记一个分块点,对二个分块点间载荷定义的载荷分块进 行指纹计算。该算法提高分块的稳固性。 基于内容的冗余消除算法 冗余流量探测是冗余消除算法的关键 [3] ,指纹算法中的 参数W表示指纹算法的输入字符串的字节数, w字节的字符 串能产生一个指纹, 如果数据包的载荷部分长度是 L 个字节, 那么总共能产生 L-W+1 个指纹。由于受到指纹库大小的限制 [4] ,要么在选取所有指纹的一个子集作为代表指纹;要么在 分块前就对选出代表的数据块,再计算得到的指纹即为代表 指纹。无论采用那种方法,块选择算法决定冗余数据块的选 取效率,以下对比不同的块选择算法的特点: 图 1 基于内容的冗余流量消除算法 FIXED 算法固定每 P 个字节从数据包中选择一个数据 块,然后计算数据块的指纹即为代表指纹,但是这种识别算 法对数据包的微小变化不健壮; MODP 算法中的每一个块是 数据包载荷的子字符串,然后使用哈希函数计算 Rabin 指纹 计算数据块的指纹F,选择FmodP=0的数据块做为代表指纹 对应的数据块,该算法可能导致选出的数据块过疏或过密分 布,如字节连续相同的数据片段; MAXP算法选择每P个字 节中单个字节数值最大的字节为起点的 w 字节长的数据块, 具有稳定抽样率,但该算法倾向选择第一个字节值较大的数 MAXP据块,当该类型数据块的冗余率较低时,算法将无法获得冗 余率高的数据块。上述 3 种代表指纹选择算法,其中 和 MODP 算法对于传输内容的细微修改有很好的健壮性, 但 是运算量较大, 而 FIXED 算法与传输内容无关, 但是运算量 小。 MAXP 在本文提出的基于内容的冗余消除算法中(如图 1 所 示),利用滑动窗口对窗口内的数据进行弱 hash计算,当hash 值满足预先设置条件时,便标记一个分块点,对二个分块点 间载荷定义的载荷分块进行指纹计算。这样不仅减少了冗余 消除的运算量,同时也保证了冗余消除的稳固性。 实验与仿真 3.1 实验数据 为了准确对比不同冗余消除算法的效率和内存消耗,抓 取了 3 种环境下的流量作为分析数据。抓取数据的总流量大 小为39.12GB。数据A为多媒体发布,时长为 1小时,共计 12.32GB ;数据B为学校接入网,时长为1小时,共计10.6GB ; 数据C为某实验楼,时长为12小时,共计16.2GB。 3.2 冗余消除字节节省百分比 表 1 对比了三种算法对 3 种数据的字节节省率,字节节 省率定义为冗余消除后传输字节数与冗余前的字节数的比 值。从表 1 可以看出,数据 A 的冗余消除量远远大于其他 2 个数据, 当数据集中的冗余量较大时, RFECB 算法的字节节 省率和 FIXED 算法字节节省率最为接近。 表 1 冗余消除算法稳固性 结束语 针对当前协议无关的冗余流量消除算法稳固性不高的 问题,提出了基于内容的冗余流量消除算法,该算法利用弱 哈希计算数据块的边界点。实验结果表明在数据集冗余度高 的时候, RFECB 冗余消除算法明显优于 FIXED 算法和 M

文档评论(0)

zhaoxiaoj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档