- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种高效的自适应代理缓存一致性替换算法
0 缓缓机技术研究
网络技术和web服务的快速发展导致了网络过载和服务器负载过大的问题。为了解决这些问题,提出了一种新型的内容分发网络(Content Delivery Network,CDN),利用缓存服务器,也称作代理缓存,将内容从中心服务器推向网络的边缘,使得内容距离用户只有一步之遥。其中,一致性策略和替换策略的研究是提高代理缓存系统性能的两个重要研究方向。而以往的研究往往局限于将这两种策略作为两种独立的机制分开研究,从而不能完美的提升代理缓存系统的整体性能。本文考虑如何将这两种策略有机地结合起来,并拟合能反应用户访问模式的访问特性,探讨了代理缓存一致性策略和替换策略的处理流程、性能评价指标和研究现状,进而提出将这两种策略结合起来的一致性—替换算法的处理流程和主要性能评价指标。
1 其他替换算法
一个有效的代理缓存的替换策略来源于对W W W业务访问特性的深刻认识,因此目前所提出的替换策略大部分来源于对W W W访问特性的分析,如L R U、L F U、S I Z E、L R V、Greedy Dual-Size等。
通常被用来排序的关键值有访问频率、访问延迟、文档大小、访问流逝时间等,而使用这些关键值作为排序的关键字也可能采用不同的方法。因此目前已有的替换策略非常多,为了进行性能比较,概括描述几个有代表性的替换算法。
LRU(least-recently-used)算法:最先移出最近最少使用的文档,其优点是实现简单,在内存缓存中很有效,其缺点是没有考虑文档大小和延迟时间。
LFU(least-frequently-used)算法:最先移出最少使用的文档,其优点也很简单,其缺点除了LRU的缺点以外,如果没有失效机制,可能使过时的文档永远待在缓存器里。
SIZE算法:首先清除大文档,其优点是移出大文档,可以保留更多的小文档,产生更高的请求命中率,其缺点是可能使小文档永远留在缓存器中,字节命中率偏低,且再次下载大文档时,占用网络资源很多。
LRV(lowest-relative-value)算法:在估计文档时,基于和文档相关的值,的计算是对轨迹数据进行经验分析后得到的。其优点是字节命中率优于其它算法,其缺点是,由于是对轨迹分析得到的,参数的选取依赖于特殊的轨迹。
LNC算法(最小正规化代价算法):它是根据引用率评估Web文档的代价。引用率是一个反映文档未来被访问的可能性大小的量,由文档的访问历史和现在流逝的时间组成,和文档单元价值一起形成一个公平、一致性的代价。该算法是一个高效的算法,与其它算法不同的是,它有LRU算法的简洁,对文档代价的计算既不需要保留以前的访问记录,又不需要有复杂的参数估计,同时还能迅速地体现文档访问率的变动情况。
2 基于上年度网络的特征特性,提出并介绍互联网
为了得到用户Web访问在时间和空间分布上的特性,本文将采用对Internet Traffic Archive(ITA)在Internet上公开的轨迹文件进行分析的方法,具体过程如下。
(1) 访问时段及访问情况描述
通过对轨迹文件的分析显示Web访问具有很强的时间局部性,时间局部性是代理所看到的Web业务普遍具有的一个性质。也就是说用户都倾向于再次访问近来访问过的内容。其主要原因一是用户对网络内容的访问在时间上呈现局部性,另外一个重要原因是用户对内容的兴趣重叠。图1是对轨迹文件中连续24小时的访问统计,以秒为单位记录下所有内容访问时间间隔,图中显示的是时间间隔在90s内的访问次数分布情况,从图中可以看出,内容被再次访问的引用率与流逝时间成指数关系,也就是说被再次访问概率随时间的增加而显著下降,流失的时间越长,再次被访问的概率就越低。用户请求到达时间服从指数分布。
对于上述访问时序性可以这样来描述,设t0是最近一次访问内容后流逝的时间,tk是k次访问内容和k-1次访问内容之间的时间间隔,设第k-1次访问内容后得到的平均访问间隔时间为λk-1,那么第k次访问内容的平均访问时间间隔为:λk=atk+(1-α)λk-1。其中α是参数,α大于等于1/2即可。可以看出,λ反映了内容当前的访问率。令λf为最后一次访问后得到的平均访问间隔,由于请求的到达时间服从指数分布,故经过时间tc后被访问的概率为:
内容下一次被访问的平均时间间隔为:
所以可以得到它的引用率为:
这个引用率Fi可以在访问时间和频率上反映用户访问特性。
(2) 内容访问的重尾分布
近年来,许多Web访问特性的研究发现:Web对象的大小分布服从Pareto分布:
参数a称为重尾度索引,它决定分布的重尾度,参数k决定重尾分布的尾起始点。重尾分布的一个例子就是Pareto分布,用于说明一个小的问题集合比其他所有问题对输出的影响更大。用在Web文档特性上则说明
原创力文档


文档评论(0)