基于多项式回归预取技术研究.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于多项式回归预取技术研究

基于多项式回归预取技术研究   摘 要:Web预取技术和缓存技术对缓解访问延迟有一定的作用,但各有利弊。这里将预取技术与语义缓存技术相结合,对用户查询的访问频率进行实时监测,并通过多项式回归算法对用户的下一周期访问概率进行预测。采用基于多项式回归预取技术构建的预测模型,可以实现动态在线预测,既可避免兴趣漂移引起的预取不确定性,又可以减少历史信息的存储量,科学合理地解决Web访问延迟的问题。   关键词:多项式回归; 预取技术; 缓存技术; 访问延迟   中图分类号:TN91134; TP311 文献标识码:A 文章编号:1004373X(2012   目前互联网已经成为人们生活中不可缺少的一部分,由于搜素引擎是获得信息的主要手段,这使得网络负载增大,不断出现网络拥塞的现象。如何减少Web访问延迟,以提高访问Web页面的速度是学者们关心的问题。目前缓解网络延迟的有效手段主要有Web缓存技术和预取技术[1]。   Web缓存技术是根据Web访问的时间局部性原理,将访问过的内容以副本的形式存放在Cache中,待该内容再次被访问时,则由Cache中保留的副本提供。但是对于未曾访问过的内容却无法缓冲,即用户的兴趣漂移可以引起不确定性, 因此Web缓存技术具有一定的局限性。随着WWW上动态内容的增加以及个性化服务需求的加巨,利用缓存技术来改善网络性能已不再显著[1],由此可见,减少Web访问延迟只利用Web缓存技术已经远远不够。   1 预取技术   1.1 预取技术概述   预取技术是根据时间局部性向空间局部性进行扩展的原理,是在服务器处理用户请求时,利用预取算法预测用户接下来可能访问的内容,并利用网络空闲时间段将预测内容取回至缓存内[2]。因此这种技术可以拟补缓存技术的不足,可以较好地减少网络的访问延迟,提高响应速度[3]。   1.2 常用预取技术   目前比较流行的预取算法主要有基于流行度的算法、基于交互的算法、基于访问概率的算法和基于数据挖掘的算法四类。常用的预取模型有基于PPM预取模型、基于Markov链预取模型和基于数据挖掘的预取模型等。由于预取算法主要是利用用户访问的历史信息来进行预测的,所以要保留大量的历史信息。正是由于这些特点,使得目前的预取技术有一定的不足之处,例如网络用户的兴趣漂移现象,导致历史访问数据不能准确表达用户的最新兴趣方向;为了使预取结果准确、命中率高,历史访问数据就必须有足够的空间和时间进行采集;对于庞大的数据预取算法的实施需要一定的系统开销;算法得到的预取页面数量很多,而满足用户即将访问需求的却数量很少,所以根据历史访问信息的预取技术并不能很好地、准确地、迅速地使访问者得到查询结果,充分达到减少网络的访问延迟的目标。   1.3 性能评价标准   衡量Web预取性能的度量最主要的有两个,即准确率和查全率。若不考虑缓存、网络或时间等物理限制的情况,正确预测对象数目和总预测数目比值即为准确率,也可以称之为正确率或命中率;正确预测对象数目和用户请求对象数目的比值即为查全率,也可以称之为有用性[4]。   假设有N个请求序列,由预测模型产生共P个预测结果,其中P+个预测是正确的,则准确率为 P+/P;查全率[5]为P+/N。   这两种性能评价标准主要侧重于预测效率和有效性两个方面的性能评价。准确率主要用来衡量预测算法正确性,而查全率主要用来衡量预测模型的适用性[6]。研究一个科学合理的Web预取技术,需要依据这两个重要的评价标准。   2 关键技术实现   2.1 技术原理   预取技术是对Web缓存技术的有力补充,其目的是使有限的网络资源得到合理的利用[7]。目前已经存在利用随机Petri网使Web缓存和预取技术相结合的技术[8],而且证明了缓存与预取结合技术比单纯的缓存技术或预取技术更能有效减少平均延迟、提高服务器的吞吐量[910]。缓存技术是数据库优化方法之一,尤其语义缓存技术很好地弥补了页缓存和元组缓存对支持关系数据库方面不够完美的缺陷,语义缓存是将用户的查询信息及相应结果保存到缓存中,重用缓存数据主要是利用查询之间语义的相关性,根据与其对应的语义描述来进行。   2.2 基本思想   多项式回归预取技术基本思想是把Web预取技术与语义缓存技术相结合,根据用户访问兴趣度来进行预取,主要是通过建立多项式回归模型对用户访问频率进行预测,既而将用户兴趣度高的内容取回至本地缓存中供用户访问。   2.3 预测模型的建立   首先设定统计周期,一般以24 h为一个统计周期。对各周期的各条语义缓存项访问概率进行统计,利用最近N个周期内各语义缓存项的访问概率来建立多项式回归模型,在缓存中存储语义缓存项{K,P,T,Z}i最近N个周期的访问频率pij(j

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档