网站大量收购独家精品文档,联系QQ:2885784924
  1. 1、本文档共26页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Aigui.LIUsPPT.ppt

第页 文件访问预测 Aigui.LIU 主要内容 文件访问预测概述(1) 文件访问预测概述(2) 文件访问预测概述(3) 文件访问预测概述(4) 相关研究工作介绍(1) 相关研究工作介绍(2) 相关研究工作介绍(3) 相关研究工作介绍(4) 相关研究工作介绍(5) 相关研究工作介绍(6) 相关研究工作介绍(7) 相关研究工作介绍(8) 我的研究进展(1) 我的研究进展(2) 我的研究进展(4) 我的研究进展(5) 我的研究进展(6) 我的研究进展(7) 我的研究进展(8) 我的研究进展(9) 我的研究进展(10) 我的研究进展(11) 我的研究进展(12) Thanks! Suggestions? CC-IHEP 2007-07-13 研究生园地之四 文件访问预测概述 相关研究工作介绍 我的研究进展 现实中存在的问题 处理器与I/O存在速度鸿沟 网络带宽的限制,特别是无线移动网络 网络应用的断连操作,如移动计算、AFS 导致数据访问的延迟 I/O和网络成为性能的瓶颈 两种解决的办法 缓存(Cache) 被动方式,利用数据访问的时间局部性,对访问过的数据进行暂时的保留。但由于缓存空间大小以及更新算法的制约,当数据频繁更新时,缓存带来的性能改善不再显著。 预取(Pre-fetch) 主动方式,利用数据访问的空间局部性,对将来可能发生的数据请求进行预测,在访问之前取出并Cache,以备用户访问,从而减少访问延迟。 预取的缺陷 影响正常的数据访问负载 错误的预取会降低整个系统性能 很难做到精确地预测并在需要时完成预取 预取的基础是预测 预测有效的依据 数据请求并非完全随机,由用户或程序行为驱动 数据之间存在内在的关联 预测的关键 挖掘数据访问行为模式 构建数据之间的关联?分组、聚类 预取的基本思想 通过对数据本体或历史访问记录的分析,构造合适的预测模型,对未来的访问模式进行预测,在访问之前取出并缓存,以备用户访问,减少访问延迟。 预取的两种方法 基于预测的预取(显式)  精确的预测模型,尽量减少错误预测,平滑预取 基于分组的预取(隐式)  构建稳定数据分组,适用于比较稳定的访问模式 相关理论和技术 概率统计、模式挖掘、机器学习、数据分组和聚类等 Markov预测模型 假设:数据请求具有齐次马尔可夫链特征 马尔可夫性 历史无关性,即在已知“现在”的条件下,“过去”和将来是相互独立的,未来状态仅于现在所处的状态有关,与过去的状态无关。 P{ X(n+1) = j | X(0) = i0, … ,X(n) = in } = P {X(n+1) = j |X(n) = in } 模型定义 MC = (X, A, λ) 其中,X为随机变量,x对应一个文件,称为一个状态;A为转移概率矩阵;λ 为初始状态分布, 构造转移矩阵 根据历史日志计算转移概率 K步转移概率    P(m)=P(m-1)P(1) = (P(1) )n 基于历史事件的预测模型 基本思想 文件访问序列与文本压缩轨迹的跟踪方法相似,借鉴数据压缩建模技术,基于上下文匹配和相似度阈值来对数据访问事件进行预测。 存在问题 Order的大小,空间复杂度、时间复杂度 几种模型 FMOCM (Finite Multi-Order Context Modeling) PCM (Partitioned Context Modeling) EPCM (Extended PCM) N元访问路径预测模型 自然语言中n元语言模型 ? n元概率预测模型 N元预测模型 基于对请求频率的统计,建立一张以n元项为索引的预测表,记会话中出现在n元项后面的m个不同的请求出现在次数,并以此计算其条件概率。 N值大小的确定 2元模型,仅基于当前请求,只利用了整个用户会话很少的信息,预测精度不高,但模型简单,适合于实际使用。 多元模型,利用了用户访问的一定长度的路径信息,得到更高的预测精确度,但通常模型复杂,实用性能不好。 f1 f2 … fn f1 f2 … fm N元索引 m个后继 基于事务(Session)的预测模型 一次程序运行、网页浏览等称之为一个事务 基本思想 对事务进行聚类,并计算每个类别的聚类中心 计算当前事务的事务特征,并据此进行分类 根据同类事务的信息对访问模式进行预测 聚类算法 K-均值聚类算法、层次聚类算法、模糊聚类算法等 主要应用于WEB预测 页面本体信息,提取兴趣特征 访问频率、浏览时间、页面顺序,提取事务特征 利用兴趣对用户的行为进行预测 基于流行度的预测模型 Zipf定律 第一定律(高频):Pi = C / ia  一个对象的访问频度值与其位次之间在关系表现幂函数关系 第二定律(低频):In / I1 = 2 / n (n+1)  可以估算,1次

文档评论(0)

ailuojue2 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档