Aigui.LIUsPPT.ppt

下载文档 降价啦

1
0
约 26页
2016-11-22 发布于天津
举报
版权申诉
保障服务

Aigui.LIUsPPT.ppt

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Aigui.LIUsPPT.ppt

第页文件访问预测 Aigui.LIU 主要内容文件访问预测概述（1）文件访问预测概述（2）文件访问预测概述（3）文件访问预测概述（4）相关研究工作介绍（1）相关研究工作介绍（2）相关研究工作介绍（3）相关研究工作介绍（4）相关研究工作介绍（5）相关研究工作介绍（6）相关研究工作介绍（7）相关研究工作介绍（8）我的研究进展（1）我的研究进展（2）我的研究进展（4）我的研究进展（5）我的研究进展（6）我的研究进展（7）我的研究进展（8）我的研究进展（9）我的研究进展（10）我的研究进展（11）我的研究进展（12） Thanks! Suggestions? CC-IHEP 2007-07-13 研究生园地之四文件访问预测概述相关研究工作介绍我的研究进展现实中存在的问题处理器与I/O存在速度鸿沟网络带宽的限制，特别是无线移动网络网络应用的断连操作，如移动计算、AFS 导致数据访问的延迟 I/O和网络成为性能的瓶颈两种解决的办法缓存（Cache）被动方式，利用数据访问的时间局部性，对访问过的数据进行暂时的保留。但由于缓存空间大小以及更新算法的制约，当数据频繁更新时，缓存带来的性能改善不再显著。预取（Pre-fetch）主动方式，利用数据访问的空间局部性，对将来可能发生的数据请求进行预测，在访问之前取出并Cache，以备用户访问，从而减少访问延迟。预取的缺陷影响正常的数据访问负载错误的预取会降低整个系统性能很难做到精确地预测并在需要时完成预取预取的基础是预测预测有效的依据数据请求并非完全随机，由用户或程序行为驱动数据之间存在内在的关联预测的关键挖掘数据访问行为模式构建数据之间的关联?分组、聚类预取的基本思想通过对数据本体或历史访问记录的分析，构造合适的预测模型，对未来的访问模式进行预测，在访问之前取出并缓存，以备用户访问，减少访问延迟。预取的两种方法基于预测的预取（显式）　精确的预测模型，尽量减少错误预测，平滑预取基于分组的预取（隐式）　构建稳定数据分组，适用于比较稳定的访问模式相关理论和技术概率统计、模式挖掘、机器学习、数据分组和聚类等 Markov预测模型假设：数据请求具有齐次马尔可夫链特征马尔可夫性历史无关性，即在已知“现在”的条件下，“过去”和将来是相互独立的，未来状态仅于现在所处的状态有关，与过去的状态无关。 P{ X(n+1) = j | X(0) = i0, … ,X(n) = in } = P {X(n+1) = j |X(n) = in } 模型定义 MC = (X, A, λ) 其中，X为随机变量，x对应一个文件，称为一个状态；A为转移概率矩阵；λ 为初始状态分布，构造转移矩阵根据历史日志计算转移概率 K步转移概率　　P(m)＝P(m-1)P(1) = (P(1) )n 基于历史事件的预测模型基本思想文件访问序列与文本压缩轨迹的跟踪方法相似，借鉴数据压缩建模技术，基于上下文匹配和相似度阈值来对数据访问事件进行预测。存在问题 Order的大小，空间复杂度、时间复杂度几种模型 FMOCM (Finite Multi-Order Context Modeling) PCM (Partitioned Context Modeling) EPCM (Extended PCM) N元访问路径预测模型自然语言中n元语言模型　?　n元概率预测模型 N元预测模型基于对请求频率的统计，建立一张以n元项为索引的预测表，记会话中出现在n元项后面的m个不同的请求出现在次数，并以此计算其条件概率。 N值大小的确定 2元模型，仅基于当前请求，只利用了整个用户会话很少的信息，预测精度不高，但模型简单，适合于实际使用。多元模型，利用了用户访问的一定长度的路径信息，得到更高的预测精确度，但通常模型复杂，实用性能不好。 f1 f2 … fn f1 f2 … fm N元索引 m个后继基于事务（Session）的预测模型一次程序运行、网页浏览等称之为一个事务基本思想对事务进行聚类，并计算每个类别的聚类中心计算当前事务的事务特征，并据此进行分类根据同类事务的信息对访问模式进行预测聚类算法 K-均值聚类算法、层次聚类算法、模糊聚类算法等主要应用于WEB预测页面本体信息，提取兴趣特征访问频率、浏览时间、页面顺序，提取事务特征利用兴趣对用户的行为进行预测基于流行度的预测模型 Zipf定律第一定律（高频）：Pi = C / ia 　一个对象的访问频度值与其位次之间在关系表现幂函数关系第二定律（低频）：In / I1 = 2 / n (n+1) 　可以估算，1次