基于日志分析的搜索引擎查询结果缓存研究.ppt.pptVIP

  • 5
  • 0
  • 约1.93千字
  • 约 16页
  • 2016-12-31 发布于天津
  • 举报

基于日志分析的搜索引擎查询结果缓存研究.ppt.ppt

基于日志分析的搜索引擎查询结果缓存研究.ppt

引言 网民增多,对搜索引擎的使用日益频繁。同时互联网网页的规模也在不断膨胀。 搜索引擎需要尽可能多的索引网页并迅速提供查询结果。 缓存通过复制频繁请求的数据到速度较快的存储层次,使后续相同的请求得以快速访问,并减少服务器的系统负载。 * 1.主要工作 对sogou搜索引擎一个月的用户查询日志进行分析,研究其面向缓存应用的工作负载特性。 通过实验和分析,研究缓存设置对搜索引擎系统优化的贡献。 这是在中文商业搜索引擎环境下,第一次对搜索引擎缓存特性进行分析。 * 2.搜索引擎查询结果缓存特性分析 本文中性能特性的衡量指标是命中率(Hit) Hit=Requstcache / Requst# * 命中缓存的查询 所有查询 2.搜索引擎查询结果缓存特性分析 系统平均访问时间 Taccess=Hit*T1 + (1-Hit)*T2 T1 为缓存访问时间, T2 为磁盘访问时间 有 T1 T2 * 2.1 局部性 计算机在较短时期内,程序访问局限在一定区域。这只是一种经验性质,不能保证成立,但可能性通常很高。 查询的词符合Zipf定律,即一个单词出现的频率与它在频率表里的排名成反比。 * 2.1 局部性 对查询日志的分析 * 查询频率(次数) 查询词按照查询频率的排序 频率最高的20%查询 占据了80

文档评论(0)

1亿VIP精品文档

相关文档