- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式搜索引擎缓存系统的设计与实现
【摘要】 根据CNNIC2011年1月发布的《第27次中国互联网发展状况统计报告》,截至2010年12月,中国网民规模达到4.57亿,搜索引擎使用率达到81.9%,成为网民第一大应用,.与此同时,中文网页总数已达600亿个,较2009年增长了78.6%。互联网的飞速发展,给搜索引擎提出了新的难题。由于网络信息的爆炸性增长,大规模的Web搜索引擎平均每秒需要处理上万次查询请求,每个查询的处理需要涉及到海量的索引数据,因此查询处理已经成为搜索引擎的主要的性能瓶颈。为了在不降低查询质量的前提下,提高搜索引擎的响应速度,大规模的Web搜索引擎采用了各种优化技术,缓存技术便是其中之一。搜索引擎的缓存系统一般来说主要包含两个层次,第一个层次是结果缓存,它将那些频繁出现查询的检索结果存放到缓存当中,这样当该查询再次出现时,便可直接在缓存中命中,从而极大的提高了查询响应速度。另一层次是倒排链缓存,由于搜索引擎处理的倒排索引容量一般都很大,无法完全将其加载到内存,因此在检索的时候经常需要从磁盘读入索引文件。由于磁盘读写的速度比内存慢很多,导致检索的大部分时间都耗费在了磁盘读写上。倒排链缓存就是为了减少与磁盘I/O...?更多还原
【Abstract】 According to CNNIC2011 issued in January the 27th China’s Internet development statistics report that by 2010 in December, this number of Chinese netizens scales to 457 million,and search engines become the most popular Internet applications,meanwhile the number of Chinese web page scales to 60 billion, which has increased 78.6% since last year.The rapid development of Internet,has brought new challenges for search engines. Large-scale Web search engine need to handle tens of thousands of querie...?更多还原
【关键词】 分布式搜索引擎; 查询成本; 结果缓存; 倒排链缓存; 【Key words】 Distributed Search Engines; Query cost; Result Caching; List Caching;
【索购论文全文】138113721 139938848 即付即发
目录
摘要 5-6
Abstract 6
图目录 9-10
表目录 10-11
第一章 绪论 11-15
1.1 选题背景和研究意义 11-12
1.2 国内外研究和发展现状 12-13
1.2.1 查询日志分析 12
1.2.2 搜索引擎缓存系统架构 12-13
1.3 课题研究内容 13-14
1.4 论文组织结构 14-15
第二章 分布式搜索引擎缓存系统概述 15-25
2.1 引言 15
2.2 倒排索引概述 15-17
2.3 分布式搜索引擎 17-18
2.4 搜索引擎日志分析 18-19
2.5 缓存策略 19-21
2.6 搜索引擎结果缓存 21-23
2.6.1 缓存一致性问题 22
2.6.2 缓存策略问题 22-23
2.7 搜索引擎倒排链缓存 23
2.8 搜索引擎倒排链交集缓存 23-24
2.9 小结 24-25
第三章 中文搜索引擎缓存策略的研究 25-35
3.1 引言 25
3.2 中文查询日志分析 25-28
3.2.1 实验目的及意义 25-26
3.2.2 日志分析方法 26-27
3.2.3 实验结果分析 27-28
3.3 基于缓存收益的倒排链缓存策略 28-30
3.4 基于查询成本的结果缓存策略 30-33
3.4.1 结果缓存收益分析 30
3.4.2 基于查询成本的结果缓存策略 30-32
3.4.3 性能测试 32-33
3.5 本章小结 3
您可能关注的文档
- 数据完整性-Empower软件要领.pdf
- 第十一章 马帮最全操作手册.doc
- 串口编程总结讲述.docx
- 血脂异常的危险分层与调脂治疗.docx
- 有关数字的读法,写法,与用法.doc
- 论文化的概念与特征.doc
- 道路桥梁设计通用设计规范概要.doc
- matlab 命令和函数清单.doc
- 第十三章 平衡车功能简介.doc
- 等级考试三级网络技术考点分析之因特网基础概要.doc
- 2024火电电力职业鉴定自我提分评估(考点梳理)附答案详解.docx
- 2024火电电力职业鉴定试卷及参考答案详解【满分必刷】.docx
- 2024火电电力职业鉴定自我提分评估(真题汇编)附答案详解.docx
- 2024火电电力职业鉴定试卷及参考答案详解AB卷.docx
- 2024火电电力职业鉴定自我提分评估(黄金题型)附答案详解.docx
- 2024火电电力职业鉴定自我提分评估附参考答案详解【轻巧夺冠】.docx
- 2024火电电力职业鉴定自我提分评估附答案详解(培优A卷).docx
- 2024火电电力职业鉴定试卷【实用】附答案详解.docx
- 2024火电电力职业鉴定自我提分评估附完整答案详解(网校专用).docx
- 2024火电电力职业鉴定自我提分评估附完整答案详解(历年真题).docx
最近下载
- 高中数学第四章定积分4.3定积分的简单应用4.3.2简单几何体的体积教案.docx VIP
- TZSQX008-2020建设工程全过程质量行为导则.docx VIP
- 2024年山东省高中学业水平合格考生物试卷试题(含答案详解).docx VIP
- 高级教师职称评审答辩简答题.doc VIP
- 禁毒情报学习通超星期末考试答案章节答案2024年.docx VIP
- 北京市2024年艺术类专业考生综合分分数分布(一分一段表).pdf VIP
- 2025年乳腺癌诊疗指南(doc14页) .pdf VIP
- 篮球的起源与发展ppt课件.pptx VIP
- 网上调查赚钱经验及技巧总结.doc VIP
- ALPHA AS100说明书-V102用户手册.pdf
文档评论(0)