通用Cache的设计和在搜索引擎中的应用.docVIP

下载本文档

2
0
约1.98万字
约 31页
2016-10-18 发布于重庆
举报

通用Cache的设计和在搜索引擎中的应用.doc

通用Cache的设计和在搜索引擎中的应用

摘要 2 第一章背景介绍 3 1.1 万维网和海量信息 3 1.2搜索引擎概述 4 1.3 Cache概述 5 第二章相关研究 6 2.1 Cache替换算法 6 2.2 Cache在搜索引擎中的应用 8 第三章一种通用Cache的设计和实现 9 3.1 通用Cache的设计目标 9 3.3.1 通用性目标 9 3.3.2 高效性要求 10 3.3.3 自评测目标 10 3.2 通用Cache的设计 10 3.2.1总控器 11 3.2.2层次控制器 12 3.2.3数据存储器 13 3.2.4分层Cache设计的优点 13 第四章通用Cache的搜索引擎检索端应用 15 4.1 实验环境 15 4.2 用户查询日志的分析 16 4.2.1查询的总体分布 16 4.2.2查询的时间局部性性质 18 4.3.3用户查询结果翻页的考察 19 4.3 通用Cache应用结构和配置 21 4.3.1总体结构 21 4.3.2缓存配置 23 4.3.3时间分析 25 第五章总结和进一步工作 28 参考文献 29 致谢 31 摘要在处理Web海量信息的过程中，有两个问题制约着性能的提高。一方面，由于信息量非常大，只能把所有数据存放在磁盘等相对慢速的设备上，或者放在多台不同的机器上。对于数据的读取和保存只能从这些慢速设备或者分布式的机器上获得。另一方面，信息量的庞大也造成了大量的计算，消耗大量计算时间。在很多应用中，存在着引用的局部性规律，即大量的操作需要访问少量的数据。本文工作包括： 1) 本文设计了一种通用的缓存(Cache)结构。其主要特点是通用性，在各种应用中，用户可以自由地对该Cache的容量，替换算法，数据项结构，预取策略，体系结构进行配置。同时提供一个模拟接口，用户可以通过这个接口执行模拟操作，对算法、容量进行评估。 2) 分析天网用户查询日志，发现对于用户的查询，无论是否考虑翻页的情况，都满足类Zipf分布，这样的具有比较强的局部性的分布形式，提示我们如果采用Cache结构可以带来很大的好处。 3) 在天网搜索引擎中检索模块中加入这种通用Cache模块。通过选取适当的Cache大小，替换算法，预取策略和层次结构，进一步提高搜索引擎检索端的性能。关键词：海量信息缓存技术分布特征搜索引擎第一章背景介绍 1.1 万维网和海量信息万维网（WWW,即World Wide Web）是因特网（Internet）最成功的应用之一。因特网的前身是美国国防部高级研究计划署的研究试验性网ARPANET。 1983年TCP/IP 成为ARPANET上事实上的协议。此后，ARPANET上连接的网络、机器和用户快速增长。 1988年NSFNET和ARPANET互联，它的规模以指数增长，很多地区网络开始加入，并且开始与加拿大、欧洲和太平洋地区的网络连接。从而Internet逐渐形成和壮大。万维网起源于1989年的欧洲粒子物理研究室（CERN）。1989年3月，由物理学家Tim Berners-Lee提出万维网的计划。1990年9月，第一个文本原型正式运行。此后，许多的大专院校和业界公司纷纷加入到万维网的研究中来，开发大量的基于万维网的应用程序。在九十年代这短短几年时间里，万维网吸引了的大量的用户和开发者，使得它不断地完善和发展。万维网是一个分布式的信息系统，它由超文本(hypertext)和超媒体(Hyper- media)组成。超文本一般由文本信息和链接信息组成，文本信息是供人们浏览阅读的，链接信息又称为超链接(Hyperlink)，它们是指向别的超文本信息的指针，可以指向万维网上一个位置。超媒体是超文本的扩展，包括在万维网上的各种资源，包括视频，音频，图像等等。在这样一个系统中，一方面，用户可以通过超链接的指引，非常容易地获取分布在不同机器上的信息。另一方面，各种不同地区，职业的人们可以自由地把本地的信息放到这个系统中去。这样，这个系统就成为一个全球区域的，包括大量信息的系统。根据Google搜索引擎的统计，截至到2002年4月，全球的网页数已经超过20亿[Google]。在中国，万维网也以惊人的速度发展。万维网于1994年正式在中国建立，2003年中国互联网络信息资源数量调查报告[Cnnic]。这样庞大的一个万维网的规模，包含的信息是海量的。按照万维网的这种发展速度，海量信息也是爆炸式的增长的。而人工在如此大规模的信息中寻找有效信息是很困难的，低效的。我们需要采用一种方法，获取这些海量信息并对它们进行一定程度的加工，从而帮助人们更好地利用这些信息。其中的一种方法就是信息检索的方法（Information Retrieval，简称IR）。它的过程是这样的：用户给出一个查询

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

通用Cache的设计和在搜索引擎中的应用.docVIP