大规模超文本网络搜索引擎剖析.pdfVIP

下载本文档

4
0
约2.18万字
约 13页
2021-11-09 发布于广东
举报
版权申诉

大规模超文本网络搜索引擎剖析.pdf

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大规模超文本网络搜索引擎剖析 Sergey Brin and Larry page 概述在这篇文章中，我们介绍 Google,一个大规模搜索引擎的原型。 Google 被设计成未可以进行有效的网络抓取和索引并返回比现行系统更加让人满意的搜索结果。我们的这个原型包括索引了 2 千 4 百万页面的全文本和超链接的数据库，你可以通过来进行访问。对于一个计算机工程师来说，建立一个搜索引擎可以说是一项具有挑战性的任务，因为搜索引擎索引成百上千万页面的同时也涉及到了相同数量级别的关键词 (Terms) 。并且每天要回答超过 1 千万个查询请求。虽然，在当今网络中，搜索引擎的重要程度正越来越突出的显现出来，但是真正学术上的相关研究却很少。而且，随着科技的飞速发展和网络规模的不断扩大，在今天建立一个搜索已经和三年前大不相同了。这篇论文提供了关于如何创建一个大规模搜索引擎的深层次描述，这也是到目前为止我们所知道的第一篇在这一领域的论文。除了一些传统的数据级别相同的搜索引擎的技术，还有一些新的运用在超文本中旨在创建更为优化的搜索结果的技术。如何建立一个可以深度挖掘利用超文本中信息的大规模搜索引擎？这是本文提出的一个问题。同时，我们关注的另外一个问题是：对于那些不受传统格式限制的超文本，我们如何来进行处理？关键词：万维网 (World Wide Web), 搜索引擎 (Search Engines), 信息检索 (Information Retrieval), PageRank, Google 1．介绍网络 (Web)给信息检索领域带来了新的挑战。就像飞速增长的对 Web 搜索毫无经验的新用户一样，互联网上的信息量也在疾速地扩充。人们习惯于利用网页上的链接结构来进行网上冲浪。通常他们的网上旅程都是从高质量的人工维护索引的网站比如说 Yahoo 或者搜索引擎开始的。人为维护的列表可以有效地包含一些热点流行的话题但是带来的问题是：建立和维护这样一个引用表上的成本过于昂贵和主观化、难以及时的进行改进、不能包括所有深入的主题。依赖于关键词匹配的自动化搜索引擎通常会返回一些低质量的结果给用户。更加恶劣的是，一些广告商为了吸引用户的眼球，不惜误导这些搜索引擎来返回错误的结果给用户。我们建立了一个能够解决这些现存系统中问题的大规模搜索引擎。这套系统能够利用超文本中的信息来返回高质量的搜索结果给用户。我们把系统取名为 Google ，这个名称来源于 Googol ，意思是 1 后面 100 个 0 。这个名字能够更好的反映出我们建立这个系统的目标。 1.1． Web 搜索引擎：规模的扩大： 1994-2000 为了适应互联网络的飞速发展，搜索引擎技术这些年来有了质的飞跃。在 1994 年，万维网虫 (World Wide Web Worm) ，作为一个最早期的互联网搜索引擎在当时索引了 11 万个 Web 页面和可以访问的 Web 文档。到了 1997 年的 11 月，顶级的搜索引擎 (WebCrawler) 号称已经索引了 1 亿个 Web 文档。可以预见的是，到 2000 年，可以索引的 Web 文档数量将会超过 10 亿个。与此同时，搜索引擎所要应付的查询请求也在以难以置信的速度增长。 1994 年的 3 ，4 月间， World Wide Web Worm 每天大概接受 1500 个请求。在 1997 年的 11 月， Altavista 声称其每天处理约 2 千万个请求。随着互联网用户和自动请求搜索引擎的系统的增加，到 2000 年底，一些顶尖搜索引擎很有可能达到日处理 2 千万个请求的数量级。我们系统的目标是在质量和规模上解决所有由上述趋势所带来的问题。 1.2 Google 抓取网络建立一个搜索引擎抓取目前的互联网带来了很多挑战，为了能够收集网络文档并保持他们的时效性，一种快速的抓取技术是必须的。存储空间必须被合理利用来存储索引和文档本身；索引系统必须能够有效地处理海量数据；请求必须能够以每秒几百甚至几千次的