网站大量收购闲置独家精品文档,联系QQ:2885784924

大规模超文本网络搜索引擎剖析.pdfVIP

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大规模超文本网络搜索引擎剖析 Sergey Brin and Larry page 概述 在这篇文章中,我们介绍 Google,一个大规模搜索引擎的原型。 Google 被设计成未可以进行有效的网络抓 取和索引并返回比现行系统更加让人满意的搜索结果。我们的这个原型包括索引了 2 千 4 百万页面的全文 本和超链接的数据库, 你可以通过 来进行访问。 对于一个计算机工程师来说, 建 立一个搜索引擎可以说是一项具有挑战性的任务,因为搜索引擎索引成百上千万页面的同时也涉及到了相 同数量级别的关键词 (Terms) 。并且每天要回答超过 1 千万个查询请求。虽然,在当今网络中,搜索引擎的 重要程度正越来越突出的显现出来,但是真正学术上的相关研究却很少。而且,随着科技的飞速发展和网 络规模的不断扩大,在今天建立一个搜索已经和三年前大不相同了。这篇论文提供了关于如何创建一个大 规模搜索引擎的深层次描述,这也是到目前为止我们所知道的第一篇在这一领域的论文。除了一些传统的 数据级别相同的搜索引擎的技术,还有一些新的运用在超文本中旨在创建更为优化的搜索结果的技术。如 何建立一个可以深度挖掘利用超文本中信息的大规模搜索引擎?这是本文提出的一个问题。同时,我们关 注的另外一个问题是:对于那些不受传统格式限制的超文本,我们如何来进行处理? 关键词: 万维网 (World Wide Web), 搜索引擎 (Search Engines), 信息检索 (Information Retrieval), PageRank, Google 1.介绍 网络 (Web)给信息检索领域带来了新的挑战。就像飞速增长的对 Web 搜索毫无经验的新用户一样,互联网 上的信息量也在疾速地扩充。人们习惯于利用网页上的链接结构来进行网上冲浪。通常他们的网上旅程都 是从高质量的人工维护索引的网站比如说 Yahoo 或者搜索引擎开始的。 人为维护的列表可以有效地包含一 些热点流行的话题但是带来的问题是:建立和维护这样一个引用表上的成本过于昂贵和主观化、难以及时 的进行改进、不能包括所有深入的主题。依赖于关键词匹配的自动化搜索引擎通常会返回一些低质量的结 果给用户。更加恶劣的是,一些广告商为了吸引用户的眼球,不惜误导这些搜索引擎来返回错误的结果给 用户。我们建立了一个能够解决这些现存系统中问题的大规模搜索引擎。这套系统能够利用超文本中的信 息来返回高质量的搜索结果给用户。我们把系统取名为 Google ,这个名称来源于 Googol ,意思是 1 后面 100 个 0 。这个名字能够更好的反映出我们建立这个系统的目标。 1.1. Web 搜索引擎:规模的扩大: 1994-2000 为了适应互联网络的飞速发展,搜索引擎技术这些年来有了质的飞跃。在 1994 年,万维网虫 (World Wide Web Worm) ,作为一个最早期的互联网搜索引擎在当时索引了 11 万个 Web 页面和可以访问的 Web 文档。 到了 1997 年的 11 月,顶级的搜索引擎 (WebCrawler) 号称已经索引了 1 亿个 Web 文档。可以预见的是,到 2000 年,可以索引的 Web 文档数量将会超过 10 亿个。与此同时,搜索引擎所要应付的查询请求也在以难 以置信的速度增长。 1994 年的 3 ,4 月间, World Wide Web Worm 每天大概接受 1500 个请求。在 1997 年 的 11 月, Altavista 声称其每天处理约 2 千万个请求。随着互联网用户和自动请求搜索引擎的系统的增加, 到 2000 年底,一些顶尖搜索引擎很有可能达到日处理 2 千万个请求的数量级。我们系统的目标是在质量 和规模上解决所有由上述趋势所带来的问题。 1.2 Google 抓取网络 建立一个搜索引擎抓取目前的互联网带来了很多挑战,为了能够收集网络文档并保持他们的时效性,一种 快速的抓取技术是必须的。存储空间必须被合理利用来存储索引和文档本身;索引系统必须能够有效地处 理海量数据;请求必须能够以每秒几百甚至几千次的

文档评论(0)

niujiaoba + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档