1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
GOOGLE算法2

Google算法论文 学院:理信学院 姓名学号:程显聪 专业班级:通信10级2班 GOOGLE算法 万维网给信息检索带来了新的挑战。万维网上的信息量在飞速增长,同时网络研究艺术中一些缺乏经验的新用户的数量也在激增。人们一般利用网络上的超链接来网上冲浪,一般都是从高质量人工维护的索引开始,比如Yahoo!或者搜索引擎。人工维护的目录虽然有效地包含了流行的话题,但是它具有主观性、搭建和维护的代价高、升级缓慢,并且无法涵盖所有严肃深奥的主题。基于关键词匹配的自动搜索引擎有经常返回一些低质量结果。更糟的是,有些广告商专门设法误导自动搜索引擎来吸引人们的注意。我们已经建立了一个大型搜索引擎能解决现存系统中的很多问题。它专门利用了超文本中的附加信息来提高搜索结果的质量。我们选择 Google作为我们系统的名字,取自一个俗语googol的谐音,意思是10的100次方,这和我们建立一个大型搜索引擎的目标是相当吻合的。 1.1 网络搜索引擎——升级: 搜索引擎技术不得不经常调整以跟上网络的增长。1994年,第一批网络搜索引擎中的World Wide Web Worm(WWWW)索引了110′000篇网页和有效的网络文件。到了1997年11月,顶级搜索引擎声称索引了两百万(WebCrawler)至十亿篇网络文件(来自Search Engine Watch)。可以预见到2000年,一个全面的网络索引将会包含一百亿个文件。与此同时,搜索引擎处理的查询量也在爆增。1994年3月和4月, World Wide Web Worm平均每天要接受1500次查询。1997年11月,Altavista声称它每天要处理大约两亿次查询。随着网络用户和查询搜索引擎的自动系统数量的增长,估计到2000年顶级的搜索引擎每天要处理上十亿次的查询。我们的系统的目标就是要着手解决这些问题,无论是质量还是在将搜索引擎技术扩展到如此程度中引入的可扩展性的概念。 1.2 Google:与网络同步 要搭建一个哪怕是能和现今网络规模相适应的搜索引擎都会遇到很多挑战。要想搜集网络文件并保持更新就需要快速的抓取技术。还要有效地利用磁盘空间索引和部分文件本身。索引系统必须能高效地处理上百G的数据。还要迅速地处理每秒钟成百上千次的查询。 随着网络的不断增长,这项工作变得越来越困难了。但是,硬件性能和费用问题的改善也部分地削减了困难度。然而在这个进度中还有几个明显的例外,比如磁盘的寻道时间和操作系统的健壮性。在Google的设计中,我们同时考虑到了网络的增长速度和技术的变更。Google的设计使之能够很好地扩展到能处理极大量的数据。它有效地利用了存储空间来储存索引文件。优化的数据结构使之能够支持快速高效的数据访问。进一步地,我们希望建立索引和存储文本文件或HTML文档的代价会相对于它们实际的大小而不断减小。对于象Google这样的集中式系统来说,这些措施换来的是可观的可扩展性。 1.3 设计目标 1.3.1 提高搜索质量 在1994年,有些人认为通过全搜索索引是有可能很容易找到任何东西的。根据Best of The Web 1994–Navigators, “最好的导航服务可以在网络中找到几乎任何东西(只要输入所有的数据)。”然而,1997的网络就大不一样了。任何最近使用过搜索引擎的人都能轻易地证实索引地完整性并不是影响搜索结果质量的唯一因子。用户们真正感兴趣的搜索结果经常被“垃圾结果”所湮没。事实上,到1997年11月为止,在四个顶级的商业搜索引擎中只有一个能搜到自己(在搜索自己名字时前十位结果中返回自己的搜索页面)。引发这个问题的一个主要原因就是索引中文件的数量已经增长了好几个数量级,相应地,用户能查阅的文档数却没有增加。人们仍然只愿意看看前几十个结果。因此,当集合的大小增加时,需要具有高精度(比如前几十个结果中的相关文档的数量)的工具。当然,“相关”只是指恰恰最好的文档,因为很可能还有几万个稍有点相关的文档。即使与招回率(系统能够返回的相关文档的总数)的代价相比,高精度仍然是很重要的。近来对利用更多的超文本信息来改进搜索和其它应用软件的方法还是相当乐观的[Marchiori 97][Spertus 97][Weiss 96][Kleinberg 98]。特别是链接结构和链接文本能够为相关性判断和质量过滤提供大量的信息。Google同时利用了链接结构和链接文本。 1.3.2 搜索引擎的学术研究 除了迅猛的发展,网络也随着时间增长变得越来越商业化了。1993年的时候,只有1.5%的网络服务器是在.com域名下的。到了1997年,这个数字增长到超过60 %。同时,搜索引擎也从学术领域移民到了商

文档评论(0)

qwd513620855 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档