搜索引擎实验.docxVIP

  • 2
  • 0
  • 约4.73千字
  • 约 7页
  • 2024-03-01 发布于辽宁
  • 举报

搜索引擎实验

实验报告

GooqIc

。谷歌

网址:/以谷歌搜索引擎为例:一、搜索引擎简介

搜索引擎(searchengine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。

现在的搜索引擎有百度、谷歌、雅虎、搜狗、迅雷等等。下面介绍下谷歌的工作原理:

Google采用了两个重要的特性,因此而获取了准确的查询结果:第一,Google利用网页的链接结构计算出每个网页的等级排名,这就是所谓的PageRank;第二,Google利用了链接提供的信息进一步改善搜索结果。

Google使用两个探测器来抓取网站上的内容:Freshbot和Deepbot。深度探测器(Deepbot)每月出击一次,受访内容在Google的主要索引之中。刷新探测器(Freshbot)是持续不断地发现新的内容,例如新的网站、论坛、博客等。看起来,Google是发现了一个新的网页,之后再频繁地再访,来看看是否还有什么新的更新。如果有,这个新网站就会被加入到刷新探测器的名单中进行访问。

刷新探测器取得的结果是汇总在一个单独的数据库里。每一次刷新探测器进行新的一轮循环的时候都被重写。刷新探测器和Google的主要索引是合在一起提供搜索结果的。

Google的操作模式

收集采编/索引一一反馈的工作程序。事实上,搜索引擎包括以下几个元素。

抓取状态:搜索引擎派出探测器到互联网上不知疲倦地搜集网页。

网页仓库:搜索来的网页要集中在一个地方存储,等候索引处理。

索引整理:将网页分门别类,进行压缩,等候进行索引编类,而未压缩的原始网页资料被删除掉。

索引状态:将压缩后的网页编目在不同的索引之下。

问询状态:将用户问询所用的白话转换成搜索引擎读的懂的计算机语言,来咨询各个索引求得相关答案。

排名状态:搜索引擎将相关答案根据一定的标准以列表的形式排列给用户。搜索引擎认为最好的答案被推荐在首位,较次的排列随后,以此类推。

Google的数据中心高度机密,我们能了解到的不多:

在美国本土有19个以上的数据中心,其余17个数据中心分布在美国以外的世界各地。

每个数据中心有50万平方英尺那么大,建造一个数据中心要花费约6亿美元。

Google数据中心是世界上最高效的设施之一,而且也非常环保,几乎没有碳排放。

数据中心使用50到100兆瓦的电力,由于需要冷却,通常建在便于用水的地方。

Google服务器安置在一个一组容得下1160台服务器的有房子那么大的标准集装箱容器中。

Google处理流程:

你写博客、或在Twitter上推微博、更新站点等诸如此类往web上添加内容的操作

Google爬虫(一种作为搜索引擎构件的智能代理程序)抓取你网页的title和description、keyword等内容。

一旦被Google爬虫访问到,网页几秒内就被索引了

Google基于链接评估域名和网页的总体PageRank值。

检查网页以防止作弊行为

在对页面做了损害分析后,现在每个页面都有很多用于辅助用户搜索的数据片(比如检索关键词)反向引用着它。

用户发出搜索请求

Google会用同义词匹配与你的搜索关键词语义相近的查询结果。

生成初步的查询结果。

对查询结果集按权威性和PageRank进行排序,重复的查询结果被剔除。

对查询结果进行过滤处理

最终返回给浏览器端的用户一个人性化的、布局良好的、查询结果和广告泾渭分明的有机查询结果页面。

二、谷歌搜索引擎特点

1、 变化较快、机动性较高

Google漫游器会定期抓取Web,将大量网页列入索引。稍后完成的下一次抓取会注意到新网站、对现有网站的更改以及失效的链接,并对内容的变化在搜索结果中加以调整。

2、 敏感度较高,反应较快

Google对新建的网站具有较高的查知性,当然,新建的网站必须要有外部链接或者向Google递交过网站登录信息。否则,即使Google的搜索技术再厉害,一个只有站长一个人看得见的网站是很难被Google发现的。Google收录新建网站的两个途径是:第一,通过网站的外部链接;第二,通过向Google提交网站登录数据。一般而言,后者的收录速度相对较快,而前者则要视Google对新建网站的外部链接网站的收录频率而定。如果Google对外部链接网站的评价高、收录频率高那么其发现新站的速度也相应地高,新建网站被收录的日期就会被提刖。

3、 较重视链接的文字描述

Google会将链接的文字描述作为关键词加以索引,所以我们在作友情链接时千万要仔细设计链接的文字描述,使之既符合网站的定位又不失相关性,以此博得Google的信任。

4、 相关性和重要性并重

Google使用P

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档