武汉法律服务网整理：搜索引擎工作原理概论.docVIP

下载本文档

19
0
约5.16千字
约 7页
2017-07-04 发布于湖北
举报

武汉法律服务网整理：搜索引擎工作原理概论.doc

搜索引擎工作原理以蜘蛛程序为基础的全文搜索引擎(Crawler Based Search Engine) 这种搜索引擎通过蜘蛛程序（英文叫做Robot, Spider或Crawler）自动收录网页，是真正意义上的搜索引擎，国外的Google、Fast(AllTheWeb)、AltaVista、Inktomi都是属于这种类型的搜索引擎。国内的百度过去也是纯粹的全文搜索引擎，后来在搜索结果中引入竞价排名收费模式，当有关键字广告时，所有关键字广告出现在自然搜索结果的前面，国外还没有一个全文搜索引擎敢这么做，因为这会影响搜索引擎的质量。1. 蜘蛛抓取过程搜索引擎用来爬行和访问页面的程序被称为蜘蛛（spider），也称为机器人（bot）。搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程序发出页面访问请求后，服务器返回HTML代码，蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度，都使用多个蜘蛛并发分布爬行。蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守协议，不抓取被禁止的网址。和浏览器一样，搜索引擎蜘蛛也有标明自己身份的代理名称，站长可以在日志文件中看到搜索引擎的特定代理名称，从而辨识搜索引擎蜘蛛。下

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

武汉法律服务网整理：搜索引擎工作原理概论.docVIP