网站大量收购闲置独家精品文档,联系QQ:2885784924

搜索引擎工作原理.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎工作原理 一 . 网页搜集。 网页搜集,其实就是大家常说的蜘蛛抓取网页。那么对于蜘蛛( google 称之为 机器人)来说,他们感兴趣的页面分为三类: 1. 蜘蛛从未抓去过的新页面。 2. 蜘蛛抓去过,但页面内容有改动的页面。 3. 蜘蛛抓取过,但现在已删除了的页面。 那么如何行之有效的发现这三类页面并进行抓取,就是 spider 程序设计的初衷 与目的。那么这里就涉及到一个问题,蜘蛛抓取的起始点。 每一位站长只要你的网站没有被严重降权, 那么通过网站后台的服务器, 你都可 以发现勤劳的蜘蛛光顾你的站点, 但是你们有没有想过从编写程序的角度上来说, 蜘蛛是怎么来的呢?针对于此, 各方有各方的观点。 有一种说法, 说蜘蛛的抓取 是从种子站(或叫高权重站),依照权重由高至低逐层出发的。另一种说法蜘蛛 爬在 URL集合中是没有明显先后顺序的, 搜索引擎会根据你网站内容更新的规律, 自动计算出何时是爬取你网站的最佳时机,然后进行抓取。 其实对于不同的搜索引擎, 其抓取出发点定然会有所区别, 针对于百度,Mr.Zhao 较为倾向于后者。 在百度官方博客发布的 《索引页链接补全机制的一种办法》 ( 地 址:/?p=2057) 一文中,其明确指出“ spider 会 尽量探测网页的发布周期, 以合理的频率来检查网页”, 由此我们可以推断, 在 百度的索引库中, 针对每个 URL集合,其都计算出适合其的抓取时间以及一系列 参数,然后对相应站点进行抓取。 在这里,我要说明一下,就是针对百度来说, site 的数值并非是蜘蛛已抓取你 页面的数值。比如 site: ,所得出的数值并不是大家常说的百 度收录数值,想查询具体的百度收录量应该在百度提供的站长工具里查询索引数 量。那么 site 是什么?这个我会在今后的文章中为大家讲解。 那么蜘蛛如何发现新链接呢?其依靠的就是超链接。 我们可以把所有的互联网看 成一个有向集合的聚集体, 蜘蛛由起始的 URL集合 A 沿着网页中超链接开始不停 的发现新页面。在这个过程中,每发现新的 URL都会与集合 A 中已存的进行比对, 若是新的 URL,则加入集合 A 中,若是已在集合 A 中存在,则丢弃掉。蜘蛛对一 个站点的遍历抓取策略分为两种, 一种是深度优先, 另一种就是宽度优先。 但是 如果是百度这类商业搜索引擎, 其遍历策略则可能是某种更加复杂的规则, 例如 涉及到域名本身的权重系数、涉及到百度本身服务器矩阵分布等。 二 . 预处理。 预处理是搜索引擎最复杂的部分, 基本上大部分排名算法都是在预处理这个环节 生效。那么搜索引擎在预处理这个环节,针对数据主要进行以下几步处理: 1. 提取关键词。 蜘蛛抓取到的页面与我们在浏览器中查看的源码是一样的,通常代码杂乱无章, 而且其中还有很多与页面主要内容是无关的。由此,搜索引擎需要做三件事情: 代码去噪。去除掉网页中所有的代码,仅剩下文本文字。②去除非正文关键词。 例如页面上的导航栏以及其它不同页面共享的公共区域的关键词。 ③去除停用词。 停用词是指没有具体意义的词汇,例如“的”“在”等。 当搜索引擎得到这篇网页的关键词后, 会用自身的分词系统, 将此文分成一个分 词列表,然后储存在数据库中, 并与此文的 URL进行一一对应。下面我举例说明。 假如蜘蛛爬取的页面的 URL是 /2.html ,而搜索引擎在 此页面经过上述操作后提取到的关键词集合为 p,且 p 是由关键词 p1,p2,,,,

文档评论(0)

niujiaoba + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档