搜索引擎工作原理简单模拟.pptVIP

  • 4
  • 0
  • 约小于1千字
  • 约 9页
  • 2016-12-31 发布于贵州
  • 举报
搜索引擎工作原理简单模拟 萃工厂SEO培训班 前言 这里的模拟非常简单和傻瓜,但可以说明搜索引擎是如何处理页面的过程。 第一步:通过蜘蛛抓取页面; 什么是蜘蛛? 如何抓取页面?以文本形式下载,送会服务器。 第一步:通过蜘蛛抓取页面 什么是蜘蛛? Googlebot、baiduspider、 Yahoo、Slurp、Msnbot 如何抓取页面? 以文本形式下载,送会服务器。 可能会做一些预处理,比如:压缩等 可能妨碍蜘蛛抓取的行为:跳转、识别分辨率 第二步:网页文件处理 首先过滤所有HTML标签、CSS样式表、JS代码 利用工具: /Tools/Robot.aspx?url= 第三步:识别文字内容 通过对过滤后文字内容的分析,来判断网页的核心内容。 搜索引擎程序通过对上面文字的分析,发现以下信息: 一共有95个字符;其中56个中文字。 “百度”出现4次,共8个中文,占16个字符。 8÷56≈0.14 ≈14% 16÷95 ≈ 0.16≈16% 判断结论:本页面和关键词“萃工厂”有密切关系。 第四步:进行权重分值技术 假设关键词重复1次得1分,那百度首页的得分就是“4” 当然,搜索引擎的真实计算过程非常负责,有数百个参数参与计算。 YAHOO!的工程师告诉我: “所有搜索引擎最核心的是外部链接的技术和关键词密度的技术” 第五步:存入排名数据库 通过以上各种分析

文档评论(0)

1亿VIP精品文档

相关文档