seo搜索引擎工作原理简介分析.ppt

下载文档 降价啦

9
0
约3.11千字
约 24页
2018-04-04 发布于湖北
举报
版权申诉
保障服务

seo搜索引擎工作原理简介分析.ppt

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第三节：搜索引擎工作原理简介搜索引擎工作过程搜索引擎的工作过程大体上可以分为三个阶段：一：爬行和抓取--搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码存入数据库。二：预处理--索引程序对抓取来的页面数据进行文字提取，中文分词，索引等处理，以备排名程序调用。三：排名--用户输入关键词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。第一步：爬行和抓取爬行和抓取是搜索引擎工作的第一步，完成数据收集的任务。 1、蜘蛛定义：搜索引擎用来爬行和访问页面的程序被称为蜘蛛（spider），也称为机器人（bot）。爬行方式：多个蜘蛛并发分布爬行。爬行抓取规则：蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt。蜘蛛身份：每一个搜索引擎的蜘蛛名称也不同，如下： Baiduspider+ 百度蜘蛛 Sogou+web+robot+ 搜狗蜘蛛 Sosospider+ 搜搜蜘蛛第一步：爬行和抓取 2、跟踪链接整个互联网是由相互链接的网站及页面组成的，蜘蛛抓取页面的唯一途径是通过跟踪互联网上的链接进行。爬行策略--1、深度优先；2、广度优先爬行和抓取 3、吸引蜘蛛问：为何要吸引蜘蛛？答：单从理论上来说蜘蛛可以爬行和抓取互联网上所有页面，但是实际上不能，也不会这么做，在这种前提下，蜘蛛所要做的就是尽量抓取重要页面。所以，我们SEO人员要想让自己的更多页面被收录，就要想方设法吸引蜘蛛来抓取。被搜索引擎认为符合重要页面的几个因素： 1、网站和页面权重 2、页面更新度 3、导入链接 4、与首页点击距离第一步：爬行和抓取 4、地址库为了避免重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现还没有抓取的页面，以及已经被抓取的页面。地址库中URL的来源： 1、人工录入的种子网站 2、蜘蛛抓取后从HTML中解析出新的链接URL，与地址库中的数据进行对比，如果是地址库中没有的网址，就存入待访问地址库。 3、站长通过搜索引擎网站提交入口提交进来的网址。蜘蛛会按照重要性从待访问地址库中提取URL，访问并抓取页面，然后把这个URL从待访问地址库中删除，放进已访问地址库中。备注：搜索引擎所收录的大部分页面是蜘蛛自己根据跟踪链接得到的，搜索引擎更喜欢自己沿着链接发现新页面。第一步：爬行和抓取 5、文件存储搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据域用户浏览器得到的HTML是完全一样的，每个URL都有一个独特的文件编号。 6、爬行时的复制内容检测通常删除复制内容是在预处理步骤中执行的，但是现在蜘蛛在爬行和抓取文件时，也会进行一定程度的复制内容检测，遇到权重很低的网站上大量转载或抄袭内容时，很可能不再继续爬行。实践情况：有的站长在自己网站日志中发现了蜘蛛，但是页面从来没有被真正的收录过的原因。第二步：预处理在一些SEO材料中，“预处理”也被简称为“索引”，因为索引是预处理最主要的步骤。搜索引擎预处理工作内容： 1、提取文字除去HTML代码后，剩下的用于排名的文字只是这一行：新浪首页备注：除了可见文字，搜索引擎也会提取出一些特殊的包含文字信息的代码，如：META标签中的文字，图片替代文字，Flash文件中的替代文字，链接锚文字等。第二步：预处理 2、中文分词--分词是中文搜索引擎特有的步骤分词意义：搜索引擎存储和处理页面及用户搜索都是以词为基础的。分词如：“减肥方法”将被分词为“减肥”和“方法”两个词中文分词方法基本上有两种： 1、基于词典匹配--将待分析的一段汉字与一个事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有的词条则匹配成功，或者说切分出一个单词。 2、基于统计--指的是分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现越多，就越可能形成一个单词。第二步：预处理 3、去停止词停止词--无论是英文还是中文，页面内容中都会出现频率很高，却对内容没有任何影响的词，如“的”、“地”、“得”之类的助词，“啊”、“哈”、“呀”之类的感叹词，“从而”、“以”、“却”之类的副词或介词，这些词被称为停止词。因为这些停止词对页面的主要意思没什么影响，所以搜索引擎索引页面之前会去掉停止词，使索引数据主题更为突出，减少无谓的计算量。第二步：预处理 4、消除噪声定义：除了停止词以外，对页面主题没有什么贡献的因素被称为页面噪声。比如：博客页面的“文章分类”、“历史存档”等。消噪的基本方法：根据HTML标签对页面分块，区分出页头，导航，正文，页脚，关高等区域，在网站上大量重复出现的区块旺旺属于噪声。对页面进行消噪后，剩下的才是页面主题内容。第二步：预处理 5、去重搜索引擎在进行索引前还需要识别和删除