搜索引擎的工作原理技术方案.ppt

  1. 1、本文档共98页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第 62页 如何知道网站是否被收录? 百度: site:+网址,网址不需要带http Google: site:+网址,网址不需要带http 雅虎: 通过雅虎提供的站点管理器 第 63页 页面收录只是搜索引擎工作的一个基础环节,用户在使用搜索引擎进行查询的时候,使用的是一个词或短语,而到目前为止,搜索引擎仅能提供整个页面,不能返回与用户查询条件相匹配的信息。因此搜索引擎还需对原始页面进行分析、处理。 第 64页 网 页 正文 信息 关键字 列表 关键字索引 网 页 提取 切词 索引 重组 对网页中非正文信息的过滤。其中,最重要的就是对网页中标签信息的过滤,如HTML标签、JS标签、PHP标签等。 /keyword_density.htm 网页分析、处理流程 第 65页 网 页 正文 信息 关键字 列表 关键字索引 网 页 提取 切词 索引 重组 网页分析、处理流程 为了得到与用户查询相关的数据,搜索引擎还需要对页面中经过提取的正文内容进行切分(“切词”或“分词”),从而形成与用户查询条件相匹配的以关键字为单位的信息列表。 第 66页 网 页 正文 信息 关键字 列表 关键字索引 网 页 提取 切词 索引 重组 网页分析、处理流程 (1)字符串匹配分词 (2)统计分词 第 67页 字符串匹配分词 字符串匹配分词是基于一个足够大、足够权威的“词典”进行的。如果页面上的词与“词典”中的词匹配,则为命中,这样就可以得到一个词或短语。 第 68页 统计分词 统计分词是根据相邻的两个或多个字出现的概率判断这两个或多个字组合后是否会形成一个词,统计分词也常常会结合“词典”进行匹配,来识别一些新的词汇。 第 69页 关键字编号 网页编号 关键字 次数 位置 记录1: 1 1 K1 3 A1 A5 A7 记录2: 2 1 K2 2 A3 A9 记录3: 3 1 K3 3 A6 A10 A13 记录3: 4 1 K4 1 A2 网页正文在经过切词系统处理后,形成了关键字列表。 第70页 A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 A11 A12 A13 记录1:关键字K1在页面中出现3次,对应页面中的A1、A5、A7区域 第 71页 什么是停止词? 搜索者键入的一些绝非他们想要搜索的无关紧要的词。这样的词会被搜索引擎忽略不计。 的、得、是、a 、 the… 第 31页 并不是每个网站管理员都有Web服务器的操作权限,但很多管理员都需要控制爬虫在网站上的行为。在没有Web服务器的操作权限的情况下,就不能使用robots.txt文件,取而代之的是通过网页中的robots元标签来控制爬虫对网页的访问。 第 32页 html head meta name=“robots” content=“noindex,nofollow” titleweb title/title /head /html 不允许robot索引本网页的内容 不允许robot跟踪网页的链接 第 33页 meta name=“robots” content=“index, follow” 允许索引和跟踪其中的链接 meta name=“robots” content=“noindex, follow” 不允许索引,允许跟踪其中的链接 meta name=“robots” content=“index, nofollow” 允许索引,不允许跟踪其中的链接 meta name=“googlebot” content=“noarchive ” 只禁止谷歌显示网页的快照 第 34页 robots元标签与robots.txt文件的区别。 robots元标签不能控制单个爬虫的行为,要么都允许,要么都禁止。 第 35页 全文搜索引擎 目录搜索引擎 元搜索引擎 目录搜索引擎 第 36页 搜索引擎优化的主要任务之一就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每个环节都会与搜索引擎工作流程存在必然的联系,研究搜索引擎优化实际上就是对搜索引擎工作过程进行逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。 第 37页 页面收录 页面分析 页面排序 关键字查询 第 38页 页面收录就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储的过程

文档评论(0)

123****6648 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档