第2章了解搜索引擎(1.0)1.ppt

下载文档 降价啦

3
0
约3.6千字
约 27页
2017-09-24 发布于河南
举报
版权申诉
保障服务

第2章了解搜索引擎(1.0)1.ppt

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

* -的例子：电路板厂 –双面电路板单击此处编辑母版标题样式了解搜索引擎第一课了解搜索引擎工作原理了解谷歌PR值计算方法掌握搜索引擎高级指令本章目标搜索引擎工作原理 1、爬行和抓取 2、预处理 3、排名 4、相关性计算搜索引擎工作过程爬行和抓取搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码，存入数据库预处理索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理，以备排名程序调用排名用户输入关键词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面搜索引擎工作原理爬行和抓取（完成数据收集任务）蜘蛛搜索引擎用来爬行和访问页面的程序被称为蜘蛛( spider),也称为机器人(bot)。蜘蛛访问网站页面时类似于普通用户使用的浏览器蜘蛛访问任何一个网站时，都会先访问网站根目录下的robots.txt文件跟踪链接从理论上说，蜘蛛从任何一个页面出发顺着链接都可以爬行到互联网上的所有页面２种爬行策略：深度优先和广度优先爬行和抓取（一）爬行和抓取（续）吸引蜘蛛影响网页被抓取的因素：网站和页面权重页面更新度导入链接与首页点击距离地址库记录已经被发现或抓取的页面地址库中URL来源：人工录入的种子网站蜘蛛抓取页面后，从HTML中解析出新的链接URL，与地址库中的数据进行对比，如果地址库中没有的网址，就存入待访问地址库站长通过搜索引擎网页提交表格提交进来的网址爬行和抓取（二）爬行和抓取（续）文件存储搜索引擎蜘蛛抓取的数据存入原始页面数据库页面数据与用户浏览器得到的HTML是完全一样的每个URL都有一个独特的文件编号爬行时的复制内容检测蜘蛛在爬行和抓取文件时也会进行一定程度的复制内容检测遇到权重很低的网站上大量转载或抄袭时，就不再继续爬行这也是经常在日志文件中发现了蜘蛛，但页面没有被真正收录过的原因爬行和抓取（三）搜索引擎抓取量预处理提取文字搜索引擎预处理就是从HTML文件中去除标签、程序，提取出可以用于排名处理的页面文字内容。如：　从这段代码中仅提取：青大实训地址中文分词中文搜索引擎独有的步骤如：“计算机培训”会被分为：“计算机”“培训”２个词２种分法：一种是词典匹配；另一种是统计分词词典匹配是指将待分析的一段汉字与一个事先造好的词典中的词条进行匹配；匹配法可以分为正向匹配和逆向匹配统计分词方法指的是分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现越多，就越可能形成一个单词预处理（一）预处理（续）去停止词助词：如“的”、“地”、“得” 感叹词：如“啊”、“哈”、“呀” 副词/介词：如“从而”、“以”、“却” 消除噪声与页面主题无关的内容属于噪声，如：版权声明文字、导航条、广告等页面消噪后才是页面主体内容，排名时不使用噪声内容去重识别和删除重复内容的过程称为“去重” 正向索引将提取、分词、消噪、去重后的以词为单位的内容，按照关键词出现的频率、次数、格式、位置进行汇总，并建立索引表预处理（二）预处理（续）正向索引（续）每个文件都对应一个文件ID，文件内容被表示为一串关键词的集合，这样的数据结构就称为正向索引。正向索引不能直接用于排名倒排索引把文件对应关键词的映射转换为关键词到文件的映射如图所示：预处理（三）文件ID 内容文件1 关键词1，关键词2，关键词7，关键词10，……，关键词L 文件2 关键词l，关键词7，关键词30，……，关键词M 文件3 关键词2，关键词70，关键词305，……，关键词Ⅳ …… ? 文件6 关键词2，关键词7，关键词10，……，关键词X ? ? 文件x 关键词7，关键词50，关键词90，……，关键词y 预处理（续）倒排索引（续）关键词是主键，每个关键词都对应着一系列文件，这些文件中都出现了这个关键词当用户搜索某个关键词时，排序程序在倒排索引中定位到这个关键词，就可以马上找出所有包含这个关键词的文件预处理（四）关键词文件关键词1 文件l，文件2，文件15，文件58，……，文件，关键词2 文件l，文件3，文件6，……，文件Ⅲ 关键词3 文件5，文件700，文件805，……，文件H …… ? 关键词文件1，文件2，文件6，……，文件x …… ? 关键词文件80，文件90，文件100，……，文件x 预处理（续）链接关系计算链接指向关系形成了网站和页面的链接权重特殊文件处理 Word、WPS、XLS、PPT、TXT等文件处理暂对图片、视频、Flash这类非文字内容处理较弱预处理（五）排名搜索词处理中文分词去停止词指令处理拼写错误矫正整合搜索触发

您可能关注的文档

文档评论（0）

资料 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第2章了解搜索引擎(1.0)1.ppt