网站大量收购闲置独家精品文档,联系QQ:2885784924

第2章 了解搜索引擎(1.0)1.ppt

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* -的例子:电路板厂 –双面电路板 单击此处编辑母版标题样式 了解搜索引擎 第一课 了解搜索引擎工作原理 了解谷歌PR值计算方法 掌握搜索引擎高级指令 本章目标 搜索引擎工作原理 1、爬行和抓取 2、预处理 3、排名 4、相关性计算 搜索引擎工作过程 爬行和抓取 搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码,存入数据库 预处理 索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用 排名 用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面 搜索引擎工作原理 爬行和抓取(完成数据收集任务) 蜘蛛 搜索引擎用来爬行和访问页面的程序被称为蜘蛛( spider),也称为机器人(bot)。 蜘蛛访问网站页面时类似于普通用户使用的浏览器 蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件 跟踪链接 从理论上说,蜘蛛从任何一个页面出发顺着链接都可以爬行到互联网上的所有页面 2种爬行策略:深度优先和广度优先 爬行和抓取(一) 爬行和抓取(续) 吸引蜘蛛 影响网页被抓取的因素: 网站和页面权重 页面更新度 导入链接 与首页点击距离 地址库 记录已经被发现或抓取的页面 地址库中URL来源: 人工录入的种子网站 蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果地址库中没有的网址,就存入待访问地址库 站长通过搜索引擎网页提交表格提交进来的网址 爬行和抓取(二) 爬行和抓取(续) 文件存储 搜索引擎蜘蛛抓取的数据存入原始页面数据库 页面数据与用户浏览器得到的HTML是完全一样的 每个URL都有一个独特的文件编号 爬行时的复制内容检测 蜘蛛在爬行和抓取文件时也会进行一定程度的复制内容检测 遇到权重很低的网站上大量转载或抄袭时,就不再继续爬行 这也是经常在日志文件中发现了蜘蛛,但页面没有被真正收录过的原因 爬行和抓取(三) 搜索引擎抓取量 预处理 提取文字 搜索引擎预处理就是从HTML文件中去除标签、程序,提取出可以用于排名处理的页面文字内容。如:  从这段代码中仅提取:青大实训地址 中文分词 中文搜索引擎独有的步骤 如:“计算机培训”会被分为:“计算机”“培训”2个词 2种分法:一种是词典匹配;另一种是统计分词 词典匹配是指将待分析的一段汉字与一个事先造好的词典中的词条进行匹配;匹配法可以分为正向匹配和逆向匹配 统计分词方法指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词 预处理(一) 预处理(续) 去停止词 助词:如“的”、“地”、“得” 感叹词:如“啊”、“哈”、“呀” 副词/介词:如“从而”、“以”、“却” 消除噪声 与页面主题无关的内容属于噪声,如:版权声明文字、导航条、广告等 页面消噪后才是页面主体内容,排名时不使用噪声内容 去重 识别和删除重复内容的过程称为“去重” 正向索引 将提取、分词、消噪、去重后的以词为单位的内容,按照关键词出现的频率、次数、格式、位置进行汇总,并建立索引表 预处理(二) 预处理(续) 正向索引(续) 每个文件都对应一个文件ID,文件内容被表示为一串关键词的集合,这样的数据结构就称为正向索引。 正向索引不能直接用于排名 倒排索引 把文件对应关键词的映射转换为关键词到文件的映射 如图所示: 预处理(三) 文件ID 内容 文件1 关键词1,关键词2,关键词7,关键词10,……,关键词L 文件2 关键词l,关键词7,关键词30,……,关键词M 文件3 关键词2,关键词70,关键词305,……,关键词Ⅳ …… ? 文件6 关键词2,关键词7,关键词10,……,关键词X ? ? 文件x 关键词7,关键词50,关键词90,……,关键词y 预处理(续) 倒排索引(续) 关键词是主键,每个关键词都对应着一系列文件,这些文件中都出现了这个关键词 当用户搜索某个关键词时,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件 预处理(四) 关键词 文件 关键词1 文件l,文件2,文件15,文件58,……,文件, 关键词2 文件l,文件3,文件6,……,文件Ⅲ 关键词3 文件5,文件700,文件805,……,文件H …… ? 关键词 文件1,文件2,文件6,……,文件x …… ? 关键词 文件80,文件90,文件100,……,文件x 预处理(续) 链接关系计算 链接指向关系形成了网站和页面的链接权重 特殊文件处理 Word、WPS、XLS、PPT、TXT等文件处理 暂对图片、视频、Flash这类非文字内容处理较弱 预处理(五) 排名 搜索词处理 中文分词 去停止词 指令处理 拼写错误矫正 整合搜索触发

您可能关注的文档

文档评论(0)

资料 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档