第二章 Wb搜索引擎工作原理和体系结构.ppt

第二章 Wb搜索引擎工作原理和体系结构.ppt

  1. 1、本文档共31页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 Web搜索引擎工作原理和体系结构 张 宇 信息检索研究室 计算机科学与技术学院 主要内容 基本要求 网页搜集 预处理 查询服务 体系结构 本章小结 主要内容 基本要求 网页搜集 预处理 查询服务 体系结构 本章小结 基本要求 搜索引擎示意图 基本要求 相关概念 可以接受的时间 即响应时间,通常在“秒”级,是衡量搜索引擎可用性的一个基本指标 匹配 网页中以某种形式包含有 q 的内容 列表 蕴含着一种“序” 基本要求 搜索引擎三段式工作流程 主要内容 基本要求 网页搜集 预处理 查询服务 体系结构 本章小结 网页搜集 搜索引擎软件系统操作的数据 用户查询 内容不可预测 海量网页 数量上动态变化 需要系统去抓取 网页搜集 网页的抓取时机 即时抓取 用户提交查询的时候即时去网上抓取网页 缺点:系统效益不高(重复抓取网页) 预先搜集(直接或间接) 定期搜集 每次搜集替换上一次的内容 优点:实现简单 缺点:时新性(freshness)不高;重复搜集带来的额外宽带开销 增量搜集 网页搜集 网页的抓取时机(续) 增量搜集 开始时搜集一批网页,以后 只搜集新出现的网页 搜集那些在上次搜集后有过改变的网页 发现自从上次搜索后已经不再存在了的网页,并从网页库中删除 优点:每次搜集的网页量不是很大,可以经常启动搜集过程;时新性比较高 缺点:系统实现比较复杂;不仅搜集过程复杂,而且后续创建索引的过程也很复杂 网页搜集 如何抓取网页 爬取 Web上的网页集合看成一个有向图 搜集过程 搜集过程从给定的初始URL集合S(种子)开始 沿着网页中的链接,按照先深、先广或者某种遍历策略,不停地从S中移出URL,下载相应的网页 解析出网页中的超链接URL,看是否已经被访问过,将未访问过的URL加入集合S 网页搜集 如何爬取网页(续) 方法2 系统第一次全面网页搜集后,系统维护相应的URL集合S,以后的搜集基于该集合 每搜到一个网页,如果它发生改变并含有新的URL,则将它们对应的网页也抓取回来,并将这些新的URL也放到集合S中 如果S中某个URL对应的网页不存在了,则将它从S中删除 网页搜集 如何爬取网页(续) 方法3 网站拥有者主动向搜索引擎提交它们的网址(为了达到宣传的目的) 系统在一定时间内(两天到数月不等)定向向那些网站派出“蜘蛛”(spider)程序,扫描该网站所有的网页并将有关信息存入数据库中 主要内容 基本要求 网页搜集 预处理 查询服务 体系结构 本章小结 预处理 关键词的提取 网页源文件 文字内容 HTML标记 为支持后面的查询服务,需要从网页源文件中提取出能够代表它的内容的一些特征 关键词是这种特征最好的代表 词典Σ 分词软件(切词软件) 网页由一组词来表示:p = { t1, t2, t3, … tn}, ti ∈Σ 去除停用词(stop words) 预处理 重复或转载网页的清除 重复网页 网页的内容完全相同,未加任何修改 转载网页 网页的内容基本相同,但有可能有一些额外的编辑信息 天网统计结果表明,网页的重复率大约为4(2003) 搜集网页时消耗机器时间和网络带宽资源 出现在查询结果中,会引起用户的抱怨 预处理 链接分析 传统信息检索 仅仅分析正文内容的文字,最多加上 词频,TF(term frequency) 文档频率:DF(document frequency) 引入HTML标记,会有所改善 H1和/H1之间的内容要比H4和/H4之间的内容重要 指向其他文档、网页的链接 “北大学报”、“北京大学学报社会科学版” 预处理 网页重要程度计算 搜索引擎返回给用户的是:一个和用户查询相关的结果列表 一个网页如何比另一个网页重要? 被引用多的就是重要的(Google,PageRank) 主要内容 基本要求 网页搜集 预处理 查询服务 体系结构 本章小结 查询服务 预处理之后得到的结果的内部表示: 原始网页文档 URL和标题 编号 所含的重要关键词的集合(以及它们在文档中出现的位置信息) 其他一些指标(重要程度、分类代码) 查询服务 查询服务子系统的功能 系统得到一个关键词输入,能迅速给出相关文档编号的集合输出,从“集合”生成 “列表” 倒排文件的生成(放到预处理阶段更合适) 查询服务 查询方式和匹配 查询方式:用户提交查询的形式 利用词或者短语来直接表达用户信息需求 代表了大多数的情况 实现起来比较简单 q0表示用户提交的原始查询 q0 = “网络与分布式系统实验室” 分词:“网络 与 分布式 系统 实验室” 删除那些没有查询意义或者在每篇文档中都会出现的词 最后形成参加匹配的查询词表:q = {网络,分布式,系统,实验室} 查询服务 结果排序 给定一个查询结果的集合:R = {r1, r2, ……rn} 列表,就是按照某种评

文档评论(0)

jiqingyong1 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档