第二章 Wb搜索引擎工作原理和体系结构.ppt

下载文档

19
0
约3.06千字
约 31页
2017-01-12 发布于浙江
举报
版权申诉
保障服务

第二章 Wb搜索引擎工作原理和体系结构.ppt

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第二章 Web搜索引擎工作原理和体系结构张宇信息检索研究室计算机科学与技术学院主要内容基本要求网页搜集预处理查询服务体系结构本章小结主要内容基本要求网页搜集预处理查询服务体系结构本章小结基本要求搜索引擎示意图基本要求相关概念可以接受的时间即响应时间，通常在“秒”级，是衡量搜索引擎可用性的一个基本指标匹配网页中以某种形式包含有 q 的内容列表蕴含着一种“序” 基本要求搜索引擎三段式工作流程主要内容基本要求网页搜集预处理查询服务体系结构本章小结网页搜集搜索引擎软件系统操作的数据用户查询内容不可预测海量网页数量上动态变化需要系统去抓取网页搜集网页的抓取时机即时抓取用户提交查询的时候即时去网上抓取网页缺点：系统效益不高（重复抓取网页）预先搜集（直接或间接）定期搜集每次搜集替换上一次的内容优点：实现简单缺点：时新性（freshness）不高；重复搜集带来的额外宽带开销增量搜集网页搜集网页的抓取时机（续）增量搜集开始时搜集一批网页，以后只搜集新出现的网页搜集那些在上次搜集后有过改变的网页发现自从上次搜索后已经不再存在了的网页，并从网页库中删除优点：每次搜集的网页量不是很大，可以经常启动搜集过程；时新性比较高缺点：系统实现比较复杂；不仅搜集过程复杂，而且后续创建索引的过程也很复杂网页搜集如何抓取网页爬取 Web上的网页集合看成一个有向图搜集过程搜集过程从给定的初始URL集合S（种子）开始沿着网页中的链接，按照先深、先广或者某种遍历策略，不停地从S中移出URL，下载相应的网页解析出网页中的超链接URL，看是否已经被访问过，将未访问过的URL加入集合S 网页搜集如何爬取网页（续）方法2 系统第一次全面网页搜集后，系统维护相应的URL集合S，以后的搜集基于该集合每搜到一个网页，如果它发生改变并含有新的URL，则将它们对应的网页也抓取回来，并将这些新的URL也放到集合S中如果S中某个URL对应的网页不存在了，则将它从S中删除网页搜集如何爬取网页（续）方法3 网站拥有者主动向搜索引擎提交它们的网址（为了达到宣传的目的）系统在一定时间内（两天到数月不等）定向向那些网站派出“蜘蛛”（spider）程序，扫描该网站所有的网页并将有关信息存入数据库中主要内容基本要求网页搜集预处理查询服务体系结构本章小结预处理关键词的提取网页源文件文字内容 HTML标记为支持后面的查询服务，需要从网页源文件中提取出能够代表它的内容的一些特征关键词是这种特征最好的代表词典Σ 分词软件（切词软件）网页由一组词来表示：p = { t1, t2, t3, … tn}， ti ∈Σ 去除停用词（stop words）预处理重复或转载网页的清除重复网页网页的内容完全相同，未加任何修改转载网页网页的内容基本相同，但有可能有一些额外的编辑信息天网统计结果表明，网页的重复率大约为4（2003）搜集网页时消耗机器时间和网络带宽资源出现在查询结果中，会引起用户的抱怨预处理链接分析传统信息检索仅仅分析正文内容的文字，最多加上词频，TF（term frequency）文档频率：DF（document frequency）引入HTML标记，会有所改善 H1和/H1之间的内容要比H4和/H4之间的内容重要指向其他文档、网页的链接 “北大学报”、“北京大学学报社会科学版” 预处理网页重要程度计算搜索引擎返回给用户的是：一个和用户查询相关的结果列表一个网页如何比另一个网页重要？被引用多的就是重要的（Google，PageRank）主要内容基本要求网页搜集预处理查询服务体系结构本章小结查询服务预处理之后得到的结果的内部表示：原始网页文档 URL和标题编号所含的重要关键词的集合（以及它们在文档中出现的位置信息）其他一些指标（重要程度、分类代码）查询服务查询服务子系统的功能系统得到一个关键词输入，能迅速给出相关文档编号的集合输出，从“集合”生成 “列表” 倒排文件的生成（放到预处理阶段更合适）查询服务查询方式和匹配查询方式：用户提交查询的形式利用词或者短语来直接表达用户信息需求代表了大多数的情况实现起来比较简单 q0表示用户提交的原始查询 q0 = “网络与分布式系统实验室” 分词：“网络与分布式系统实验室” 删除那些没有查询意义或者在每篇文档中都会出现的词最后形成参加匹配的查询词表：q = {网络，分布式，系统，实验室} 查询服务结果排序给定一个查询结果的集合：R = {r1, r2, ……rn} 列表，就是按照某种评