搜索引擎的基本结构.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2.1 搜索引擎的基本结构 及工作原理 检索器 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。主要过程如下:检索器对用户接口 UI(User Interface)提出的查询要求进行递归分析,在 UI中一般采用基本语法来组织要检索的条件。 用户接口 用户接口(UI)的作用是输入用户查询,显示查询结果,提供用户相关性反馈机制。UI的主要目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。UI的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。用户输入接口可以分为简单接口和复杂接口两种。 2.2 网页的搜集 两种基本的搜集方法 (1)定期搜集法 每次搜集替换上一次的内容,我们称之为“批量搜集”。由于每次都是重新来一次,对于大规模搜索引擎来说,每次搜集的时间通常会花费几周的时间。 (2)增量搜集法 最初时搜集好一批数据,以后只是搜集新出现的网页和改变的网页并删除不再存在的网页。 2.3 网页内容的提取 1.关键词的提取 网页处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所包含的关键词。对于中文来说,就是要根据一个词典Σ,用一个“切词软件”,从网页文字中切出Σ所含的词语来。这样一篇网页就可以由一组词来近似代表了,p={t1,t2,…,tn}。 2.重复或转载网页的消除 消除内容重复或主题重复的网页是网页处理阶段的一个重要任务。 我们知道Web上的信息存在大量的重复现象。统计分析表明,网页的重复率平均大约为4。这种现象对于搜索引擎来说,它在搜集网页时要消耗机器时间和网络带宽资源,而且如果在查询结果中出现,将消耗了查询者计算机的资源。 3.链接分析 从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们能依据关键词和词在文档集合中出现的频率来统计该词的相对重要性以及和某些内容的相关性。 尤其HTML文档中所含的指向其他文档的链接信息是人们特别关注的对象,认为它们不仅给出了网页之间的关系,而且还对判断网页的内容有很重要的作用。 4.网页重要程度的计算 如何理解一篇网页比另外一篇网页重要?人们参照科技文档重要性的评估方式,核心想法就是“被引用多的就是重要的”。“引用”这个概念恰好可以通过在网页之间的超链进行体现,Google核心技术的PageRank就是这种思路。 网页和文档的不同点,即一些网页主要是大量对外的链接,其本身基本没有一个明确的主题内容,而另外有些网页则被大量的其他网页链接。从某种意义上讲,这形成了一种对偶的关系,这种关系使得人们可以在网页上建立另外一种重要性指标。 2.4 查询服务 查询服务 为了完成查询服务,我们需要有相应的元素来进行表达,这些元素主要有:原始网页文档、URL和标题、编号、所含的重要关键词的集合以及它们在文档中出现的位置信息、其他一些指标,如重要程度、分类代码等。 用户通过搜索引擎看到的不是一个“集合”,而是一个“列表”。如何从集合生成一个列表,是服务子系统的主要工作。服务子系统的工作原理,主要有四个方面。 1.查询方式和匹配 查询方式指的是系统允许用户提交查询的形式。对于普通用户来说,最自然的方式就是“需要查询什么就输入什么”。目前用一个词或者短语来进行查询,依然是主流的搜索引擎查询模式。这种模式比较简单且容易实现。 词的识别是搜索引擎中非常关键的一部分,通过字典文件对网页内的词进行识别。 索引库的建立 索引库的建立是数据索引中结构最复杂的一部分。一般需要建立两种索引:文档索引和关键词索引。 文档索引分配每个网页一个唯一的docID号,根据docID索引出在这个网页中出现过多少过wordID,每个wordID出现的次数、位置、大小写格式等,形成docID对应wordID的数据列表; 关键词索引其实是对文档索引的逆索引,根据wordID索引出这个词出现在那些网页(用wordID表示),出现在每个网页的次数、位置、大小写格式等,形成wordID对应docID的列表。 结果排序 结果排序就是将查询结果的集合在屏幕上以列表的方式显示出来。 所谓列表,就是按照某种评价方式,确定出查询结果集合中元素的顺序,让这些元素以某种顺序呈现出来,这就是相关性。 相关性是形成这种查询顺序的基本因素,从原理上讲相关性不仅和查询词有关,而且还和用户的背景,以及用户的查询历史有关。 文档摘要 搜索引擎给出的结果是一个有序的条目列表,每一个条目有三个基本的元素:标题、网址和摘要。其中的摘要需要从网页正文中生成。 搜索引擎在生成摘要时可以归纳为两种方式:一种是静态方式,即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出一些文字。 另一种是“动态摘要”方式,即在响应查询的时候,根据查询词在文

文档评论(0)

好文精选 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档