《信息存储与检索》第九章搜索引擎工作原理.ppt

《信息存储与检索》第九章搜索引擎工作原理.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
3.质量问题 在有限的时间,搜集有限的网页,希望是比较重要的网页。一般来说,靠近主页的网页通常PageRank值较高。所以,首先得到尽量多的主页,然后从主页开始的先宽搜索是较好的策略。 (五) 搜索引擎的架构 软件架构 基本的构件 组件及其功能 软件架构 软件构件通常包括软件组件、组件提供的接口以及各组件之间的关系。 基本的构建 搜索引擎的组件主要提供两种功能,即索引处理和查询处理。 索引处理建立可查找的数据结构,查询处理使用这些数据结构和用户查询生成一个排好序的文档列表。 索引处理包括文本采集、文本转换和索引创建。 查询处理包括用户交互、排序和评价。 组件及功能 文本采集(爬虫、信息源、转换、文档数据库) 文本转换(解析器、停用词去除、词干提取、超链接的抽取与分析、信息抽取、分类器) 索引的创建(文档统计、加权、倒排、索引分派) 用户交互(查询输入、查询转换、结果输出) 排序(打分机制、性能优化、分布式) 评价(日志、排序分析、性能分析) HTML文档中所含的指向其他文档的链接信息是近几年来特别被关注的对象。不仅给出了网页之间的关系,而且还可以据此判断网页的内容有重要的作用。 4.网页重要程度的计算 参照科技文献重要性的评估方式,其核心是“被引用多的就是重要的”,形成了排序结果的重要参数。 网页和文献不同,一些网页主要大量对外链接,反之一些网页则被大量的其他网页链接,这种对偶关系,可以建立一种重要性指标。 所以搜索引擎目前实际上追求的是统计意义上的满意(多数情况下查询结果更符合用户的要求,而不是所有情况下都如此),因为面对的是多种多样的用户,加之查询的自然语言风格,对同样的查询需求返回的相同的结果列表不可能使所有的用户满意。 预处理的系统结构 索引 索引网页库 分析网页 建立倒排索引 倒排表 索引词表 网页的预处理步骤:①为原始网页建立索引,实现索引数据库,有了索引就可以为搜索引擎提供网页快照功能; ②针对索引网页库进行网页切分,将每一篇网页转化为一组词的集合; ③将网页到索引词的映射转化为索引词到网页的映射,形成倒排文件(包括倒排表和索引词表),同时将网页中包含的不重复的索引词汇聚成索引词表。 基于索引的检索技术非常适应于大规模、稳定的或周期性变化的文本文档库,如今绝大部分搜索引擎采用的都是基于索引的检索技术 网页的预处理处于搜索引擎第三阶段的中间,所产生的数据都是中间数据,如果不提供必要的应用程序接口,难以作为数据产品提供给其他程序使用。 (三)查询服务 如上所述,从一个原始网页集合S开始,预处理过程得到的是对S的一个子集的元素的某种内容表示,这种表示构成了查询服务的直接基础。 对每个元素来说,这种表示至少包含:原始网页文档、URL和标题、编号、所含重要关键词的集合(以及其在文档中出现的位置信息)和其他一些指标(如重要程度、分类代码等) 系统关键词总体的集合和文档的编号一起构成了一个倒排文档结构,使得一旦得到一个关键词的输入,系统能迅速给出相关文档编号的集合输出。 但是呈现在用户的目前是一个列表,而不是集合,所以如何从集合生成列表是服务子系统的主要工作。 服务子系统是服务过程中涉及的相关软件程序,其工作原理主要有以下三方面。 1.查询方式和匹配 用一个词或短语来直接表达信息需求,希望网页中含有该词或该短语中的词,是主流搜索引擎查询方式。 通过分词或切词将用户的查询原始短语形成一个用于参加匹配的查询词表,对应倒排文件中的一个倒排表(文档编号的集合),两者的交集即为对应查询的结果文档集合,从而实现查询和文档的匹配。 2.结果排序 在搜索引擎的早期采用传统信息检索领域成熟的基于词汇出现频率的方法。由于网页编写的自发性、随意性较强,仅仅针对词的出现来决定文档的顺序,在Web信息检索上表现明显的缺点,需要其它技术补充,如Pagerank技术 即:通过在预处理阶段为每篇网页形成一个独立于查询词(和网页内容无关)的重要性指标,将它和查询过程中形成的相关性指标结合形成一个最终的排序,是目前搜索引擎查询结果排序的主要方法。 3.文档摘要 搜索引擎给出的检索结果是一个有序的结果列表,每一个条目有三个基本元素:标题、网址和摘要。其中摘要需要从网页正文中生成。 从一篇文章中生成一个恰当的摘要是自然语言理解领域的一个重要课题,已经取得了不少成果。但是相关技术应用到搜索引擎上有两个基本困难:一是网页的写作不规范,文字比较随意,因此从语言理解的角度难以做好;二是复杂的语言理解算法耗时太多,不适应搜索引擎高效处理海量网页信息的需求。 根据统计,在高档微机上每秒钟只能完成10篇左右网页的分词工作(基于文本理解的基础)。 搜索引擎在生成摘要时要简便得多,基本上可以归纳为两种方式: 一是静态方式,即独立于查询,按照某种规则,事先在预处理阶段从网页内容

文档评论(0)

autohhh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档