第九章搜索引擎工作原理解析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九章搜索引擎工作原理解析.ppt

2.结果排序 在搜索引擎的早期采用传统信息检索领域成熟的基于词汇出现频率的方法。由于网页编写的自发性、随意性较强,仅仅针对词的出现来决定文档的顺序,在Web信息检索上表现明显的缺点,需要其它技术补充,如Pagerank技术 即:通过在预处理阶段为每篇网页形成一个独立于查询词(和网页内容无关)的重要性指标,将它和查询过程中形成的相关性指标结合形成一个最终的排序,是目前搜索引擎查询结果排序的主要方法。 3.文档摘要 搜索引擎给出的检索结果是一个有序的结果列表,每一个条目有三个基本元素:标题、网址和摘要。其中摘要需要从网页正文中生成。 从一篇文章中生成一个恰当的摘要是自然语言理解领域的一个重要课题,已经取得了不少成果。但是相关技术应用到搜索引擎上有两个基本困难:一是网页的写作不规范,文字比较随意,因此从语言理解的角度难以做好;二是复杂的语言理解算法耗时太多,不适应搜索引擎高效处理海量网页信息的需求。 根据统计,在高档微机上每秒钟只能完成10篇左右网页的分词工作(基于文本理解的基础)。 搜索引擎在生成摘要时要简便得多,基本上可以归纳为两种方式: 一是静态方式,即独立于查询,按照某种规则,事先在预处理阶段从网页内容提取出一些文字,如摘取网页正文的开头512个字符(对应256个汉字),或者将每一个段落的第一个句子拼起来等等。 这种方式的优点? 动态方式的优点是实现简单,但是摘要和查询有时无关。其实当用户输入某个查询词,他一般是希望摘要中能够突出显示和查询直接对应的文字,希望摘要中出现与其关心相关的句子,因此有第二种方式,即动态摘要。 二是动态摘要。即在响应用户查询的时候,根据查询词在文档中出现的位置,提取出查询词周围相关文字并返回给用户,这是目前大多数搜索引擎采取的方式。缺点是? 由于一篇文档会含有不同的查询词,因此动态摘要技术可能把同一个文档形成不同的摘要文字)为了保证查询的效率,需要在预处理阶段分词的时候记住每个关键词在文档中出现的位置。 信息查询的系统结构 查询代理 Web搜索 记录 日志 经过预处理,传递到服务阶段的数据包括索引网页库和倒排文件,倒排文件中包括倒排表和索引词表。 查询代理接受用户输入的查询词语,切分后,从索引词表和倒排文件中检索获得包含查询短语的文档并返回用户。 因为内存与外存(磁盘)的响应时间差距很大,在实际使用的搜索引擎中,为了提高响应时间,索引词表是驻留在内存中的,用户近期查询过的网页结果信息也是缓存在内存中的。如果内存足够大,所有倒排表项也可以驻留在内存中。只有这样,才能保证在大数据量和大访问量(如每秒1000个查询)的情况下,搜索引擎在秒级内得到响应。 (四)搜索引擎总的体系结构 大规模的搜索引擎通常每天搜集上百万网页,而且是持续进行,并且稳定地提供网页信息,其核心是要综合解决效率、质量和“礼貌”问题,即“控制器”的作用。 下图为搜索引擎的体系结构。 控制器 索引器 索引数据库 搜集器 日志分析器 用户行为日志数据库 用户 WWW 原始数据库 检索器 用户接口 1.效率 所谓效率,即利用尽量少的资源(计算机设备、网络宽带、时间)来完成预定的网页搜集量。 ①让网络通信时间和存放网页的磁盘访问时间重叠起来。由于从网上抓取一篇网页通常需要秒量级的等待网络通信时间,同时启动多个抓取进程∕线,或者利用操作系统提供的异步通信机制,让多个网络通信时间重叠起来。同时启动抓取进程的数量取决于硬件条件和搜集软件的设计。 ②并不是设备越多越好,一般不超出10台计算机(宽带瓶颈问题) ③网络的服务器方,来不及提供所需的网页。 2.礼貌 将对搜集活动的关注过分集中在几个网站上、或者一下段时间里从一个网站抓取太多的网页还可能引起其它的严重后果,即所谓的“礼貌”问题。 一般网站希望其网页被搜索引擎抓取,从而有可能得到更多的访问流量,但是另一方面网站也不希望由于搜索引擎的密集抓取活动阻碍普通用户通过浏览器的访问,使那些用户得到这个网站访问困难的印象。 因此适当地规划网页的抓取,限制单位时间内对一个网站抓取网页的数量(例如每天不超过2万个,或者至少每隔30秒才对一个网站发出下一个网页请求等等),是大规模搜索引擎必须认真对待的问题。 3.质量问题 在有限的时间,搜集有限的网页,希望是比较重要的网页。一般来说,靠近主页的网页通常PageRank值较高。所以,首先得到尽量多的主页,然后从主页开始的先宽搜索是较好的策略。 还可以将以上三种方法相互组合。如可以将正向最大匹配方法和逆向最大匹配方法相互结合起来构成双向匹配法。由于汉字单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般来说,逆向匹配的切分精度高于正向匹配,遇到的歧义现象也较少。 统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错

文档评论(0)

风凰传奇 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档