第9章搜索引擎概述.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第9章搜索引擎概述

元搜索引擎(META Search Engine):这类搜索引擎一般都没有自己网络机器人及数据库,它们的搜索结果是通过调用、控制和优化其它多个独立搜索引擎的搜索结果并以统一的格式在同一界面集中显示。元搜索引擎虽没有“网络机器人”或“网络蜘蛛”,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术。比如“metaFisher元搜索引擎” (),它就调用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的数据。 搜索引擎包含的技术 信息抓取技术(爬虫,从互联网上抓取信息,建立网页关系模型) 信息提取技术(解析HTML文档,并消除重复信息) 自然语言处理技术(对网页内容进行分词) 信息摘要技术和文本自动归类技术(根据分词,提炼中心概念,并以此进行文档自动归类) 信息检索技术(建立索引和信息检索) 分布式计算技术(分布式搜索/分布式缓存/分布式文件系统) 机器学习技术(Machine Learning)(利用机器学习的方法计算文档的相关性) 系统性能优化技术(根据系统运行特征,调整编译器,内存和硬盘的速度) 搜索引擎知识分类 数据结构+计算机算法+分布式计算+自然语言处理+人工智能+操作系统 衡量搜索引擎的指标 响应时间(response time):完成一次请求所消耗的时间 精确度(precision):查询结果当中与查询关键字意思相同的比率 召回率(recall):查询结果与所有数据中应该被查询到的比率,也称为查全率 网页搜索技术特点(Web Search) 查询非结构化的数据(例如:HTML) 内容复杂,信息多(一个网页有几M) 查询总数据量大(几十亿级别,搜狗号称可以搜索100亿中文网页) 决定网页相关性的因素多(PageRank,用户行为),计算方法复杂(MLR) 网页重复或相似情况比较严重 作弊网页比较多,并且随时都在变化 垂直搜索技术特点(Vertical Search) 查询结构化的数据(来源于数据库, word文档, pdf文档等) 搜索逻辑规则特殊(例如:关键字可以不完全匹配) 专业化搜索要求高(智能搜索,联想搜索) 更多查询功能(范围搜索,属性搜索,区域搜索) 数据更新要求即时(达到秒级更新速度) 信息抓取技术--爬虫(crawler) Nutch爬虫部分 /nutch/ 爬虫遵守的规范Robot.txt 信息提取技术 Xml Parser libxml2 / Html Parser / 文档相关性计算技术 Machine Learning for Ranking 搜索结果评价系统(Metrics) 跟搜索技术有关的开源项目 Lucene官方 / Lucene中国 / Berkeley DB 中国讨论区 / * * * * * * * * * * * * * * * * * 9.4.1抓取网页 每个独立的搜索引擎都有自己的网页抓取程序(spider,也称为网络机器人)。Spider顺着网页中的超链接,连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 9.4.2处理网页 搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 9.4.2 分析器 ????对搜集器搜集来的网页信息或者下载的文档一般要首先进行分析,以用于建立索引,文档分析技术一般包括: 分词(有些仅从文档某些部分抽词,如Altavista)、过滤(使用停用词表stoplist)、转换(有些对词条进行单复数转换、词缀去除、同义词转换等工作),这些技术往往与具体的语言以及系统的索引模型密切相关。 9.4.3 索引器 ????索引器的功能是对搜索器所搜索的信息进行分析处理,从中抽取出索引项,用于表示文档以及生成文档库的索引表。索引项有元数据索引项和内容索引项两种: 元数据索引项与文档的语意内容无关,如作者名、URL、更新时间、编码、长度、链接流行度等等; 内容索引项是用来反映文档内容的,如关键词及其权重、短语、单字等等。 结果排序技术 技术背景 关键技术需求 倒排索引原理图 ?9.4.4 检索器 ????检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。检索器常用的信息检索模型有集合理论模型、代数模型、概率模型和混合模型等多种,可以查询到文本信息中的任意字词,无论出现在标题还是正文中。 9.4.4 检索器 用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档