Internet信息检索工具—搜索引擎研讨.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Internet信息检索工具—搜索引擎研讨

Internet 信息检索工具—搜索引擎 1、什么是搜索引擎? 简单地说,所谓搜索引擎,就是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。 它能够通过Internet 接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址。 它是一些在Web 中主动搜索信息(网页上的单词和特定的描述内容)并将其自动索引的Web 网站,其索引内容存储在可供检索的大型数据库中,建立索引和目录服务。一些搜索引擎搜索网页的每一个单词,而另一些搜索引擎则只搜索网页的前二百至五百个单词。 当用户输入关键词(Keyword)查询时,该搜索引擎会告诉用户包含该关键词信息的所有网址,并提供通向该网络的链接。搜索引擎既是用于检索的软件又是提供查询、检索的网站。所以,搜索引擎也可称为Internet 上具有检索功能的网页。 2、搜索引擎的工作原理 搜索引擎由网上机器人(Spider 或Robot)自动在网页上按某种策略进行远程数据的搜索与获取,并生成本地索引。 Spider 或Robot 是一种软件,它沿着WWW文件的链接在网上漫游,记录URL、文件的简明摘要、关键字或索引,形成一个很大的数据库,这种数据库包括标题、摘要、关键词和URL、文件的大小、语种以及词出现的频率。 3.搜索引擎的构成 一个搜索引擎由搜索器、索引器、检索器和用户接口4个部分组成。 (1)搜索器 即通常所说的蜘蛛(Spider)、机器人(Robot)、爬行者(Webcrawler)等,搜索器的功能是在Internet中漫游,发现和搜集信息。还要定期更新已经搜集过的旧信息,避免死链接和无效链接。 (2)索引器 即索引软件,主要是用于对网络搜索软件采集到的网页信息进行自动标引,建立可供检索的Web索引数据库。 (3)检索器 检索器作为用户提问与数据库的接口,负责接收用户查询请求和对该请求进行检索,对将要输出的结果进行排序,并将检索结果返回用户界面。 搜索引擎的数据检索方式主要是关键字的匹配方式 , 如泛匹配、模糊匹配、正则匹配以及多关键字的处理方式等 。并对查询结果根据某种算法和规则评分和排序。 (4)用户接口 供用户输入查询,显示匹配结果。用户接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。 4、搜索引擎的主要任务 (1) 信息搜集 各个搜索引擎都派出绰号为蜘蛛(Spider)或机器人(Robots)的“网页搜索软件”,在各网页中爬行,访问网络中公开区域的每一个站点并记录其网址,将它们带回搜索引擎,从而创建出一个详尽的网络目录。由于网络文档的不断变化,机器人也不断地把以前已经分类组织的目录更新。 (2) 信息处理 将“网页搜索软件”带回的信息进行分类整理,建立搜索引擎数据库,并定时更新数据库内容。 在进行信息分类整理阶段,不同的搜索引擎会在搜索结果的数量和质量上产生明显的差异。有的搜索引擎把“网页搜索软件”发往每一个站点,记录下每一页的所有文本内容,并收入到数据库中从而形成全文搜索引擎;而另一些搜索引擎只记录网页的地址、篇名、特点的段落和重要的词。故有的搜索引擎数据库很大,而有的则较小。当然,最重要的是数据库的内容必须经常更新、重建,以保持与信息世界的同步发展。 (3) 信息查询 每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。 分类目录查询是以资源结构为线索,将网上的信息资源按内容进行层次分类,使用户能依线性结构逐层逐类检索信息。 关键词查询是利用建立的网络资源索引数据库向网上用户提供查询“引擎”。用户只要把想要查找的关键词或短语输入查询框中,并按“Search”按钮,搜索引擎就会根据输入的提问,在索引数据库中查找相应的词语,并进行必要的逻辑运算,最后给出查询的命中结果(均为超文本链接形式)。用户只要通过搜索引擎提供的链接,就可以立刻访问到相关信息。 5、搜索引擎的种类 检索型搜索引擎:它使用自动索引软件来发现、收集并标引网页,建立数据库,并以Web形式让用户找到所需信息资源。比较著名的有:AltaVista、Google、天网、百度、悠游等。 目录型搜索引擎:这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是以卓越的分类目录型导航服务而称誉全球,典型的分类目录搜索引擎如Yahoo ( /) 混合型搜索引擎:它兼有检索型和目录型两种方式。如:新浪、搜狐、网易、中华等门户网站。 多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索 的检索

文档评论(0)

骨干 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档