网站大量收购独家精品文档,联系QQ:2885784924

20150429网络信息检索3_搜索引擎概述.docVIP

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
20150429网络信息检索3_搜索引擎概述.doc

幻灯片1 网络信息搜索引擎 概 述 Network Information Search Engines 搜索引擎的含义 搜索引擎 (Searching Engine)是指一种能够自动对网络资源建立索引或进行主题分类,并通过查询语法为用户返回相匹配资源的系统。 搜索引擎使用某些软件程序(如Robots、 Spiders或 Crawlers)把 Internet上的所有信息自动归类或者人为地把某些数据归入某类别,形成一个可供查询的大型数据库。 幻灯片4 搜索引擎的分类 按搜索机制分类 按搜索内容分类 按信息采集方法分类 幻灯片5 按搜索机制分类 目录型搜索引擎 把搜集到的信息资源按照一定的主题分门别类,建立多级目录。大目录下面包含子目录,子目录下面又包含子目录……如此下去,建立多层具有包含关系的目录。用户查找信息时,采取逐层浏览打开目录,逐步细化,就可查到所需信息。 关键词型搜索引擎 关键词型搜索引擎是通过用户输入关键词来查找所需的信息资源,这种方式方便直接,而且可以使用逻辑关系组合关键词,可以限制查找对象的地区、网络范围、数据类型、时间等,可对满足选定条件的资源准确定位。 混合型搜索引擎 兼有关键词型和目录型两种查找方式,既可直接输入关键词查找特定信息,又可浏览目录了解某领域范围的资源。目前大多数搜索引擎站点都同时提供关键词检索和目录浏览检索。 幻灯片6 幻灯片9 2. 按搜索内容分类 综合型搜索引擎 专业型搜索引擎 特殊型搜索引擎 幻灯片10 (1)综合型搜索引擎 综合型搜索引擎对搜集的信息资源不限制主题范围和数据类型 利用它可以查找到几乎任何方面的信息。 幻灯片11 (2)专业型搜索引擎 专业型搜索引擎只搜集某一行业或专业范围内的信息资源,因此,它在提供专业信息资源方面要远远优于综合型搜索引擎。如IT信息、财经信息、硬件报价、人才求职与招聘信息。 (3)特殊型搜索引擎 特殊型搜索引擎是专门搜集特定类型格式的信息,例如专门搜集电话、人名、地址、图像、股市信息等 按信息采集方法分类 基于蜘蛛程序的机器人搜索引擎 这种搜索引擎由一个称为蜘蛛(Spider)的机器人程序自动访问网站,提取站点上的网页,并根据网页中的链接进一步提取其他网页,或转移到其他站点上。由索引器为搜集到的信息建立索引,并根据用户的查询输入检索索引库,然后将查询结果返回给用户。 该类搜索引擎的优点是信息量大、更新及时、不需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。 (2)目录式搜索引擎 以人工方式或半自动方式搜集信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。 信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。 目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别.用户也可以利用目录提供的搜索功能直接查找一个关键词. 由于目录只在保存的对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,这也是目录与基于机器人的搜索引擎之间的一大区别。 (3)元搜索引擎 元搜索引擎的特点是本身并没有存放网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其他搜索引擎能够接受的命令格式,并访问数个搜索引擎来查询这个关键词,并把这些搜索引擎返回的结果经过处理后再返回给用户。 对于返回的结果系统会进行重复排除、重新排序等处理。服务方式为面向网页的全文检索。 这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。 全文搜索引擎 全文搜索引擎通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户. 是通常概念上的搜索引擎。 从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。 目录索引 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。 用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。 目录索引中最具代表性的莫过于的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、Look Smart等。国内的搜狐、新浪、网易搜索也都属于这一类。

文档评论(0)

zhiminwei + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档