第六章 网络信息检索第二节.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索与网络应用 第二节搜索引擎原理及使用方法介绍 搜索引擎 搜索引擎的定义 搜索引擎的种类 搜索引擎的检索方法 搜索引擎的查询规则 特种搜索引擎 主要搜索引擎介绍 搜索引擎的定义 搜索引擎(Search Engine) 实际是个专用的WWW服务器,它存有庞大的索引数据库,收集了全世界上百万甚至上千万个WWW主页的文字信息。为了收集这些信息,有个自动搜索程序沿着WWW的超链,经常搜索整个WWW上的主页,然后为这些主页上的每个文字建立索引并送回集中管理的索引数据库,索引信息包括文档的WWW地址,每个文档中单字出现的频率、位置等等。 搜索引擎的定义 搜索引擎是用来对网络信息资源管理和检索的一系列软件,是一种在Internet网上查找信息的工具。 它将各站点按主题内容组织成等级结构。用户可以依照这个目录逐层深入,直至找到所需信息;也可以在它们的各种程序中键入要查找的关键词,引擎就会在自己的数据库中找出与该词相匹配的URL,并将结果显示给用户,用户可根据显示的结果选择并访问相关站点。 搜索引擎的功能 搜索引擎的第一个功能 收集信息建立索引数据库,并自动跟踪信息源的变动,不断更新索引记录,定期维护数据库。 搜索引擎的第二个功能 提供网络的导航与检索服务。 专家从茫茫网海中挑选质量较高的网页,以某种分类。 搜索引擎提供的主题检索途径,将用户需求与索引数据库匹配,显示结果及网页索引信息,进而由URL链接出原始信息,从而使用户能够从网上纷繁复杂的信息中迅速筛选出符合用户需求的信息。 搜索引擎的分类 根据信息覆盖范围及适用用户群分类 综合性搜索引擎 综合性搜索引擎主要以Web网页和新闻组为搜索对象,信息覆盖范围广,适用用户广泛。如:GOOGLE、Yahoo、AltaVista、Infoseek等均属于综合性搜索引擎。 专用性搜索引擎 针对特定用户群推出专用性搜索引擎,可供查找某一特定领域的信息。如:Deja News、Iiszt、Softseek等均属于专用性搜索引擎 根据组织信息方式分类 目录式分类搜索引擎(网站级) 目录式分类搜索引擎(Directory)将信息系统地加以归类,利用传统的信息分类方式来组织信息,用户按类查找信息。 这种搜索引擎特别适合那些希望了解某一方面或范围内信息但又没有明确搜索目的的用户使用。 最具代表性的目录式分类搜索引擎是YAHOO 目录式分类搜索引擎由于网络目录中的网页是专家人工精选得来,故网页内容丰富,有较高的查准率,但其查全率低,搜索范围较窄。 根据组织信息方式分类 全文搜索引擎(网页级) 最常用的全文搜索引擎是百度和谷歌 全文搜索引擎的特点是查全率高,查准率低,搜索范围较广,提供的信息多而全,缺乏清晰的层次结构,查询结果中重复链接较多。 全文搜索(Full—Text Search)引擎是指能够对网站的每个网页中的每个单字进行搜索的引擎。 根据搜索范围分类 独立搜索引擎 独立搜索引擎建有自己的数据库,搜索时通常只检索自己的数据库,并根据数据库的内容反馈出相应的查询信息或链接站点。 目前常见的搜索引擎如Yahoo、Lycos、 Infoseek、AltaVista等均属于独立搜索引擎。独立搜索引擎又称为常规搜索引擎。 元搜索引擎 元搜索引擎(或者称为集搜索引擎)是一种调用其他独立搜索引擎的引擎。搜索时,它用用户的查询词同时去查询若干其他搜索引擎,作出相关度排序后,将查询结果显示给用户。 用户利用这种引擎能够获得更多、更全面的网址。但缺点是查询时间长。 例如:搜魅网(someta):集合了百度、google、搜狗、雅虎多家主流搜索引擎的结果,提供网页、资讯、网址导航等聚合查询。还有比比猫等。 搜索引擎的检索方法 简单搜索(Simple Search):指输入一个单词(关键词),提交搜索引擎检索后反馈结果,也叫单词搜索。这是最基本的检索方法。 ? 搜索引擎的检索方法 词组搜索(Phrase Search):指输入两个单词以上的词组(短语),提交搜索引擎检索并反馈结果,也叫短语搜索。现有搜索引擎一般都约定把词组或短语放在引号“”内。 搜索引擎的检索方法 高级搜索(Advanced Search):指用布尔逻辑组配方式检索,也叫定制搜索。常用的逻辑运算为AND(和)、OR(或)、NOT(非), 对A、B两词而言, A AND B是指取A和B的公共部分(交集),A OR B是指取A和B的全部(并集),A NOT B是指取A中排除B后的部分。A、B本身为多词时,可以用括号()分别括起来作为一个逻辑单位。 此外,还有NEAR(邻近)算符,A NEAR(n) B表示A词与B词之间相隔不超过n 词,n 的具体值各引擎要求不一,WebCrawler直接要求用NEAR/n形式指明。恰当应用AND(和)、OR(或

文档评论(0)

wtw4044 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档