第二节网海寻珠.ppt

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二节网海寻珠.ppt

搜索引擎其实也是一个网站,只不过该网站专门为你提供信息“检索服务”,它使用特有的程序(蜘蛛程序)把因特网上的所有信息归类以帮助人们在浩如烟海的信息海洋中搜寻到自己所需要的信息。 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 1、数据采集:负责按照一定的方式和要求对网络资源进行搜集,并将搜集到的网页信息经网络传输,存储到搜索引擎的临时数据库中。 2、数据分析与标引:负责对收集到的网页信息进行分析,从中提取有检索或查询价值的内容——网页关键词、网页的分类类别等,并对关键词进行相关程度计算。 目录索引类搜索引擎:此类适用于制定主题查找信息。它将各种各样的信息按主题分成一些大类,再按其细目一级级分成小类,直到找到相关信息所在的网址。类似于在图书馆按分类目录查找所需要的图书。 例如:搜狐()是根据中国人的文化传统专门开发设计的目录索引类搜索引擎。 目录型搜索引擎的工作原理 工作原理:目录索引类搜索引擎一般采用人工方式采集和存储网络信息,依靠手工为每个网站确定一个标题,并给出大概的描述,建立关键词索引,将其放入相应的类目录体系中。 目录型搜索引擎的特点: 目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全不用进行关键词查询,仅靠分类目录也可找到需要的信息。 搜索引擎的种类——索引型搜索引擎 ②索引型搜索引擎:也叫关键字搜索引擎或全文搜索引擎,适用于按只字片语查找信息。它根据输入的几个字、词或短语,在其索引数据库里查找与其有关的信息所在的网址。此类搜索适用于不知道确切查找的主题时,输入几个关键词进行信息查找。 例如:百度()是全文搜索引擎的典型代表。 全文搜索引擎 优点:提供网络资源范围广、速度快、更新及时。 缺点:缺乏人工干预,所以提供的数据差。 全文搜索引擎工作原理 全文搜索引擎的数据库是依靠一个叫“网络机器人”或“网络蜘蛛”的软件,通过网络上的各种链接自动获取大量网页信息内容,并按一定的规则分析整理形成的。 全文搜索引擎的“网络机器人”或“网络蜘蛛”是一种网络上的软件,它遍历Web空间,能够扫描一定IP地址范围内的网站,并沿着网络上的链接从一个网页到另一个网络,从一个网站到另一个网站采集网页资料。它为保证采集的资料最新,还会回访已抓取过的网页。 搜索引擎的种类——元搜索引擎 元搜索引擎:自身不采集信息,没有信息库,同时检索多个独立搜索引擎,以统一格式输出结果。信息量大,用时短。 工作原理:元搜索引擎在接受用户查询请求时,将用户的检索要求同时提交给多个独立的搜索引擎,并将结果返回给用户。 为什么要使用不同的搜索引擎? 由于各种搜索引擎的能力和偏好不同,所以每种搜索引擎抓取的网页并不完全相同,排序算法也各不相同。所以我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索不同的网页。 全文搜索引擎和目录搜索引擎的比较 在使用上各有长短。全文搜索引擎因为依靠软件进行,所以数据库的容量非常庞大,但是,它的查询结构往往不够准确;分类目录依靠人工收集和整理网站,能够提供更为准确的查询结果,但收集的内容却非常有限。 搜索策略 1、逻辑命令 常用的命令符号有空格、“+”、“-” AND 、OR、NOT 用这些命令符号可以极大地提高搜索结果的准确性。 2、特殊搜索命令 (1)、intitle 是多数搜索引擎都支持的针对网页标题的搜索命令。如:输入“intitle:家用电器”,表示要搜索标题含有“家用电器”的网页。 2)site 表示搜索结果局限于某个具体网站或网站频道。 例如:输入“家用电器site:” 3)Filetype 如输入:“家用电器Filetype:doc”表示搜索含有“家用电器”的word文件的信息。 1、在全文搜索引擎显示的结果中,他们是() A、显示的是搜索引擎 数据库中的数据 B、互联网上客观存在的网页数据 C、显示的是我们所要找的全部信息 D、以上都不是 2、目录索引搜索引擎一般采用什么方式采集和存储信息() A、人工方式 B、蜘蛛程序 C、关键字检索 D、检索工具 3、某同学在的搜索栏输入“南京中山陵”,然后点击“搜索”,请问他的这种信息资源检索是属于( )。 A、元搜索 B、专业垂直搜索 C、全文搜索 D、分类搜索 4、在搜孤搜索引擎中,先单击“科学技术”类别名,后选择“科学普及”类别,再单击“中国公众科技网”,这种搜索方式属于( )。 A、全文搜索 B、元搜索 C、目录搜索 D、特色信息检索 5、如果你想在网上查找歌手刀郎的歌曲《2002年的第一场

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档