第二章网络信息检索技术与搜索引擎解读.pptVIP

第二章网络信息检索技术与搜索引擎解读.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
(2)用户可以在键入检索提问之前或获得检索结果之后,从语种、类别、日期、地理范围、地域名称、数据类型等方面进行限制,以获得更加确切的信息。 (3)可以在检索结果的基础上进行二次检索,即把新的一轮检索限制在已检得的结果范围之内。这种方式有利于提高检索速度和检索的精确度。 2 按相关度排列检索结果 很多网络检索工具在检索过程中计算相关度,并按相关度从高到低的顺序排列检索结果。相关度的计算一般根据关键词出现的频率、关键词出现在网页的位置、网页被链接的程度等标准来确定。 3 检索结果的过滤处理 网络信息资源良莠不齐,要避免某些网络信息的不良影响,可利用网络信息的过滤技术来实现。如Alta Vista在检索中就专门提供了音像资料的过滤功能(AV Family Filter),能自动过滤那些包含毒品、色情、暴力等内容的网页。过滤功能一般是通过一定工具在某个时刻自动进行的,因此“过滤”功能有很大程度的相对性。 第二节 搜索引擎   互联网上的信息浩如烟海,优劣混杂,缺乏统一的组织和管理,给人们有效的查询和利用信息带来了很大的不便。搜索引擎就是为了开发和利用这些网络信息资源而产生的网络信息查询工具。它是目前网络用户获取网上丰富信息资源的一个重要途径。因此掌握一些重要的搜索引擎的结构和用法是非常必要的。 ? 第二十次中国互联网络发展状况调查(2007年7月)报告显示:    超过9成(90.4%)的网民表示,需要信息时,首先想到的就是去互联网上寻找;   74.8% 的中国互联网用户经常使用搜索引擎。    一、搜索引擎的概念 搜索引擎(search engine), 泛指在数据库系统中查找信息的工具,是那些在英特网上或通过英特网能够响应用户提交的搜索请求,返回相应查询结果的信息技术和系统。 搜索引擎是Internet上的一个网站,其主要任务是在Internet上主动搜索一定范围内的服务器信息并将其自动索引,其索引内容存储于可供查询的大型数据库中。当用户输入关键词时,该网站会告诉用户包含该关键词的所有网址,并提供通向该网站的链接。 二、搜索引擎的工作原理及基本构成 一般的搜索引擎主要由三个部分组成: 1 网络蜘蛛 这是一个功能很强的程序,它会定期根据预先设定的地址去查看对应的网页,如网页发生变化则重新获取该网页,否则根据网页中的链接继续去访问。网络蜘蛛访问网页的过程是对互联网上信息遍历的过程,为了保证网络蜘蛛遍历信息的广度,一般事先设定一些重要的链接,然后进行遍历,在遍历的过程中不断记录网页中的链接,不断地遍历下去,直到访问完所有的链接。 2 索引软件 网络蜘蛛将遍历搜索来的网页存放在数据库中。为了提高检索的效率,需要建立索引,索引一般为倒排档索引。 3 搜索软件 该软件用于筛选索引数据库中无数的网页信息,选择出符合用户检索要求的网页并对它们进行分级排序,然后将分级排序后的结果显示给用户。 三、搜索引擎的分类 1 根据产生发展过程划分 (1)第一代搜索引擎:网站搜索 如早期的YAHOO等,所使用的搜寻方法是这样的:网页建构人可以将自己网站加入搜索引擎的资料库中,自行命名自己的网站,并用数行文字描述自己的网站;而在使用者键入搜索条件后,搜索引擎会找出和搜索条件一样或相近的网站名字或描述。换句话说,第一代的搜索引擎希望网页建构者自行决定可以代表自己的网站的词句。??? 第一代的搜索引擎最大的缺点,就是无法针对网页内容进行搜索。举例来说,如果一个网站的内容包含了“Java”,“认证考试”及少许的“HTML教学”;但如果网页建构人在将该网站加入搜索引擎时,并未键入“HTML教学”,则该搜索引擎对“HTML教学”这个词句的搜索,将永远不会包含该网站。正因如此,第二代的搜索引擎便应运而生了。 (2) 第二代搜索引擎:网页搜索 Google为第二代搜索引擎,它可以找到更多的资料。Google所搜索的,是网页的内容。这就是第二代搜索引擎最强大的地方。 ??? 相对于第一代搜索引擎的“由网页建构人自行键入资料”,第二代搜索引擎不需要键入任何资料;取而代之的,是由搜索引擎使用一个Robot 程式,让它在网络上颉取资料,并自动将取得的结果存入资料库中。这意思也就是说:如果你建立了一个网站,并将它公布在网络上,则Google的Robot 就随时有可能将你的网站及底下相连结的所有网页加入它的资料库中。因此,Google号称其资料库中有著十亿笔以上的资料,且其资料是会随时更新的。???

文档评论(0)

琼瑶文档 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档