32-因特网上的信息检索.pptVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
32-因特网上的信息检索

   你认为真正的网络高手是怎样的? 3.2因特网上的信息检索 内容概要 文本搜索 使用单个关键词进行搜索 使用两个及两个以上关键词进行搜索 直接输入多个关键词,关键词之间用空格,这样就表示“AND”关系; 用减号“-”表示“非”,用于表示要求搜索结果不包含某些特定信息; 加上双引号。这在查找名言警句或专有名词时显得格外有用 搜索特殊格式的文件 目前可搜索的文件格式: DOC、PPT、XLS、TXT文件; 最精彩的,可搜索Flash文件: SWF文件 、gif动态图片文件 方法: 关键词 filetype: 关键字.文件格式 或 关键字.文件格式 搜索引擎的产生 随着网络中信息爆炸性地增长,信息分散储存、数量多,网络用户想找到所需的信息如同大海捞针。为了满足大众的信息检索需求,从事专业信息检索的公司和搜索网站应运而生。 搜索引擎是因特网上信息检索的软件系统。最早的搜索引擎出现于1994年4月。斯坦福大学的两名博士生,美籍华人杨致远和美国人David Filo共同创办了超级目录索引雅虎(Yahoo),并成功地使搜索引擎的概念深入人心。从此搜索引擎 进入了高速发展时期。 搜索引擎的分类及原理 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: 目录式搜索引擎:以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的代表是:Yahoo、LookSmart、Open Directory、Go Guide等。  全文搜索引擎(机器人搜索引擎):由一个称为蜘蛛(Spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立索引,由检索器根据用户的查询输入检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。这类搜索引擎的代表是:AltaVista、Northern Light、Excite、Infoseek、Inktomi、FAST、Lycos、Google;国内代表为:“天网”、悠游、OpenFind等。   元搜索引擎:这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。这类搜索引擎的代表是WebCrawler、InfoMarket等。 搜索引擎技术的发展趋势 1.提高搜索引擎对用户检索提问的理解。 2.对检索结果进行进一步处理。 3.确定搜索引擎信息收集范围,提高搜索引擎的针对性。 3.2.3 搜索引擎的工作过程 搜索引擎的工作过程 目录索引类搜索引擎的工作原理 一般采用人工方式采集和存储网络信息,依靠手工为每个网站确定一个标题,并给出大概的描述,建立关键字索引,将其放入相应的类目体系中。 用户自己的错误 初学者搜索时容易犯的6个低级错误和解决方法 常见错误1:错别字 经常发生的一种错误是,你输入的关键词含有错别字,改正了就好。 常见错误2:关健词太常见 搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万网页中,使得它们事实上不能被用来帮你找到什么有用的内容。比如说搜索“电话”。 常见错误3:多义词 要小心使用多义词,比如搜索“java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言。 用户自己的错误 常见错误4:不会输关键词,想要什么输什么 搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词” 常见错误5:在错误的地方搜索 有些信息不适合搜索,应该直接到网站浏览,如论坛的内容。 常见错误6:停用词 停用词主要见于英文搜索引擎中,指的是使用过于频繁的单词,如“is”、“i”、“what”、“it”等。一些搜索引擎在它的网页库里碰到这些词时不会搜 为什么搜索引擎搜不到? 有些内容,网上明明存在,但是用搜索引擎搜不到。如果事先理解搜索引擎能做的和不能做的,就可以设计更佳的搜索策略。而搜索之前思考一下搜索策略,是搜索成功最关键的一步。 这样的内容,主要有3类:  A.网上有,但是搜索引擎库里没有 spider未能正确处理的网页性质及文件类型 (如某些动态网页及fr

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档