[搜索引擎的产生背景.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[搜索引擎的产生背景

搜索引擎技术的产生背景 搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表 搜索引擎的发生背景在因特网发展初期,网站相对较少,新闻查找比较容易。然而随着新闻技术的飞速发展,特别是因特网应用的迅速普及,网站越来越多,并且每天全球互联网网页数目以千万级的数量增加。要在浩瀚的网络新闻中寻找所需要的材料无异于大海捞针。这时为足人人新闻检索需求的搜索网站应运而生搜索引擎从发生到发展大概阅历履历了如下四个步骤 二、 搜索引擎技术能解决的问题 1、搜索引擎的主要功能及工作机制 搜索引擎是 In ternet 上的一个网站, 它的主要任务是在Internet 上主动搜索 Web 服务器信息并将其自动索引, 其索引内容存储于可供查询的大型数据库中。当用户输入关键字 (Keyword )查询时, 该网站会告诉用户包含该关键字信息的所有网址, 并提供通向该网站的链接。对于各种搜索引擎, 它们的工作过程基本一样, 包括以下三个方面: (1) 派出 “网页搜索程序”在网上搜寻所有信息, 并将它们带回搜索引擎; (2) 将信息进行分类整理, 建立搜索引擎数据库; (3) 通过Web 服务器端软件, 为用户提供浏览 器界面下的信息查询。 2、优秀搜索引擎的基本特点 目前各种各样的中西文搜索有10余种或更多, 比较著名的搜索引擎有 Yahoo、Excite、InfoSeek。 一个优秀的搜索引擎应具有以 Lycos、 ltaVista 等。 以下几个特点: (1) 支持全文检索 (FullTextSearch ) 。全文搜 索引擎的优点是查询全面而充分, 用户能够对各网 站的每篇文章中的每个词进行搜索。当全文搜索引擎遇到一个网站时, 会将该网站上所有的文章 (网页) 全部获取下来, 并收入到引擎的数据库中。只要用户输入查询的 “关键字”在引擎库的某篇文章 中出现过, 则这篇文章就会作为匹配结果返回给用户。 (2) 支持目录式分类结构 (Directory )。分类搜索引擎的优点是将信息系统地分门归类, 当遇到一个网站时, 它并不像全文搜索引擎那样, 将网站上的所有文章和信息都收录进去, 而是首先将该网站 划分到某个分类下, 再记录一些摘要信息,对该网站进行概述性的简要介绍。最具代表性的目录式分类搜索引擎是Yahoo网站。 (3) 能够区分搜索结果的相关性 (Pertinency )。搜索引擎应该能够找到与搜索要求相对应的站点, 并按其相关程度将搜索结果排序。 (4) 检索方法多样, 查找手段完备。 (5) 其他性能。 一个优秀的搜索引擎产品还必须查询速度快, 具有较好的可维护、 可更新性能。 现有的搜索引擎在信息维护 、信息重复、网络及站点负载方面还存在很多的不足, 索引数据库往往很大, 检索的查准率不高。 现有搜索引擎的缺陷: (1) 运算符合布尔运算组合运用数量有限; (2) 仅使用关键词提问, 但关键词检索不能完全满足用户的要求, 而且它是一种盲目的匹配; (3) 不能检索历史信息; (4) 简单的结果表示方法使用户显得茫无头绪; (5) 单个引擎的限制。 3、搜索引擎的语法规则 如果想要得到最佳的搜索效果, 就要使用搜索的基本语法来组织要搜索的条件。 (1) 使用逻辑操作符。 搜索引擎中常用的操作逻辑符是: AND、OR、NOT、AND 表示逻辑 “与” 可用 “”表示, OR表示逻辑 “或” 可用 “ ”来表示, NOT表示逻辑“非”可用 “! ”来表示。 (2) 使用 “+ 、 - ”连接号和通配符。 4、搜索引擎研究的主要问题 由于现有的搜索引擎有上述很多的缺陷, 因此搜索引擎仍是网络和情报检索的研究热点。 当前主要的研究热点有: (1) 能充分表达用户查询要求的查询语言。一套能充分表达用户要求但又不增加网络负载的查询语言是搜索给用户的第一个良好印象。 (2) 索引数据库的组织和管理。如何对大容量、非结构化的信息进行增、删、改操作也是一个值得研究的问题。 (3) 信息的自动加工。如何对信息进行准确的分类和标引是搜索引擎要研究的主要问题。 (4)

文档评论(0)

19840506 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档