信息技术导论--搜索引擎的概念、分类与发展历史.pptxVIP

  • 25
  • 0
  • 约3.66千字
  • 约 20页
  • 2017-07-04 发布于北京
  • 举报

信息技术导论--搜索引擎的概念、分类与发展历史.pptx

搜索引擎的概念、分类与发展历史 指导老师:沈晴霓 1101220869 丁克 搜索引擎 S E A R C H E N G I N E 搜 索 引 擎 定义:万维网环境中的信息检索系统(包括目录服务和关键字检索两种服务方式)。 应用学科: 通信科技(一级学科);交换选路(二级学科) 搜索引擎:简单的定义是万维网环境中的信息检索系统 具体是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。 搜索引擎概念与定义 GOOGLE 你懂滴 搜索引擎分类 基于WEB的搜索引擎 第1 代搜索引擎。第1代搜索引擎是主要依靠人工分拣的分类目录搜索——目录式分类搜索引擎。最具代表性的是Yahoo。目录式分类搜索引擎由于网络目录中的网页是专家人工精选得来,固有较高的查准率,但查全率低,搜索范围较窄。主要以搜狐和雅虎为标志。 第2 代搜索引擎。依靠机器抓取,建立在超链分析基础上的网页搜索——全文搜索引擎。 第3 代搜索引擎。有如下特点:互动式搜索:互动式搜索是在用户查询和搜索引擎返回结果的人机交互过程中,引擎根据用户的查询内容,智能展开多组相关的主题,帮助用户快速找到相关搜索结果;分类导航:针对部分查询结果项,扩展到类似或相关网站。有分类全文搜索引擎、智能搜索引擎(目前比较成功的智能搜索引擎有FSA Eloise 和FAQFinder)、元搜索引擎(典型的元搜索引擎有MetasearchMetacrawler Digisearch 等)。 第4 代搜索引擎。面向主题的搜索引擎。利用导向词、特征提取、权威和中心网页、超链分析以及网页评分等多种搜集策略使得搜索具有更高的智能化。 基于桌面搜索引擎 特点在于不需要通过浏览器来进行搜索,并且将搜索方位延伸到自己电脑硬盘中所存储的各种文档,例如雅虎的桌面搜索引擎所支持文档格式包括的Email、Word、Excel、PowerPoint、PDF 等多达200 多种格式的文本、音乐、图片和网页。该软件允许用户根据自己的风格控制搜索习惯,并且在用户的隐私方面也有独到的保护措施。相对网络搜索,从技术来看,只有桌面搜索才算是全方位的搜索工具。 主要搜索引擎 Robot“搜索引擎” Robot“搜索引擎”的一个重要的特征是通过Robot ,自动搜集各种web 页面,并存入搜索引擎数据库。所谓Robot ,即一个用C + + 、Java 或其它语言编写的网页自动搜索程序, 可以运行在Unix、Solaris、Windows、NT、OS2 和MAC 等平台上。该程序启动后,它会根据所给的网络地址(URL) 自动对目的网页进行浏览,并将网页内容存储在搜索引擎的数据库中。同时,它还会根据网页的链接进一步提取其它网页,或转移到其它站点上,直到没有满足要求的新网页或网站为止。 全文索引 全文搜索引擎是目前广泛应用的主流搜索引擎,国外代表有Google,国内则有著名的百度。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。 根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。 在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),  另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询 目录索引 其他搜索引擎 元搜索引擎 垂直搜索引擎 集合式搜索引擎 门户搜索引擎 搜索引擎的原理 搜索引擎的原理,可以看作三步 1.从互联网上抓取网页 利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网, 并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网 页收集回来。 2.建立索引数据库 由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包 括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成 时间、大小、与其它网页的链接关系

文档评论(0)

1亿VIP精品文档

相关文档