搜索引擎综述.docVIP

  • 8
  • 0
  • 约5.36千字
  • 约 4页
  • 2015-09-26 发布于重庆
  • 举报
搜索引擎综述

搜索引擎综述 电子与信息工程系1006班 张 成 U201012954 摘要:对搜索引擎及其历史发展,搜索引擎的关键技术进行综合性的介绍,基于此,对搜索引擎的杰出代表Google的核心技术PageRank技术和超文本匹配分析技术进行简单探索,最后展望搜索引擎未来发展重要方向。 关键词:搜索引擎 Google核心技术 信息检索 Introduction of Search Engine Electronic and Information Engineering Class1006 ZHANG Cheng U201012954 Abstract: To the search engine and its historical development, search engine of key technologies are comprehensively introduced, based on this, to the search engines outstanding representative Googles core technology using PageRank technology and hypertext matching analysis technology simple exploration, the future search engine future development important direction. Keyword: search engine Google core technology information retrieval 引言 据统计,在短短20多年的时间里,Internet中产生的信息量相当于人类过去100年产生的信息总量,而且Internet上的信息量正以几何级数递增。搜索引擎已经成为人们进行Internet信息资源搜索必不可少的工具。鉴于此,笔者认为有必要对其进行综合性概述,让更多人对其有一个更全面的认识,从而能更好的运用搜索引擎,更希望引起大家对搜索引擎技术开发的兴趣。 搜索引擎的简单定义和原理 搜索引擎是根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供统。检索服务的系 搜索引擎一般由搜索器、分析器、索引器、检索器和用户接口等5个部分组成,如下图所示。 [1] 搜索器是一个机器人程序,其具有高效的搜索策略和高性能系统结构,能自动地在互联网中搜集信息下载到本地文档库。 分析器对本地文档库进行分析以便于索引。文档分析技术包括分词、过滤和转换等。 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,将文档表示为一种便于检索的方式并存储在索引数据库中,生成文档库的索引表。 检索器的功能是根据用户的查询要求在索引库中快速检出文档。进行文档与查询的相关度的评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。其检索方法有以下几种:基于关键词的检索;基于概念的检索;基于内容的检索。 用户接口的作用是为用户提供可视化的查询输入和结果输出界面,提供用户相关性反馈机制。在输出界面中,搜索引擎将检索结果展现为一个线性文档列表,其中包含了文档的标题、摘要,所在URL等信息。 搜索引擎的分类 按照信息收集方法、服务提供方式和系统结构的不同,搜索引擎系统可以分成不同的类别。搜索引擎系统按其工作机制可以分为以下类别。 机器人搜索引擎:由一个机器人程序以某种策略自动的搜索信息,下载在本地文档库进行分析,有索引器建立索引,对查询由检索器检索索引库,最后把查询结果返回给用户。 目录式搜索引擎:由Web站点主动提交或用半自动方式收集信息,由人工对Web站点进行评价、分类,形成摘要,使其按树型作主题分类组织,从树根逐层向下形成各级分类,叶节点则包括指向Web信息资源的连接。目录搜索引擎中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。 元搜索引擎:对用户的查询请求进行预处理,转换为底层搜索引擎能过处理的格式,向多个搜索引擎递交,在对各搜索引起的检索结果进行组合,排除重复,排序等处理后返回给用户。 信息检索Agent:是智能化的程序,能够学习用户要求,具有智能性,主动性,协作性等特点。 搜索引擎的发展 世界上第一个Spider程序是MIT Matthew Gray的World Wide Web Wanderer, 用于跟踪互联网发展规模。 1993年2月,6个斯坦福大学学生想分析字词关系,以对互联网上的大量信息做更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布一个供webmaster在自己网站上使用的搜索软件版本,即后来的Excite for Web Server。 1994年4月,斯坦福的两名博士生

文档评论(0)

1亿VIP精品文档

相关文档