网站大量收购闲置独家精品文档,联系QQ:2885784924

《信息素养养成与现代信息检索》模块5 常用信息搜索引擎及软件介绍 教学课件.pptx

《信息素养养成与现代信息检索》模块5 常用信息搜索引擎及软件介绍 教学课件.pptx

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

模块5常用信息搜索引擎及软件介绍搜索引擎(SearchEngines)是对互联网上的信息资源进行搜集整理,然后供使用者查询的系统,它包括信息搜集、信息整理和用户查询三部分。搜索引擎是一个为使用者提供信息“检索”服务的网站,它使用某些程序把互联网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。本模块从搜索引擎的发展历史开始,一一介绍搜索引擎的分类,搜索引擎的原理以及常用搜索引擎的使用实例讲解,最后介绍常用软件。通过本模块的学习,达到以下目标:认识和理解搜索引擎的发展过程掌握搜索引擎的工作原理理解什么是元搜索引擎学会高效地使用常用中文搜索引擎学会使用常用软件模块知识导读5.1搜索引擎的发展史5.1搜索引擎的发展史早期的搜索引擎是把互联网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层一层地进行分类。人们要找自己想要的信息可按它们的分类一层层进入,就能到达最后目的地,找到自己想要的信息。这其实是最原始的方式,只适用于互联网信息并不多的时候。随着互联网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索互联网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是现在搜索引擎的原型。5.1搜索引擎的发展史如今,只需打开百度或谷歌浏览器,在搜索框内输入想要查找的内容,就可以查到千千万万个结果,这就是搜索引擎。那么,搜索引擎是如何发展起来的?下面就探究一下搜索引擎的发展史。分类目录时代(即人工时代)。1文本检索时代(海量自动获取与排序清单)。23整合分析时代(立体搜索与结果整合)。用户中心时代(以移动互联网为标志的个人需求精准搜索)。45第五代:生活生态圈搜索时代(以物联网为标志的实体搜索)。5.2搜索引擎的分类5.2.1全文搜索引擎全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序,俗称“蜘蛛”程序或“机器人”程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度搜索就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。5.2.3元搜索引擎元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。5.2.2目录索引目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。5.2.2目录索引其他非主流搜索引擎形式有:集合式搜索引擎门户搜索引擎213免费链接列表(FreeForAllLinks,简称FFA)5.3搜索引擎的原理5.3搜索引擎的原理搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。搜索引擎原理简单概括为:在搜索引擎的后台,有一些用于搜集网页信息的程序。所收集的信息一般是能表明网站内容(包括网页本身、网页的URL地址、构成网页的代码以及进出网页的连接)的关键词或者短语,接着将这些信息的索引存储到数据库中。5.3.1爬行和抓取搜索引擎派出一个能够在网上发现新网页并抓取文件的程序,这个程序通常被称之为“蜘蛛”。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎通过这些爬虫去爬互联网上的外链,从这个网站爬到另一个网站,去跟踪网页中的链接,访问更多的网页,这个过程就叫“爬行”。这些新的网址会被存入数据库等待搜索。所以跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本方法,所以反向链接成为搜索引擎优化的最基本因素之一。搜索引擎抓取的页面文件与用户浏览器得到的完全一样,抓取的文件会存入数据库。5.3.2建立索引将蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库,这个过程即是索引。在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应的记录。5.3.3搜索词处理用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须非常快速。5

文档评论(0)

土豆 + 关注
实名认证
内容提供者

~

1亿VIP精品文档

相关文档