搜索引擎及网络信息检索.ppt

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于搜索引擎的网络信息检索 主要知识点 1.搜索引擎技术原理 2.搜索引擎的检索方法 3.万维网搜索引擎(web search engines) 4.元搜索引擎(meat-search engines) 5.专用搜索引擎 6.搜索引擎技术的未来趋势 7.部分免费学术资源介绍 搜索引擎技术原理-搜索引擎概述 搜索引擎(search engine)是互联网上专门用于检索的网站的统称,目前已多达数百上千种,包括通用万维网搜索引擎、通用元搜索引擎和各种专用搜索引擎三大类型。 起源 可追溯至1990年,加拿大蒙特利尔大学学生Alan Emtage开发的Archie.Archie用于检索分散在各FTP服务器上的文件,工作原理与现在的搜索引擎很接近。 基本原理 1993年底,人们认识到既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。 发展 1994年,yahoo!和Lycos问世,成功地使搜索引擎的概念深入人心。1995年后,搜索引擎进入了高速发展时期,被誉为仅次于门户网站的互联网第二大核心技术。 搜索引擎技术原理-搜索引擎组成 (1)搜索器(searcher) 20世纪90年代,“机器人”(robot)在计算机编程者中用于特指某种能以人类无法达到的速度不间断地执行某项任务的软件程序。 由于专门用于检索web信息的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,作为web搜索器的“机器人”就被称为“网络蜘蛛”。 网络蜘蛛的功能就是在互联网中不断漫游,发现和搜集信息。作为一个计算机程序,搜索器日夜不停地运行,尽可能多,尽可能快地搜集各种类型的新信息,并定期更新已经搜集过的旧信息,以避免出现死链接和无效链接。 搜索引擎技术原理-搜索引擎组成 (2)索引器(indexer) 索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,并生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观索引项与文档的语意内容无关,如作者名,url,更新时间等等;内容索引项则是用来反应文档内容的,如关键词及其权重、短语、单字等等。 (3)用户检索界面(interface) 用户检索界面是搜索引擎呈现在用户面前的形象,其作用是接受用户输入的查询、显示查询结果、提供用户相关性反馈。为使用户方便、高效的使用搜索引擎,从搜索引擎中检索到有效、及时的信息,用户检索界面的设计和实现采用人机交互的理论和方法,以充分适应人类的思维习惯。 用户检索界面包括简单界面和高级界面两类。简单界面只提供用户输入查询串的文本框;高级界面提供用户按照检索模型查询的机制。 搜索引擎技术原理—搜索引擎的运作 (1)发现并搜集网页信息 搜索引擎通过高性能的“网络蜘蛛”程序(spider)自动地在互联网中搜索信息。 一个典型的网络蜘蛛的工作方式是通过查看一个页面,从中找到与检索内容相关的信息,然后再从该页面的所有链接中继续寻找相关的信息,以此类推,直至穷尽。 “网络蜘蛛”为实现快速浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。 搜索引擎技术原理—搜索引擎的运作 (2)对信息进行提取并建立索引库 索引库的建立关系到用户能否最迅速的找到最准确、最广泛的信息。索引器对“网络蜘蛛”抓来的网页信息极快的建立索引,以保证信息的及时性。 建索引时对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而最大限度地保证搜索出的结果与用户的检索提问相一致。 搜索引擎技术原理—搜索引擎的运作 (3)用户检索利用 搜索引擎根据用户输入的检索词,在索引库中快速检出文档,进行文档与检索的相关度评价,对将要输出的结果进行排序,并将检索结果返回给用户。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜索,如果找到与用户要求内容相符的网站,并采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。 这是对前两个过程的检验,检验该搜索引擎能够给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。 搜索引擎技术原理—搜索引擎常用检索方法 (1)简单搜索(simple search)指输入一个单词(关键词)进行搜索,也叫单词搜索。 (2)词组搜索(Phrase Search):指输入两个单词以上的词组(短语),提交搜索引擎检索并反馈结果,也叫短语搜索。现有搜索引擎一般都约定把词组或短语放在引号“”内。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最精确,这就叫使用双引号进行精确查找。一般说来在网页搜索引擎中,用词组搜索来缩小范围从而找到搜索结

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档