信息检索与利用第五讲.pdfVIP

  • 22
  • 0
  • 约1.34万字
  • 约 88页
  • 2016-05-13 发布于湖北
  • 举报
信息检索与利用 第五讲 搜索引擎 2014-05-19 主要内容 1. 搜索引擎概述 2. 搜索引擎原理 3. 搜索引擎分类 4. 搜索引擎的语言与技术 5. 常用搜索引擎使用详解 1. 搜索引擎概述 1.1 搜索引擎的概念 1.2 搜索引擎的发展 1.3 性能指标 1.1 搜索引擎的概念 •2002年,华尔街一位著名的分析师指出:Internet 作为一种现象,本质上可以用三个单词来表示: Search、Find、Obtain • 互联网环境中的信息检索系统. • 搜索引擎(Search Engine):是以一定的策略在因 特网上搜集、发现信息, 对信息进行理解、提取、 组织和处理, 是为用户提供检索服务的系统. 4 1.2 搜索引擎发展(时间) • 1990年以前, 没有搜索引擎. • 现代意义上的搜索引擎的祖先, 是1990年加拿大 麦吉尔大学的学生Alan Emtage、Peter Deutsch、 Bill Wheelan发明的Archie. • 最早现代意义上的搜索引擎出现于1994年7月. 当时Carnegie Mellon University的Michael Mauldin将John Leavitt的Spider程序接入到其 索引程序中,创建了大家现在熟知的Lycos. 搜索引擎发展 • 1994年4月,Stanford University的两名博士生, 美籍华人Jerry Yang (杨致远)和David Filo 共同创办了超级目录索引Yahoo !并成功地使搜 索引擎的概念深入人心. •1998年 Google •2000年 Baidu 搜索引擎发展(技术)  第一代搜索引擎,是以雅虎为代表的目录式搜索引擎  第二代搜索引擎,是以 “关键词”搜索技术为代表  搜索内容: 增加细化分类(垂直搜索引擎)  整合搜索: 统一界面  搜索终端: 移动搜索引擎(Map-Location)  智能化: 实时搜索、社会化搜索、本地搜索、语义搜 索、图形搜索、情景搜索、个性化搜索…… 这是什么? 生字? 胤 1.3 性能指标 • 搜索引擎的好坏评判除了索引的网页数量外, 其中重要的一个方面是搜索结果的输出(结果的 相关性) • 召回率(Recall) ——查全率 检索出的相关文档数/所有的相关文档数 精度(Precision) —— 查准率 检索出的相关文档数/检索出的文档总数 2. 搜索引擎原理 • 大多数搜索引擎并不真正搜索互联网, 它 搜索的实际上是预先整理好的网页索引数 据库. • 搜索引擎也不能真正理解网页上的内容, 它只能机械的匹配网页上的文字. • 搜索引擎的原理,可以看做三步:从互联网 上抓取网页→建立索引数据库→在索引数 据库中搜索排序. 在因特网中发现、搜集网页信息 信息搜集系统 对信息进行提取和组织、建立索引库 索引数据库 根据用户输入的查询条件,在索引库 中快速检出文档,进行文档与查询的 检索器、用户接口 相关度评价,对将要输出的结果进行 排序,并将查询结果返回给用户. 关键字匹配 • 目前所有实用的搜索引擎技术都是以“关键字 匹配”为最基础的原理的.所以搜索引擎也不能 真正理解网页上的内容, 它只能机械的匹配网 页上的文字.

文档评论(0)

1亿VIP精品文档

相关文档