- 22
- 0
- 约1.34万字
- 约 88页
- 2016-05-13 发布于湖北
- 举报
信息检索与利用 第五讲
搜索引擎
2014-05-19
主要内容
1. 搜索引擎概述
2. 搜索引擎原理
3. 搜索引擎分类
4. 搜索引擎的语言与技术
5. 常用搜索引擎使用详解
1. 搜索引擎概述
1.1 搜索引擎的概念
1.2 搜索引擎的发展
1.3 性能指标
1.1 搜索引擎的概念
•2002年,华尔街一位著名的分析师指出:Internet
作为一种现象,本质上可以用三个单词来表示:
Search、Find、Obtain
• 互联网环境中的信息检索系统.
• 搜索引擎(Search Engine):是以一定的策略在因
特网上搜集、发现信息, 对信息进行理解、提取、
组织和处理, 是为用户提供检索服务的系统.
4
1.2 搜索引擎发展(时间)
• 1990年以前, 没有搜索引擎.
• 现代意义上的搜索引擎的祖先, 是1990年加拿大
麦吉尔大学的学生Alan Emtage、Peter Deutsch、
Bill Wheelan发明的Archie.
• 最早现代意义上的搜索引擎出现于1994年7月.
当时Carnegie Mellon University的Michael
Mauldin将John Leavitt的Spider程序接入到其
索引程序中,创建了大家现在熟知的Lycos.
搜索引擎发展
• 1994年4月,Stanford University的两名博士生,
美籍华人Jerry Yang (杨致远)和David Filo
共同创办了超级目录索引Yahoo !并成功地使搜
索引擎的概念深入人心.
•1998年 Google
•2000年 Baidu
搜索引擎发展(技术)
第一代搜索引擎,是以雅虎为代表的目录式搜索引擎
第二代搜索引擎,是以 “关键词”搜索技术为代表
搜索内容: 增加细化分类(垂直搜索引擎)
整合搜索: 统一界面
搜索终端: 移动搜索引擎(Map-Location)
智能化: 实时搜索、社会化搜索、本地搜索、语义搜
索、图形搜索、情景搜索、个性化搜索……
这是什么?
生字?
胤
1.3 性能指标
• 搜索引擎的好坏评判除了索引的网页数量外,
其中重要的一个方面是搜索结果的输出(结果的
相关性)
• 召回率(Recall) ——查全率
检索出的相关文档数/所有的相关文档数
精度(Precision) —— 查准率
检索出的相关文档数/检索出的文档总数
2. 搜索引擎原理
• 大多数搜索引擎并不真正搜索互联网, 它
搜索的实际上是预先整理好的网页索引数
据库.
• 搜索引擎也不能真正理解网页上的内容,
它只能机械的匹配网页上的文字.
• 搜索引擎的原理,可以看做三步:从互联网
上抓取网页→建立索引数据库→在索引数
据库中搜索排序.
在因特网中发现、搜集网页信息 信息搜集系统
对信息进行提取和组织、建立索引库 索引数据库
根据用户输入的查询条件,在索引库
中快速检出文档,进行文档与查询的
检索器、用户接口
相关度评价,对将要输出的结果进行
排序,并将查询结果返回给用户.
关键字匹配
• 目前所有实用的搜索引擎技术都是以“关键字
匹配”为最基础的原理的.所以搜索引擎也不能
真正理解网页上的内容, 它只能机械的匹配网
页上的文字.
您可能关注的文档
- 小白写给小小白的产品经理产品经理的历史与三观.doc
- 信号处理中的数学方法实验作业.ppt
- 信号发生及频谱分析实验报告.doc
- 小宝宝音乐被动康复操.doc
- 信号发生器模电讲义.ppt
- 小波分析MonteCarlo模拟误差分析课程设计含程序.pdf
- 信号分析基础(时域波形分析相关分析随机信号)[自动保存的].ppt
- 小波分析傅立叶变换和系统的频域分析.ppt
- 小儿疼痛与分娩镇痛.ppt
- 信号与系统(陈后金)LMATLAB.ppt
- 2025年城市轨道交通PPP项目融资建设与智慧交通网络可行性探讨.docx
- 2026年儿童心理学名词考试题库及参考答案一套.docx
- 小学数学四年级阶段性测试题汇编.docx
- 软件定义数据中心架构师面试题库.docx
- 冷链物流多式联运服务平台建设与技术创新2025年投资可行性分析.docx
- 2025年商务英语(BEC)中级考试真题卷:商务英语词汇与语法专项训练试题.pdf
- 社区智慧健康管理服务2026年技术创新与智慧城市建设融合可行性分析.docx
- 2026年光伏行业并网技术报告.docx
- 智慧城市与未来出行:九年级人工智能预测实践项目.docx
- 2026年儿童心理学名词考试题库有答案.docx
原创力文档

文档评论(0)