- 7
- 0
- 约5.39千字
- 约 55页
- 2017-08-22 发布于江苏
- 举报
网络信息检索第2章 张胜光制作 本章内容 第一节 信息检索原理:关键词匹配原则 1、从“图灵实验”说起 大家都知道,计算机发展史上有一个重要人物图灵,他在上世纪50年代曾经提出了一个假想的实验,认为计算机可以具有人类的思维能力,被称为“图灵实验”。他并且预言,在20世纪末,具有人工智能的计算机将会出现。但时至今日,仍未有任何一台计算机能通过“图灵实验”。 2、计算机检索的奥妙:关键词匹配 计算机既然如此“无能”,连三岁小孩的智能都不具有,那么为什么人们要在网上查找信息,却总要通过计算机帮忙呢?计算机检索的奥妙在哪里呢? 原来,计算机实现检索的奥妙,就在于它能把你输入的检索词,与它后台数据库中存储的文件关键词进行比对,如果能够匹配,就认为这条信息是你需要的,立刻输出给你。 3、什么是信息检索? 4、信息检索原理 5、信息检索的要领 What? Where? How? 6、信息检索类型 7、主要计算机检索系统类型 检索系统由一定的检索设备(计算机)和经过加工整理并存储在相应载体上的信息集合及其他设备共同构成的具有存储和检索功能的信息服务系统。 联机检索(online search) 脱机检索(offline search) 光盘检索(CD search) 网络检索(Internet/Web search) 全球数字图书馆系统(digital global system) 8、“关键词原则”是信息检索的根本原则 第二节 搜索引擎的原理和发展概况 1、网络信息资源种类 WWW信息资源:web网页 FTP信息资源:远程计算机上的文件夹 Blog信息资源:博客、播客等等信息资源 Telenet信息资源:直接调用远程主机 BBS 、新闻组信息资源:相当于论坛信息 P2P信息资源:私人计算机上的信息资源 数据库和收费网站:如三大库三大馆(三大中文期刊数据库—清华库、维普库、万方库 三大中文数字图书馆—超星、方正、书生之家) 2、网络信息资源的特点 信息量大、传播广泛 信息类型多样、内容丰富 信息时效性强、变化频繁 信息分散无序、但关联程度高 信息缺乏管理、良莠不齐 所以在网络信息检索中,我们常常要借助于搜索引擎来帮助我们“大海里捞针”。 4、搜索引擎的发展历史 搜索引擎发展历史 搜索引擎的起源——Archie 所有搜索引擎的祖先,是1990年由蒙特利尔的McGill University三名学生发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 早期的另一个搜索工具Gopher 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。 现在这个工具主要用在国外大型图书馆的信息检索上。 第二代搜索:目录式搜索 Yahoo! 1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo)。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。Yahoo!几乎成为20世纪90年代的因特网的代名词。 好听不好用的元搜索引擎 1995年,一种新的搜索引擎形式出现了——元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。 第三代搜索:网页搜索 5、搜索引擎的工作原理 搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 搜索引擎至少由三部分组成: 爬行器(即机器人、蜘蛛等搜索程序
您可能关注的文档
- (设计方案3)某焦炉煤气电厂污水回用处理方案(简).doc
- _1炉低氮燃烧器改造工程设计说明.doc
- “江苏省2008届医药卫生类毕业生交流大会”参会单位需求信息.xls
- “三集五大”体系建设信息通信专业评估测试工作单-信息系统支撑-工程设计评审平台.xls
- 《ADAS开发及测试方案-EB汽车软件-恺辉电讯》.doc
- 《单片机技术》实验(10级)多媒体讲义.ppt
- 1、数字化语音存储与回放系统的设计.ppt
- 1机械设计的力学基础知识.ppt
- 1施工单位用表 襄阳公路专用.xls
- 2×B50热电机组燃烧系统及辅机设计.doc
- 人教版九年级英语Unit 4曾害怕课件3a-4c.pdf
- 雅思口语考题回顾:朗阁海外考试研究中心2019年10月10日Part 1考题总结.pdf
- 2026届高三地理一轮复习课件小专题河流袭夺.pptx
- 【名师原创】复习专题5 三角函数 作者:合肥市第八中学 蒲荣飞名师工作室.docx
- 高中数学一轮复习 微专题2 抽象函数.docx
- 高中数学——复习专题4 空间向量与立体几何.docx
- 高中数学一轮复习 微专题3 空间几何体中的截面、轨迹问题.docx
- 高中数学一轮复习 微专题4 空间几何体的最值、范围问题.docx
- 导流洞施工质量通病防治手册.docx
- 江苏省徐州市第一中学、徐市第三中学等五校2026届高三上学期12月月考历史试题含答案.docx
原创力文档

文档评论(0)