信息检索第4章网络信息资源检索.ppt

  1. 1、本文档共33页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章 网络信息资源检索 4.1 概述 4.2 网络检索工具—搜索引擎 4.3 综合性搜索引擎 4.4 专业性搜索引擎 4.5 特色搜索引擎 4.1.1 网络信息资源的定义、特点 定义: 从字面上理解,网络信息资源是指“通过计算机网络可以利用的各种信息资源的总和”。具体的说是指所有以电子数据的形式把文字、图像、声音、动画等多种形式的信息存贮在光、磁等非纸介质的载体中,并通过网络通信、计算机或终端等方式再现出来的资源 。 网络信息资源的的特点: (1)数量庞大,增长迅速。最大的搜索引擎Google已收录200亿网页,且每年以级数的速度在增长。据预测,到2008年Google收录网页将超过1000亿。 (2)内容丰富,形式多样。通过因特网可以获取学习、娱乐、工作、生活、购物等各方面的信息。另外,资源有有文本、视频、音频、动画多种表现形式。 (3)变化频繁,价值不一。比较大的网站的一般信息一般每天更新一次,特别是新闻信息实时更新,大网站的内容更新快且真实可靠,小网站或个人网站虽不乏优秀和可参考的信息,但质量良莠不齐。 (4)结构复杂,分布广泛。网络信息主要采取万维网WWW网页形式—超链接结构,但网上还有大量的FTP文件,论坛信息,新闻组信息,不同的信息结构需要不同的检索工具。 (5)信息分散、无序。互联网是一个基于TCP/IP协议的联结各国、各机构数以万计的计算机网络的通信网,对网络信息资源本身的组织管理无统一标准和规范,网络信息分散于不同国家、不同地区服务器上,采用不同的操作系统及数据结构,字符界面、图形界面、菜单方式、超文本方式等,缺乏集中统一的管理机制。 4.1.2 网络信息资源的类型 按人类信息交流的方式分类: 非正式出版信息。如电子邮件、电子会议、专题组和论坛、电子公告板新闻等。 正式出版物。即用户可以查询到的各种数据库、联机杂志、电子版工具书、报纸、专利信息等。 从网络信息检索角度,按信息查询方式对网络信息进行分类: (1) 互联网(WWW)信息。 (2) FTP信息。 (3) Telnet信息。 (4) USENET/Newsgroup信息资源。 (5) USTSERV/Mailing List 信息。 (6) Gopher信息。 4.1.3 网络信息检索的一般方法 1.网上浏览 (1)偶然发现。 (2)顺“链”而行。 2.网络资源指南(目录型检索工具) 3.搜索引擎 4.图书馆网站的网络导航 4.2 网络检索工具—搜索引擎 4.2.1 搜索引擎概念 4.2.2 搜索引擎基本原理 搜索引擎的原理,可以看作三步: 从互联网上抓取网页 建立索引数据库 在索引数据库中搜索排序。 4.2.3 搜索引擎类型 按照信息搜集方法和服务提供方式的不同,搜索引擎系统可以分为三大类: (1)目录式搜索引擎: (2)全文搜索引擎: (3)元搜索引擎: 超搜索:网页数据库来源于五大搜索引擎Google、雅虎、百度、iAsk以及搜狗。 4.3 综合性搜索引擎 4.3.1 Google的使用 4.3.2 百度的使用 4.3.3 新浪爱问的使用 4.3.4 搜狐搜狗的使用 4.3.1 Google的使用 两位斯坦福大学的博士生 Larry Page 和 Sergey Brin 在 1998 年创立了 Google。 Google是目前因特网上最大的搜索引擎 2006年4月12日Google公司宣布Google的全球中文名称正式取名为“谷歌”。 (屏蔽了一些网站) 网页搜索:支持以下几个高级命令检索: (1) “site”表示搜索结果局限于某个具体网站或者网站频道。 (2)filetype:搜索特定类型的文件。格式:“关键词 文件的扩展名”。 例1:搜索包含“电子商务”关键词的word文件。输入:电子商务 filetype:doc。 例2:搜索包含“网络安全”方面的powerpointer文件。输入:网络安全filetype:ppt。 例3:搜索包含“搜索引擎”方面的pdf文件。输入:搜索引擎filetype:pdf。 Google的免费软件: 桌面搜索:只有1.7MB。 Google 工具栏 Picasa 图片管理软件 Google talk:即时通讯软件。 Google Earth:基于卫星图片的地图软件。 Google SketchUp:3D作图软件。 Google Pack:Google发布的免费软件包。 4.3.2 百度的使用 百度是全球最大的中文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。 “百度”二字源于中国宋朝词人辛弃疾的《青玉案》诗句:“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。 4.3.3 新浪爱问的使用 “

文档评论(0)

autohhh + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档