第8章 Internet信息检索.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第8章 Internet信息检索.ppt

第8章 Internet信息检索 8.1 Internet概述 8.1.1 Internet简介 8.1.2 Internet的主要功能 (1)漫游世界——WWW (2)收发电子邮件——E-mail (3)搜索信息——Gopher (4)传输文件——FTP (5)网上交流——BBS和News (6)资源共享——Telnet (7)电子商务——e-business 8.2 环球信息网WWW 8.2.1 超文本与超媒体 超文本(hypertext)也是一种文本,但与传统的文本相比其主要差别是,传统文本是以线性方式组织的,而超文本是以非线性方式组织的。这里的“非线性”是指文本中遇到的一些相关内容通过超链接组织在一起,用户可以很方便地浏览这些相关内容。这种文本的组织方式与人们的思维方式和工作方式比较接近。 超链接(hyperlink)是指文本中的词、短语、符号、图像、声音剪辑或影视剪辑之间的链接,或者与其他的文件、超文本文件之间的链接。在万维网网页上,为了区分有链接关系和没有链接关系的文档元素,对有链接关系的文档元素通常用不同颜色或者下划线来表示。 超媒体(hypermedia)是超文本与多媒体的结合形式,它不仅可以包含文字,而且还可以包含图形、图像、动画、声音和影视片断,这些媒体之间也是用超链接组织的,而且它们之间的链接也是错综复杂的。从应用角度说,超媒体比超文本更接近人类。 8.2.2 HTML超文本标记语言 HTML 语言英文为 Hypertext Marked Language ,翻译成中文是“超文本标记语言”。它是一种文本格式的文档,加入了许多被称为链接标签 (tag) 的特殊字符串标记,这些标记符号组织与控制输出的效果。它是网页制作的基本工具。 8.2.3 URL——统一资源定位符 URL是Uniform Resource Location的缩写,译为“统一资源定位符”。通俗地说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。 URL的格式由下列三部分组成: 第一部分是协议,如http、ftp、gopher等; 第二部分是存有该资源的主机IP地址; 第三部分是主机资源的具体地址,如目录和文件名等。 第一部分和第二部分之间用“://”符号隔开,第二部分和第三部分用“/”符号隔开。第一、二部分是不可缺少的,第三部分有时可以省略。 8.3 搜索引擎及检索技巧 8.3.1 什么是搜索引擎 搜索引擎(Search Engine),又称搜索机,Web搜索器,是伴随WWW网络出现的检索网上信息资源的新工具,实质上是一种网页网址检索系统。它根据检索规则从其他信息服务器上得到数据并对数据进行加工处理,自动建立索引,并通过检索接口为用户提供信息查询服务。 8.3.2 搜索引擎的构成 (1)搜索器 又称为Robot(机器人)、Spider(蜘蛛)、Webcrawler(爬行者)或Worm(爬虫)等,其功能是在Internet 中漫游,发现、搜集和更新信息 (2)索引器 又称为目录或数据库等,其功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表 (3)检索器 其功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制 (4)用户接口 其作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。 8.3.3 搜索引擎工作原理 搜索引擎的一般工作流程:首先由搜索器,即网络机器人从Internet上收集各信息站点的摘要信息;再由索引器对该网页上的某些字或全部字作上索引,建立本地数据库;然后用户在检索时,通过搜索引擎的用户接口访问摘要信息数据库;检索器根据用户的查询条件快速检出文档,并对将要输出的结果进行排序和相关性处理;最后再通过用户接口将检索结果反馈给用户。 8.3.4 搜索引擎的类型 按搜索方法:全文搜索引擎(网页级搜索,如Google、百度)、目录搜索引擎(网站级搜索,如Yahoo、搜狐、新浪)、元搜索引擎(只需输入一次关键词就可以对多个搜索引擎进行查询的搜索代理网站,如Searchspaniel) 按搜索内容:综合搜索引擎、专业搜索引擎 按搜索范围:独立搜索引擎、多搜索引擎 也可以按语言、行业、地域等进行分类 8.3.5 典型搜索引擎简介 (1)Google搜索引擎() 使用核心软件PageRankTM,目录中收录了10亿多个网址,有132种语言功能,在同类SE中首屈一指 特色功能: ①可以搜索Adobe的可移植文档格式(PDF)文件 ②具有“网页快照”功能 ③具有“类似网页”功能 ④使用特殊词汇后加冒号进行特定

文档评论(0)

cai + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档