网站大量收购独家精品文档,联系QQ:2885784924

网络信息检索().ppt

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
网络信息检索()

网络信息检索 一、Internet的基本概念 TCP/IP协议:TCP/IP是由美国国防部高级计划局资助的Internet技术和方法,也称为传输控制/网间协议,是一个标准协议集合,专门适用于广域网(WAN)。 WWW: WWW的含义是“环球网”,是超文本方式的信息查询工具。WWW基于HTTP协议,用HTML语言将多媒体信息组织成超文本,并通过这种方式将全世界Internet上的不同地点的相关信息有机结合起来。 HTTP超文本传输协议 HTTP是基于TCP/IP之上的协议,是用于分布式协作超媒体信息系统的快速实用协议。它不仅需要保证正确传送超文本文档,还必须能够确定传送文档中的某一部分,以及哪部分内容首先显示。 HTML(超文本标识语言) 在HTML中,可以嵌入图像、声音等,可通过超链接无缝引用其他WWW网址资源。用HTML组织起来的信息文档称为页面,由浏览器进行解释、执行和显示输出。 HOMEPAGE:又称为主页,是WWW服务的起始信息页。 Browser:又称为浏览器,是用来阅读HTML文件的专用软件系统,可通过FTP、NNTP、Gopher等许多方式来获取信息。 URL(统一资源定位器) URL可以将世界上所有的联机信息资源组织成有序结构。它的格式有三部分组成: 第一部分是协议(或称服务方式),大部分Internet文档用http,其他常用的协议有ftp、news、gopher、telnet等; 第二部分是存有该资源的主机IP地址; 第三部分是主机资源的具体地址。 IP地址和域名 Internet上的众多计算机和信息资源必须通过名字和地址来进行识别。接入Internet的计算机或节点被赋予一个惟一的数字作为地址,称为IP地址,用小数点隔开的四组数字组成。IP地址通常由Internet 服务机构从Internet网络信息中心注册申请(例如:中央财经大学图书馆的IP地址为01)。IP是网络中的重要资源,有多少个IP地址就意味着有多少台计算机能够连入Internet。 三、搜索引擎 网络搜索引擎的历史最早可以追溯到 1991年,尽管搜索引擎发展时间并不长,但其观念却是深入人心的。 《第22次中国互联网发展状况统计报告》显示,在中国 2.53亿网民中,搜索引擎的使用率为 69.2%,达 1.75亿。目前为中国第五大网络应用技术。从数据中不难看出,网络搜索引擎所发挥的作用是非常大的。 很多搜索引擎网站会从国际网站自动跳转成国内网址,如google自动跳转成cn 全球搜索引擎排名: 1 Google 62% / 2 雅虎 12.8% / 3 百度 5.2% / 4 微软 2.9% / 5 NHN 2.4%(韩国搜索引擎) / 6 eBay 2.2% 7 时代华纳 1.6% / 8 A 1.1% / 9 Yandex 0.9%(俄罗斯搜索引擎) / 10 阿里巴巴 0.8% / 工作原理 搜索引擎是互联网上的分布式搜索系统,它在传统数据库检索技术基础上,增加了自动收集和更新数据库信息的功能,并采用人工智能方法对检索结果进行区分和排序。主要由信息采集器、查询表和检索接口三大模块组成。 搜索引擎系统的分类 1.全文搜索引擎 通过从互联网上提取各个网站的信息(以网页文字为主)而建立的数据库,检索器与用户查询条件匹配的相关记录,并将查询结果返回给用户。服务方式是面向网页的全文检索服务,是真正意义上的搜索引擎。该类搜索引擎的优点是信息量大、更新及时、毋需人工干预,缺点是返回信息过多,有很多无关信息,用户必须从结果中进行筛选。 2.目录式搜索引擎 以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。该类搜索引擎因为加入了人的智能,所以信息准确,导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。严格意义上算不上真正的搜索引擎。 主页 3.元搜索引擎 也称集成搜索引擎。是对搜索引擎进行搜索的搜索引擎。它可以没有自己的资源库和机器人,仅充当一个中间代理的角色,接受用户的查询请求,将请求翻译成相应搜索引擎的查询语法。在向各个搜索引擎发送查询请求并获得反馈后,进行综合相关度排序,然后把整理后的查询结果发送给用户。 / Google不支持“词干法”和“通配符”,但可使用布尔逻辑检索. 逻辑与:用 空格 或 and 或 AND 逻辑或:用大写的“OR”表示 逻辑非:用“-”,减号之前须留一个空格 百度搜索引擎 百度():百度搜索引擎是目前最有影响的中文网络信息检索系统。它的检索词可以是中文、

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档