网络信息检索概论.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五章 网络信息检索概论 Internet 网络信息资源网络搜索引擎 网络信息检索 第一节、InternetInternet的进入方式 IP地址 信息高速公路(一)Internet的进入方式(二)IP地址识别主机的身份证,唯一性形式:四组小于256的十进制表示。如:8 字符型的IP地址,即域名(DN),格式如: /主机名 机构名 网络类型 最高域名最高层域名有两种类型:机构名称——最高层域名为3个以上字母。这些字母标明机构的类型。 地理名称——高层域名为2个字母。这两个字母的代码确定了某个国家或地区。 例如:cn-中国, ca-加拿大,DN与IP一般是一一对应,通过Internet上域名服务器可自动将DN转换成IP。美国的顶层域按机构性质分为:此外,有关组织于1997年建议增加7个顶级域名,对有关域名空间作了进一步细分,以消除com域中出现的拥挤现象。所建议的顶级域名是:info(提供信息服务的组织),web(与WWW特别相关的组织),firm(商业公司),arts(文化和娱乐组织),nom(个体或个人),rec(强调消遣娱乐的组织),store(商业销售企业)。 第二节 网络信息资源网络信息资源的含义网络信息资源的类型一、网络信息资源的含义网络信息资源是指信息资源以电子数据的形式存放在非印刷型的介质中,并通过网络通信手段,在计算机等终端上再现的信息的总和。有人认为是:通过计算机网络可以利用的各种信息资源的总和。二、网络信息资源的类型1、按所采用的传输协议分万维网(world wide web,简称WWW或Web)信息资源:它使用http协议,使用简单,功能强大,能方便迅速的浏览和传递分布于网络各处的文字、图象、声音和多媒体超文本信息Telnet信息资源: telnet是远程登陆协议。telnet信息资源包括硬件资源和软件资源。许多机构都提供远程登陆的信息系统,如图书馆的公共目录系统,信息服务机构的综合信息系统等。FTP信息资源:它使用ftp (file transfer protocol)协议,该协议主要用语连网计算机之间传输文件。FTP相当于在网络上两个主机之间复制文件.用户服务组信息资源:包括新闻组,电子邮件组等。Gopher信息资源: 2、按文献类型分电子报纸电子图书 电子期刊动态信息 如政府机构发布的消息、政策法规、会议消息、论文集、研究成果、项目进展报告、产品目录、出版目录、广告等。书目数据库,参考数据库等等3、按媒体性质分文本信息 如数据、论文、书刊、目录和数据库、广告。图形 图像 如图表、图形、影像、影视。声音 包括各种网上发表的演讲、报告及音乐信息。软件 如免费软件、赠送软件、商品软件及软件升级版本。4、按信息内容的表现形式和内容分 全文型信息:它指直接在网上发行的电子期刊,网上报纸,印刷型期刊的电子版,网络学院的各类教材,政府出版物,标准全文等;事实型信息:天气预报,节目预告,火车车次,飞机航班,城市或景点介绍,工程实况、IP地址等;数值型信息:主要是指各种统计数据、实验数据;数据库类信息:如DIALOG,万方等,是传统数据库的网络化;微内容(web2.0特征):如博客、播客,BBS,聊天,邮件讨论组,网络新闻组等。其它类型:投资行情和分析,图形图象,影视广告等。第三节 网络搜索引擎网络搜索引擎的类型检索结果的排序方法国内外主要搜索引擎简介搜索引擎的语法规则搜索引擎的检索功能 搜索引擎的检索方法 一、搜索引擎的主要类型全文索引,元搜索引擎,目录索引,垂直搜索引擎,集合式搜索引擎,门户搜索引擎与免费链接列表,等等。仅介绍前面两种主要的搜索引擎。1、独立(全文)搜索引擎:允许用户递交查询,检索出与查询相关的网页等结果列表,并且排序输出。如百度,Google, WEB信息资源 用户系统 信息采集模块 信息检索模块 索引数据库 信息标引模块2、元搜索引擎二、检索结果的排序方法(1)自然排名——就是按相关度排名原则,对应的排名结果称“自然排名”。确定相关度的方法有:A、概率方法:根据关键词在文中出现的频率来判定文件的相关性(关键词出现次数越多,相关度就越高);B、位置方法:根据关键词在文中出现的位置来判定(关键词出现越靠前,文件的相关程度越高);C、网页被引用次数 google主要采取此方法,有两种计算法:一是有多少网页与该记录链接,被链接越多,赋予的分值越高(即相关性越高);二是网页的访问量,网页在一段时间内被点击的频率越高其相关性越高。D、被匹配提问词的数量 如果提问式中包含3个单词,那么全部包含3个单词的记录要比只包含2个或1个单词的记录分值要高。E、词的邻近度 如果两个词紧挨着出现要比分开出现的分值高。(2)付费排名近

文档评论(0)

松鼠文本阁 + 关注
官方认证
服务提供商

松鼠文本阁,让你事半功倍,报名表,范文,合同,简历等等都可以定制服务哦 !

认证主体重庆松鼠嘀咕科技有限公司
IP属地重庆
统一社会信用代码/组织机构代码
91500000MA60HBCP1F

1亿VIP精品文档

相关文档