3信息检索语言.pptVIP

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
3信息检索语言

3 信息检索语言 检索语言是信息检索系统中信息存储与检索用语,用户与检索系统藉以交流、互动的媒介。 受控语言 受控语言与 自然语言 自然语言结合 3.1 信息检索语言基础理论研究 信息检索语言的类型 按规范形式可以分为:规范检索语言和自然检索语言 按操作方式可以分为人工检索语言和机器检索语言 按表现形式可分为专有型检索、语言代码型检索语言和语词型检索语言 按受控方式可分为前控检索语言和后控检索语言 按检索对象可根据具体检索对象的类型不同形成特定的检索语言:文献检索语言、网络检索语言、图书检索语言、档案检索语言 情报学的认知观对信息检索语言研究的影响 信息检索过程是个非常复杂的认知过程,是一种由已知通向未知过程。 3.1 受控检索语言的分析比较 受控语言是用于对自然语言进行事先规范的人工语言 优势: 文献描述与概念表达的惟一性、专指性,便于提高检准率 通过揭示同义词、近义词和相关词等词间关系可以提高检全率 缺点: 受控语言因人工制作,成本高 人为因素影响大 更新困难,新学科、新技术等新概念难以及时更新 分类检索语言 一般认为文献分类是以科学分类体系为基础 钱学森提出的现代科学分类体系是:自然科学、社会科学、数学科学、系统科学、思维科学和人体科学 钱老认为:人类的知识系统由四部分组成:不成文的实际感受、实际经验知识库、各门科学技术、哲学 陆近春认为整体分解的方法,把宇宙物质世界看成一个体系 宇宙物质世界 地球表层系统及科学 社会系统及科学 人体系统及科学 精神系统及科学 思维系统及科学 分类的电子化 《中国图书馆图书分类法》 A 马克思主义、列宁主义、毛泽东 思想、邓小平理论 B 哲学、宗教 C 社会科学总论 D 政治、法律 E 军事 F 经济 G 文化、科学、教育、体育 H 语言、文字 I 文学 J 艺术 K 历史、地理 书生之家的主页 法律 国际法 国际私法 主题检索语言 叙词表 什么是叙词表:叙词表又称主题词表(Thesaurus),指以规范化的自然语言语词作为文献主题的标识,通过叙词的概念组配表达主题概念。 叙词表的作用:叙词表对普通用户来说,是一种简化的词典。而在图书馆员看来,叙词表是主题词表的一种,用概念词汇来标引文献。能够多检索途径、多因素组配、灵活扩检、缩检、改变检索范围,具有专指度好,同时具有一定可扩展性的优点。同关键词表相比,叙词表人为干预的程度较强,而关键词表常常从文献本身直接抽取词汇形成各种索引,自动化处理的性能较好。 分面和组配 :复杂的主题经过若干分面分析,归结为一系列单一的概念,相反的过程也是一样。充分体现了叙词表的标引和检索能力。在学科-概念组配型检索语言中,学科分类系统面和事物分类系统面成为标识主题的两个主要分面,两个面可以互相组配。当按学科聚类,藉由事物及部分分面进行复分;当按事物聚类时,藉由学科分面进行复分。同时,时间和空间自然也可以构成合理的分面。 叙词关系单元 :现在标引的观点是采用具体叙词表(如Ei)的词汇来标引具体的WEB RESOURCE,但是理想的做法是采用具体概念(CONCEPT)来标引具体的WEB RESOURCE,术语(TERM)是概念的载体(容器),可以同叙词表的微观结构对应。可以说在网络环境下存在的不是一部部叙词表,而是一个个用词汇表示的概念,概念的某种顺序集合就形成了某个现有的词表。现有的叙词表的微观结构可以作为一个“叙词关系单元”面目出现,从而形成“WEB RESOURCE”的自我描述机制。 叙词的关系:“用、代、属、分、参” 例:资源描述框架 RDF开发的的有关环境的叙词表和叙词网络工具 针对叙词表在网络环境下的应用,他们共同提出了一套标准,用于基于rdf格式,HTTP通信协议的分布式叙词通讯机制。该通信机制是建立在如下前提下: 1.?? 每个叙词表由一个URL表示,这样可以有效避免叙词表的二义性。如:叙词表ceres的URL为:/cgi-bin/thesauri/CERES 2.? 每个叙词由一个URL表示。格式为“叙词表URL?叙词名称”,这样可以准确的标识一个叙词条目和改叙词所在的叙词表。如:叙词条目“Ecosystems”的URL为:/cgi-bin/thesauri/CERES?Ecosystems 3.?? 客户端通过HTTP协议向HTTPD服务器请求叙词。 4.? 服务器端返回给客户端的信息采用RDF的数据格式。 3.3 自然语言处理与自然语言检索 什么是自然语言 就是指人们日常说话、写文章和交流思想所使用的语言,也有人将自然语言定义为书面用语。在信息检索中自

文档评论(0)

xy88118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档