- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【829】 【02检索语⾔】 【理解】
⽂章 ⽬录
信息检索⽐较偏
【⼀】 检索语⾔的含义
(什么是检索语⾔) (18华师简 )
检索语⾔ :⼴义的检索语⾔泛指信息检索过程中涉及的 ⼈⼯语⾔和 ⾃然语⾔ 。⼈⼯语⾔是根据⼀定的规则认为编制⽽成的检索语⾔,它有严
格的使⽤规则,可⽤于表述⽂献的主要内容,建⽴信息检索系统。⾃然语⾔是⼈类交流时使⽤的语⾔,不受任何限制,未经加⼯和规范。狭
义的检索语⾔是指根据信息检索需要,按照⼀定的规则对 ⾃然语⾔进⾏规范 ,并 专门⽤于信息标引和⽤户检索的⼈⼯语⾔ 。
传统意义上的检索语⾔—— 根据信息检索需要⽽创制的⼈⼯语⾔ 。
⼴义的检索语⾔泛指—— 信息检索过程中涉及⼈⼯语⾔和 ⾃然语⾔ 。
狭义的检索语⾔——仅指根据信息检索的需要,按照⼀定的规则 对 ⾃然语⾔进⾏规范 ,并专门⽤于信息标引和⽤户检索的 ⼈⼯语⾔ 。
⼈⼯语⾔是根据⼀定的 规则⼈为编制 ⽽成的检索语⾔,可⽤于表述⽂献主要的内容,建⽴信息检索系统。
⾃然语⾔是 ⼈类交流时 使⽤的语⾔,不受任何限制,未经加⼯和规范,更符合⽤户的⽇常表达习惯。
检索语⾔的特点
作为沟通信息标引与信息检索两个过程⽽编制的⼈⼯语⾔,检索语⾔不但能够保证不同的标引⼈员描述信息特征的⼀致性,⽽且能够 保证检
索提问标识与信息特征标识的⼀致性 。
与其他语⾔相⽐,检索语⾔突出的特点是 :
①具有必要的语义和语法规则,能准确地表达科学技术领域中的⼈和标引和提问的中⼼内容和主题 ;
②具有表达概念的唯⼀性,即同⼀概念不允许有多重表达⽅式,不能模棱两可;
③具有检索标识和提问特征进⾏⽐较和识别的⽅便性 ;
④既适⽤于⼿⼯检索系统,也适⽤于计算机检索系统。
检索语⾔的功能
(1)标引信息内容特征及某些外表特征,保证不同标引⼈员表达信息的⼀致性 :
信息标引是⼀个群体⾏为,只有共同依据检索语⾔,才能保证标引信息的⼀致性。
(2)对内容相同及相关的⽂献信息加以集中或揭⽰其相关性 :
检索语⾔采⽤ 等级结构、参照系统、轮排聚类法、范畴聚类法 等显⽰概念之间关系的⽅法,来实现此功能。
(3)使信息的存储集中化、系统化、组织化,便于检索⼈员按照⼀定的排列次序进⾏有序化检索:
检索语⾔将表达成千上万个 信息主体概念 的全部信息标识排列成⼀个有序的系统。
排列信息标识的⽅法包括 :分类排列法,字顺排列法,分类和字顺结合的排列法 。
(4)便于将标引⽤语和检索⽤语进⾏相符性⽐较 :⼀般来说,任何⼀种检索语⾔都有便于将 标引⽤语和检索⽤语 从整体上进⾏相符性⽐较
(即判断标引⽤语是否与检索⽤语完全相符)的功能。⼤部分检索语⾔还可以将标引⽤语和检索⽤语从局部上进⾏相符性⽐较 (即判断标引
⽤语是否与检索⽤语局部相符)。
检索语⾔的功能/性能
(2006年简 )
(1)标引信息内容特征及某些外表特征, 保证不同标引⼈员表达信息的⼀致性
(2)对 内容相同及相关 的⽂献信息 加以集中或揭⽰其相关性
(3)使信息的存储集中化、系统化、组织化,便于检索⼈员按照⼀定的排列次序进⾏ 有序化检索
(4)便于将 标引⽤语 和 检索⽤语 进⾏相符性⽐较
检索语⾔的分类
(1)按描述⽂献的特征 (⽂献外表特征和⽂献内容特征)
⽂献外表特征——以⽂献的篇名 (题 ⽬)、作者姓名、出版者、合同号、报告号、引⽂等, 据此作为⽂献标识和检索依据⽽形成的检索语⾔ 成为
描述⽂献外表特征的检索语⾔,如题名索引,著者索引、报告号索引、合同号索引、存取号索引、引⽂索引等。
描述⽂献内容特征的检索语⾔ (分类语⾔、主题语⾔和代码语⾔)
(2)按结构或原理 (分类语⾔、主题语⾔、代码语⾔和引⽂语⾔)
分类语⾔,⽤ 分类号 来表达各种概念,将各种概念按学科性质进⾏分类和系统编排,包括 等级体系分类语⾔ (体系分类法) 和 分析——综合分类
语⾔ (组配分类法) ,它们统称为分类法系统。
主题语⾔是采⽤表达 某⼀事物或概念 的名词术语,⽤于标引、存储、检索的⼀种检索语⾔。包括 标题词语⾔、单元词语⾔、叙词语⾔和关键词语
⾔ 等,可统称为主题法系统。
代码语⾔⼀般只是就事物的某⼀⽅⾯特征,⽤某种代码系统来加以标引和排列。
引⽂语⾔是利⽤⽂献之间的 相互引证 关系⽽建⽴的⼀种 ⾃然语⾔,其标引词来 ⾃⽂献的主要著录项 ⽬。
(3)按信息标识的组合使⽤⽅法 (先组式语⾔、后组式语⾔和散组式语⾔)
先组式语⾔指 表达信息主题概念的标识在编制词表时就已固定组配好 ,信息存储和检索⼈员在标引和查找信息时,依据词表选⽤组配好的主题标
识
文档评论(0)