- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
受控词表设计
受控词表的设计
前言
语言是信息的主要体现者。因此,信息时代语言更具重要性。80年代被称为“语言的十年”。全球范围内出版的语言工具如字典、词典、词表以每月500种的速度增长。现有35种语言的超过10000种的词表标准。
受控词表是重要的语言工具。词表(Vocabulary)是指“可用的术语或编码的列表(list)或集合(collection)(如在索引系统中)”。如果一个词表包含可用术语的受约束子集那么就可以被称为受控词表。子集包含的是那些规范使用的术语,又称“规范表(authority list)”。除了术语学的规范之外,大多数的受控词表都清楚表达词表中术语间的语义关系,最常见的是包含关系或等级关系。
受控词表可采用多种形式,被用于多种目的。在术语库形式时,受控词表作为手工和自动翻译的辅助。在词典形式时,被用来对特别活动领域的词的意义和用法加以标准化和解释。在文学辞典中,通过使思想更易于表达来辅助写作。当概念结构形式时,成为知识表达系统的骨干。
图书情报学中,受控词表主要用于辅助信息检索。分类表、叙词表、主题标目目录都是受控词表的例子。如果词表被广泛解释成涵盖适合的名称,那么名称规范表(authority files)也可作为该领域受控词表的例子。
图书情报学中的词表设计,其范围从简单的工作如列出一个特定的数据库可能的属性值,到复杂的任务如构建一个深入的分类表。本文探讨可提供主题揭示的字顺方法和分类方法的受控词表设计的一般规则。本文首先陈述受控词表的目的,然后讨论词汇、语法、语义的设计,并以对当前关注两个方面:受控词表的兼容性和有效性问题的简评作为终结。
受控词表的设计目标
任何情报检索系统设计中要做的主要决策之一是要不要有一个受控词表。一旦决定要有受控词表,就产生了关于词控制的规模和种类问题。没有采用词汇控制的系统可以根据他的索引来表征:自然语言、派生词、关键词或者标题词的索引;或者根据允许的检索类型:自由文本(fre-text)检索和全文(full-text)检索。一个带词汇控制的系统要优于不带词汇控制系统,这并非定论。实际上,在本文后面可以看到,有多种情况,当用简单的关键词来检索文本信息时表现出了最好的成本效益选择。然而,一般的假设受控词表在帮助用户检索目录信息过程中发挥重要作用。这种假设反映了一种被广为接受的观点——利用词汇控制,可以系统的纠正某些给检索带来麻烦的语言中的混乱现象。
在一个完善和有序的语言中,任一个对象或概念只用一个词表达,任何一个词将只指向一个概念或对象。在这样的语言中,词和事物之间是一对一的关系,是同形性的(isomorphism)。但这种整齐有序只存在于人工语言中。在许多自然语言例如英语,有好些多词同义和一词多义现象。其结果是词和事物之间呈现多对一和一对多的交叉映射关系。受控词表的目的就是使自然语言多一些人工控制。方法之一就是通过清除语言中的同义和多义现象来解决这些交叉映射问题。
在检索语言中同义词和多义词是不受欢迎的,因为当与信息资源(如一个书目数据库)进行交流时他们常会导致失败。同义词会导致交流失败是因为用户用两个同义词中的一个进行检索时,比如球形屋顶,可能检索不到那些碰巧用其他词来揭示的信息,如园葱形屋顶。任一个情报检索系统的首要要求是将一个有关主题的所有的资料都归并在一起。没有对同义词进行控制的检索语言不可能满足这种匹配的要求(collocating requirement),或者族性检索(generic survey)的要求。一个不能满足匹配要求的系统在查全率上的表现可以说糟糕的。查全率(recall)是一个技术术语,指一个与检索提问相关的所有文献与实际检出文献的比率或百分比。受控词表解决同义或查全率问题的各种方法,我们将在本文的后部分进行讨论。
检索语言中的多义词要对另一种交流的失败负责。用户查找多义词Drums的某一种含义的信息(如某种乐器),可能同时会找到与Drums相关的资料,与该名字相同的鱼,装油的集装箱,或者一个专栏的组成部分。换句话说,多义词造成了非相关资料检索。一个检索系统允许非相关资料被检索。在这种意义上我们说他查准率低。查准率(precision)也是一个技术术语,指对于一个检索,查出的资料与查出中的相关资料的比率或百分比。受控词表解决查准率问题的方法,我们也将在本文的后部分进行讨论。
受控词表就是优化检索语言的查准率和查全率。尽管查准率和查全率是较为时髦的词,但对这个概念的运用已有了相当多的历史先例。在上世纪中期,Samsom Low抱怨那时所用的分类法,尽管他们提供了给定学科的所有信息,但他们不能提供特定的文献(specific materials)的信息(quoted in 7, p.535)。用现代的术语来说,他的抱怨就是在追求好的查全率的同时出现的糟糕的查
您可能关注的文档
最近下载
- 人教PEP版六年级上册Unit 5 What does he do 单元整体教学设计.pdf
- 2021年新生儿感染:抗菌药物预防性与治疗性使用指南解读(全文).pdf
- 《数字图像处理教程》试题库.pdf VIP
- 学校意识形态工作计划.pdf
- 战略模拟软件CESIM全攻略(课堂PPT).ppt
- 中国碳交易政策对可持续经济福利的影响.pptx VIP
- 反三违(典型“三违”)行为清单.docx
- (高清版)B-T 3836.1-2021 爆炸性环境 第1部分:设备 通用要求.pdf VIP
- 人教版高一化学必修一知识点梳理.docx
- 人教pep版英语三年级上册阅读理解专项复习试卷测试题(含答案).doc
文档评论(0)