黄页检索语言与探索.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
黄页检索语言的探索 周毅俊 目的 通过对情报检索语言的研究,探讨一个与黄页相适合的检索语言,并探寻目前黄页检索中不足和可能的解决途径。由于黄页产品的多样性,在检索语言的选择上也可能不是单一的,在这方面本文也会做一些探讨。 正文 黄页的生命力在于信息,在目前信息化的社会,黄页作为一个信息的媒体,给予人们的信息量是巨大的。要在一个数据量巨大的信息库中寻找到一些自己需要的信息,人们很自然会想到需要一个科学的检索方法以帮助人们能够快速、准确地找到信息。可以说只要有大量信息的存在,检索就有起其存在的价值。情报检索语言就是根据人们对信息检索的需要而创造的人工语言,又可称为检索语言。目前世界上有成千种情报检索语言。例如,《中国图书馆图书分类法》、《汉语主题词表》、《国际主题词表》、《NASA叙词表》等等,都是情报检索语言的一个语种。虽然有如此多的检索语言,其实他们的基本原理是一致的,只是它们在表达各种概念及其相互关系时和解决对它们提出的那些共同要求时所采用的方法不同,因而形成了不同的类型和语种。 情报检索语言按其结构原理,可分为分类语言、描述语言和代码语言三大类型。下面将简单介绍一下这三种类型的语言。 分类语言用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。分类语言包括等级体系分类语言(体系分类法)和分析-综合分类语言(组配分类法)。它们统称为分类法系统。 体系分类法是一种直接体现知识分类的等级制概念标识系统。它是对信息内容的概括及某些外表特征的概念进行逻辑分类(划分和概况)和系统排列构成的。体系分类法的主要特点是按学科、专业集中信息,并从知识分类角度揭示各类信息在内容上的区别和联系,提供一种检索的途径。体系分类法采用的是对事物概念进行层层划分、层层隶属的方法来形成一系列专指的分类标识,并构成一个具有隶属、并列关系的秩序井然的概念等级体系,来达到对信息内容进行分类的目的。但是,体系分类法的类目是列举式的,而要详尽无遗地列举一切事物概念事实上是不可能的,对于这个问题,在下面说到的组配分类法中会谈到解决的方法。目前在黄页系统中使用的分类表就是属于体系分类法的一种。对于黄页来说,该分类法能按专业集中地、系统地揭示企业性质,可使使用者“一览全貌”,“触类旁通”,这对于使用者系统地搜索和利用一个专业范围的信息来说,是很方便和有效的,而且检全率也很高。但是,现代企业从事产品的多元化和产品之间互相渗透和综合,使得越来越难于充分地、合乎客观实际地反映多维性的企业性质。这使得对一些企业的专业范围很难界定,体系分类法对黄页来说检准率面临着非常大的挑战。 组配分类法的构成基于概念的可分析性和可综合性。即一个复杂的概念可分析为若干简单概念,若干简单概念可以综合为一个复杂概念。因此,一个复杂的主题概念可以用若干个表达简单概念的组配来表达。组配分类法是体系分类法的发展。创制组配分类法的目的,主要是为了克服体系分类法的列举式列类方法所造成的不能无限容纳概念的局限性。由于组配分类法中的组配过程是在检索时动态进行的,对于纸质号簿来说并不适用,对于电子类的黄页产品可以考虑使用,但由于组配的逻辑非常复杂,对于检准率方面有欠缺。 描述语言用词语来表达各种概念,将各种概念不管其相互关系完全按字顺排列。描述语言包括标题词标引语言(标题法)、单元词描述语言(单元词法)、叙词描述语言(叙词法)和关键词描述语言(关键词法)等。他们可统称为主题法系统。标题法的检索标识是在编表时就固定组配好的,即所谓“先组式”的;单元词法和叙词法的检索标识一般是在检索时才组配起来,即所谓“后组式”的。标题法、单元词法和叙词法都要对取自自然语言的词语加以规范化,而关键词法一般认为是直接使用自然语言不加规范,其实它也要进行某种程度的规范化处理,被称为后控词库(后面相关内容中会提及)。标题法、单元法和叙词法在表达各种概念及其相互关系的方法上各有特点,但许多方法是通用的。所以,要在它们之间划一个明确的界限比较困难。事实上,目前分类法系统和主题法系统也互相渗透,各种方法互相采用。我们的黄页分类也采用了以体系分类法为主,穿插使用了主题词法的方式,例如在黄页分类中的“计算机”就是采用的主题词法。我感觉描述语言在黄页中的使用还只是很初步,作为一个目前广泛使用的检索语言,我认为我们还有不少方面的检索,特别是基于计算机的检索,可以依赖这种检索语言,这在下文中还会详细提及。 代码语言一般只就事物的某一方面特征,用某种代码系统来加以标引和排列。例如,化合物的分子式索引系统,环状化合物的环系索引系统等。这种检索语言比较适用于某一专业的检索,黄页一般都是综合性的检索,这类检索方式对于黄页来说距离比较远,这里就不再详细叙述了。 以上简单介绍了目前存在的几种主要的检索语言,现在来看看黄页对检索语言使用的现状。目前我们基本上使

文档评论(0)

bhyq + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档