构建主题词系统在中国专利信息化战略中作用.docVIP

构建主题词系统在中国专利信息化战略中作用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
构建主题词系统在中国专利信息化战略中作用

构建主题词系统在中国专利信息化战略中作用   国家知识产权局在“十一五”信息化建设规划中,明确提出了加强中国专利数据库检索系统的目标、要求和任务,以适应中国专利文献信息服务以及文献量突涨的需要和走出专利文献检索越来越难的困境。   众所周知,不管是数据初加工还是深度加工,数据库加工和检索的高度统一,才能提高检索的准确率。要做到这种高度统一,只有构建一套规范的、完整的、动态的、适应专利文献检索发展需要的主题词系统,作为数据库加工和检索的桥梁,才能有利于提高数据库建设的水平。目前,国内已建立的一些中国专利文献检索系统还没有这种高度统一的主题词表,难以避免低水平数据库的重复建设。本文拟从主题词系统的特点和功能入手,结合国内外专利数据库建设、我国专利信息化战略中专利数据库建设的需求以及中国中药专利数据库的经验,来分析并探讨主题词在专利数据库建设中的作用和地位。      一、主题词系统      主题词系统是由一套制定完整的主题词方法,及一个完整的、经过规范后的主题词表构成。可以解决相关词汇之间的复杂关系,用于文献数据库的有效管理和利用,以及提高文献检索结果的作用。   1.关于主题词   主题词是一个抽象的概念,是经人工规范化处理的最能表达文中主题概念的词语。而规范化处理,就是在文献存储时,对文献中的同义词,近义词、多义词以及上下位概念词等不同类型的词汇加以严格的控制和规范,尽可能地把相同的一个主题概念的文献相对集中在同一个主题词下,同时在供标引和检索的主题词表中采用参照系统,以达到间接反映主题概念与文献内容之间的关系,从而体现了主题词的单一性。   2.关于主题词表   主题词表是为了使文献标引者和检索者用词统一,又能及时查到所需文献情报而编制出的一种工具。简单地说就是将若干非主题词通过若干规则规范成主题词,并按照一定顺序排列的结果。表中的主题词是对各种词汇通过参照关系作规范化处理,使同义词、近义词、同族词、相关词、主题词与非主题词在主题词表中都一目了然。也可通过参照关系指引读者,查找作为主题词的词和与主题有关的非主题词,扩大检索范围。如一些常用的主题词表有《医学主题词表》(美国国立医学图书馆编制)、《英汉对照医学主题词注释字顺表》(中国医学科学院医学信息研究所翻译编制)、《中医药主题词表》(中国中医研究院医学情报研究所编制)、《汉语主题词表》等等。   3.主题词的制定   主题词的制定方法一般有标题法、元词法、关键词法和叙词法等几种。   标题法,属于先组定组式主题词法,是经过严格规范的先组定组式标题,如《美国国会图书馆标题表》。使用时不但复杂而且缺乏灵活性。   元词法,元词是最小的字面单元。所谓“最小的字面单元”,是指在字面上不能再分的词,如果再分,这个词就不能正确表达一个独立、完整的意义。标引文献时通过单词组配,结果很容易造成歧义。   关键词法,是指直接从文献内容中抽取关键词作为文献主题标识的主题词法。由于它具有不用受控词表、不用主题分析、标引速度快、编制检索工具简便的特点.非常适合急剧增长而迅速发展的网络电子资源的需要。相反,其非受控性也大大影响了它的检准率和检全率。另外,由于词的非受控性,词表可以随着文献的不断增多而扩大。国家知识产权局专利信息中心就有一套拥有20多万条词汇的关键词表。   叙词法,是以叙词作为文献主题标识的主题词法。所谓“叙词”,是指从文献内容中抽出的能够概括表达文献内容基本概念的并经过规范的名词或术语。也就是说,它是一种从自然语言中精选出来的,以基本概念为基础的受控词汇。叙词法采用后组式的概念组配来标识文献主题,因此,它比元词法、标题法以及关键词法都更加优越,成为当代文献标引和检索的主流工具。《汉语主题词表》就是这样一部大型的综合性的叙词表。   具体编制过程中,可以采用电子计算机来编制,现在用电子计算机编制词表的技术非常成熟。      二、国外专利数据库应用主题词的概况      大型数据库与主题词表有着密切的关系,作为专利数据库也不例外。目前,国际上几个比较著名的专利数据库如英国德温特数据库、日本专利数据库,美国专利数据库等,都有自己的主题词表。   如德温特使用的手工代码用词就相当于广义的叙词表。德温特的这种手工代码是以应用性分类为基础的检索语言,它已在DIALOG、STN、ORBIT、QUESTEL等著名的国际联机数据库中被使用。德温特手工代码有标引的一致性和使用一个代码可以检索不同拼写形式的同义词等特点。检索时,利用关键词和手工代码的交叉使用,明显提高了检索的准确度。比如,“ABS”可以是汽车防抱死系统(Antilock braking systems)的缩写,也可以是化合物丙烯腈-丁二烯-苯乙烯(Acrylonitrile-butadi

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档