信息检索教程 第二讲 检索语言.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索教程 第二讲 检索语言

* 备注: 叙词表的编制 叙词表是叙词法的核心体现。目前,国内的叙词表已有七、八十种之多。常用的有《汉语主题词表》、《化工汉语主题词表》、《机械工程主题词表》、《电子技术汉语主题词表》、《国防科学技术叙词表》等。常见的国外叙词表有《INSPEC叙词表》、《工程索引叙词表》、《工程与科学叙词表》等。 叙词表一般由一个主表和若干个附表构成。主表是叙词字顺表,该表将叙词完全按字顺排列,并有标注事项和参照系统。附表主要包括:叙词分类索引、词族索引、轮排索引、双语种对照索引、专有叙词索引等。叙词分类索引也称分类表或范畴索引,便于从学科或专业分类的角度来选用叙词。词族索引也称等级索引,具有属分关系的一组称为一族,构成一个从泛指叙词到专指叙词的等级系统。轮排索引,也称轮排表,将有相同单词的词组叙词集中在一起,排列在这个单词之下,可以方便人们从该单词出发,查出某一个或全部含有该单词的词组叙词。双语种对照索引如英汉对照索引。专有叙词索引如地区索引、人物索引、机构索引等。 在叙词表的编制过程中尤其要注意以下问题: (1)主题词的选择与规范 主题词也称叙词,在叙词表中它是表达一定意义的最小词汇单元。主题词不仅反映了一定事物的概念,而且它作为事物概念的表达形式而存在。因此,主题词是表达概念的一种形式,而概念则是主题词所表达的内容。 主题词包括普通主题词和专有主题词两种。普通主题词是表示各种事物及其属性的名词,它所表达的常是普通概念,如反映各学科、各种职能活动的基本术语等。专有主题词是表示某一特定事物的专有名词,它所表达的是单独概念,如地名、民族名、语言名、时代和年代、人名、机构会议名称、产品名称、历史事件名称、法规名称、主义、学说、学派、定理等专有名称。 在编制叙词表的过程中,主题词的选择要以所编叙词表规定的专业或职能范围为依据。综合性叙词表和多学科叙词表选词时,各专业、各类职能的名词术语的选用要大致平衡。专业性叙词表的选词,要突出专业特色,兼顾相关专业和相关职能。同时,选词要考虑文献检索的具体要求,以及被标引文献的数量和增长速度。还要考虑被选词的使用频率和检索意义,一般不选用使用频率过高或过低的词作为主题词,对于一个使用频率过高的词,应增选它的下位词;对于使用频率过低的词,可以不选该词,选用它的上位词即可。但对于那些反映新事物、新学科的词,即使开始时可能在文献中出现频率不高,也应给予收录,而对于一些反映旧学科、旧事物的词,即使过去某一时期在文献中出现频率较高,也不一定要选取(对于标引历史资料的主题词表除外)。此外,基本词汇要完备而精练。要注意选用词义明确、符合科学性和通用性的词作主题词。 叙词法规范化处理的内容包括三个方面:①词形规范。是指对自然语言中存在的同义不同形的词语的规范。叙词法中词形的规范需要考虑到同义词与准同义词的规范、词序的规范、词长的规范、汉字形体的规范和外来语词的规范等。②词义规范。是指对自然语言中的多义词、同形异义词进行规范处理。词义规范的内容包括两种类型:一是范围注释,是指对同一主题词在不同学科领域或在不同语言环境下所具有的不同概念进行注释,用来阐明其使用范围;二是含义注释,是指对在某些概念上混淆不清的主题词做简明扼要的说明,用来明确其含义和用法。③词类规范。是指对主题词选定范围进行控制。比如,主题词一般只能从名词或动名词等具有实际意义、并能反映事物本质属性的词中选取,其他的词类应尽量避免或控制使用。④先组度规范。是指对主题词先组程度的规范。叙词语言虽是后组式检索语言,一般是采用组配方式来表达复杂的主题概念,但如果叙词表采用适当的先组词,会提高标引人员标引的一致性,并且会加快标引速度,而过多的采用组配,则可能造成标引的不一致和影响标引速度,因此,叙词表应当对主题词的先组程度进行适当的规范。 (2)主题词之间关系的显示 叙词表的主表是按照主题词的字顺排列起来的,不能直接显示各主题词之间的逻辑关系和展示主题词的语义性。为了解决这个问题,叙词语言采用了多种方法。除了采用词族索引、范畴索引、轮排索引外,最主要的是采用参照系统。 参照系统对于主题词的语义关系的揭示,是通过制订各种符号来加以联系和反映的,具体体现在三个方面: ①同义关系,又称等同关系或代用关系,是指两个或多个词所表示的概念相同或相近,并且可以互换的关系。同义关系的规范化处理,是从同义词中选出一词作为正式主题词,其他的词则作为引导词。同义关系用“用”、“代”来表示。 ②属分关系,又称为等级关系,是指专指度深浅不同的两个主题词之间的关系,属分关系采用“属”、“分”两个参照符号来显示,“属”用于下位主题词指向上位主题词;“分”则用于上位主题词指向下位主题词。“属”与“分”互为反参照。 ③相关关系,是指主题词之间除了同义关系和属分关系之外的某种比较密

文档评论(0)

jiayou10 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8133070117000003

1亿VIP精品文档

相关文档