- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2012 年全国知识组织与知识链接学术交流会·北京
标引和检索是检索系统的两个主要模块,在标引和检索阶段都会涉及词汇控制问题,张
琪玉先生曾总结出情报检索语言在检索系统中的主要应用模式。[1]根据词汇控制阶段的不
同,机检环境下检索系统控制模式分为以下四种,如表 1 所示:
表 1 检索系统控制模式比较
控制模式 标引阶段 检索阶段 优点 缺点
纯人工语
人工控制 人工控制 检全检准率高 成本高、响应时间长
言模式
纯自然语
不控制 不控制 成本低,系统响应快 检索效率低下
言模式
后控模式 不控制 不严格控制 标引成本低,检全率较高 需构建后控词表
混合模式 不严格要求 不严格要求 成本低,效率较高,灵活 需构建词表
以上四种检索控制模式更适合于联机检索,到了网络时代,尤其是检索系统用户大众化
以后,受控的难操作性和不受控的低效率性之间的矛盾催生出一种新的检索机制,即检索系
统的“外壳”——标引和检索两端都不控制,采用自然语言标引和检索;在系统的“ 内核”——
语词匹配过程中运用检索语言中的词汇关系,通过计算机自动进行语词转换控制,将自然语
言转化为受控语言,具体实现如图 1 所示。
图 1 “外壳非控,内核受控” 的检索机制
图表来源:杜慧平,仲云云. 自然语言叙词表自动构建研究[M]. 南京:东南大学出版
社,2009:64.
这种“外壳非控,内核受控” 的新型检索机制既减轻了标引人员的工作负担,也大大降低
了用户的检索负担,提高了检索系统的用户友好性;同时,内核匹配中的转换控制避免了单
纯字面匹配查找的低效率,实现了概念检索,能提高系统的检全率和检准率。这种检索控制
模式对知识组织和信息检索的语义工具产生了重要影响,要求作为转换中介的叙词表具有丰
富的概念和词汇,尤其要尽量多提供入口词、使用适合计算机自动匹配的词法和句法、丰富
的词间关系和关系类型等。
1.2 叙词表词汇控制机制
著名情报语言学家 Lancaster 认为:所谓词汇控制就是把自然语言加工成检索语言的情
报控制过程。[2]从叙词表编制过程来看,词汇控制包括两个方面:一方面对自然语言的语词
进行压缩、优选和规范化处理,另一方面是对自然语言进行结构化处理,[3]126-127 具体体现
为词量控制、词类控制、词形控制、词义控制、词间关系控制和先组度控制,这些在叙词表
编制标准规范中都有明确的说明和规范,如表 2 所示。
表 2 传统叙词表词汇控制内容
323
2012 年全国知识组织与知识链接学术交流会·北京
控制手段 控制范围 控制措施
优选 词量控制 压缩,优选、组配、上位词置代
词类控制 优选名词和名词词组
先组度控制 后组词为主,先组词为辅
规范化 词形控制 词形规范和同义词规范
词义控制 加括号限定词或各种注释,引入分类
结构化 词间关系控 建立参照系统和范畴索引、词族索引,引入详细分类和图
制 形显示
在早期检索环境中,标引和检索工作一般由专业人员完成,因此,叙词表作为一种标引
工具和检索语言,往往将标引功能和检索功能统一于一体。但随着网络信息检索的普及,标
引和检索的施动者发生了变化,从人工标引向自动标引转变,检索用户从专业情报人员向大
众用户和机器用户转变,叙词表作为标引用表还是检索用表,在编制过程尤其是词汇控制中
需要加以明确区分。
从目前的检索机制和信息环境来看,叙词
文档评论(0)