重新思考词表在科技文献服务中的作用.docVIP

下载本文档

1
0
约6.43千字
约 6页
2019-01-06 发布于四川
举报
版权申诉

重新思考词表在科技文献服务中的作用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

重新思考词表在科技文献服务中的作用梁冰乔晓东王莉（中国科学技术信息研究所信息技术支持中心北京 100038）摘要词表是文献与情报检索中用以标引的一种检索工具。它是一些规范化的、有组织的、体现主题内容的、已定义的名次术语的集合体，多年来为图书馆行业的信息组织起到了重大作用。随着互联网技术及相应产品的快速发展，新的词条及百科等知识化构建模式以及多语言服务对传统词表造成了强烈冲击，图书情报领域也在深刻思考传统词表如何适应新时期的发展。本文结合国家十二五科技支撑计划项目“信息资源自动处理、智能检索与STKOS应用服务集成”，简述新时期如何构建词表与利用词表展开智能化科技文献服务。关键词词表科技文献服务文献检索 1.概述早期的词表产生于19世纪中叶，它不是按照字母顺序排列，而是按照词语表达的概念进行系统排序，目的在于找到表达概念的最合适的词或词组。图书馆利用它来有效的组织资源，表达资源所属领域与涵盖范围。在20世纪中后期，词表的建设全面展开，专业领域的词表相继产生。图书馆标引员开始将词表用于文献的标引，并开始利用标引词汇与检索人员的语言相匹配，从而更有效地查找文献，国外有众多典型应用案例。我国的词表建设也经历了相同阶段，有代表性的项目有《中国分类主题词表》。但是我国的词表建设存在维护经费不足，应用理论与技术相对落后不能支持推广，内容的数字化程度低等原因，造成词表应用与发展在后期停滞不前。传统的词表依靠专业人员手工编制与维护，主要保存于本地由专业人员用来做文献资源的组织、标引和检索。随着21世纪以来互联网的飞速发展，一些词表开始从单机电子版向网络环境移植，并逐渐被集成到信息检索系统中，如ERIC/HASSET/AAT/UMLS等[1]。词表的发展呈现出版本网络化、编制模式半自动化与协作化/协同、集成化与本体化、信息组织标准全面升级、发布为关联数据等特点[2]。各类基于词表的应用急剧增多，对网络化，知识化的词表研究逐渐形成热点，重点集中在词汇自动丰富、不同词表间的互操作、基于叙词表构建本体、以及通过词表形成领域知识化服务等方面。此外，互联网服务商开始建设类似百度词条，维基百科等互联网应用及服务，以全新的模式对传统词表的建设和应用提出了挑战。由此，随着大数据时代的来临，图书情报行业更加需要强化知识组织手段，充分原有积累的词表工具，吸收互联网建设中的创新与技术，这不仅仅体现在词表的编制与构建上，更重要的是，新的应用需求与技术上的可能，使得词表这个传统知识组织工具重新回到应用的舞台。 2.文献情报行业对词表的研究热点词表的自动更新研究：传统词表是依靠人工维护的，以科技领域词汇的发展变化来看，其更新速度远远跟不上实际领域发展的速度。因此，文献情报行业研究重点逐渐从词表的数字化加工处理转向词汇的自动发现与补充，不断丰富和更新词表的建设模式。不断从科技领域学术研究的自由文本中抽取词汇，挖掘词汇间关系，而这些关系的准确性与采用的挖掘算法密切相关，虽然无法比拟人工编制词表的严谨与精确，但是可以作为其补充，促进词表更新。[3] 词表间的互操作研究：各行业领域都拥有相对准确和专业的词表，如何使用多种不同词表，将其整合实现互操作提高应用水平成为研究热点。词表互操作包括两种方式，一是以统一标准进行数据整合，在其他系统中导入和使用；二是在两个不同词表之间建立两两映射关系，通过映射将不同类型、不同语种的词表集成整合到一起。在标准化方面，研究热点集中在如何采用知识组织规范对叙词表进行描述。目前，通过词表间映射是解决互操作的最重要的方法，美国国立医学图书馆建设的UMLS（Unified Medical Language System）就是非常典型且成功的案例，它不断整合国家医学系统的传统分类法、叙词表、标题表、术语词典等资源, 通过映射、链接等对概念及概念关系进行自动抽取、集成归并,建立不同词表概念间的映射关系,形成了一部概念和语词覆盖面广、语义关系丰富的超大规模词表，广泛应用于医疗信息系统、病案系统、自然语言处理、文本自动标注、智能检索及搜索引擎等领域。词表的本体化研究：本体是建立概念和概念之间关系的为核心，提供对特定领域知识的描述，而本体的构建较为复杂，并且在不同领域很难复用。叙词表由于其丰富的概念、词汇及词间的语义结构，为本体的构建提供基础条件[4]，已经有较为成功的应用案例，如联合国粮农组织将Agrovoc叙词表转换为农业本体。 3.新时期词表建设与应用的新模式与传统词表建设不同，美国普林斯顿大学建设的WordNet基于心理学和语言学的数据库，组织形式是用户在认知过程中所表现出的同概念性质，按照单词的意义组成一个“单词的网络”。它是一个覆盖范围宽广的英语词汇语义网，以一种“网”的形式来描述词语的意义，可以