医学一体化语言系统(UMLS).ppt

下载文档

21
0
约 51页
2017-09-30 发布于北京
举报
版权申诉
保障服务

医学一体化语言系统(UMLS).ppt

1、本文档共51页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

医学一体化语言系统（UMLS）中研信公司前言 20世纪中叶是情报语言学研究中人工语言发展的鼎盛时期，20世纪末叶是人工语言与自然语言相结合的新兴阶段。自然语言由于存在词汇的同义、多义现象，词汇的模糊性和不确定性，词汇量的巨大，词间关系不明晰等问题，不可能单纯使用它进行检索，所以需要用一种受控检索语言对检索和标引所用的词汇进行控制，把用户的语言和标引人员的语言统一起来。由于信息量的扩充，给人工语言的处理带来了很大的困难。 (1)工作量大。因为其工作繁难，国外的信息检索系统中有75%的运行费用要用于人工标引。(2)效率低。标引员要正确标引一篇文献，往往要耗时一个半小时以上。 (3)一致性差。美国的Cleverton曾做过一些试验，他指出：两组人为同一主题编出的叙词表，其中词的同一率仅60%。两位有经验的标引员用同一叙词表对同一篇文献进行标引，其标引词的同一率仅有30%左右。两个在同一库中用同一检索系统检索同一问题的人，检索出的结果的同一率仅有40%。两位科研人员根据同一提问判断一组指定文献的相关性，其同一率不会超过60%。 (4)词表的不完备性影响了标引的质量。词表的更新赶不上时代发展的步伐。庞大的词表，使标引速度大大地降低。 (5 )标引员与检索员都必需熟悉词表才能工作，使用非常不便。因此，必须发展使用电脑来进行自动标引。早在1956年，美国的H.P.Luhn就开始了文献自动标引的试验；60年代初，美国的G.Salton教授在自动标引方面取得了令世界瞩目的成就。中医药文献数据库在多年的建库过程中，深刻体会到标引工作的复杂性与耗时、人、财量。为实现自动标引与自由检索，以及数据库的深层次加工与数据挖掘。现行方法有二个方面。数据库结构的拆分与细化。语言处理。美国国立医学图书馆研制了统一的医学语言系统（Unified Medical Language System,UMLS），其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式，有用的信息分散在不同的数据库系统中。一、UMLS的建立与发展过程建立目的：旨在建立一个计算机化的可持续发展的生物医学检索语言集成系统和机读情报资源指南系统，其目的在于提高计算机程序“理解”用户提问中生物医学词汇语义的能力，并利用这种理解帮助用户检索和获取相关的机读情报。UMLS是计算机化的情报检索语言集成系统，它不仅是语言翻译、自然语言处理及语言规范化的工具，而且是实现跨数据库检索的词汇转换系统，它可以帮助用户在联接情报源，包括计算机化的病案记录、书目数据库、事实数据库以及专家系统的过程中对其中的电子式生物医学情报作一体化检索。是使医疗卫生专业人员和研究工作者能够通过多种交互检索程序，克服由于不同系统语言差异性和不同数据库相关情报的分散性所造成的诸多情报检索问题，帮助用户从电子病案系统、书目数据库、图像数据库、事实数据库、专家系统等各种联机情报源中检索和获取综合性或特定性的情报信息。主要解决：1）同一概念由于不同的人或在不同的数据库中可能会有不同的表达方式； 2）数据库系统分散所造成的检索不完整的问题。发展过程 1986-1988的第一阶段，其研究和开发的重点是调查用户需求、开发研究工具、确定UMLS的性能及其实施方案、界定系统组成等。在此阶段主要界定了UMLS的三个组成部分即超级叙词表、语义网络、情报源图谱，并且进行了包括Mesh、SNOMED、CMIT和PDQ词表在内的联接试验。 1989-1991年为UMLS的发展阶段，其开发的重点是迅速研制和发行三个UMLS产品的试验版，同时继续开展用户调查和UMLS功能开发。 92年至今为应用阶段，1996年UMLS新增了一个组成部分即“专家词典”。在此阶段，许多研究机构利用UMLS 进行基于Internet的应用开发，如决策支持系统DX plain、文献检索系统Web medicine、临床Web搜索系统Clin web、医学世界检索Medical world search以及集成化的Med weaver等。同时进行了NLM/AHCPR大规模词汇测试。二、UMLS的组成超级叙词表（Metathesaurus）语义网络（ Semantic Network）情报源图谱（Information sources Map ISM）专家词典（Specialist Lexicon）四个部分组成。这四部分紧密联系、不可分割，构成了一个有机的整体。（ 1 ）超级叙词表超级叙词表是生物医学概念、术语、词汇及其等级范畴的广泛集成。“Meta”意即超越、含盖。 1997年第8版的超级叙词表收录了来源于30多种生物医学词表和分类表的能表达33万多个概念的739439个词汇，200