医学一体化语言系统(umls).pptVIP

下载本文档

82
0
约4.18千字
约 51页
2019-08-01 发布于浙江
举报
版权申诉

医学一体化语言系统(umls).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

医学一体化语言系统（UMLS）;前言;(1)工作量大。因为其工作繁难，国外的信息检索系统中有75%的运行费用要用于人工标引。(2)效率低。标引员要正确标引一篇文献，往往要耗时一个半小时以上。 (3)一致性差。美国的Cleverton曾做过一些试验，他指出：两组人为同一主题编出的叙词表，其中词的同一率仅60%。两位有经验的标引员用同一叙词表对同一篇文献进行标引，其标引词的同一率仅有30%左右。两个在同一库中用同一检索系统检索同一问题的人，检索出的结果的同一率仅有40%。两位科研人员根据同一提问判断一组指定文献的相关性，其同一率不会超过60%。;(4)词表的不完备性影响了标引的质量。词表的更新赶不上时代发展的步伐。庞大的词表，使标引速度大大地降低。 (5 )标引员与检索员都必需熟悉词表才能工作，使用非常不便。因此，必须发展使用电脑来进行自动标引。早在1956年，美国的H.P.Luhn就开始了文献自动标引的试验；60年代初，美国的G.Salton教授在自动标引方面取得了令世界瞩目的成就。中医药文献数据库在多年的建库过程中，深刻体会到标引工作的复杂性与耗时、人、财量。 ;为实现自动标引与自由检索，以及数据库的深层次加工与数据挖掘。现行方法有二个方面。数据库结构的拆分与细化。语言处理。美国国立医学图书馆研制了统一的医学语言系统（Unified Medical Language System,UMLS），其目的在于克服计算机生物医学信息检索中相同的概念具有不同的表达方式，有用的信息分散在不同的数据库系统中。 ;一、UMLS的建立与发展过程;发展过程;二、UMLS的组成;（ 1 ）超级叙词表超级叙词表是生物医学概念、术语、词汇及其等级范畴的广泛集成。“Meta”意即超越、含盖。 1997年第8版的超级叙词表收录了来源于30多种生物医学词表和分类表的能表达33万多个概念的739439个词汇，2001年12版收录了83万个概念，190万个词。到2002年，第13版超级叙词表收录了776940个概念共210万个词。来源：这些概念和词来自60 多个生物医学受控词表、术语表、分类表、专家系统中的词汇、词典及工具性词表等，如Mesh表及其葡萄牙语、西班牙语、法语、德语、俄语等各种译本、《医学系统化术语表》、《国际疾病分类》修订第 10 版及其他各版、《护理诊断分类》、麻省总医院研制开发的DX plain专家系统、《多兰氏图解医学辞典》、《校对词表》3.1 版等。;;概念组织：叙词表是依据概念（concept）或涵义（meaning）组织起来的，其根本目的是将相同概念的交替名称和不同形式联系在一起，并识别不同概念之间的联系。因此，可以说概念是超级叙词表组织系统的中心。保留原有词表中概念与关系，同时增加了一个新的关联。整合成一个庞大的可控的知识库。对于同一概念的不同术语以及不同的变异形式，超级叙词表采用三级结构模式，即概念（I 级）-术语（II 级）-词串（III 级），将一个概念的多种不同术语连同多个变异词串有序地组织在一起。对于不同的概念，超级叙词表采用多种“关系”概念如相关概念、组配概念、共现概念等来描述不同概念之间的关系。 ;;表达相同概念的不同形式款目关联;;Concept (CUI) ;表1：字符串“Atrial Fibrillation”（心房纤维颤动）和字符串“Atrial Fibrillations” 在系统中被视为不同的字符串，故分别给予不同的SUI编码。然此二字符串实际上仅是单复数形上的差别，所以会被指引到相同的Term identifier (LUIs)；同理“Auricular Fibrillation”和“Auricular Fibrillations”也会同样被指引到另一个term identifier (LUIs)。而当系统检视term identifier时会发现“Artial Fibrillation” 和 “Auricular Fibrillation” 在意义上是一致的，所以二个LUIs会被指引到相同的concept identifier (CUIs)。如此循序建立四个不同形式但表达相同概念之语词间的关系。不同语词间关系建立之后，会牵涉到选择用语的问题，如：概念的标准用语、参照互见及缩写形式等。为了节省在选择选用语时所花费的心力，Meta的处理程序是建立索引表间的优先级。以UMLS现有的策略而言， MeSH是Meta所涵盖索引词中，拥有最高优先权的索引系统，所以MeSH中出现的概念词均视为选用词(preferred term)，而其它索引表中若有出现表达相同概念而形式不同的语词时，则视为参照款目。同理，若在MeSH中未涵盖的概念，则依第二顺位的索引表来决定选用词的