医学文献主题语义相似度计算方法研究.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
医学文献主题语义相似度计算方法研究

第61卷 第8期 2017年4月 医学文献主题语义相似度计算方法研究 1 1 2 ■ 范少萍  安新颖  逯万辉 1 2 中国医学科学院医学信息研究所 北京 100020  中国社会科学院中国社会科学评价中心 北京 100732 摘要:[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义 层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判 断、主题关联研究等提供参考。[方法/过程]以MeSH词表为语义计算的基础,剖析词表结构与现有研究成果, 从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用PubMed中2011-2014年干细胞领域 的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主 题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中 还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。 关键词:语义相似度 MeSH词表 主题语义相似度 分类号:G250   DOI:10.13266/j.issn.0252-3116.2017.08.012   语义相似度是指两个概念间的相似程度,即概念 语义相似度计算研究。 [1]   虽然上述方法已取得一定效果,但主要侧重单一 本身之间具有某些共同特性 。随着通用本体与领域 本体的日渐成熟,语义相似度研究也日益完善,已经成 方面研究相似度计算方法,如语义距离。此外,现有基 [9-10] 为文本挖掘、信息检索、词义消歧等领域的热点研究方 于本体的语义相似度研究中,多使用 WordNet 、 向。 [11-12] HowNet 等通用本体获取概念的分类结构,进行语   语义相似度计算有两类方法: 基于本体或词典, ① 义相似度计算。当分类结构或者语料库发生改变时, 根据概念在本体或词典中的位置、上下位关系、属性信 需要对与分类结构有关的语义相似度方法重新计算, 息等内容计算概念间的语义相似度; 基于统计的方 ② 大大降低了方法的扩展性和适用范围。除了扩展性问 法,即通过词语所在上下文信息,运用统计学方法进行 题外,由于通用本体对医疗词汇的覆盖性有限,导致对 求解。第一类方法需依赖于现有的开放本体,已有很 医学概念相似性评估的准确性不够高。因此,一些研 多成功算法,如 [2] [3] ShortestPath 、WeightedLinks 等,上 究使用医学领域特定资源,如MeSH、SNOMEDCT以及 述方法以概念在本体树状结构中的距离为测算依据, Mayo诊所的结构化临床诊疗的文本数据库进行语义 充分考虑了本体结构对语义相似度的影响;P.W. 相似度算法研究。 [4] [5] Lord等 与D.Lith 提出的根据主题词所包含信息   基于此,本文以医学领域常用词表 MeSH为相似 内容,计算概念间语义相似度算法,上述方法根据主题 度计算结构本体,分析MeSH词表结构与信息内容,通 词在本体中父节点或自身信息量计算语义相似度; 过借鉴已有算法,提出基于MeSH的主题语义相似度 [6] Tversky算法 等利用概念在本体中的属性集信息计 计算方法,以扩展语义相似度计算的维度。本文所提

您可能关注的文档

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档