基于知识组织系统的生物医学文本挖掘研究 - 数字图书馆论坛.pdfVIP

基于知识组织系统的生物医学文本挖掘研究 - 数字图书馆论坛.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于知识组织系统的生物医学文本挖掘研究 - 数字图书馆论坛

知识组织与检索 基于知识组织系统的生物医学文本挖掘研究 钱庆 (中国医学科学院医学信息研究所,北京 100020) 摘要:随着生物医学信息技术的飞速发展,生物医学文献呈“指数型”增长,单纯依靠人工阅读获取和理解 所需知识变得异常困难,如何从海量生物医学文献中整合已有知识、挖掘新知识成为当前研究热点。生物医学 领域的知识组织系统建设相比其他领域更加规范和完整,为生物医学文本挖掘奠定了基础,大量基于知识组织 系统的文本挖掘方法、系统得到快速发展。本文主要梳理现有医学知识组织系统,归纳生物医学文本挖掘的主 要流程,按照挖掘任务探讨当前的主要研究和进展情况,并进一步分析基于知识组织系统的生物医学文本挖掘 的特点,对知识组织系统在生物医学文本挖掘中发挥的主要作用和当前研究面临的挑战进行总结,以期为生物 医学工作者提供借鉴。 关键词:知识组织系统;文本挖掘;信息检索;信息抽取;知识发现 中图分类号:G254 DOI :10.3772/j .issn .1673-2286.2016.4.001 1 引言 识,利用知识组织系统,特别是医学知识组织系统可 以对概念进行规范、知识组织序化、关系发现和推理 随着生物医学信息技术的飞速发展,生物医学信 等,能够有助于提高人们获取新知识及其关联的能力。 息资源增长快速,特别是文献资源呈“指数型”增长。 PubMed是生物医学文献的主要仓储,包括MEDLINE、 2 医学知识组织系统 生命科学期刊和在线图书等,现有数据2 300多万条,以每 年100多万篇的速度增长,并且这个数字在未来还会不断 医学知识组织系统(Medical Knowledge Organiza- 增加。在科学领域的开放获取期刊中,生物医学资源也是 tion Sy st em s,MedKOS)涵盖医学领域中的各种词汇 数量最多、增长最快的。急剧增长的生物医学文献为生物 列表、概念及概念间关系、分类体系及相应代码标识 医学研究提供了丰富的资源,但是也造成信息获取的困 等,其对医学知识内容、概念及其相互关系进行描述 难。因为大多数信息都隐含在无结构或者半结构的文本 和组织,具有词义消歧、同义词和近义词的控制、揭示 中,采用自然语言描述。自然语言虽然有助于人们直接 概念之间的语义关系-等级关系、揭示概念之间的语 理解和交流,但缺乏规范性,计算机难以理解。文本挖 义关系-非等级(相关)关系、揭示事物的类型及关系 [1] 掘能够帮助人们从大量非结构化、半结构化生物医学 类型、描述事物的属性特征等功能 。医学知识组织系 文本中挖掘提取隐含的、事先不知道的但又具有潜在 统形式多样,包括一体化语言系统、本体、叙词表、语 价值的信息和知识,现在被广泛应用于生物医学研究 义网络、分类表、权威规范术语表等。典型代表有医学 中,如生物医学实体识别、药物发现、靶标选择、药物 主题词表(Medical Subj ect Headings,MeSH )、一体 副作用识别、蛋白质交互作用预测等方面。大量国际会 化医学语言系统(Unified Medical Language System , 议如BioN LP、SIGIR、BioCreative、TR EC Genomics U M L S)以及各种医学本体等。M e SH 词表是由美国 Track等,提出生物医学文本挖掘的任务,通过不同方法 国立医学图书馆(N at ion al Lib r ar y of M ed icin e , 进行探索和实践,推动本领域研究的发展。在生物医学 N L M )编制的权威主题词表,在医学领域被广泛使 文本挖掘过程中,不可避免地需要应用大量特定领域知 用。1954 年M e SH 正式对外发布,1979年授权中国医 年第 期(总第 期) 2 2016 4

您可能关注的文档

文档评论(0)

wujianz + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档