生物医学实体间语义关系抽取方法的研究.pdfVIP

  • 14
  • 0
  • 约7.85千字
  • 约 3页
  • 2015-08-03 发布于安徽
  • 举报

生物医学实体间语义关系抽取方法的研究.pdf

中华医学会第十七次全国医学信息学术会议 论文汇编 1 F-20-0008 起出现的命名实体就越可能相关,通过统计共现频率计 生物医学实体间语义关系抽取方法研究 算生物体存在关系的可能性。 王秀艳∗ 崔雷∗ Jenssen 等利用共现方法构建了 PubGene 系统,对 中国医科大学 110001 MEDLINE 标题和摘要中的 13712 个人类基因生成了一个 基因和基因相互作用关系网络,并用 MeSH 和 gene 1.引言 ontology (GO)中的术语标记基因之间的关联关系。利用 随着生物医学领域研究的飞速发展,生物医学文献 两个公开可获得的微阵列数据集对结果进行验证,结果 正在以指数增长。截止到 2011 年 5 月国际上生物医学领 表明提取仅在 1 篇文章中出现的关系时精确率为 6O%, 域的权威数据库 MEDLINE 已经含有 2000 多万条记录,并 提取在 5 篇文章中出现的关系时准确率达到 71%。研究 且每年仍以约 60 万条记录的速度增长。但是,人们对生 结果同时表明共现方法能够发现在生物学上有意义的关 物医学数据处理和分析的进度却远远落后于数据本身的 系。类似地,Stapley 等也利用共现方法研究果蝇基因 增长,这就产生了生物医学信息过载问题。因此,迫切 关系网络。 需要有效工具来帮助生物医学研究者有效地利用这些文 Adamic 等提出了一种快速的从文献中识别与特定 献中所蕴含的生物医学知识。 的疾病相关的基因的统计方法。首先消除由于基因名称 文本挖掘技术可以帮助生物医学研究者解决信息过 缩写和基因别名产生的歧义,然后对生物医学文献中基 载的问题。生物医学文本挖掘是通过使用计算机,从生 因和疾病共现的情况进行统计,识别出大部分已知与乳 物医学的自然语言文本中抽取相关信息和发现知识的过 腺癌相关的基因,同时也识别出一些未知的与乳腺癌相 程 ,是集信息科学、生物信息学和计算语言学 关的基因。 (computational linguistics)等多学科于一体的综合 Albert 等人利用蛋白质名称词典和 13 个表示相互 性技术方法。当前生物医学文本挖掘的研究热点主要集 作用的动词,到 MEDLINE 文献中提取两个蛋白质和一个 中在信息检索、文本分类、自动文摘、命名实体识别、 相互作用动词三者同时出现的句子,最后发现 3308 个与 实体关系抽取、假说发现和信息集成等方面。 核受体有关的蛋白质相互作用关系,人工检测提取关系 关系抽取是生物医学文本挖掘研究最重要的组成部 的准确率为 22%。Andrade 等还利用词共现方法提取了与 分,同时它也是信息抽取的重要子任务。信息抽取不但 蛋白质家族功能相关的关键词。 要识别文本中的实体,而且还要根据上下文确定和抽取 2.2 基于自然语言处理的方法 这些实体之间的各种语义关系,即关系抽取。在生物医 基于自然语言处理的方法是通过对句子从词法 学领域,关系抽取是要实现从生物医学文本中识别出生 (1exica1)、句法 (syntactic)和语义(semantic)上进行 物医学命名实体(疾病、药物、基因、蛋白等),提取实 解析,把自然语言分解为可以从中提取出关系的结构 。 体之间的语义关系并形成关系网络,最终将关系网络以

文档评论(0)

1亿VIP精品文档

相关文档