基于句法和语义特征的疾病名称识别-中国科学信息科学.PDFVIP

基于句法和语义特征的疾病名称识别-中国科学信息科学.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于句法和语义特征的疾病名称识别-中国科学信息科学.PDF

中国科学 信息科学 年 第 卷 第 期 SCIENTIA SINICA Informationis 社会媒体计算与自然语言处理专刊 论文 基于句法和语义特征的疾病名称识别 * 何云琪 刘苏文 钱龙华 周国栋 苏州大学计算机科学与技术学院, 苏州 215006 * 通信作者. E-mail: qianlonghua@ 收稿日期: 2018–08–10; 接受日期: 2018–09–19; 网络出版日期: 2018–11–14 国家自然科学基金重点项目(批准号: 2017YFB1002101) 和国家自然科学基金项目 (批准号: 资助 摘要 生物医学实体识别(如基因/蛋白质、化学物和疾病等) 是生物医学文本挖掘的基础, 它对生 物医学实体关系的抽取和生物医学知识库的建立等方面都有着重要的研究意义. 针对目前的疾病名 称识别中存在的问题, 本文提出了一系列新的句法特征和语义特征来提高疾病名称识别的性能, 其 中句法特征包括组块和依存信息, 语义特征包括疾病名称的缩写信息、字典信息和疾病概念之间的 上下位关系等. 在NCBI 疾病语料库上的实验表明, 结合一系列句法和语义特征的CRF 模型可以 显著提高疾病实体识别的性能, 取得了目前该语料库上的最高 1 值85.3%. 关键词 疾病名称识别, 条件随机场, 句法特征, 语义特征 引言 疾病实体识别任务是指从生物医学文献中自动找出相应的疾病名称, 作为生物医学文本挖掘的第 一步, 它对生物医学知识库的构建、新药研制、药物发现与安全监督有着重要的研究意义. 随着生物文 献数量的爆炸式增长以及新的疾病的发现, 人工从医学文献中检索疾病名称, 由于其成本高、时间长 而难以满足要求, 因此, 如何可靠地从生物医学文献中自动识别出疾病名称是当前亟待解决的首要问 题之一. 疾病实体识别可以看作是命名实体识别在生物医学领域的应用, 通用领域的命名实体识别任务是 从新闻文本中识别出人名、地名和机构名等实体, 传统的机器学习方法往往采用 CRF 序列标注模型 来实现, 其特征包括词、词干、词缀和词形等词汇特征以及实体字典等语义特征. 由于语言的歧义性, 有时依靠词汇本身难于辨别出实体, 如 “Apple” 可能指水果也可能指苹果公司, 这就需要通过结合上 下文来理解; 另一方面, 新的命名实体不断涌现出来, 如新的人名、机构名等, 因此借助于外部资源的 实体识别方法必须不断扩充其实体字典以满足新实体的需求. 引用格式 何云琪 刘苏文 钱龙华 等 基于句法和语义特征的疾病名称识别 中国科学 信息科学 ⃝ 《中国科学》杂志社 中国科学 信息科学 第 卷 第 期 与通用领域实体识别相似, 目前的疾病名称识别方法主要有基于词典和规则的方法、基于传统机 器学习的方法和基于深度学习的方法等. 基于词典和规则方法虽然准确性高, 但灵活性较低, 不能适 应不同领域的要求. 传统机器学习方法的关键问题是如何从文本中提取各种有效的词法、句法和语义 特征, 然后利用序列标注模型进行疾病名称的识别. 深度学习方法重点在于如何在词向量的基础上利 用各种神经网络模型进行疾病名称识别. 在疾病名称识别方面, 深度学习方法目前还没有超过传统的 机器学习方法. 除了与通用领域内存在的歧义性和新名词等共同难点外, 在生物医学领域内的疾病名称识别还具 有自己的特点. 疾病名称的定义非常宽泛并且变体较多, “疾病” 定义为 “在一定病因作用下自稳调 节紊乱而发生的异常生命活动过程, 表现为症状、体征和行为的异常” . 这使得疾病名称在医学文献 中常常以症状、体征、行为等形式出现, 并常以其上位词来代替. 例如, 在子句

您可能关注的文档

文档评论(0)

sunguohong + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档