基于多交叉注意力和词间关系的生物医学命名实体识别.pdfVIP

基于多交叉注意力和词间关系的生物医学命名实体识别.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

随着科技的迅速发展和信息化时代的到来,我们所面临的数据量和数据复杂度都在

不断攀升,特别是在自然语言处理领域。近年来,随着一些传染病的相继出现,生物医

学领域的重要性越来越突出。通过生物医学的研究和应用,我们能够更好地了解人体的

生理和病理过程,提高人类的生活质量。因此,对于生物医学领域的研究也就越来越重

要,而如何有效识别出生物医学领域文本中的实体也就成为了我们解决此类问题的重点。

本文主要针对目前生物医学文本实体识别中的三个子任务,即平面实体、嵌套实体以及

不连续实体做出研究。其中把平面实体作为第一个任务进行研究,把嵌套实体和不连续

实体统一作为第二个任务进行研究。本文的研究工作包括:

(1)对于平面实体识别任务,目前的生物医学命名实体识别一般单独使用

CharCNN或CharRNN来提取字符特征,没有考虑它们之间的互补能力,且只通过拼接

的方法对字符特征和词特征进行融合,忽略了字词相互融合过程中的特征信息。基于此,

本文提出了一种名为DCLM(BioDistilBERT-CharCNN+CharLSTM-BiLSTM-MHA)的多

交叉注意力特征融合的模型。首先通过三次交叉注意力融合得到充分的字词特征,之后

使用BiLSTM来捕获文本的上下文信息,同时引入多头注意力机制,使模型能够捕捉到

更多关于实体边界和类型的信息。在模型训练过程中联合FacalLoss和交叉熵损失函数

对模型进行训练,缓解数据不平衡问题。最终实验表明,本文提出模型在NCBI-Dis,

BC5CDR-Dis,BC5CDR-Che,JNLPBA以及BC2GM生物医学数据集上分别取得了

90.76%,89.79%,94.98%,80.27%以及88.84%的最佳F1值。

(2)对于生物医学实体多存在嵌套和不连续现象,本文提出了一个名为KGCTM

(KeBioLM-ATT-BiGRU-CNN-Traffine-MLP)的模型,主要通过对词与词之间的关系进

行预测从而识别嵌套和不连续实体。该模型主要分为四个模块:编码层、混合卷积层、

预测层以及解码层。在模型训练中加入基于PGD的对抗训练,同时通过对DiceLoss和

交叉熵损失函数赋予不同的权重来对模型进行训练,解决数据不平衡问题。最终实验表

明,本文提出模型在嵌套数据集GENIA和不连续数据集CADEC中取得了81.05%和

72.68%的最佳F1值。

关键词生物医学命名实体识别;多交叉注意力;词间关系;数据不平衡

Abstract

Withtherapiddevelopmentoftechnologyandtheadventoftheinformationage,the

amountandcomplexityofdatawearefacedwithareconstantlyrising,especiallyinthefieldof

naturallanguageprocessing.Inrecentyears,withtheemergenceofsomeinfectiousdiseases,the

importanceofthebiomedicalfieldhasbecomeincreasinglyprominent.Throughtheresearch

andapplicationofbiomedicine,wecanbetterunderstandthephysiologicalandpathological

processesofthehumanbodyandimprovethequalityofhumanlife.Therefore,howto

effectivelyidentifyentitiesinbiomedicaltextshasbecomethefocusofourresearch.Thisarticle

mainlyfocusesonthreesubtasksinbiomedicaltextentityrecogni

文档评论(0)

营销资料库 + 关注
实名认证
文档贡献者

本账号发布文档部分来源于互联网,仅用于技术分享交流用,版权为原作者所有。 2,文档内容部分来自网络意见,与本账号立场无关。

1亿VIP精品文档

相关文档