基于LSTM-SPA的医学领域问答技术研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于LSTM-SPA的医学领域问答技术研究

在线医学智能问答系统作为传统医学服务系统的一个补充旨在对用户通过

自然语言进行的医学方面的提问做出快速、简介的反馈。本文提出了基于LSTM

的症状位置的注意力模型。在医疗领域数据集MT-QA上的对比实验显示

LSTM-SPA模型有优良的性能。

标签:语义分析;问答系统;长短时记忆网络模型;基于位置的注意力机制

1引言

在线医学询问平台在医疗服务领域得到越来越广泛的关注,它为患者和医生

提供了一个社区的问答系统。患者描述他们的症状并提出问题,医生以此来诊断

疾病或者给予一些进一步就医检查的建议。但是由于平台上的医生大多利用业余

时间参与问诊工作,无法进行实时回复。患者仍然需要等待来自医生的回复,而

且这个等待时间是未知的。针对传统的社区问答系统所面临的上述问题,一个实

时且高质量的医学领域智能问答系统对于用户来说是必要的。

2相关工作

社区医疗问答系统所涉及的研究热点包括以下两个方面:

以用户的症状描述为基础,在数据库中匹配与其相似度高的历史病例。词汇

差距是由于使用不同的单词导致用户描述与表达相同含义的历史描述不匹配。例

如:一些用户描述流感可能用“感冒了”,而其他人可能会用“咳嗽的厉害”代替。

词汇差距的存在导致利用传统的信息索引方法很难根据用户的描述去找到相似

的历史病例。

最近,LSTM已经被广泛应用于问答任务中由于它的优良的性能。在基于

LSTM的CQA模型中,用户的描述和历史描述中的每个单词首先被一个隐含层

向量表示。然后,所有的隐含层向量被合并成为句子代表。之后,最接近的历史

描述被从候选历史描述池中选择出来根据句子相似度。目前一个主要的挑战是如

何减弱句子中不相关内容对语义的干扰,[1]提出了三种内在关注的方法,在隐

含层表示之前加入了注意力信息,达到了QA领域最新的表现。

本文将针对上述词汇差距和句子向量化代表的问题展开深入探讨。主要有以

下两个方面的研究。(1)将基于中文词林的近义词主词替换的机制引入到目前最

新进的词嵌入模型来解决之前研究者所忽略的句子中单词语义的理解;(2)对目

前最先进的注意力机制进行优化。加入位置上下文的影响,增强对疾病典型症状

的关注,构建基于位置感知的注意力模型。

3LSTM-SPA模型描述

在这一章中,我们将介绍我们的LSTM-SPA模型如何解决CQA任务。假设

在历史病例池中,从医生得到相似答案回复的用户症状描述如果多次出现,则该

症状在该疾病中的表现是活跃的(我们称之为典型症状),那么在用户描述句中,

该典型症状单词将对其临近单词造成影响。也就是说,临近单词应该被给予更多

的关注比起那些远离单词,因为它们代表着更多用户的症状描述语义。基于这个

假设,我们提出了LSTM-SPA模型来模拟一个用户描述中的典型症状对句中各

单词的位置感知影响,分为以下三个步骤:

(1)通过相似度计算将历史病例分组,具有高相似度诊断结果的历史病例

分为一组,也就是说位于同组的诊断结果或诊断建议基本一致。

(2)将每组病例中用户描述利用传统的注意力机制进行处理,得到用户描

述代表。

(3)经过统计,我们将得出每种诊断结果所对应的症状单词列表。

需要重点说明的是我们提出了一个位置感知影响传播策略,即在用户描述句

中,症状单词对临近单词的影响程度随距离而变化。然后根据在用户描述句中出

现的所有症状单词传播的累积影响,在隐含层中生成每个单词的位置感知影响向

量。这样位置感知影响向量被整合到传统注意力机制中,形成用户对疾病症状描

述的注意力语义代表。

4实验

4.1实验构建

数据集。我们进行的实验使用的是我们独立构建的数据MT-QA。MT-QA是

一个面向医学领域的问答对语料数据集,所有的问答对是从各大权威网站收集而

来(例如:好大夫,寻医问药)。数据集被划分为3部分:训练集,开发集,测

试集,并且統计的结果展示在表1:

4.2LSTM-SPA的影响

为了调查我们提出的BLSTM-SFPA方法的效果。我们加入了一

您可能关注的文档

文档评论(0)

Saucebox + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档