自然语言处理中的attention机制.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最后将注意力向量at,以及decoder的t时刻的hidden state st,并联起来,然后做后续的步骤(比如加个dense全连接层做标签预测之类的) * each decoder hidden state attends to the encoder hidden states (decoder的第t步的hidden state----st是query,encoder的hidden states是values) * 加权和是已有信息(values)的选择性摘要信息(selective summary ),其中摘要信息是查询(query)根据自己需要选择确定要关注的信息 稍微有点拗口,反正就是说attention机制就是根据当前的某个状态,从已有的大量信息中选择性的关注部分信息的方法。 * * 首先从大的概念来讲,针对attention的变体主要有两种方式: 1.一种是在attention 向量的计算方式上进行创新 2.另一种是在attention score(匹配度计算)的计算方式上进行创新 当然还有一种就是把二者都有改变的结合性创新,或者是迁移性创新,比如借鉴CNN的Inception思想等等,后续会提到一点,详细的应该是在下一次的Tranformer里面会详细提到。 我们先针对第一种方法讲讲区别,其实虽然名字变来变去,他们的差异没有那么多。 * 为了我们统一,把attention变量(context vecor)用c_t表示,attention得分在经过了softmax过后的(attention score, match score……)用alpha表示 论文:Neural machine translation by jointly learning to align and translate * Hard attention的这个pt,我也没有详细研究,不过我觉得可能跟下面讲的local attention机制的找法差不多。 Hard attention 一般用在图像里面,当图像区域被选中时,权重为1,剩下时候为0。 /Determined22/p/6914926.html * 论文:Effective Approaches to Attention-based Neural Machine Translation Soft attention 每次对齐的时候都要考虑前面的encoder的所有hi,所以计算量会很大,因此一种朴素的思想是只考虑部分窗口内的encoder隐藏输出,其余部分为0,在窗口内使用softmax的方式转换为概率。这个local attention对应的就是global attention,global attention其实就是softmax attention,这里不多赘述global attention了。 在这个模型中,对于是时刻t的每一个目标词汇,模型首先产生一个对齐的位置 pt(aligned position),context vector 由编码器中一个集合的隐藏层状态计算得到,编码器中的隐藏层包含在窗口[pt-D,pt+D]中,D的大小通过经验选择。 上式之中,大S指的是源句子的长度,Wp和vp是指的模型的参数,通过训练得到,为了支持pt附近的对齐点,设置一个围绕pt的高斯分布,其中小s是在以pt为中心的窗口中的整数,pt是一个在[0,S]之间的实数。小Sigma σ 一般取窗口大小的一半 * 这三个思路上没有什么太多的难点,一般是用于nlp中的阅读理解的模型,感兴趣的可以去看这篇论文: Teaching Machines to Read and Comprehend 以及 Supervised Sequence Labelling with Recurrent Neural Networks 这个里面的s(i)y(i)表示将doc里面的前向和后向lstm的hidden state拼接。 注意:这个模型里面h序列和s都是已知的,所以可以用双向lstm的首位两端的hidden输出表示一个问题query,并不需要去预测当然query的t时刻的输出,上图对应着一篇文章和相应的问题(query)去预测一个答案。 强制前向这个应该没啥好说的。就是对于每个score(st,hi)的计算时,对前面计算过的et,i求个softmax,如果之前的eti特别高的话(之前的hi得分高了),分母会很大,那么整个分数会很小 上面这个图是我从论文摘过来的,静态attention的示意图,有同学可能会注意到,诶,这个前面的每个hidden state 不应该都和 这里的 u 算一次attention score吗,诶,好问题。 是的,没错,他这里的r表示的是加权平均,

文档评论(0)

189****7685 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档