自然语言处理中的attention机制.pptVIP

下载本文档

227
0
约1.24万字
约 26页
2019-07-22 发布于福建
举报
版权申诉

自然语言处理中的attention机制.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

最后将注意力向量at，以及decoder的t时刻的hidden state st，并联起来，然后做后续的步骤（比如加个dense全连接层做标签预测之类的） * each decoder hidden state attends to the encoder hidden states （decoder的第t步的hidden state----st是query，encoder的hidden states是values） * 加权和是已有信息（values）的选择性摘要信息（selective summary ），其中摘要信息是查询（query）根据自己需要选择确定要关注的信息稍微有点拗口，反正就是说attention机制就是根据当前的某个状态，从已有的大量信息中选择性的关注部分信息的方法。 * * 首先从大的概念来讲，针对attention的变体主要有两种方式： 1.一种是在attention 向量的计算方式上进行创新 2.另一种是在attention score（匹配度计算）的计算方式上进行创新当然还有一种就是把二者都有改变的结合性创新，或者是迁移性创新，比如借鉴CNN的Inception思想等等，后续会提到一点，详细的应该是在下一次的Tranformer里面会详细提到。我们先针对第一种方法讲讲区别，其实虽然名字变来变去，他们的差异没有那么多。 * 为了我们统一，把attention变量（context vecor）用c_t表示，attention得分在经过了softmax过后的（attention score， match score……）用alpha表示论文：Neural machine translation by jointly learning to align and translate * Hard attention的这个pt，我也没有详细研究，不过我觉得可能跟下面讲的local attention机制的找法差不多。 Hard attention 一般用在图像里面，当图像区域被选中时，权重为1，剩下时候为0。 /Determined22/p/6914926.html * 论文：Effective Approaches to Attention-based Neural Machine Translation Soft attention 每次对齐的时候都要考虑前面的encoder的所有hi，所以计算量会很大，因此一种朴素的思想是只考虑部分窗口内的encoder隐藏输出，其余部分为0，在窗口内使用softmax的方式转换为概率。这个local attention对应的就是global attention，global attention其实就是softmax attention，这里不多赘述global attention了。在这个模型中，对于是时刻t的每一个目标词汇，模型首先产生一个对齐的位置 pt（aligned position），context vector 由编码器中一个集合的隐藏层状态计算得到，编码器中的隐藏层包含在窗口[pt-D,pt+D]中，D的大小通过经验选择。上式之中，大S指的是源句子的长度，Wp和vp是指的模型的参数，通过训练得到，为了支持pt附近的对齐点，设置一个围绕pt的高斯分布，其中小s是在以pt为中心的窗口中的整数，pt是一个在[0，S]之间的实数。小Sigma σ 一般取窗口大小的一半 * 这三个思路上没有什么太多的难点，一般是用于nlp中的阅读理解的模型，感兴趣的可以去看这篇论文： Teaching Machines to Read and Comprehend 以及 Supervised Sequence Labelling with Recurrent Neural Networks 这个里面的s(i)y(i)表示将doc里面的前向和后向lstm的hidden state拼接。注意：这个模型里面h序列和s都是已知的，所以可以用双向lstm的首位两端的hidden输出表示一个问题query，并不需要去预测当然query的t时刻的输出，上图对应着一篇文章和相应的问题（query）去预测一个答案。强制前向这个应该没啥好说的。就是对于每个score(st,hi)的计算时，对前面计算过的et，i求个softmax，如果之前的eti特别高的话（之前的hi得分高了），分母会很大，那么整个分数会很小上面这个图是我从论文摘过来的，静态attention的示意图，有同学可能会注意到，诶，这个前面的每个hidden state 不应该都和这里的 u 算一次attention score吗，诶，好问题。是的，没错，他这里的r表示的是加权平均，