清华社教学课件深入浅出大语言模型第三章 Transformer模型(七-1).pptxVIP

  • 0
  • 0
  • 约1.6千字
  • 约 19页
  • 2026-05-25 发布于广东
  • 举报

清华社教学课件深入浅出大语言模型第三章 Transformer模型(七-1).pptx

第三章Transformer模型(七-1)马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号

3.7.4位置编码为什么要引入位置编码?循环神经网络按顺序处理,天然具有位置信息Transformer:注意力机制,缺失了位置信息“孙颖莎战胜陈梦”与“陈梦战胜孙颖莎”需要位置编码弥补可以简单地给每个位置一个编码吗?比如:0,1,2,…

3.7.4位置编码位置编码应满足的性质唯一性每个位置具有唯一的编码,能反映单词在序列中位置信息一致性任何两个单词之间的相对位置编码保持一致单调性随位置距离的增加编码的相似性逐渐减小有界性编码范围有限,不随序列长度增长无限增大兼容性与词向量兼容,可相加稳定性不同位置的向量长度保持相近,确保对位置的敏感度均匀

1,基于训练的位置编码方法??

1,基于训练的位置编码方法为什么不是拼接?多头注意力机制时将输入变换到子空间:拼接后做线性变换与线性变换后再相加等价减少了训练参数????

1,基于训练的位置编码方法优点简单,直接训练即可缺点绝对位置编码没有反应相对位置信息“我吃着苹果”“出门的时候我吃着苹果”不具有推广能力实际文本长度大于训练长度时无法处理

2,基于三角函数的位置编码方法从二进制编码谈起设4位二进制数表示一个位置每一位看成是向量的一个维度二进制数从右往左分别对应向量

文档评论(0)

1亿VIP精品文档

相关文档