清华社教学课件深入浅出大语言模型第三章 Transformer模型(七-2).pptxVIP

  • 1
  • 0
  • 约小于1千字
  • 约 13页
  • 2026-05-25 发布于广东
  • 举报

清华社教学课件深入浅出大语言模型第三章 Transformer模型(七-2).pptx

第三章Transformer模型(七-2)马少平清华大学计算机系面向人工智能初学者的通俗讲座《计算机是如何实现智能的》之B站获取PPT跟我学AI公众号

4相对位置编码方法位置编码重要的是相对位置而不是绝对位置能否通过训练学习相对位置信息呢?能否在多头自注意力机制下推导出相对位置信息直接训练相对位置

4.1回顾:多头注意力机制???

4.1回顾:多头注意力机制??????

4.2相对位置信息??位置无关位置有关?

4.2相对位置信息例:清华大学计算机科学与技术系k=3大学的相对位置编码:?

4.2相对位置信息相对位置矩阵???????

3.7.5词元化方法(tokenization)Transformer处理的基本单元为词元(token)如何得到词元呢?英文为例两个极端字母为单位缺失了语义信息序列过长单词为单位词元数量过大无法处理新词在字母与单词间取一个折中

1,字节对编码方法(BytePairEncoder:BPE)基本思想初始状态字母就是词元,统计相邻两个词元的频率,将频率最高的两个词元组合成一个词元,逐渐增加词元的数量,直到达到给定数量为止BPE方法算法描述如下:准备一个一定规模的语料库;确定希望的词元数量,也就是词表大小;将语料库中的所有单词拆分为字母,初始时每个字母即为一个词元;统计语料库中任何一对相邻的词

文档评论(0)

1亿VIP精品文档

相关文档