从-Transformer到-Bert(最新整理版).pptxVIP

  • 19
  • 0
  • 约3.41千字
  • 约 30页
  • 2023-08-31 发布于江苏
  • 举报
从 Transformer 到 BERT -- 李小涛/intsig-- 2019/01/24 Transformer 原理介绍 1. 基本网络结构 2. transformer 学到了什么 3. 与CNN、RNN 的对比二. NLP 的预训练的发展BERT 1. 预训练任务的设计 2. 在各任务上的性能 3. 一点实践 Tranformer 结构《Attention Is All You Need》【/abs/1706.03762】一. Transformer 原理介绍Transformer encode_decode 动态图 tranformer--encoderinputtoken+ position+segself multi-headattentionresiduallayer_normdense+activedenselayer_normresidual下一层denseq、k、v是不同的转化矩阵, 线性是否可以让 k、v 相同呢?多头的维度转化为 原始的维度, 线性便于进行residual, 线性不会改变多头的原有信息转化为一个中间层较大维度 3072, 非线性对当前层多头attention 的结果做非线性的整合猜测采取较大维度的原因:让整合的方式更多还原成原来token向量的维度,线性一. Tr

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档