深度学习课件汇总第7--12章图神经网络 --- 大模型.pptx

下载文档

0
0
约7.14千字
约 259页
2025-03-28 发布于山东
举报
版权申诉
保障服务

深度学习课件汇总第7--12章图神经网络 --- 大模型.pptx

1、本文档共259页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第七章图神经网络

第一节图嵌入向量;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;第八章Transformer与Mamba

第一节注意力机制;注意力：是指序列中两个元素之间的相关性程度;;1.对于每个输入,首先将其映射到三个不同的空间,得到三个向量：查询向量,，键向量，

和值向量,;其中，为输出和输入向量序列的位置,表示第n个输出关注到第j个输入的权重。如果使用缩放点积来作为注意力打分函数，输出向量序列可以简写为：,;假设我们要对以下输入句子进行自注意力机制计算：“Ihaveabook”

计算过程如下：（1）将单词转换为词向量，通过权重矩阵转变为Embeding，计算不同词向量之间的缩放点击注意力得力得分，并归一化;（2）对于每一个Embending，将其对于不同位置单词的注意力得分与值向量加权求和，得到自注意力的输出,下面以第一个单词为例，依此类推;动机：当给定相同的查询、键和值时，我们希望模型可以基于注意力机制学习到不同的行为和知识，然后将不同的行为和知识组合起来，捕获序列内各种范围的关系（例如，短距离依赖和长距离依赖关系），因此引入多头注意力机制。

多头注意力

将查询、键和值通过全连接层做线性变化，并行地送入多个注意力汇聚，将这多个注意力汇聚的输出拼接在一起，通过一个全连接层产生最终输出

每个头可能会关注输入的不同部分

;形式化描述

每个注意力头：

若使用缩放点积注意力，注意力汇聚函数为，不同的头使用相同的注意力机制，故需要对查询、键和值做线性变换，使得不同的头输入不一样

结果连接及全连接层输出

线性变换矩阵通过学习得到

;;8.2.1定义与原理;Transformer由编码器和解码器组成

Transformer的编码器和解码器基于多头自注意力的模块叠加而成（默认n=6个模块）;5.5动量法：指数移动平均;第三步：这里以翻译一句话为例，解码器接收了编码器的编码矩阵，然后首先输入一个翻译开始符Begin，预测第一个单词He；然后输入翻译开始符Begin和单词He，预测单词is，以此类推。;8.2.2模型架构：位置编??;8.2.2模型结构：编码器;8.2.2模型结构：解码器结构;8.2.2模型结构：解码器的工作过程;8.2.2模型结构：解码器的掩码注意力层;?;?;8.2.2模型结构：解码器的输出;8.2.3架构分析;;8.3.1定义与原理;全连接层

层规范化

残差连接

多头注意力

层规范化;8.3.3架构分析;;8.4.1定义与原理;8.4.2模型结构;?;1.选择性状态空间模型

SSM的问题:矩阵不随输入不同而变化，无法针对输入做针对性推理

SSM中的A、B、C不随输入不同而改变。这意味着

?对于SSM与S4生成的每个token，矩阵A、B、C都是相同的

?使得SSM与S4无法针对输入做针对性的推理

这里的不变性特指：推理时不随输入变化而变化，但在训练过程中，矩阵是可以根据需要去做梯度下降而变化的

;8.4.3架构分析;;3.硬件感知算法

GPU的一个缺点是它们在小型但高效的SRAM和大型但略低效率的DRAM之间的传输(IO)速度有限。频繁地在SRAM和DRAM之间复制信息成为瓶颈。

;;8.5VisionMamba;8.5VisionMamba;8.5VMamba;8.5VMamba;;8.6Transformer与Mamba的对比;总结;第九章深度强化学习

第一节有限马尔科夫决策过程;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;第十章计算机视觉

第一节图像分类;计算机视觉概述;10.1图像分类;10.1.1数据集;10.1.1数据集;ImageNet数据集[3]：用于视觉对象识别软件研究的大型数据库，由斯坦福大学的李飞飞教授团队创建。包含超过1400万张带有标注的图像，涵盖超过2万个类别，是计算机视觉领域中被广泛使用的数据集之一。

;10.1.2传统方法;10.1.3深度学习方法;10.1.4数据增强技术;10.1.5正则化技术;10.1.6预训练与迁移学习;10.1.7二分类评价指标;准确率（Accuracy）：表示模型正确预测的样本数占总样本数的比例

特异度（Specificity）：表示模型预测的负样本数占总负样本数的比例

FPR（FalsePositiveRate）：表示模型预测的正样本中的实际负样本占所有负

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

深度学习课件汇总第7--12章图神经网络 --- 大模型.pptx