网站大量收购独家精品文档,联系QQ:2885784924

深度学习 课件汇总 第7--12章 图神经网络 --- 大模型.pptx

深度学习 课件汇总 第7--12章 图神经网络 --- 大模型.pptx

  1. 1、本文档共259页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第七章图神经网络

第一节图嵌入向量;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;第八章Transformer与Mamba

第一节注意力机制;注意力:是指序列中两个元素之间的相关性程度;;1.对于每个输入,首先将其映射到三个不同的空间,得到三个向量:查询向量,,键向量,

和值向量,;其中,为输出和输入向量序列的位置,表示第n个输出关注到第j个输入的权重。如果使用缩放点积来作为注意力打分函数,输出向量序列可以简写为:,;假设我们要对以下输入句子进行自注意力机制计算:“Ihaveabook”

计算过程如下:(1)将单词转换为词向量,通过权重矩阵转变为Embeding,计算不同词向量之间的缩放点击注意力得力得分,并归一化;(2)对于每一个Embending,将其对于不同位置单词的注意力得分与值向量加权求和,得到自注意力的输出,下面以第一个单词为例,依此类推;动机:当给定相同的查询、键和值时,我们希望模型可以基于注意力机制学习到不同的行为和知识,然后将不同的行为和知识组合起来,捕获序列内各种范围的关系(例如,短距离依赖和长距离依赖关系),因此引入多头注意力机制。

多头注意力

将查询、键和值通过全连接层做线性变化,并行地送入多个注意力汇聚,将这多个注意力汇聚的输出拼接在一起,通过一个全连接层产生最终输出

每个头可能会关注输入的不同部分

;形式化描述

每个注意力头:

若使用缩放点积注意力,注意力汇聚函数为,不同的头使用相同的注意力机制,故需要对查询、键和值做线性变换,使得不同的头输入不一样

结果连接及全连接层输出

线性变换矩阵通过学习得到

;;8.2.1定义与原理;Transformer由编码器和解码器组成

Transformer的编码器和解码器基于多头自注意力的模块叠加而成(默认n=6个模块);5.5动量法:指数移动平均;第三步:这里以翻译一句话为例,解码器接收了编码器的编码矩阵,然后首先输入一个翻译开始符Begin,预测第一个单词He;然后输入翻译开始符Begin和单词He,预测单词is,以此类推。;8.2.2模型架构:位置编??;8.2.2模型结构:编码器;8.2.2模型结构:解码器结构;8.2.2模型结构:解码器的工作过程;8.2.2模型结构:解码器的掩码注意力层;?;?;8.2.2模型结构:解码器的输出;8.2.3架构分析;;8.3.1定义与原理;全连接层

层规范化

残差连接

多头注意力

层规范化;8.3.3架构分析;;8.4.1定义与原理;8.4.2模型结构;?;1.选择性状态空间模型

SSM的问题:矩阵不随输入不同而变化,无法针对输入做针对性推理

SSM中的A、B、C不随输入不同而改变。这意味着

?对于SSM与S4生成的每个token,矩阵A、B、C都是相同的

?使得SSM与S4无法针对输入做针对性的推理

这里的不变性特指:推理时不随输入变化而变化,但在训练过程中,矩阵是可以根据需要去做梯度下降而变化的

;8.4.3架构分析;;3.硬件感知算法

GPU的一个缺点是它们在小型但高效的SRAM和大型但略低效率的DRAM之间的传输(IO)速度有限。频繁地在SRAM和DRAM之间复制信息成为瓶颈。

;;8.5VisionMamba;8.5VisionMamba;8.5VMamba;8.5VMamba;;8.6Transformer与Mamba的对比;总结;第九章深度强化学习

第一节有限马尔科夫决策过程;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;;第十章计算机视觉

第一节图像分类;计算机视觉概述;10.1图像分类;10.1.1数据集;10.1.1数据集;ImageNet数据集[3]:用于视觉对象识别软件研究的大型数据库,由斯坦福大学的李飞飞教授团队创建。包含超过1400万张带有标注的图像,涵盖超过2万个类别,是计算机视觉领域中被广泛使用的数据集之一。

;10.1.2传统方法;10.1.3深度学习方法;10.1.4数据增强技术;10.1.5正则化技术;10.1.6预训练与迁移学习;10.1.7二分类评价指标;准确率(Accuracy):表示模型正确预测的样本数占总样本数的比例

特异度(Specificity):表示模型预测的负样本数占总负样本数的比例

FPR(FalsePositiveRate):表示模型预测的正样本中的实际负样本占所有负

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档