机器学习（下篇，共上中下3篇）.pptxVIP

下载本文档

0
0
约2.6万字
约 234页
2024-07-26 发布于安徽
举报
版权申诉

机器学习（下篇，共上中下3篇）.pptx

1、本文档共234页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高级深度学习模型

自注意力和BERT模型

;

Seq2seq模型最早是在2013年由cho等人提出一种RNN模型。

Seq2seq模型是序列对序列的模型，本质上是一种多对多的RNN模型，也就是输入序列和输出序列不等长的RNN模型。

Seq2seq广泛应用在机器翻译、文本摘要、语音识别、文本生成、AI写诗等。;;;;

注意力机制本质上是一种注意力资源分配的模型。

编码器将输入编码成上下文变量C，在解码时每一个输出Y都会不加区分的使用这个C进行解码。

注意力模型根据序列的每个时间步将编码器编码为不同C，在解码时，结合每个不同的C进行解码输出。;;;

机器翻译（2）解码器;;;;

上下文词的one-hot表示和输入词矩阵相乘

后得到的词向量求和再平均的值

CBOW

skip-gram;;

在训练神经网络时，每接受一个训练样本，就调整所有神经单元权重参数，使神经网络预测更加准确。但神经网络具有非常大的权重参数，并且所有的权重参数会随着数十亿训练样本不断调整。

negativesampling每次仅仅更新一小部分的权重参数，从而梯度下降过程中的计算量。

一个单词被选作negativesample的概率跟它出现的频次有关经验公式为：;;

self-attention：输入的句子自身跟自身做attention，是一个查询(Query)到一系列键-值对(Key-Value)的映射。

应用于transformer（2017年）,Bert（2018年）等架构。;

Transformer为什么Q和K使用不同的权重矩阵生成？

如果不用Q，attentionscore矩阵是一个对称矩阵，泛化能力很差。

在不同空间上的投影，增加了表达能力，这样计算得到的attentionscore矩阵的泛化能力更高。;;;;;;;

在Transformer中计算PositionEncoding所使用的公式为：

PEPos,2i=sin(Pos/100002i/dmodel)

PEPos,2i+1=cos(Pos/100002i/dmodel)

pos：当前词在句子中的位置，

i：向量中每个值的index;;

自注意力的实现（1）;;

层都有残差连接。反向传播的时候不会造成梯度消失。;;;;;;;;;;

高级深度学习生成对抗网络

复旦大学赵卫东博士

wdzhao@;

生成对抗网络家谱;

?非监督学习：训练集没有标注，学???的结果是数据的隐含规律，表现形式可以使数据按相似性分组、数据的分布、数据分量间的关联规则，最主要的是探讨非监督学习中的聚类问题。

?GAN是IanGoodfellow在2014年的经典之作，在许多地方作为非监督深度学习的代表作给予推广。GAN解决了非监督学习中的著名问题：给定一批样本，训练一个系统，能够生成(generate)类似的新样本。;;

AutoEncoder（1）;

AutoEncoder（2）;

AutoEncoder（3）-文本检索;

AutoEncoder（4）-相似图形检索;

AutoEncoder（5）-噪声去除;

图像的反卷积deconvolution;

Encoder-Decoder;

变分自编码器VAE;

VAE的目标函数;

VAE存在的问题;

判别器D：给定样本，判断(通常也是深度卷积神经网络)这个样本来自真实数据还是伪造数据。;

GAN基本原理;

生成式对抗网络--如何定义损失;

GAN损失函数;;

较低的水平线是z采样的区域，在这种情况下，上面的水平线是X域的一部分。向上箭头显示映射x=g(Z)如何将非均匀分布的pg强加于转换后的样本上。g在高密度区域收缩，在pg低密度区域扩展。

D.产生的绿色分布和真实数据分布已经完全重合。这时，判别函数对所有的数据（无论真实的还是生成的数据），输出都是一样的值，已经不能正确进行分类。G成功学习到了数据分布，这样就达到了

GAN的训练和学习目的。Pg=Pdata，判别器无法区分这两个分布，此时D(X)=1/2;

GAN的收敛性

如果G和D的学习能力足够强，两个模型可以收敛。

但是GAN模型的收敛性和均衡点存在性需要新

您可能关注的文档

文档评论（0）

139****1983 + 关注: 实名认证

文档贡献者

副教授、一级建造师持证人

一线教师。

咨询Ta 进入空间

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

更多 >

机器学习（下篇，共上中下3篇）.pptxVIP