机器学习(下篇,共上中下3篇).pptxVIP

机器学习(下篇,共上中下3篇).pptx

  1. 1、本文档共234页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

高级深度学习模型

自注意力和BERT模型

;

Seq2seq模型最早是在2013年由cho等人提出一种RNN模型。

Seq2seq模型是序列对序列的模型,本质上是一种多对多的RNN模型,也就是输入序列和输出序列不等长的RNN模型。

Seq2seq广泛应用在机器翻译、文本摘要、语音识别、文本生成、AI写诗等。;;;;

注意力机制本质上是一种注意力资源分配的模型。

编码器将输入编码成上下文变量C,在解码时每一个输出Y都会不加区分的使用这个C进行解码。

注意力模型根据序列的每个时间步将编码器编码为不同C,在解码时,结合每个不同的C进行解码输出。;;;

机器翻译(2)解码器;;;;

上下文词的one-hot表示和输入词矩阵相乘

后得到的词向量求和再平均的值

CBOW

skip-gram;;

在训练神经网络时,每接受一个训练样本,就调整所有神经单元权重参数,使神经网络预测更加准确。但神经网络具有非常大的权重参数,并且所有的权重参数会随着数十亿训练样本不断调整。

negativesampling每次仅仅更新一小部分的权重参数,从而梯度下降过程中的计算量。

一个单词被选作negativesample的概率跟它出现的频次有关经验公式为:;;

self-attention:输入的句子自身跟自身做attention,是一个查询(Query)到一系列键-值对(Key-Value)的映射。

应用于transformer(2017年),Bert(2018年)等架构。;

Transformer为什么Q和K使用不同的权重矩阵生成?

如果不用Q,attentionscore矩阵是一个对称矩阵,泛化能力很差。

在不同空间上的投影,增加了表达能力,这样计算得到的attentionscore矩阵的泛化能力更高。;;;;;;;

在Transformer中计算PositionEncoding所使用的公式为:

PEPos,2i=sin(Pos/100002i/dmodel)

PEPos,2i+1=cos(Pos/100002i/dmodel)

pos:当前词在句子中的位置,

i:向量中每个值的index;;

自注意力的实现(1);;

层都有残差连接。反向传播的时候不会造成梯度消失。;;;;;;;;;;

高级深度学习生成对抗网络

复旦大学赵卫东博士

wdzhao@;

生成对抗网络家谱;

?非监督学习:训练集没有标注,学???的结果是数据的隐含规律,表现形式可以使数据按相似性分组、数据的分布、数据分量间的关联规则,最主要的是探讨非监督学习中的聚类问题。

?GAN是IanGoodfellow在2014年的经典之作,在许多地方作为非监督深度学习的代表作给予推广。GAN解决了非监督学习中的著名问题:给定一批样本,训练一个系统,能够生成(generate)类似的新样本。;;

AutoEncoder(1);

AutoEncoder(2);

AutoEncoder(3)-文本检索;

AutoEncoder(4)-相似图形检索;

AutoEncoder(5)-噪声去除;

图像的反卷积deconvolution;

Encoder-Decoder;

变分自编码器VAE;

VAE的目标函数;

VAE存在的问题;

判别器D:给定样本,判断(通常也是深度卷积神经网络)这个样本来自真实数据还是伪造数据。;

GAN基本原理;

生成式对抗网络--如何定义损失;

GAN损失函数;;

较低的水平线是z采样的区域,在这种情况下,上面的水平线是X域的一部分。向上箭头显示映射x=g(Z)如何将非均匀分布的pg强加于转换后的样本上。g在高密度区域收缩,在pg低密度区域扩展。

D.产生的绿色分布和真实数据分布已经完全重合。这时,判别函数对所有的数据(无论真实的还是生成的数据),输出都是一样的值,已经不能正确进行分类。G成功学习到了数据分布,这样就达到了

GAN的训练和学习目的。Pg=Pdata,判别器无法区分这两个分布,此时D(X)=1/2;

GAN的收敛性

如果G和D的学习能力足够强,两个模型可以收敛。

但是GAN模型的收敛性和均衡点存在性需要新

文档评论(0)

139****1983 + 关注
实名认证
文档贡献者

副教授、一级建造师持证人

一线教师。

领域认证该用户于2023年06月21日上传了副教授、一级建造师

1亿VIP精品文档

相关文档