- 1、本文档共234页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
高级深度学习模型
自注意力和BERT模型
;
Seq2seq模型最早是在2013年由cho等人提出一种RNN模型。
Seq2seq模型是序列对序列的模型,本质上是一种多对多的RNN模型,也就是输入序列和输出序列不等长的RNN模型。
Seq2seq广泛应用在机器翻译、文本摘要、语音识别、文本生成、AI写诗等。;;;;
注意力机制本质上是一种注意力资源分配的模型。
编码器将输入编码成上下文变量C,在解码时每一个输出Y都会不加区分的使用这个C进行解码。
注意力模型根据序列的每个时间步将编码器编码为不同C,在解码时,结合每个不同的C进行解码输出。;;;
机器翻译(2)解码器;;;;
上下文词的one-hot表示和输入词矩阵相乘
后得到的词向量求和再平均的值
CBOW
skip-gram;;
在训练神经网络时,每接受一个训练样本,就调整所有神经单元权重参数,使神经网络预测更加准确。但神经网络具有非常大的权重参数,并且所有的权重参数会随着数十亿训练样本不断调整。
negativesampling每次仅仅更新一小部分的权重参数,从而梯度下降过程中的计算量。
一个单词被选作negativesample的概率跟它出现的频次有关经验公式为:;;
self-attention:输入的句子自身跟自身做attention,是一个查询(Query)到一系列键-值对(Key-Value)的映射。
应用于transformer(2017年),Bert(2018年)等架构。;
Transformer为什么Q和K使用不同的权重矩阵生成?
如果不用Q,attentionscore矩阵是一个对称矩阵,泛化能力很差。
在不同空间上的投影,增加了表达能力,这样计算得到的attentionscore矩阵的泛化能力更高。;;;;;;;
在Transformer中计算PositionEncoding所使用的公式为:
PEPos,2i=sin(Pos/100002i/dmodel)
PEPos,2i+1=cos(Pos/100002i/dmodel)
pos:当前词在句子中的位置,
i:向量中每个值的index;;
自注意力的实现(1);;
层都有残差连接。反向传播的时候不会造成梯度消失。;;;;;;;;;;
高级深度学习生成对抗网络
复旦大学赵卫东博士
wdzhao@;
生成对抗网络家谱;
?非监督学习:训练集没有标注,学???的结果是数据的隐含规律,表现形式可以使数据按相似性分组、数据的分布、数据分量间的关联规则,最主要的是探讨非监督学习中的聚类问题。
?GAN是IanGoodfellow在2014年的经典之作,在许多地方作为非监督深度学习的代表作给予推广。GAN解决了非监督学习中的著名问题:给定一批样本,训练一个系统,能够生成(generate)类似的新样本。;;
AutoEncoder(1);
AutoEncoder(2);
AutoEncoder(3)-文本检索;
AutoEncoder(4)-相似图形检索;
AutoEncoder(5)-噪声去除;
图像的反卷积deconvolution;
Encoder-Decoder;
变分自编码器VAE;
VAE的目标函数;
VAE存在的问题;
判别器D:给定样本,判断(通常也是深度卷积神经网络)这个样本来自真实数据还是伪造数据。;
GAN基本原理;
生成式对抗网络--如何定义损失;
GAN损失函数;;
较低的水平线是z采样的区域,在这种情况下,上面的水平线是X域的一部分。向上箭头显示映射x=g(Z)如何将非均匀分布的pg强加于转换后的样本上。g在高密度区域收缩,在pg低密度区域扩展。
D.产生的绿色分布和真实数据分布已经完全重合。这时,判别函数对所有的数据(无论真实的还是生成的数据),输出都是一样的值,已经不能正确进行分类。G成功学习到了数据分布,这样就达到了
GAN的训练和学习目的。Pg=Pdata,判别器无法区分这两个分布,此时D(X)=1/2;
GAN的收敛性
如果G和D的学习能力足够强,两个模型可以收敛。
但是GAN模型的收敛性和均衡点存在性需要新
文档评论(0)