深度理解变分自编码器.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深度理解变分自编码器 导语:?自编码器是一种非常直观的无监督神经网络方法,由编码器和解码器两部分构成,自编码器近年来很受研究人员的欢迎。本文是机器学习工程师Jeremy撰写的一篇非常棒的博文,介绍了变分自编码器理论基础和工作原理,通过人脸示例帮助读者更直观的理解。本文强调了变分自编码器的理论推导和实现细节,在文末展示了变分自编码器作为生成模型的输出结果。希望深入理解变分自编码器的读者不妨读一读。 【深度理解变分自编码器】 导读自编码器是一种非常直观的无监督神经网络方法,由编码器和解码器两部分构成,自编码器近年来很受研究人员的欢迎。本文是机器学习工程师Jeremy撰写的一篇非常棒的博文,介绍了变分自编码器理论基础和工作原理,通过人脸示例帮助读者更直观的理解。本文强调了变分自编码器的理论推导和实现细节,在文末展示了变分自编码器作为生成模型的输出结果。希望深入理解变分自编码器的读者不妨读一读。 Variationalautoencoders 变分自编码器 自编码器是发现数据的一些隐状态(不完整,稀疏,去噪,收缩)表示的模型。更具体地说,输入数据被转换成一个编码向量,其中每个维度表示从数据学到的属性。最重要的是编码器为每个编码维度输出单个值,解码器随后接收这些值并尝试重新创建原始输入。 变分自编码器(VAE)提供了描述隐空间观察的概率方式。因此,我们不需要构建一个输出单个值来描述每个隐状态属性的编码器,而是要用编码器描述每个隐属性的概率分布。 ▌直觉 举个例子,假设我们已经在一个大型人脸数据集上训练了一个Autoencoder模型,encoder的维度是6。理想情况下,我们希望自编码器学习面部的描述性属性,比如肤色,人是否戴眼镜,从而能够用一些特征值来表示这些属性。 在上面的示例中,我们使用单个值来描述输入图像的隐属性。但是,我们其实更愿意用一个分布去表示每个隐属性。比如,输入蒙娜丽莎的照片,我们很难非常自信的为微笑属性分配一个具体值,但是用了变分自编码器,我们有能比较自信的说微笑属性服从什么分布。 通过这种方法,我们现在将给定输入的每个隐属性表示为概率分布。当从隐状态解码时,我们将从每个隐状态分布中随机采样,来生成向量作为解码器的输入。 注意:对于变分自编码器,编码器有时被称为识别模型,而解码器有时被称为生成模型。 通过构造我们的编码器来输出一系列可能的值(统计分布),然后随机采样该值作为解码器的输入,我们能够学习到一个连续,平滑的隐空间。因此,在隐空间中彼此相邻的值应该与非常类似的重建相对应。而从隐分布中采样到的任何样本,我们都希望解码器理解,并准确重构出来。 ▌统计动机 假设存在一些生成观测值的隐藏变量。 我们只能看到,但我们想推断的特征。换句话说,我们想计算。 不幸的是,计算是相当困难的。 这通常是一个棘手的问题。但是,我们可以应用变分推断来估计这个值。 我们想用一个比较简单的分布来近似。如果我们可以确定的参数,又能保证它与非常相似,有时候就可以用来作近似推理。 KL散度是衡量两个概率分布之间的差异的度量。因此,如果我们想确保与类似,我们可以使两个分布之间的KL散度最小化。 AliGhodsi博士在这里演示了一个完整的推导,结果表明最小化上述表达式即最大化以下表达式: 第一项代表重建的似然估计,第二项确保我们学习到的分布q与真实的先验分布p相似性。 /watch?v=uaaqyVS9-rMfeature=youtu.bet=19m42s 为了重新审视我们的图模型,我们可以使用来推断用于生成观察的可能隐变量(即隐状态)。我们可以进一步将此模型构造成神经网络架构,其中编码器学习从到的映射,并且解码器模型学习从到的映射。 这个网络的损失函数将包括两个项,一个惩罚重建误差(可以认为是最大化重建可能性,如前所述),第二项鼓励我们学习的分布与真实的分布相似。对于隐空间的每个维度,我们假设先验分布遵循单位高斯分布。 ▌实现 前面的章节,建立了变分自编码器结构的统计动机。在本节中,我将提供自己构建这种模型的实现细节。 与在标准自编码器中直接输出隐状态值不同,VAE的编码器模型的输出描述的是每个维度分布。既然我们假设先验p(z)服从正态分布,我们将输出两个向量来描述隐状态分布的均值和方差。如果我们要构建一个真正的多元高斯模型,我们需要定义一个协方差矩阵来描述每个维度是如何相关的。但是,我们将做一个简化的假设,即我们的协方差矩阵只在对角线上有非零值,这允许我们用简单的向量来描述这些信息 然后,我们的解码器将通过从这些定义的分布中抽样来生成一个隐向量,并开始重建原始输入。 但是,这个抽样过程需要额外的关注。在训练模型时,我们使用反向传播来计算网络中每个参数

文档评论(0)

xina171127 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档