【干货】对抗自编码器pytorch手把手实战系列——pytorch实现自编码器.docVIP

下载本文档

26
0
约1.75千字
约 7页
2021-03-18 发布于未知
举报
版权申诉

【干货】对抗自编码器pytorch手把手实战系列——pytorch实现自编码器.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

【干货】对抗自编码器PyTorch手把手实战系列——PyTorch实现自编码器导语：?即使是非计算机行业,大家也知道很多有名的神经网络结构,比如CNN在处理图像上非常厉害,RNN能够建模序列数据.然而CNN,RNN之类的神经网络结构本身,并不能用于执行比如图像的内容和风格分离,生成一个逼真的图片,用少量的label信息来分类图像,或者做数据压缩等任务.因为上述几个任务,都需要特殊的网络结构和训练算法. 即使是非计算机行业,大家也知道很多有名的神经网络结构,比如CNN在处理图像上非常厉害,RNN能够建模序列数据.然而CNN,RNN之类的神经网络结构本身,并不能用于执行比如图像的内容和风格分离,生成一个逼真的图片,用少量的label信息来分类图像,或者做数据压缩等任务.因为上述几个任务,都需要特殊的网络结构和训练算法. 有没有一个网络结构,能够把上述任务全搞定呢?显然是有的,那就是对抗自编码器AdversarialAutoencoder(AAE).在本文中,我们将构建一个AAE,来压缩数据,分离图像的内容和风格,用少量样本来分类图像,然后生成它们。 PyTorch实现自编码器首先我们先回顾一下什么是自编码器,然后用PyTorch进行简单的实现。 1.自编码器如图所示,自编码器的输入和输出是一样的,也就是说,它不需要监督信息(label),它主要有两部分构成: ?编码器(Encoder):输入数据(可以是文本,图像,视频,语音),输出latentcode,比如上图,输入数据是的一张图像,输出的是的隐层值h,或者称之为latentcode,当然h的大小你可以随便设置.在这种设置下,encoder起到了压缩图片的作用,将一个图片从变化成了,就像你用压缩软件(比如WinRAR)压缩图片一样.如果我们把Encoder记做函数q,那么Encoder就是在做: ?解码器(Decoder):输入数据为上一步的输出数据h,它努力把h重构成x,上图的例子中,Decoder需要把的重构回的,并使得和原来的x约相似越好,就像你用压缩然见解压一个压缩文件一样.如果我们把Decoder记做函数p,那么Decoder就是在做: 这个模型似乎是一个天然的降维模型.但是,除了降维，Autoencoder还能干什么? 图片降噪(ImageDenosiong),输入嘈杂的图像,Autoencoder可以生成清晰无噪声的图像.当把数据输入自编码器后,我们可以强制让自编码器的隐层学习更鲁棒的特征,而不是仅仅识别他们,这样的自编码器,在下图左边的图上进行训练,就可以把中间的噪声数据,重建成右边的样子。语义哈希,这可以降低数据的维度,加速信息检索,目前有非常的人在研究这一方向. 生成模型,比如本系列文章要介绍的AdversarialAutoencoder(AAE) 其他大量应用 2.PyTorch实现我们先从简单的全连接网络开始我们的第一部分. 这个Encoder包含的输入层,两层隐层,每层1000个节点,一个输出层层数为2 所以,整个模型是: 模型实现完成后,我们要准备一下数据: 我们选择MSE损失函数来度量重构出来的图像与原来的图像x的相似程度接下来就可以实现训练步骤了: 可以看一下重建的图像怎么样: 我们可以观察到,输入的这张3的图片,一些奇怪的地方呗去掉了(3的左上角). 接下来,让我们看一下latentcode,它只有2维,我们可以随便填一个值让Decoder去生成图片,比如我们认为的令,让后将它输入到Decoder中: 这好像是个6的图片,当然也可能是0,不管怎么说,这不是一个清晰的数字图片.这是因为Encoder的输出并不能覆盖整个2维空间（它的输出分布有很多空白）。因此，如果我们输入一些Decoder没见过的值，我们会看到一下奇怪的输出图像。这可以通过在生成latentcode时,将Encoder的输出限制为随机分布（比如，均值为0.0和标准偏差为2.0的正态分布）。AdversarialAutoencoder就是这么做到的，我们将在第2部分中看看它的实现。