- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【干货】对抗自编码器PyTorch手把手实战系列——PyTorch实现自编码器
导语:?即使是非计算机行业,大家也知道很多有名的神经网络结构,比如CNN在处理图像上非常厉害,RNN能够建模序列数据.然而CNN,RNN之类的神经网络结构本身,并不能用于执行比如图像的内容和风格分离,生成一个逼真的图片,用少量的label信息来分类图像,或者做数据压缩等任务.因为上述几个任务,都需要特殊的网络结构和训练算法. 即使是非计算机行业,大家也知道很多有名的神经网络结构,比如CNN在处理图像上非常厉害,RNN能够建模序列数据.然而CNN,RNN之类的神经网络结构本身,并不能用于执行比如图像的内容和风格分离,生成一个逼真的图片,用少量的label信息来分类图像,或者做数据压缩等任务.因为上述几个任务,都需要特殊的网络结构和训练算法.
有没有一个网络结构,能够把上述任务全搞定呢?显然是有的,那就是对抗自编码器AdversarialAutoencoder(AAE).在本文中,我们将构建一个AAE,来压缩数据,分离图像的内容和风格,用少量样本来分类图像,然后生成它们。
PyTorch实现自编码器
首先我们先回顾一下什么是自编码器,然后用PyTorch进行简单的实现。
1.自编码器
如图所示,自编码器的输入和输出是一样的,也就是说,它不需要监督信息(label),它主要有两部分构成:
?编码器(Encoder):输入数据(可以是文本,图像,视频,语音),输出latentcode,比如上图,输入数据是的一张图像,输出的是的隐层值h,或者称之为latentcode,当然h的大小你可以随便设置.在这种设置下,encoder起到了压缩图片的作用,将一个图片从变化成了,就像你用压缩软件(比如WinRAR)压缩图片一样.如果我们把Encoder记做函数q,那么Encoder就是在做:
?解码器(Decoder):输入数据为上一步的输出数据h,它努力把h重构成x,上图的例子中,Decoder需要把的重构回的,并使得和原来的x约相似越好,就像你用压缩然见解压一个压缩文件一样.如果我们把Decoder记做函数p,那么Decoder就是在做:
这个模型似乎是一个天然的降维模型.但是,除了降维,Autoencoder还能干什么?
图片降噪(ImageDenosiong),输入嘈杂的图像,Autoencoder可以生成清晰无噪声的图像.当把数据输入自编码器后,我们可以强制让自编码器的隐层学习更鲁棒的特征,而不是仅仅识别他们,这样的自编码器,在下图左边的图上进行训练,就可以把中间的噪声数据,重建成右边的样子。
语义哈希,这可以降低数据的维度,加速信息检索,目前有非常的人在研究这一方向.
生成模型,比如本系列文章要介绍的AdversarialAutoencoder(AAE)
其他大量应用
2.PyTorch实现
我们先从简单的全连接网络开始我们的第一部分.
这个Encoder包含的输入层,两层隐层,每层1000个节点,一个输出层层数为2
所以,整个模型是:
模型实现完成后,我们要准备一下数据:
我们选择MSE损失函数来度量重构出来的图像与原来的图像x的相似程度
接下来就可以实现训练步骤了:
可以看一下重建的图像怎么样:
我们可以观察到,输入的这张3的图片,一些奇怪的地方呗去掉了(3的左上角).
接下来,让我们看一下latentcode,它只有2维,我们可以随便填一个值让Decoder去生成图片,比如我们认为的令,让后将它输入到Decoder中:
这好像是个6的图片,当然也可能是0,不管怎么说,这不是一个清晰的数字图片.这是因为Encoder的输出并不能覆盖整个2维空间(它的输出分布有很多空白)。因此,如果我们输入一些Decoder没见过的值,我们会看到一下奇怪的输出图像。这可以通过在生成latentcode时,将Encoder的输出限制为随机分布(比如,均值为0.0和标准偏差为2.0的正态分布)。AdversarialAutoencoder就是这么做到的,我们将在第2部分中看看它的实现。
文档评论(0)