计算机视觉原理与实践--课件-09-图像生成.pptxVIP

下载本文档

4
0
约1.88千字
约 69页
2024-03-27 发布于北京
举报
版权申诉

计算机视觉原理与实践--课件-09-图像生成.pptx

1、本文档共69页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

;;课前回顾;定义与应用场景;图像生成的定义;图像生成的定义;图像生成的定义;定义与应用场景;图像生成的应用场景;图像生成的应用场景;图像生成的应用场景;图像生成的应用场景;本节小结;;;;课前回顾;实现方式;实现方式;1.生成对抗网络（GAN）

GAN由两个神经网络：一个生成器和一个判别器组成。判别器负责试图区分真实样本和生成样本，生成器则试图产生欺骗判别器的尽可能逼真的样本。GAN基础结构如图所示：;实现方式;实现方式;?;1.生成对抗网络（GAN）

总结：

虽然GAN在图像生成方面应用非常广泛，但其训练过程稳定性差，而且其存在模式崩溃问题。

生成器G会根据判别器D的“需求”大量生成某一类高质量图片以使得其生成内容通过判别器D的检验。

GAN的训练崩溃，模式崩溃问题等依然有待研究改进，这也是未来GAN研究发展的主要方向。;?;?;?;2.自回归模型（PixelCNN/PixelCNN）

RowLSTM是一个无向层，它从上到下行逐行地处理图像，每次给整行计算特征。因为它有一个三角接受域，所以它不能抓到所有可获得的上下文。DiagnoalBiLSTM实施并行计算且能在任何图像尺寸上捕捉到所有可获得的上下文。

虽然在图像训练和测试评估上能够实现有效率的并行计算，但是在图片生成方面上由于是采用序列生成方式，所以还是缺乏效率。此外，相比于GAN来说，生成图像的质量还有待提高。;3.变分自编码器（VAE）

VAE模型与GAN相比，具有更加完善的数学理论，公式推导更显性，训练难度更低。

VAE模型由Auto-Encoder演变而来。VAE由一个encoder和一个decoder组成。其架构如图所示。图中粗框表示求解Loss的部分。虚线展现了两个模块之间数据共享的情况。可以看出图的上半部分是优化Encoder的部分，下面是优化Decoder的部分，除了Encoder和Decoder，图中还有三个主要部分。Encoder的Loss计算：KL散度；z的重采样生成；Decoder的Loss计算：最大似然。;3.变分自编码器（VAE）;图像生成的实现方法

GAN模型

PixelRNN/PixelCNN模型

VAE模型;;;;课前回顾;常用数据集;常用数据集;常用数据集;常用数据集;常用数据集;常用数据集;常用数据集;;;;;课前回顾;实验机器人书法学习;实验目的;随着科技的发展，深度学习的相关技能已经逐步普及到了我们的日常生活中。生成一些图像已达到日常需要：

比如图像修复功能，需要补全图像中缺失得部分（主要是人脸的修复）；

图像超分辨率重建功能，将低分辨率的图像转换成高分辨率图像；

图像预测功能，通过一张自然人照片，预测该自然人N年之后的模样；

迁移学习；通过给图片添加不同的场景，达到迁移到另一个场景的效果等等。

这些需求中都会使用到GAN的模型。;本次课程中将学习使用TensorFlow的生成对抗网络（GAN）实现将MNIST数字图像生成的基本操作。

在本实验中，将采用MNIST开源的手写数字的MNIST数据集。该数据集包含60,000个用于训练的示例和10,000个用于测试的示例。这些数字已经过尺寸标准化并位于图像中心，图像是固定大小(28×28像素)，其值为0到1。为简单起见，每个图像都被平展并转换为784(28×28)个特征的一维numpy数组。;生成对抗网络（GAN）

GAN包含有两个模型，一个是生成模型，一个是判别模型。生成模型的职责是生成看起来自然真实的、和原始数据相似的实例。判别模型的职责则是判断给定的实例是自然真实的还是人为伪造的。GAN的工作原理，如下图所示：;实验步骤;实验步骤;实验步骤;实验步骤;实验步骤;实验步骤;实验步骤;实验步骤;实验步骤;实验步骤;实验步骤;实验步骤;实验步骤;实验步骤;实验步骤;图像生成技术是计算机视觉领域近几年新兴的热门研究方向之一。图像生成任务相较于前期的描述类计算机视觉任务难度更大，现阶段常用的生成模型主要包括GAN、PixelRNN/PixelCNN、VAE。目前各类模型都具有一些较为明显的缺陷。GAN模型是当前应用最广泛的图像生成模型，但是其存在训练难度大、容易模式崩塌的缺点。未来图像生成研究的主要方向依旧是解决GAN的模式崩塌问题、简化模型复杂度、提高图像生成清晰度等问题上。;