大火的扩散模型，这篇文章终于讲明白了！.docxVIP

下载本文档

9
0
约1.92万字
约 24页
2023-11-12 发布于未知
举报
版权申诉

大火的扩散模型，这篇文章终于讲明白了！.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大火的扩散模型，这篇文章终于讲明白了！设为星标，干货直达！ “What I cannot create, I do not understand.” -- Richard Feynman 近段时间最火的方向无疑是基于文本用AI生成图像，继OpenAI在2021提出的文本转图像模型DALLE之后，越来越多的大公司卷入这个方向，如谷歌在今年相继推出了Imagen和Parti。一些主流的文本转图像模型如DALL·E 2，stable-diffusion和Imagen采用了扩散模型（Diffusion Model）作为图像生成模型，这也引发了对扩散模型的研究热潮。相比GAN来说，扩散模型训练更稳定，而且能够生成更多样的样本，OpenAI的论文Diffusion Models Beat GANs on Image Synthesis也证明了扩散模型能够超越GAN。简单来说，扩散模型包含两个过程：前向扩散过程和反向生成过程，前向扩散过程是对一张图像逐渐添加高斯噪音直至变成随机噪音，而反向生成过程是去噪音过程，我们将从一个随机噪音开始逐渐去噪音直至生成一张图像，这也是我们要求解或者训练的部分。扩散模型与其它主流生成模型的对比如下所示：目前所采用的扩散模型大都是来自于2020年的工作DDPM: Denoising Diffusion Probabilistic Models，DDPM对之前的扩散模型（具体见Deep Unsupervised Learning using Nonequilibrium Thermodynamics）进行了简化，并通过变分推断（variational inference）来进行建模，这主要是因为扩散模型也是一个隐变量模型（latent variable model），相比VAE这样的隐变量模型，扩散模型的隐变量是和原始数据是同维度的，而且推理过程（即扩散过程）往往是固定的。这篇文章将基于DDPM详细介绍扩散模型的原理，并给出具体的代码实现和分析。扩散模型原理扩散模型包括两个过程：前向过程（forward process）和反向过程（reverse process），其中前向过程又称为为扩散过程（diffusion process），如下图所示。无论是前向过程还是反向过程都是一个参数化的马尔可夫链（Markov chain），其中反向过程可以用来生成数据，这里我们将通过变分推断来进行建模和求解。扩散过程扩散过程是指的对数据逐渐增加高斯噪音直至数据变成随机噪音的过程。对于原始数据，总共包含步的扩散过程的每一步都是对上一步得到的数据按如下方式增加高斯噪音：这里为每一步所采用的方差，它介于0～1之间。对于扩散模型，我们往往称不同step的方差设定为variance schedule或者noise schedule，通常情况下，越后面的step会采用更大的方差，即满足。在一个设计好的variance schedule下，的如果扩散步数足够大，那么最终得到的就完全丢失了原始数据而变成了一个随机噪音。扩散过程的每一步都生成一个带噪音的数据，整个扩散过程也就是一个马尔卡夫链：另外要指出的是，扩散过程往往是固定的，即采用一个预先定义好的variance schedule，比如DDPM就采用一个线性的variance schedule。扩散过程的一个重要特性是我们可以直接基于原始数据来对任意步的进行采样：。这里定义和，通过重参数技巧（和VAE类似），那么有：上述推到过程利用了两个方差不同的高斯分布和相加等于一个新的高斯分布。反重参数化后，我们得到：扩散过程的这个特性很重要。首先，我们可以看到其实可以看成是原始数据和随机噪音的线性组合，其中和为组合系数，它们的平方和等于1，我们也可以称两者分别为signal_rate和noise_rate（见/examples/generative/ddim/#diffusion-schedule和Variational Diffusion Models）。更近一步地，我们可以基于而不是来定义noise schedule（见Improved Denoising Diffusion Probabilistic Models所设计的cosine schedule），因为这样处理更直接，比如我们直接将设定为一个接近0的值，那么就可以保证最终得到的近似为一个随机噪音。其次，后面的建模和分析过程将使用这个特性。反向过程扩散过程是将数据噪音化，那么反向过程就是一个去噪的过程，如果我们知道反向过程的每一步的真实分布，那么从一个随机噪音开始，逐渐去噪就能生成一个真实的样本，所以反向过程也就是生成数据的过程。估计分布需要用到整个训练样本，我们可以用神经网络来估计这些分布。这里，我们将反向过程