免训练加速DiT，Meta提出自适应缓存新方法.docx

下载文档

14
0
约1.27万字
约 10页
2024-11-28 发布于北京
举报
版权申诉
保障服务

免训练加速DiT，Meta提出自适应缓存新方法.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一、行业变化 1

二、产业标的 3

三、行情回顾 3

四、产业要闻 5

芯片 5

大模型 6

智能驾驶 7

其他 7

五、重要公告 8

六、风险提示 9

图表目录

图表1：并非所有视频都同等重要 1

图表2：针对每个视频都可以有不同的缓存和计算分配 1

图表3：AdaCache方法 1

图表4：VBench基准测试 2

图表5：AdaCache能有效利用GPU资源 2

图表6：中证人工智能指数、上证指数、沪深300指数涨跌幅比较 3

图表7：人工智能（中证）个股周涨幅前十名（%） 4

图表8：人工智能（中证）个股周涨幅后十名（%） 4

图表9：重点公司股票涨跌详情（数据采用wind一致预期） 4

图表10：人工智能行业一周重要公告 8

请务必阅读正文之后的免责条款和声明。

一、行业变化

Meta提出了一种新方法AdaCache，能够加速DiT模型，而且无需额外训练。DiT（DiffusionTransformers）结合了扩散模型和Transformer架构的优势，通过模拟从噪声到数据的扩散过程，能够生成高质量图像和视频。不过DiT并非完美无缺，自OpenAI发布Sora以来（DiT因被视为Sora背后的技术基础之一而广受关注），人们一直尝试改进它。

Meta团队在研究中发现，有些视频在达到合理质量时所需的去噪步骤比其他视频少。他们展示了基于Open-Sora的不同视频序列在不同去噪步骤下的稳定性和质量变化。通过逐步减少去噪步骤，他们发现每个视频序列的“中断点”（即质量开始显著下降的步骤数量）是不同的，右侧直方图也显示了在不同步骤中特征变化的幅度。这启发了团队，“并非所有视频都同等重要”。换句话说，针对每个视频都可以有不同的缓存和计算分配，以此节约资源。

图表1：并非所有视频都同等重要图表2

资料来源：Meta，资料来源：Meta，

于是针对缓存，Meta推出了一种名为AdaCache（自适应缓存）的新方法，核心是：每次生成视频时，AdaCache

会按视频的特定内容分配缓存资源，将不同视频的缓存需求动态调整到最优。

图表3：AdaCache方法

资料来源：Meta，

左侧部分，AdaCache将DiT的原始扩散过程分为多个步骤，并对每一步进行残差计算，以生成新的表示。这些新的表示会在后续步骤中被重复使用，而不需要每次都重新计算，从而节省大量计算资源。过程中，研究使用一个距离度量（ct）来判断当前表示和之前缓存的表示之间的变化幅度。如果变化较小，就可以直接使用缓存，节省计算量；如果变化较大，则需要重新计算。

右侧部分，是DiT内部的计算过程，可以看到空间-时间注意力（STA）、交叉注意力（CA）和多层感知器

（MLP）三个模块。其中每一步生成的新表示（如ft+k和ft）会使用缓存中的残差进行更新，从而减少重复计算的次数。总之一句话，这种策略使得计算资源能够根据视频内容的复杂性和变化率动态分配。

此外，为了进一步改进AdaCache，团队还引入运动正则化（MoReg）来控制计算分配。团队发现，视频中的运动内容对于确定最佳的去噪步骤数量至关重要，通常高运动内容需要更多去噪步骤来保证生成质量。

基于此，MoReg的核心思想是：对于运动内容较多的视频，应该减少缓存的使用，从而允许在更多的步骤中进行重新计算。由于需要在视频生成过程中实时估计运动，MoReg不能依赖于传统的、计算密集型的像素空间运动估计算法。

最后，团队使用了VBench基准测试来评估AdaCache在不同视频生成任务中的性能。其中VBench提供了一系列的质量指标，包括峰值信噪比（PSNR）、结构相似性（SSIM）和感知图像质量指标（LPIPS）。同时，还测量了推理延迟（Latency）和计算复杂度（FLOPs）。测试对象包括了AdaCache的多个变体，包括慢速（slow）、快速（fast）和带有MoReg的版本。结果显示，fast变体提供了更高的加速比，而slow变体则提供了更高的生成质量。与此同时，与其他无训练加速方法（如?-DiT、T-GATE和PAB）相比，在生成质量相当或更高的情况下，AdaCache都提供了显著的加速效果。另外，随着GPU的数量增加，AdaCache的加速比也相应增加，这表明它能够有效地利用并行计算资源，并减少GPU之间的通信开销。

图表4：VBench基准测试图表5：AdaCache能有效利用GPU资源

资料来源：M