Text2Stereo: 利用一致性奖励将稳定扩散重新用于立体生成-计算机科学-机器学习-扩散模型-立体图像生成.pdf

下载文档

0
0
约4.39万字
约 12页
2025-07-30 发布于北京
举报
版权申诉
保障服务

Text2Stereo: 利用一致性奖励将稳定扩散重新用于立体生成-计算机科学-机器学习-扩散模型-立体图像生成.pdf

1、本文档共12页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Text2Stereo:利用一致性奖励将稳定扩散重新用于立体生成

1121

AakashGargLibingZengAndriiTsarovNimaKhademiKalantari

TexasAMUniversity,LeiaInc.

{aakash.garg80,libingzeng,nimak}@,andrii.tsarov@

Thereisarowboattiedtoadockonamistylake.StereoDiffusion3DPhotography

本

译LeftRight

中图1.给定一个输入文本提示，我们的方法合成了一对左、右图像。我们使用生成的左侧图像作为StereoDiffusion[46]和3D

Photography[39]的输入来生成右侧图像。StereoDiffusion和3DPhotography都使用基于深度的扭曲将内容从输入转移到新

v视图。因此，它们往往难以创建具有连续变化深度的对象的适当视差效果，如青色箭头所示。此外，由于StereoDiffusion在潜

7在空间中执行深度扭曲，这种扭曲通常不是像素完美的，导致令人反感的伪影，如黄色箭头所示。最后，3DPhotography经常

3难以重建被遮挡的区域（见黄色箭头）。然而，我们的方法能够生成一致、高质量且基线宽广的立体图像。

0Abstract扩散模型生成单个图像，然后应用单一图像视图合成

6方法[17,33,39,41,44,49]来重建另一个视角。然而，

0在本文中，我们提出了一种基于扩散的新方法，用于根其中大多数技术[17,33,39,49]通过使用单目深度和

2据文本提示生成立体图像。由于具有大基线的立体图填充被遮挡区域来扭曲输入图像以生成新视图。虽然

v像数据集非常稀缺，从零开始训练一个扩散模型是不这些方法在基线较小时能产生合理的结果，但它们对

x可行的。因此，我们建议利用稳定扩散学习到的强大先于较大的基线——本文的重点——往往会产生令人反

a验，并在其上进行微调以适应立体图像生成任务。为了感的伪影。具体来说，基于深度的扭曲经常会对具有连

提高立体一致性和文本到图像的一致性，我们进一步续变化深度的对象产生错误的视差效果（见图1）。此

使用提示对齐和我们提出的立体一致性奖励函数来调外，这些方法通常以一种看似合理但实际上不准确的

整模型。综合实验表明，我们的方法在各种场景下生成方式重建被遮挡区域。

高质量的立体图像方面优于现有方法。

最近，王等人[46]通过使用预训练的稳定扩散模

型解决了立体图像生成的问题。具体来说，他们遵循之

前提到的方法的流程，在扩散模型的潜在空间中通过

1.介绍

基于深度的变形来重建立体图像。因此，他们继承了单

随着VR头显（如MetaQuest）和光场显示器（

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Text2Stereo: 利用一致性奖励将稳定扩散重新用于立体生成-计算机科学-机器学习-扩散模型-立体图像生成.pdf