sora+openai技术文档总结+中英对照原稿.pdfVIP

下载本文档

0
0
约1.59万字
约 8页
2025-03-12 发布于北京
举报
版权申诉

sora+openai技术文档总结+中英对照原稿.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

OPENAISORA技术报告原文+译文+报告总结

要点总结

模型路径：

1.架构为扩散模型（diffusionmodel）+transformer

2.训练时先用预训练模型把大量的大小不一的视频源文件编码转化为统一的patch表示，把时

空要素提取作为transformer的token进行训练。

3.模型效果好和超大量的数据集和更多的运算时间息息相关

优势：

1.人物和背景的连贯性，即时人物运动出了相机范围再回来时还保持同样特征

2.自然语言的理解程度很高

3.可以在同一个种子下生成不同尺寸（横向竖向）的视频适配不同设备

4.可以生成长达1min高清视频

5.可以以文字，图片，视频作为控制要素控制输出结果

不足：

1.对于物理规则了解较弱，比如吹气后蜡烛不会熄灭，左右不分，玻璃掉落不会碎

2.对于算力要求较高（猜测）

可以实现：

1.文生视频，图生视频，图+文生视频，视频修改

2.视频转绘，视频延伸，视频补全

未来畅想：

1.重新洗牌AI生成视频产业

2.扩散模型的上限比想象中的高！

3.全局一致性可以被解决

4.文字生成3D或将迎来突破

5.AR,VR，VIsionPro新型应用潜力

大神观点：

报告原文/research/video-generation-models-as-world-simulators

英文原文中文翻译

Videogenerationmodelsasworldsimulators视频生成模型作为世界模拟器

Weexplorelarge-scaletrainingofgenerativemodels

onvideodata.Specifically,wetraintext-conditional我们探索了在视频数据上进行大规模生成模

diffusionmodelsjointlyonvideosandimagesof型的训练。具体而言，我们联合在可变持续时

variabledurations,resolutionsandaspectratios.We间、分辨率和宽高比的视频和图像上训练了文

leverageatransformerarchitecturethatoperateson本条件扩散模型。我们利用了一个在视频和图

spacetimepatchesofvideoandimagelatentcodes.像潜在编码的时空块上操作的transformer架

Ourlargestmodel,Sora,iscapableofgeneratinga构。我们最大的模型，Sora，能够生成一分钟

minuteofhighfidelityvideo.Ourresultssuggestthat高保真度的视频。我们的结果表明，扩展视频

scalingvideogenerationmodelsisapromisingpath生成模型是建立通用物理世界模拟器的一条

towardsbuildinggeneralpurposesimulatorsofthe有前景的道路。

physicalworld.

Thistechnicalreportfocuseson(1)ourmethodfor本技术报告关注以下两个方面：(1)我们将各

turningvisualdataofalltypesintoaunified种类型的视觉数据转换为统一表示的方法，以

representationthatenableslarge-scaletrainingof实现大规模生成模型的训练，以及(2)对Sora

generativemodels,and(2)qualitativeevaluationof的能力和局限性进行定性评估。模型和实现细

Sora’scapabilitiesandlimitations.Modeland节未包含在本报告中。之前的研究已经探讨

implementationdetailsarenotincludedinthisreport.

您可能关注的文档

文档评论（0）

YLY + 关注: 实名认证

文档贡献者

专业研报提供，接定制

咨询Ta 进入空间

1亿VIP精品文档

更多 >

sora+openai技术文档总结+中英对照原稿.pdfVIP