Sora深度研究报告.pptxVIP

下载本文档

52
0
约8.12千字
约 27页
2024-02-29 发布于北京
举报
版权申诉

Sora深度研究报告.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Sora深度研究报告01Sora：划时代的文生视频大模型31.1Sora——划时代文生视频大模型Sora是由OpenAI发布的文生视频大模型，此模型发布预示着大模型时代进阶。Sora能够仅仅根据提示词，生成60s的连贯视频，远超行业目前大概只有平均“4s”的视频生成长度。Sora的出现，预示着一个全新的视觉叙事时代的到来，它能够依据客户的文本提示，将人们的想象力转化为生动的动态画面。Sora作为一款通用的视觉数据模型，其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像，甚至包括生成长达一分钟的高清视频。打造虚拟世界模拟器。Sora采用了Transformer架构，该架构对视频的时空序列包和图像潜在编码进行操作。随之诞生的最强大模型Sora，也就具备了生成一分钟高质量视频的能力。扩展视频生成模型的规模，是构建模拟物理世界通用模拟器的非常有希望的方向。文生视频大模型Sora资料来源：Sora官网，华西证券研究所1.1Sora——划时代文生视频大模型Sora将不同类型的视觉数据转化为统一的格式，以便于对生成模型进行大规模训练。将可视数据转换成数据包（patchs)，大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来，而Sora则通过视觉包（patchs）实现了类似的效果。对于不同类型的视频和图像，包是一种高度可扩展且有效的表示方式，对于训练生成模型具有重要意义。从宏观角度来看，首先将视频压缩到一个低维度的潜在空间：这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合，从而将原始视频转化为这些包。OpenAI专门设计的解码器模型，它可以将生成的潜在表示重新映射回像素空间资料来源：Sora官网，华西证券研究所1.1Sora——划时代文生视频大模型视频压缩网络：Sora研究员专门训练了一个网络，专门负责降低视觉数据的维度。这个网络接收原始视频作为输入，并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练，并最终生成视频。此外，研究员还设计了一个解码器模型，它可以将生成的潜在表示重新映射回像素空间，从而生成可视的视频或图像。时空包：当给定一个压缩后的输入视频时，从中提取出一系列的时空包，这些包被用作转换token。这一方案不仅适用于视频，因为视频本质上就是由连续帧构成的，所以图像也可以看作是单帧的视频。通过这种基于包的表示方式，Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段，研究员只需在适当大小的网格中安排随机初始化的包，就可以控制生成视频的大小和分辨率。Sora根据文字生成视频资料来源：Sora官网，华西证券研究所1.1Sora——划时代文生视频大模型用于视频生成的缩放Transformers：Sora是一个扩散模型，它接受输入的噪声包（以及如文本提示等条件性输入信息），然后被训练去预测原始的“干净”包。重要的是，Sora是一个基于扩散的转换器模型，这种模型已经在多个领域展现了显著的扩展性，包括语言建模、计算机视觉以及图像生成等领域。扩散转换器在视频生成领域同样具有巨大的潜力，不同训练阶段下，使用相同种子和输入的视频样本对比，结果证明了随着训练量的增加，样本质量有着明显的提高。随着训练量的增加，扩散转换器生成的样本质量有了明显提高资料来源：Sora官网，华西证券研究所1.1Sora——划时代文生视频大模型Sora依托Transformers架构等技术手段，产品力全面碾压Runway等文生视频模型。Sora是将LatentDiffusionModel架构与DiffusionTransformer架构结合，但是Runway只用了LatentDiffusionModel架构。由于Transformer架构强大的参数可拓展性，即随着参数量的增加，Transformer架构的性能提升会更加明显，DiT在LDM的基础上，把模型从U-Net换成了Transformer，因而Sora比Runway具有更强大的性能。凭借Transformer架构可以随意设置位置编码，Sora可以接受任意分辨率和尺寸的素材，而Runway需要将素材裁剪至相同的大小。Sora引入GTP-4将简短的用户提示转换为更长的详细字幕，然后发送到视频模型，有助于Sora更好理解客户需求；而Runway很难理解细微差别，坚持提示中的特定描述而忽略其他描述。Sora依靠从头训练了一套能直接压缩视频的自编码器，Sora的自编码器不仅能在空间上压缩图像，还能在时间上压缩视频长度，使时长达到了一分钟，而Runway时长小于20秒。拼成“SORA”的逼真云的图像主要视频生成模型对比资料来源：Sora官网，36氪，澎湃新闻，同花顺，华西

您可能关注的文档

文档评论（0）

138****4948 + 关注: 实名认证

文档贡献者

电子信息工程师持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年05月10日上传了电子信息工程师

1亿VIP精品文档

更多 >

Sora深度研究报告.pptxVIP