Sora深度：功能优势、发展现状、算力测算、相关影响及相关公司深度梳理（2024）.docx

下载文档

2
0
约1.76万字
约 49页
2024-12-24 发布于山西
举报
版权申诉
保障服务

Sora深度：功能优势、发展现状、算力测算、相关影响及相关公司深度梳理（2024）.docx

1、本文档共49页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

行业研究报告

行业研究报告慧博智能投研

行业|深度|研究报告 2024年2月26日

Sora深度：功能优势、发展现状、算力测算、相关影响及相关公司深度梳理

2024年2月16日，OpenAI发布首个视频生成模型Sora。Sora继承DALL·E3的画质和遵循指令能力，能生成长达1分钟的高清视频。Sora的出现对AI行业的发展具有里程碑意义。从中短期看Sora作为一款具有强劲性能的视频生成模型，将提升视频生成的质量和效率，对影视和游戏等相关行业具有变革作用；从长期看Sora有望成为一款世界模拟器的视频生成模型，为未来发展理解和模拟真实世界的模型

奠定基础。

围绕Sora，下面我们从其实现功能、技术路径、算法实现等基本信息入手，了解Sora功能优势及局限；梳理文本视频大模型发展历程及当前代表性文生模型并与其对比，对Sora进行算力预估并对其未来发

展影响进行展望，方便读者深入了解这一大模型。

一、Sora概述 1

二、Sora功能优势及局限 6

三、文生视频大模型发展现状 13

四、代表性文生视频模型梳理及比较 15

五、Sora对算力网络需求拉动测算 17

六、Sora将如何改变传媒各细分赛道 19

七、相关公司 20

八、参考研报 27

一、Sora概述1.OpenAI发布首个视频生成模型Sora

2月16日，OpenAI发布了推出了一款能根据文字指令即时生成短视频的模型，命名为Sora。

1/27

2/27

行业|深度|研究报告 2024年2月26日

根据介绍，Sora使用扩散模型技术，完美继承了DALL·E3的画质和遵循指令能力，能够从文本说明中生成长达60秒的视频，并能够提供具有多个角色、特定类型的动作和详细背景细节的场景。借助GPT的能力，Sora能够实现对语言的深入理解，使其能够准确地解释提示词，并生成引人注目的字符来表达充满活力的情感。Sora还能在一个生成的视频中创建多个镜头，体现人物和视觉风格。

2.实现功能

3/27

行业|深度|研究报告 2024年2月26日

OpenAI表示，通过让模型一次生成多帧画面，Sora解决了一个具有挑战性的问题，即：即使生成的主体暂时离开视线内，也能确保主体不变。

除文生视频外，Sora还具有更多功能：1）根据图像生成动画；2）在时间上向前或向后扩展视频；3）编辑输入的视频；4）在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡；5）根据文字生成图像。

3.技术路径

Sora取法Tokens文本特征标记，是基于Patches视觉特征标记的DiffusionTransformer模型。

OpenAI研究团队从LLM中汲取灵感，认为LLM范式的成功在一定程度上得益于Tokens的使用，

Tokens统一了代码、数学和各种自然语言的文本模式。类似于LLM范式下的Tokens文本标记，Sora创新性地使用了Patches（apartofsomethingmarkedoutfromtherestbyaparticularcharacteristic；视觉特征标记）。

鉴于Patches之前已被证明是视觉数据模型的有效表示，OpenAI研究团队进一步研发发现Patches是一种高度可扩展且有效的表示，可以被用于在不同类型的视频和图像上训练生成模型：

4/27

行业|深度|研究报告 2024年2月26日

5/27

行业|深度|研究报告 2024年2月26日

（1）将视觉数据转化为Patches（Turningvisualdataintopatches）

将视频、图像等视觉数据压缩至低维的潜在空间中，并将其分解为带有时空（Spacetime）特征的Patches（若为图像，则对空间特征进行分解），从而将视觉数据转换为Patches。

（2）构建视频压缩网络（Videocompressionnetwork）

OpenAI训练的视频压缩网络将原始视频作为输入，并输出在时间和空间上都经过压缩的潜在特征。

Sora在这个压缩的潜在空间中接受训练并生成视频。OpenAI还训练了一个相应的解码器模型，该模型将生成

您可能关注的文档

文档评论（0）

4A方案 + 关注: 实名认证

服务提供商

擅长策划，|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

咨询作者（1389人已咨询）已休息

1亿VIP精品文档

更多 >

Sora深度：功能优势、发展现状、算力测算、相关影响及相关公司深度梳理（2024）.docx