- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
新媒体新业务
NEWMEDIABUSINESS
Sora技术路线及其对媒体内容
生产格局影响分析
●作者 浙江省宁波广播电视集团 朱红天
特有的较短剪辑和简单视觉呈现的限制上。
摘要
Sora的出现,既在意料之中,也在意料之外。意
随着人工智能技术的迅猛发展,多模态内容生成已经成为科
料之中是因为大模型攻克文本、图片模态之后,视频
技前沿的热点话题。2024年初,OpenAI发布的Sora模
生成应该是水到渠成。意料之外是没想到OpenAI的
型,以其卓越的视频生成能力,迅速吸引了全球关注,标志
速度这么快,2023年文生视频模型还只能勉强生成
着多模态生成技术迈入了一个全新的阶段。本文将深入探讨
10秒钟视频,而且视频质量和一致性等指标也非常差。
Sora的技术特点,分析其技术及工作原理,并评估其对产业Sora能生成长达1分钟的高质量视频,这相较于此前
格局的潜在影响。只能生成25帧576×1024图像的顶尖视频生成模型
StableVideoDiffusion有了显著提升,展示了OpenAI
在视频生成领域的技术实力。
关键词
人工智能二Sora技术原理解析
多模态内容生成
Sora模型在核心本质上,Sora是一个基于潜在空间(Latent
Space)的具有灵活采样维度的扩散模型(Diffusion
Transformer,简称DiT)[1]。它包含三个部分:
一Sora简介◆一个时空压缩器首先将原始视频映射到潜在空间;
◆VisionTransformer处理标记化的潜在表示并
Sora是OpenAI于2024年2月发布的文本到视输出去噪后的潜在表示;
频的生成式AI模型。该模型经过训练后,能够根据◆一个类似于CLIP的条件接收机制接收大语言
文本指令生成逼真或富有想象力的场景视频,尤其包模型增强的用户指令和可能的视觉提示,以引导扩散
含多个角色在复杂背景前执行动作的详细视频。与以模型生成具有特定风格或主题的视频。
往的视频生成模型相比,Sora的显著特点是其能够生经过多次去噪步骤后,获得生成视频的潜在表
成长达1分钟的高质量视频,同时保持高质量品质和示,然后使用相应的解码器将其映射回像素空间。
Sora核心架构图
引人入胜的视觉连贯性。与只能生成短视频片段的早Sora的核心
您可能关注的文档
最近下载
- 数字图书馆建设方案.pdf VIP
- 机械设计与应用 螺纹联接的预紧和防松 螺纹联接的预紧和防松.pptx VIP
- 桩基子分部工程质量验收记录表.docx VIP
- 《GB 28263-2024民用爆炸物品生产、销售企业安全管理规程》知识培训.pptx VIP
- 小升初语文古诗词默写经典200题(答案版)(2021年-2022年).pdf VIP
- TUCST007-2020 房屋建筑与市政基础设施工程施工安全风险评估技术标准.pdf VIP
- 建房押金合同范本.docx VIP
- 五年级下册英语试题-期末测试题人教版.docx VIP
- 2023年农村教师公开选调进城考试模拟试题5(小学美术·附参考答案).docx VIP
- 非遗知识文化云肩知识介绍PPT课件.pptx VIP
初级会计持证人
专注于经营管理类文案的拟写、润色等,本人已有10余年相关工作经验,具有扎实的文案功底,尤善于各种框架类PPT文案,并收集有数百万份各层级、各领域规范类文件。欢迎大家咨询!
文档评论(0)