传媒行业AI产品测评体验系列报告-快手可灵:国产首发对标Sora的DiT架构文生视频AI模型-240607.pdf

传媒行业AI产品测评体验系列报告-快手可灵:国产首发对标Sora的DiT架构文生视频AI模型-240607.pdf

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

证券研究报告传媒2024年06月07日

AI产品测评体验系列报告

快手可灵:国产首发对标Sora的DiT架构推荐(维持)

文生视频AI模型

❑快手可灵是快手于2024年6月6日推出的一款AI视频生成大模型的AI视华创证券研究所

频。可灵为快手AI团队自研,基于快手在视频技术方面的多年积累,采用类

似Sora的DiT技术路线,结合多项自研技术创新,效果对标Sora。证券分析师:刘欣

❑从技术角度看,快手可灵结合多项自研技术创新,采用了原生的文生视频技术电话:010-63214660

路线,替代了图像生成+时序模块的组合,实现了可灵生成时间长、帧率高,

邮箱:liuxin3@hcyj

能准确处理复杂运动的能力。在完成度上,能够模拟物理世界特性,完成大幅执业编号:S0360521010001

度的合理运动;在创新度上,具备强大的概念组合能力和想象力,能够将用户

丰富的想象力转化为具体的画面;在参数表现上,不仅支持生成长达2分钟的

行业基本数据

30fps且具备1080p分辨率的超长视频,同时支持多种宽高比。

占比%

❑从功能体验看,快手可灵大模型具备强大的视频生成能力让用户可以轻松高股票家数(只)1420.02

效地完成艺术视频创作,通过文字描述,可灵生成的视频可实现1)大幅度的总市值(亿元)12,270.011.41

合理运动:可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,流通市值(亿元)10,952.731.61

生成较大幅度运动的视频内容,同时能够符合运动规律,复杂、大幅度的时空

运动也能准确刻画;2)长达2分钟的视频生成:得益于高效的训练基础设施、相对指数表现

极致的推理优化和可扩展的基础架构,可灵大模型能够生成长达2分钟的视

%1M6M12M

频,且帧率达到30fps;3)模拟物理世界特性:基于自研模型架构及Scaling绝对表现-13.5%-25.7%-35.8%

Law激发出的强大建模能力,可灵能够模拟真实世界的物理特性,生成符合物相对表现-11.7%-31.4%-30.1%

理规律的视频;4)强大的概念组合能力:基于对文本-视频语义的深刻理解和

DiffusionTransformer架构的强大能力,可灵能够将用户丰富的想象力转化为2023-06-07~2024-06-06

具体的画面,虚构真实的世界;5)电影级的画面生成:基于自研3DVAE,可6%

灵能够生成1080p分辨率的电影级视频,无论是浩瀚壮阔的宏大场景,还是细-9%

腻入微的特写镜头,都能够生动呈现;6)支持自由的输出视频宽高比:可灵23/0623/0823/1024/0124/03

文档评论(0)

139****3154 + 关注
实名认证
内容提供者

8年软件开发,5年房地产开发,5年金融产品设计

1亿VIP精品文档

相关文档