【量子位】AI视频生成研究报告(2024年).pptx

【量子位】AI视频生成研究报告(2024年).pptx

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;

3.玩家格局;

?文生图领域产生了仅次于基础模型的杀手级应用,获得了大;;

?Text2Filter、TGANs-C,vGAN、?;;;;;

2.应用侧;;;;;

30分钟

用户日均使用时长

15%

付费用户长期留存

(井英科技生成的Al短剧)

?市场空间大:2024年短剧在国内的市场规模为400-500亿元,已经接近国内电影市场规模,海外市场发展情况和渗透率要低于本土,市场空间更加广阔

?制作效果接近成熟:目前Al短剧的制作水平还难以与传统实拍模式媲美,但在的动画短剧领域已基本达到可用水平。随着模型能力逐步迭代,未来一年内普通的短剧生成也将达到用户可消费的水平

?制作流程介绍:目前采用与外部导演合作的模式,1)由导演进行剧本创作,并将其分解为分镜剧本,2)井英科技将分镜剧本转化为提示词并输入视频生成模型中(该环节替代了短剧演员)获得结果,3)导演从生成结果中中选择满意的分镜视频,或再通过提示词进行二次生成调整,4)选定视频后在传统视频工作流中进行后期的剪辑和处理

?互动功能:用户在APP内可与短剧主角聊天,类似character.Al,可增加用户粘性;;;;

?主打高端影视场景:能够生成好莱坞级的山脉、平原、植被、海洋、河流、火焰、烟雾、建筑、人物以及任何其他东西创作者可以完全控制场景中生成的每个元素和位置方向,无论是几何形状、材质、灯光、动作还是其他方面。场景由可提示和可操作的对象组成,这些对象可以独立运行,同时还能保持上下文感知

?多元化团队背景:主要是技术人员+创作者的组合,例如来自cruise、

waymo、Tesla、Microsoft、Meta和NvlDlA等公司的技术人员,首席工程师来自《孢子》、《模拟城市》、《模拟人生》、《异形:隔离》等视频游戏,艺术家则曾参与制作《沙丘2》、《哥斯拉》、《造物主》、

《复仇者联盟:奧创纪元》、《艾丽塔:战斗天使》和《侏罗纪世界:失落王国》等电影

?投资方:包括谷歌风投、EladGil、GarryTan、JeffDean等以及来自openAl、Deepmin、Meta、Midjourney、pixar的研究人员;

应用案例—工作流(流程整合化):美图发布AI短剧制作平台MOKI,整合包括创意生成、后期编辑、音效制作等视频创作全流程;

故事板

角色设定

场景1

场景位置

镜头1

镜头3

镜头提示词

镜头类型

场景2

(LTX界面)

?故事板界面:用户需要先进行角色设定,包括人物的肖像、风格、名字等,然后故事版可以帮助用户构思视频的整体内容,包括从场景和分镜头两个层次,可以设定每个场景的基本情况,如位置、光影、天气等,也可以添加该场景的音效和旁白。

信息来源:量子位智库,LTXStudio;;

付费点;;

2.应用侧;;

玩家格局概览:目前AI视频生成领域主要有OpenAI、互联网公司、技

术创业公司、内容工具软件、垂类创业公司5类玩家;;?数据量大:sora的视频训练数据据推测在500万小时左右(供参考),不仅包含视频数据,也包含图片数据,openAl在技术报告中暗示其数据量可能是类似大语言模型的?互联网级”

?合成数据:openAl可能使用了一些物理引擎、游戏引擎渲染的合成数据,以帮助模型更好地学习物理规律,例如openAl收购了Globallllumination(一家3D引擎渲染的公司)

?版权数据:建立多方数据合作,例如与全球最大的图库shutterstock合作获得图片、视频、音乐及其他元数据;

简介

storyDiffusion可以增强视频生成中角色一致性,包括风格服装等等,有助于生成长视频和连贯的图像

Al作图和Al视频生成功能已全量上线,是一款文生图、文生视频的商业化产品,之前集成在剪映中,现在单独分拆面向市场

文本到视频的生成模型,生成效率能够比原版AnimateDiff快十多倍,采用跨模型扩散蒸馏方法实现,已开源研究模型发布

一个基于人物图片生成逼真生动舞蹈视频的模型

文生视频的编辑工具,通过自然语言提示改变视频风格、场景甚至替换视频里的对象或添加元素,同时保持原视频一致性

通过文本控制生成视频中人物或物体的动作,基于MagicVideo-V2模型

一个虚拟人物视频生成框架,特点包括:稳定人脸、保持视频中人脸的稳定性;提取人物信息、高清重绘:在合成后,对视频进行高清重绘,提升画面质量

文生视频模型,可生成具有出色保真度和平

文档评论(0)

gayl22 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档