计算机行业MetaMovieGen的论文告诉我们什么?.docx

计算机行业MetaMovieGen的论文告诉我们什么?.docx

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

内容目录

内容目录

MovieGen:音视频两手抓,模型效果亮眼 4

Meta四个模型的原理与训练方法 6

视频生成模型:创新模型架构实现高效训练 6

音频生成模型:生成与画面和情绪匹配的动效声、环境声 12

个性化视频模型:用于生成特定人像的微调模型 15

可编辑视频模型:无需大量监督视频数据实现模型训练 17

Meta论文发布带来的四点启示 19

投资建议 21

风险提示 21

图表目录

图表目录

图1.Text-to-Video功能示例 4

图2.Video-to-Audio功能示例 5

图3.VideoPersonalizationandConsistency功能示例 5

图4.Instruction-GuidedPreciseEditing功能示例 6

图5.MovieGenVideo的训练方法 7

图6.联合图像与视频的生成流程 8

图7.MovieGenVideoTransformer模型骨干和模型并行应用 9

图8.使用TAE模型编码和解码不同长度的视频 9

图9.真实视频(左)和TAE重建视频(右),以及TAE重建指标对比 10

图10.流匹配+最优传输方法的训练效果更好 11

图11.流匹配+最优传输方法可获得最低的求解误差与最高的样本质量 11

图12.MovieGenVideo中的关键设计决策 11

图13.MovieGenVideo效果与其他模型对比 12

图14.相同Prompt下,MovieGenVideo与其他模型生成视频对比 12

图15.MovieGenAudio展开示意图 13

图16.MovieGenAudio模型示意图 14

图17.生成声音效果模型对比 15

图18.个性化MovieGenVideo的架构与推理流程 16

图19.PT2V模型与ID-Animator、T2V的对比 16

图20.将文本到视频模型扩展到视频编辑 17

图21.第二阶段:多帧编辑示例 18

图22.第三阶段:基于反向翻译的视频编辑 18

图23.与TGVE+和MovieGenEditBench基准上的视频编辑模型的比较 19

MovieGen:音视频两手抓,模型效果亮眼

2024年10月4日,Meta团队发布论文《MovieGen:ACastofMediaFoundationModels》,介绍了一系列基础模型MovieGen,该模型在文本到视频合成、视频个性化、视频编辑、视频到音频生成等多个任务上取得了显著成果,标志着Meta正式进入视频生成赛道,与Sora、Pika、Runway等进行竞争。Meta通过扩大训练数据、计算资源和模型参数,使用FlowMatching(流匹配)方法训练的Transformer模型,打造MovieGen的2种基础模型:MovieGenVideo(300亿参数)和MovieGenAudio(130亿参数),生成高质量的视频或音频。基于MovieGenVideo基础模型进一步训练与微调后,得到可以生成可个性化视频的PersonalizedMovieGenVideo模型和可精确编辑视频的MovieGenEdit。

MovieGenVideo(视频生成模型):基础文生视频功能

这是一个300亿参数的基础模型,用于联合文本到图像、文本到视频的生成,输入

prompt可以生成长达16秒(每秒16帧)且符合文本提示的高质量视频。它基于Transformer架构,采用了LLaMa3的骨干结构,并进行了一些适应性调整。该模型在约1亿个视频和10亿张图像上进行预训练,预训练模型可以推理物体运动、主体-客体交互、几何、相机运动和物理学,并学习各种概念的合理运动,自然地生成多种宽高比、可变分辨率、不同时长的高质量图像和视频。

图1.Text-to-Video功能示例

注:分别输入文本提示“一只穿着芭蕾舞裙的豪猪,在舞台上跳芭蕾舞”、“骑手疾驰在洛杉矶的街头。摄像机追踪镜头”、“消防员穿越燃烧的森林”

数据来源:《MovieGen:ACastofMediaFoundationModels》TheMovieGenteam,

MovieGenAudio(音频生成模型):生成匹配视频环境的音频

这是一个130亿参数的基础模型,用于视频和文本到音频的生成,遵循输入的文本提示,可以生成48kHz高质量的电影

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档