- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
内容目录
内容目录
MovieGen:音视频两手抓,模型效果亮眼 4
Meta四个模型的原理与训练方法 6
视频生成模型:创新模型架构实现高效训练 6
音频生成模型:生成与画面和情绪匹配的动效声、环境声 12
个性化视频模型:用于生成特定人像的微调模型 15
可编辑视频模型:无需大量监督视频数据实现模型训练 17
Meta论文发布带来的四点启示 19
投资建议 21
风险提示 21
图表目录
图表目录
图1.Text-to-Video功能示例 4
图2.Video-to-Audio功能示例 5
图3.VideoPersonalizationandConsistency功能示例 5
图4.Instruction-GuidedPreciseEditing功能示例 6
图5.MovieGenVideo的训练方法 7
图6.联合图像与视频的生成流程 8
图7.MovieGenVideoTransformer模型骨干和模型并行应用 9
图8.使用TAE模型编码和解码不同长度的视频 9
图9.真实视频(左)和TAE重建视频(右),以及TAE重建指标对比 10
图10.流匹配+最优传输方法的训练效果更好 11
图11.流匹配+最优传输方法可获得最低的求解误差与最高的样本质量 11
图12.MovieGenVideo中的关键设计决策 11
图13.MovieGenVideo效果与其他模型对比 12
图14.相同Prompt下,MovieGenVideo与其他模型生成视频对比 12
图15.MovieGenAudio展开示意图 13
图16.MovieGenAudio模型示意图 14
图17.生成声音效果模型对比 15
图18.个性化MovieGenVideo的架构与推理流程 16
图19.PT2V模型与ID-Animator、T2V的对比 16
图20.将文本到视频模型扩展到视频编辑 17
图21.第二阶段:多帧编辑示例 18
图22.第三阶段:基于反向翻译的视频编辑 18
图23.与TGVE+和MovieGenEditBench基准上的视频编辑模型的比较 19
MovieGen:音视频两手抓,模型效果亮眼
2024年10月4日,Meta团队发布论文《MovieGen:ACastofMediaFoundationModels》,介绍了一系列基础模型MovieGen,该模型在文本到视频合成、视频个性化、视频编辑、视频到音频生成等多个任务上取得了显著成果,标志着Meta正式进入视频生成赛道,与Sora、Pika、Runway等进行竞争。Meta通过扩大训练数据、计算资源和模型参数,使用FlowMatching(流匹配)方法训练的Transformer模型,打造MovieGen的2种基础模型:MovieGenVideo(300亿参数)和MovieGenAudio(130亿参数),生成高质量的视频或音频。基于MovieGenVideo基础模型进一步训练与微调后,得到可以生成可个性化视频的PersonalizedMovieGenVideo模型和可精确编辑视频的MovieGenEdit。
MovieGenVideo(视频生成模型):基础文生视频功能
这是一个300亿参数的基础模型,用于联合文本到图像、文本到视频的生成,输入
prompt可以生成长达16秒(每秒16帧)且符合文本提示的高质量视频。它基于Transformer架构,采用了LLaMa3的骨干结构,并进行了一些适应性调整。该模型在约1亿个视频和10亿张图像上进行预训练,预训练模型可以推理物体运动、主体-客体交互、几何、相机运动和物理学,并学习各种概念的合理运动,自然地生成多种宽高比、可变分辨率、不同时长的高质量图像和视频。
图1.Text-to-Video功能示例
注:分别输入文本提示“一只穿着芭蕾舞裙的豪猪,在舞台上跳芭蕾舞”、“骑手疾驰在洛杉矶的街头。摄像机追踪镜头”、“消防员穿越燃烧的森林”
数据来源:《MovieGen:ACastofMediaFoundationModels》TheMovieGenteam,
MovieGenAudio(音频生成模型):生成匹配视频环境的音频
这是一个130亿参数的基础模型,用于视频和文本到音频的生成,遵循输入的文本提示,可以生成48kHz高质量的电影
您可能关注的文档
- 宏观研究美国制造业修复波折及其对中国的影响.docx
- 泓淋电力首次覆盖报告:电源线组件龙头,新能源业务快速发展.docx
- 鸿日达深耕消费电子连接器,前瞻布局半导体散热,助力公司不断提升核心竞争力.docx
- 壶化股份产能爆发、叠加挺进西部大开发,2025年有望迎高增长拐点.docx
- 华丰科技(688629)国产算力技术、产能跃升,带来业绩、估值高弹性.docx
- 华能水电新增装机投产在即,澜上基地大有可为.docx
- 华锡有色锡锑涨价齐驱,成长弹性兼具.docx
- 化债与退名单,城投与城投债.docx
- 环保%26机械行业检测服务跟踪:化债背景下,哪些龙头可能受益?.docx
- 机构持仓(十七):A股机构投资者概览.docx
文档评论(0)