- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2024年AI模型分析报告:从世界模型看算力需求变化
一、Sora模型的特点
1.1Sora在生成视频的质量、灵活性和时长上与之前的模型有代际差距
较长的视频生成时长:Sora可以生成长达60秒的高保真度视频。对比之前的视频生成模型,Pika1.0可以生成3s-7s的视频,Runway的Gen-2可以生成4s-18s的视频。灵活的分辨率:得益于其训练数据的灵活性,Sora可以生成1080P的任何比例视频,而不是像之前的模型在生成非原生训练比例时会出现画幅的消失。高保真渲染:在模拟数字世界时,如Minecraft游戏,Sora能够实现高保真的渲染效果,使得生成的视频内容看起来就像真实游戏画面一样。存在ScalingLaw:更高的算力、更大的模型规模、patch数量的增加能对生成视频的效果有明显的正向提升。三维空间连贯性:Sora模型能够生成具有正确空间关系和动态相机运动的视频内容,确保视频中的物体在三维空间中保持连贯的运动。
动态相机运动:模型能够模拟包含动态相机运动的视频,使得视频中的人物和场景元素能够随着相机的移动或旋转而相应地改变位置。空间一致性:Sora确保视频中的物体在空间上保持一致性,即使在复杂的场景变换中也能保持正确的相对位置和运动轨迹。长期连续性和物体持久性:Sora能够在视频中保持角色和物体的长期一致性,即使在视频中出现遮挡或离开画面的情况,也能保持其存在和外观。同时,它能够生成具有连贯故事线的视频,确保视频中的事件和动作在时间上是连续的。任务场景丰富:除了视频生成以外,Sora还可以用于其他任务,如图生视频、文生图片、文+图生视频、视频拓展、视频编辑、连接两个不同视频等。
二、视频生成模型的历史与现状
2.1文生视频是个年轻的方向,最早能追溯到15年的基于GAN生成模型
文生视频是个年轻的方向,面临着多方面的独特挑战。主要有1)计算成本高昂:确保帧间空间和时间一致性需要大量的计算资源,导致训练成本高昂;视频信息的复杂性进一步加剧了计算成本,需要更强大的计算能力来处理海量数据。2)视频信息复杂:视频数据形式多样,分辨率和比例各异,包含空间、时间、内容等多维信息;如何找到一种统一的表示形式,以有效地进行大规模训练,是文生视频技术需要解决的关键问题。3)缺乏高质量数据集:现有的文生视频多模态数据集数量有限,且标注程度不够,难以满足模型训练的需求。4)视频描述的模糊性:如何用文本准确描述视频内容,是文生视频技术面临的另一个难题,简短的文本提示难以完整描述视频,而复杂的描述又会增加模型的训练难度。
2.2GAN和VAE时代
文生视频模型最早能追溯到2015年。早期研究主要使用基于GAN(生成对抗网络)和VAE(变分自编码器)的方法在给定文本描述的情况下自回归地生成视频帧(如Text2Filter及TGANs-C)。虽然这些工作为文生视频这一新计算机视觉任务奠定了基础,但它们的应用范围有限,仅限于低分辨率、短距以及视频中目标的运动比较单一、孤立的情况。
2.3TransformerBased
受文本(GPT-3)和图像(DALL-E)中大规模预训练Transformer模型的成功启发,文生视频研究的第二波浪潮采用了Transformer架构。Phenaki、Make-A-Vide、NUWA、VideoGPT和CogVideo都提出了基于Transformer的框架,而TATS提出了一种混合方法,从而将用于生成图像的VQGAN和用于顺序地生成帧的时间敏感Transformer模块结合起来。在第二波浪潮的诸多框架中,Phenaki尤其有意思,它能够根据一系列提示(即一个故事情节)生成任意长视频。同样,NUWA-Infinity提出了一种双重自回归(autoregressiveoverautoregressive)生成机制,可以基于文本输入合成无限长度的图像和视频,从而使得生成高清的长视频成为可能。
2.4DiffusionBased
第三波文生视频模型浪潮主要以基于扩散的架构为特征。扩散模型在生成多样化、超现实和上下文丰富的图像方面取得了显著成功,这引起了人们对将扩散模型推广到其他领域(如音频、3D,最近又拓展到了视频)的兴趣。这一波模型是由VideoDiffusionModels(VDM)开创的,它首次将扩散模型推广至视频领域。然后是MagicVideo提出了一个在低维隐空间中生成视频剪辑的框架,据其报告,新框架与VDM相比在效率上有巨大的提升。另一个值得一提的是Tun
您可能关注的文档
- 2023年全球油气企业资本开支及经营状况分析.docx
- 2024防晒衣行业消费趋势洞察.docx
- 2024年3C设备行业研究:苹果XR有望引领新周期_重点利好Micro OLED、Pancake设备需求.docx
- 2024年AI时代的3D内容生产工具.docx
- 2024年AI搜索专题报告:怎么看Kimi的空间_.docx
- 2024年AI算力产业链专题报告:国产算力迈入自强新纪元.docx
- 2024年AI应用专题报告:“情感陪伴”领域有望孵化杀手级应用.docx
- 2024年AR光学部件产业链专题报告.docx
- 2024年OpenAI专题报告:OpenAI的飞轮_“AI新品”、“巨量融资”、“算力”.docx
- 2024年PCB行业专题报告:GB200单颗GPU HDI价值量有望提升_产业链迎新机遇.docx
最近下载
- 论 自由 精品读本.pdf
- 医疗器械质量管理体系文件.pptx
- 金融中心施工总承包工程项目特色与观摩亮点介绍.pptx
- 小学数学六年级上册期中易错题重难点试卷含详细答案解析1524.docx
- 做自己的心理医生【26页】.pptx
- Module 4 单元整体教学设计 外研版(三起)六年级上册英语.docx
- 环球金融中心项目专项测量放线施工方案.docx
- 环球金融中心项目施工总承包工程质量创优策划.ppt
- 鼎信JB-QT-TS3200火灾报警控制器(联动型)安装使用说明书 XF2.900.029AS Ver.pdf VIP
- 中华护理学会团体标准TCNAS 21─2021解读:胰岛素皮下注射(1).pptx
文档评论(0)