李飞飞空间智能谷歌Genie2,AI3D再突破.docxVIP

李飞飞空间智能谷歌Genie2,AI3D再突破.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

AI3D:向混合3D路径迈进,世界模型有新进展,嵌入3D资产生产各环节

目前看,AI3D生成工具仍在技术快速进步期。从技术路径来看,23H2后混合3D

路径正成为AI3D工具重要进步方向,一定程度上缓解了AI3D高质量数据集匮乏难题。

2D升维方法:可通过多张图像或视频,以NeRF等方法升维生成3D模型,以隐式表征为主。23年7月高斯溅射方法发表,可实现实时渲染以及快速光栅化,前沿研究仍在快速迭代。2D升维方法可基于丰富的图像数据集,数据上较为丰富,但在生成质量、生成速度、算力消耗上表现有不足。

原生3D方法:基于3D数据集进行训练和推理。通常使用Transformer和Diffusion等方法,此前以显式表征为主(网格、体素、点云等),Shap-E等少数模型使用隐式表征(使用连续函数表征三维体素)。原生3D方法具备生成速度快、生成质量高、兼容性好的优点;但高质量3D数据集十分匮乏,生成内容的多样性受限,当前3D数据集仍在加快补足。Adobe于23年11月推出LRM项目《LRM:LargeReconstructionModelforSingleImageto3D》为原生3D方法的重要玩家。

混合3D方法:旨在解决原生3D方法数据集匮乏的难题,为当下3D大模型前沿的技术方向,相关工具生成质量提升较快。在最新的混合3D路径中,大模型研发人员将3D信息注入预训练的2D模型,例如,通过多视角图像微调StableDiffusion模型,使其能够生成稳定、一致的3D模型。该路径一方面解决了2D升维方法中提取的3D信息量较低的问题,另一方面解决了3D高质量数据集匮乏的问题,近年来出现众多围绕混合3D的工作。目前混合3D的代表玩家包括字节跳动、Adobe、META等。

图1:混合3D正成为AI3D工具重要进步方向

资料来源:《AComprehensiveSurveyon3DContentGeneration》,研究

AI3D时代,3D模型的边际生产成本极大幅度降低,较大程度上消除了成本、人力侧的限制,推动内容生产向3D升维。

3D模型生产效率提升,抬高内容生产质量。3D资产生产周期长、高度依赖人工,AI

3D时代核心生产要素将从人力变更为算力,内容生产厂商可实现在低边际生产成本条件下增加3D内容,实现高质量、大规模3D内容生产。内容创作门槛降低,揭开UGC时代序幕。AI3D工具可以简化3D内容生产流程,例如可视化内容编辑器可替代传统引擎,用户可以通过拖拽开发模块、文字描述等完成内容创作,玩家可从内容消费者转变为内容创作者,全民创作的UGC时代将到来。

图2:AI工具嵌入3D资产生产众多环节

资料来源:维深XR,锦秋集,研究

AI3D工具还需要解决哪些问题?

目前,AI3D工具仍需要提升生成质量才能实现大规模使用。由于高质量3D训练数据集的匮乏,AI3D工具生成的3D模型面临几何准确性不够、精细度不足、模型几何-纹理一致性不足等多项挑战,暂时无法满足4A大作、科幻电影中高度精细化的3D模型生成需求。

除AI3D工具之外,世界模型也将是未来3D内容生产重要方向

相对常规AI3D工具,世界模型强调理解和学习物理世界的特征和模式,其后生成可交互视频或3D场景,即需要理解世界动态后再预测/生成未来场景。世界模型实际上有望成为更为通用的内容生成工具,发布于23年8月的斯坦福小镇AI智能体研究,即代表世界模型在游戏等领域的应用潜力。从具体实现来看,世界模型较多以类视觉等方案实现用户的3D感受,与AI3D工具的实现路径不尽相同,但均将对未来的3D内容生成有着重要意义。

图3:世界模型可理解世界动态并预测、生成未来场景

资料来源:《UnderstandingWorldorPredictingFuture?AComprehensiveSurveyofWorldModels》,研究

世界模型特点为可直接生成具备可交互特性的视频/3D场景。

24年12月谷歌发布Genie2,可实现一张图创作一分钟游戏世界,为类视觉生成方

案。Genie2为自回归潜在扩散模型,基于大规模视频数据集完成训练,Genie2主要学习与归纳视频集中各场景的物理现象,包括学习物体交互、动画、光照等信息,并在生成内容中模拟相应现象。主要用于AI智能体相关研究与评估以及游戏开发相关的原型快速设计,目前生成的可交互场景仅支持最长为1

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档