李飞飞空间智能谷歌Genie2，AI3D再突破.docxVIP

下载本文档

48
0
约1.18万字
约 14页
2024-12-20 发布于北京
举报
版权申诉

李飞飞空间智能谷歌Genie2，AI3D再突破.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

AI3D：向混合3D路径迈进，世界模型有新进展，嵌入3D资产生产各环节

目前看，AI3D生成工具仍在技术快速进步期。从技术路径来看，23H2后混合3D

路径正成为AI3D工具重要进步方向，一定程度上缓解了AI3D高质量数据集匮乏难题。

2D升维方法：可通过多张图像或视频，以NeRF等方法升维生成3D模型，以隐式表征为主。23年7月高斯溅射方法发表，可实现实时渲染以及快速光栅化，前沿研究仍在快速迭代。2D升维方法可基于丰富的图像数据集，数据上较为丰富，但在生成质量、生成速度、算力消耗上表现有不足。

原生3D方法：基于3D数据集进行训练和推理。通常使用Transformer和Diffusion等方法，此前以显式表征为主（网格、体素、点云等），Shap-E等少数模型使用隐式表征（使用连续函数表征三维体素）。原生3D方法具备生成速度快、生成质量高、兼容性好的优点；但高质量3D数据集十分匮乏，生成内容的多样性受限，当前3D数据集仍在加快补足。Adobe于23年11月推出LRM项目《LRM:LargeReconstructionModelforSingleImageto3D》为原生3D方法的重要玩家。

混合3D方法：旨在解决原生3D方法数据集匮乏的难题，为当下3D大模型前沿的技术方向，相关工具生成质量提升较快。在最新的混合3D路径中，大模型研发人员将3D信息注入预训练的2D模型，例如，通过多视角图像微调StableDiffusion模型，使其能够生成稳定、一致的3D模型。该路径一方面解决了2D升维方法中提取的3D信息量较低的问题，另一方面解决了3D高质量数据集匮乏的问题，近年来出现众多围绕混合3D的工作。目前混合3D的代表玩家包括字节跳动、Adobe、META等。

图1：混合3D正成为AI3D工具重要进步方向

资料来源：《AComprehensiveSurveyon3DContentGeneration》，研究

AI3D时代，3D模型的边际生产成本极大幅度降低，较大程度上消除了成本、人力侧的限制，推动内容生产向3D升维。

3D模型生产效率提升，抬高内容生产质量。3D资产生产周期长、高度依赖人工，AI

3D时代核心生产要素将从人力变更为算力，内容生产厂商可实现在低边际生产成本条件下增加3D内容，实现高质量、大规模3D内容生产。内容创作门槛降低，揭开UGC时代序幕。AI3D工具可以简化3D内容生产流程，例如可视化内容编辑器可替代传统引擎，用户可以通过拖拽开发模块、文字描述等完成内容创作，玩家可从内容消费者转变为内容创作者，全民创作的UGC时代将到来。

图2：AI工具嵌入3D资产生产众多环节

资料来源：维深XR，锦秋集，研究

AI3D工具还需要解决哪些问题？

目前，AI3D工具仍需要提升生成质量才能实现大规模使用。由于高质量3D训练数据集的匮乏，AI3D工具生成的3D模型面临几何准确性不够、精细度不足、模型几何-纹理一致性不足等多项挑战，暂时无法满足4A大作、科幻电影中高度精细化的3D模型生成需求。

除AI3D工具之外，世界模型也将是未来3D内容生产重要方向

相对常规AI3D工具，世界模型强调理解和学习物理世界的特征和模式，其后生成可交互视频或3D场景，即需要理解世界动态后再预测/生成未来场景。世界模型实际上有望成为更为通用的内容生成工具，发布于23年8月的斯坦福小镇AI智能体研究，即代表世界模型在游戏等领域的应用潜力。从具体实现来看，世界模型较多以类视觉等方案实现用户的3D感受，与AI3D工具的实现路径不尽相同，但均将对未来的3D内容生成有着重要意义。

图3：世界模型可理解世界动态并预测、生成未来场景

资料来源：《UnderstandingWorldorPredictingFuture?AComprehensiveSurveyofWorldModels》，研究

世界模型特点为可直接生成具备可交互特性的视频/3D场景。

24年12月谷歌发布Genie2，可实现一张图创作一分钟游戏世界，为类视觉生成方

案。Genie2为自回归潜在扩散模型，基于大规模视频数据集完成训练，Genie2主要学习与归纳视频集中各场景的物理现象，包括学习物体交互、动画、光照等信息，并在生成内容中模拟相应现象。主要用于AI智能体相关研究与评估以及游戏开发相关的原型快速设计，目前生成的可交互场景仅支持最长为1