2024年AI时代的3D内容生产工具.docx

下载文档

0
0
约9.5千字
约 17页
2024-06-07 发布于重庆
举报
版权申诉
保障服务

2024年AI时代的3D内容生产工具.docx

1、本文档共17页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2024年AI时代的3D内容生产工具

一、短期AI+3D产业催化汇总

英伟达CEO:NVIDIA3D平台OmniverseCloud将可以连接到苹果公司混合头显VisionPro。在英伟达的GTCAI大会上，公司CEO黄仁勋宣布了一项重要的技术进展：NVIDIA的3D平台OmniverseCloud，这一平台将能够与苹果公司的新型混合现实头显VisionPro实现连接。这一举措将使得企业能够将基于3D应用的交互式通用场景描述（OpenUSD）直接串流至AppleVisionPro，利用英伟达最新的OmniverseCloudsAPI和GraphicsDeliveryNetwork（GDN）来高效传输数据，确保用户能够体验到高保真度的视觉效果。

3D素材赋能Sora等文生视频工具深度学习。OpenAI在2月发布的Sora，是一款具备卓越视频生成能力的扩散模型。Sora采用Transformer架构并利用3D模型素材进行训练，在文生视频领域表现出色。在生成视频方面，Sora能够从类似静态噪声的视频开始，逐步去除噪声，直至形成清晰的视频画面。此外，Sora还能一次性生成完整的视频，或延长已生成的视频。这种能力得益于模型能够同时预览多个帧，确保即使视频中的主体暂时离开视线，也能保持其一致性。在Transformer架构加持下，Sora通过使用3D模型素材进行训练，能够生成更真实、更精确的视频内容。

StabilityAI公司发布全新的AI生成3D大模型TripoSR，效果惊艳。StabilityAI与TripoAI合作推出TripoSR，能够在短短一秒内，凭单个图像即可生成高质量3D模型。TripoSR的独特之处在于，它即便在低推理预算条件下（甚至在没有GPU的情况下）也能顺畅运行，使得这项技术对于广泛的用户和应用场景而言都既易于获取又实用。此外，TripoSR的模型权重和源代码已按照MIT许可证开放下载，用户可将TripoSR用于商业化项目、个人使用和学术研究。StabilityAI和TripoAI致力于打造的这种新型图像转3D模型，旨在满足娱乐、游戏、工业设计和建筑等专业领域对详细3D对象可视化日益增长的需求，并提供一种响应迅速的输出解决方案。

二、DUSt3R

DUSt3R（DenseandUnconstrainedStereo3DReconstruction）是一种由芬兰阿尔托大学与Naver欧洲实验室联合研发的先进3D重建框架。该框架的设计初衷在于简化和优化从拍摄的图像集合中重建三维场景的过程，免除了对相机校准或视点位置信息的预先要求。

DUSt3R技术储备丰厚，助力AI深度学习3D重建。DUSt3R采用点图技术（Pointmaps）作为其核心表示机制，该技术通过密集的2D场景提供了3D点的详尽信息。点图为图像中的每一个像素配备了对应的3D点，从而建立了图像像素与3D场景点之间的直接联系。除此之外，DUSt3R还采用了ChatGPT和Sora同款的Transformer网络架构。基于标准的Transformer编码器和解码器，DUSt3R构建了其网络架构，这使得该模型能够利用预训练的强大模型，在无需显式几何约束的情况下从输入图像中提取丰富的几何和外观信息。DUSt3R支持端到端训练模式，允许直接从成对图像中学习到点图，无需复杂的多步骤处理流程，如特征匹配、三角测量等。对于多于两张图像的处理，DUSt3R提出了一种全局对齐策略，该策略可以将所有成对点图整合到一个共同的参考框架中，这对于多视图3D重建具有重要意义。DUSt3R能够在训练过程中同时学习多个相关任务，如深度估计、相机参数估计、像素对应关系等，通过这种多任务学习策略，模型能够更全面地掌握场景的几何结构。

DUSt3R应用效果出色，工业应用未来可期。DUSt3R能在短时间内从输入图片中重建出高精度的3D模型，适用于实时应用和快速原型制作，从而实现快速精确的三维重建。与传统三维重建技术相比，DUSt3R不需要任何相机校准或视点姿势的先验信息，无需相机校准的灵活性大大简化了使用流程。除此之外，DUSt3R能够统一处理单目和双目情况，为用户提供了更多选择和灵活性。除了三维模型，DUSt3R还能生成深度图、置信度图和点云图等，为后续的分析和应用提供了丰富的数据支持。通过在多个3D视觉任务上设立新的最佳实践，包括单眼和多视图深度估计以及相对姿态估计等，DUSt