英伟达宇宙世界基金会物理AI模型平台.pdf

下载文档

0
0
约17.33万字
约 75页
2025-01-16 发布于山西
举报
版权申诉
保障服务

英伟达宇宙世界基金会物理AI模型平台.pdf

1、本文档共75页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

2025-1-7

宇宙世界基金会物理AI模型平台

NVIDIA1

Abstract

物理AI需要首先通过数字化进行训练。它需要一个自身的数字孪生体（即策略模型），以及一个世界模型

（即世界的数字孪生体）。本文提出CosmosWorldFoundationModelPlatform以帮助开发者为他们的物理

AI系统构建定制化的世界模型。我们将世界基础模型定位为一种通用的世界模型，可以被微调以适应下游

应用的定制化需求。我们的平台涵盖了视频筛选流程、预训练的世界基础模型、预训练后生成的例子，以

及视频分词器。为了帮助物理AI建设者解决我们社会面临的最关键问题，我们使我们的平台开源，并提供

了开放权重的模型，可通过具有宽松许可的途径获取。NVIDIACosmos.

1.Introduction

物理AI是一种配备有传感器和执行器的AI系统：传感器允许其观察世界，而执行器则允许其与世界互动并

对其进行修改。它承诺可以释放人类工人从危险、繁重或乏味的物理任务中解脱出来。尽管在过去十年中

，由于数据和计算能力的提升，AI的多个领域取得了显著进展，但物理AI的发展却相对缓慢。这主要是因

为训练物理AI的数据扩展更具挑战性，因为所需的数据必须包含交错的观察和行动序列。这些行动会扰动

物理世界，并可能导致系统和世界遭受严重损害。尤其是在AI还处于初级阶段时，探索性的行动至关重要

。一种世界基础模型（WorldFoundationModel，WFM），即一个物理世界的安全数字双胞胎，已被长期

视为解决数据扩展问题的解决方案。

在本文中，我们介绍了用于构建物理AI的CosmosWorldFoundationModel(WFM)平台。我们主要关注视

觉世界基础模型，其中观测数据以视频形式呈现，扰动可以以多种形式存在。如图所示：Fig.2我们提出

了一种预训练-然后后训练的范式，将WFMs分为预训练和后训练的WFMs。为了构建一个预训练的WFM，

我们利用大规模的视频训练数据集使模型接触到多样化的视觉体验，从而使其成为通才。为了构建一个后

训练的WFM，我们对预训练的WFM进行微调，使用特定物理AI环境收集的数据集来达到针对特定、专门化

物理AI设置的专业化WFM。Fig.1显示了我们训练前和训练后的WFM的示例结果。

数据决定了AI模型的上限。为了构建一个高上限的预训练WFM（假设WFM为特定上下文中的术语），我们

开发了一个视频数据整理管道。我们使用该管道来定位视频中动态丰富且视觉质量高的片段，这些片段有

助于学习嵌入在视觉内容中的物理知识。我们从包含200万小时视频的集合中提取了大约1亿个长度在2到60

秒之间的片段。对于每个片段，我们使用视觉语言模型（VLM）以每256帧生成一段视频字幕。视频处理计

算密集型。我们利用现代GPU中可用的H.264视频编码器和解码器的硬件实现来进行解码和转码。我们的视

频数据整理管道利用了许多预训练的图像/视频理解模型。这些模型具有不同的吞吐量。为了最大化生成可

训练视频数据的整体吞吐量，我们构建了一个基于Ray的编排管道（假设Ray为特定上下文中的术语）。莫

里茨等人。,2017)。细节在Sec.3.

Weexploretwoscalableapproachesforbuildingpre-trainedWFMdiscussedinSec.5.Theseapproachesare

1贡献者和确认的详细列表可以在App.A这篇文章。

宇宙世界基金会物理AI模型平台

训练前：扩散WFM

训练前：自回归WFM

培训后：摄像头控制

训练后：机器人操纵

培训后：自动驾驶

图1:宇宙世界基金会模型.预训练的CosmosWFMs生成高质量的3D一致视

您可能关注的文档

文档评论（0）

百强名校试卷 + 关注: 实名认证

内容提供者

百强名校试卷

咨询Ta 进入空间

1亿VIP精品文档

更多 >

英伟达宇宙世界基金会物理AI模型平台.pdf