- 1、本文档共75页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
2025-1-7
宇宙世界基金会物理AI模型平台
NVIDIA1
Abstract
物理AI需要首先通过数字化进行训练。它需要一个自身的数字孪生体(即策略模型),以及一个世界模型
(即世界的数字孪生体)。本文提出CosmosWorldFoundationModelPlatform以帮助开发者为他们的物理
AI系统构建定制化的世界模型。我们将世界基础模型定位为一种通用的世界模型,可以被微调以适应下游
应用的定制化需求。我们的平台涵盖了视频筛选流程、预训练的世界基础模型、预训练后生成的例子,以
及视频分词器。为了帮助物理AI建设者解决我们社会面临的最关键问题,我们使我们的平台开源,并提供
了开放权重的模型,可通过具有宽松许可的途径获取。NVIDIACosmos.
1.Introduction
物理AI是一种配备有传感器和执行器的AI系统:传感器允许其观察世界,而执行器则允许其与世界互动并
对其进行修改。它承诺可以释放人类工人从危险、繁重或乏味的物理任务中解脱出来。尽管在过去十年中
,由于数据和计算能力的提升,AI的多个领域取得了显著进展,但物理AI的发展却相对缓慢。这主要是因
为训练物理AI的数据扩展更具挑战性,因为所需的数据必须包含交错的观察和行动序列。这些行动会扰动
物理世界,并可能导致系统和世界遭受严重损害。尤其是在AI还处于初级阶段时,探索性的行动至关重要
。一种世界基础模型(WorldFoundationModel,WFM),即一个物理世界的安全数字双胞胎,已被长期
视为解决数据扩展问题的解决方案。
在本文中,我们介绍了用于构建物理AI的CosmosWorldFoundationModel(WFM)平台。我们主要关注视
觉世界基础模型,其中观测数据以视频形式呈现,扰动可以以多种形式存在。如图所示:Fig.2我们提出
了一种预训练-然后后训练的范式,将WFMs分为预训练和后训练的WFMs。为了构建一个预训练的WFM,
我们利用大规模的视频训练数据集使模型接触到多样化的视觉体验,从而使其成为通才。为了构建一个后
训练的WFM,我们对预训练的WFM进行微调,使用特定物理AI环境收集的数据集来达到针对特定、专门化
物理AI设置的专业化WFM。Fig.1显示了我们训练前和训练后的WFM的示例结果。
数据决定了AI模型的上限。为了构建一个高上限的预训练WFM(假设WFM为特定上下文中的术语),我们
开发了一个视频数据整理管道。我们使用该管道来定位视频中动态丰富且视觉质量高的片段,这些片段有
助于学习嵌入在视觉内容中的物理知识。我们从包含200万小时视频的集合中提取了大约1亿个长度在2到60
秒之间的片段。对于每个片段,我们使用视觉语言模型(VLM)以每256帧生成一段视频字幕。视频处理计
算密集型。我们利用现代GPU中可用的H.264视频编码器和解码器的硬件实现来进行解码和转码。我们的视
频数据整理管道利用了许多预训练的图像/视频理解模型。这些模型具有不同的吞吐量。为了最大化生成可
训练视频数据的整体吞吐量,我们构建了一个基于Ray的编排管道(假设Ray为特定上下文中的术语)。莫
里茨等人。,2017)。细节在Sec.3.
Weexploretwoscalableapproachesforbuildingpre-trainedWFMdiscussedinSec.5.Theseapproachesare
1贡献者和确认的详细列表可以在App.A这篇文章。
©2025NVIDIA。保留所有权利。
宇宙世界基金会物理AI模型平台
训练前:扩散WFM
训练前:自回归WFM
培训后:摄像头控制
训练后:机器人操纵
培训后:自动驾驶
图1:宇宙世界基金会模型.预训练的CosmosWFMs生成高质量的3D一致视
文档评论(0)