网站大量收购闲置独家精品文档,联系QQ:2885784924

英伟达 宇宙世界基金会物理AI模型平台.docx

英伟达 宇宙世界基金会物理AI模型平台.docx

此“经济”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共149页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

2025-1-7

?2025NVIDIA。保留所有权利。

宇宙世界基金会物理AI模型平台

NVIDIA1

Abstract

物理AI需要首先通过数字化进行训练。它需要一个自身的数字孪生体(即策略模型),以及一个世界模型(即世界的数字孪生体)。本文提出CosmosWorldFoundationModelPlatform以帮助开发者为他们的物理AI系统构建定制化的世界模型。我们将世界基础模型定位为一种通用的世界模型,可以被微调以适应下游应用的定制化需求。我们的平台涵盖了视频筛选流程、预训练的世界基础模型、预训练后生成的例子,以及视频分词器。为了帮助物理AI建设者解决我们社会面临的最关键问题,我们使我们的平台开源,并提供了开放权重的模型,可通过具有宽松许可的途径获取。NVIDIACosmos.

1.Introduction

物理AI是一种配备有传感器和执行器的AI系统:传感器允许其观察世界,而执行器则允许其与世界互动并对其进行修改。它承诺可以释放人类工人从危险、繁重或乏味的物理任务中解脱出来。尽管在过去十年中 ,由于数据和计算能力的提升,AI的多个领域取得了显著进展,但物理AI的发展却相对缓慢。这主要是因为训练物理AI的数据扩展更具挑战性,因为所需的数据必须包含交错的观察和行动序列。这些行动会扰动物理世界,并可能导致系统和世界遭受严重损害。尤其是在AI还处于初级阶段时,探索性的行动至关重要。一种世界基础模型(WorldFoundationModel,WFM),即一个物理世界的安全数字双胞胎,已被长期视为解决数据扩展问题的解决方案。

在本文中,我们介绍了用于构建物理AI的CosmosWorldFoundationModel(WFM)平台。我们主要关注视

觉世界基础模型,其中观测数据以视频形式呈现,扰动可以以多种形式存在。如图所示:Fig.2我们提出

了一种预训练-然后后训练的范式,将WFMs分为预训练和后训练的WFMs。为了构建一个预训练的WFM,

我们利用大规模的视频训练数据集使模型接触到多样化的视觉体验,从而使其成为通才。为了构建一个后

训练的WFM,我们对预训练的WFM进行微调,使用特定物理AI环境收集的数据集来达到针对特定、专门化

物理AI设置的专业化WFM。Fig.1显示了我们训练前和训练后的WFM的示例结果。

数据决定了AI模型的上限。为了构建一个高上限的预训练WFM(假设WFM为特定上下文中的术语),我们开发了一个视频数据整理管道。我们使用该管道来定位视频中动态丰富且视觉质量高的片段,这些片段有

助于学习嵌入在视觉内容中的物理知识。我们从包含200万小时视频的集合中提取了大约1亿个长度在2到60秒之间的片段。对于每个片段,我们使用视觉语言模型(VLM)以每256帧生成一段视频字幕。视频处理计算密集型。我们利用现代GPU中可用的H.264视频编码器和解码器的硬件实现来进行解码和转码。我们的视频数据整理管道利用了许多预训练的图像/视频理解模型。这些模型具有不同的吞吐量。为了最大化生成可训练视频数据的整体吞吐量,我们构建了一个基于Ray的编排管道(假设Ray为特定上下文中的术语)。莫里茨等人。,2017)。细节在Sec.3.

Weexploretwoscalableapproachesforbuildingpre-trainedWFMdiscussedinSec.5.Theseapproachesare

1贡献者和确认的详细列表可以在App.A这篇文章。

宇宙世界基金会物理AI模型平台

2

训练前:扩散WFM

训练前:自回归WFM

培训后:摄像头控制

训练后:机器人操纵

培训后:自动驾驶

图1:宇宙世界基金会模型.预训练的CosmosWFMs生成高质量的3D一致视频,并具备准确的物理模拟。Cosmos模型套件包括扩散模型和自回归变换器模型,前者使用连续的潜在表示,后者使用离散的潜在表示来训练视频。通过使用专门的数据集对这些WFMs进行后训练,使其能够在广泛的物理AI设置中得到应用。具体来说,我们展示了具有摄像机可控性的模型、能够遵循指令进行机器人操作的模型以及适用于自动驾驶场景的模型。如需查看完整视频及其他更

您可能关注的文档

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档