智元推出首个4D世界模型，OpenAI重点布局机器人.pdf

下载文档

2
0
约2.23万字
约 14页
2025-01-28 发布于北京
举报
版权申诉
保障服务

智元推出首个4D世界模型，OpenAI重点布局机器人.pdf

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

计算机设备

行业动态报告

一、行业变化1

二、持续关注标的3

三、行情回顾3

四、产业要闻7

五、重要公告8

六、风险分析9

请务必阅读正文之后的免责条款和声明。

计算机设备

行业动态报告

一、行业变化

1.1智元机器人推出全球首个4D世界模型EnerVerse

如何让机器人在任务指引和实时观测的基础上规划未来动作，一直是具身智能领域的核心科学问题。然而，

现有的机器人动作规划方法常常面临着一些问题。比如，其常常由于缺乏对于动态操作空间的理解以及在处理

一些长序任务时的记忆处理能力有所欠缺。同时，在机器人动作预测中构建出来的基于2D视频生成的world

model难以准确表达复杂的3D关系。

针对上述难题，智元机器人团队提出了EnerVerse架构，通过自回归扩散模型（autoregressivediffusion），

在生成未来具身空间的同时引导机器人完成复杂任务，在这个过程中同时具有对动态操作空间的理解能力。同

时创新性地引入了自由锚定视角（FreeAnchorView,FAV）和稀疏记忆机制（SparseMemory）。这个架构可以

为机器人未来动作的预测提供一个4D的全视角worldmodel同时优化其记忆处理能力。

图表1：EnerVerse视频生成过程

资料来源：机器之心，中信建投

在图表1中，我们可以看出EnerVerse的视频生成的大致过程，首先在根据观察输入初始构建出多视角的

空间，之后对于这个多视角的空间进行渲染，使得其仿真度更高，接近现实世界，再将这个多角度空间的图像

输入右方的多视角扩散生成器，同时给出任务指令（倒茶），便可以生成下一时刻的各个角度的预测图像，借

此可以预测机器人的动作进而辅助其进行动作规划策略的构建。

EnerVerse的亮点在于其可以通过逐块生成的自回归扩散框架，结合创新的稀疏记忆机制与自由锚定视角

（FAV）方法，解决上文中提到的一系列问题。

请务必阅读正文之后的免责条款和声明。

计算机设备

行业动态报告

对于逐块扩散生成（NextChunkDiffusion），EnerVerse采用逐块生成的自回归扩散模型，通过逐步生成未

来具身空间来引导机器人动作规划。同时可以使得机器人具有一定对动态操作空间的理解能力。

对于这个自回归扩散模型，如图表2所示，左侧为多视角的扩散生成板块，我们首先输入在i时刻来自相

机的图像和对应的光线方向图，分离噪音和观察图像（Obs,ImageLatent），然后通过2D和3D卷积提取图像

特征，之后模型使用空间注意力（SpatialAttent）和时间注意力（TemporalAtte

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

智元推出首个4D世界模型，OpenAI重点布局机器人.pdf