智元推出首个4D世界模型，OpenAI重点布局机器人.docxVIP

下载本文档

11
0
约1.29万字
约 14页
2025-02-01 发布于北京
举报
版权申诉

智元推出首个4D世界模型，OpenAI重点布局机器人.docx

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

TOC\o1-1\h\z\u一、行业变化 1

二、持续关注标的 3

三、行情回顾 3

四、产业要闻 7

五、重要公告 8

六、风险分析 9

请务必阅读正文之后的免责条款和声明。

一、行业变化

智元机器人推出全球首个4D世界模型EnerVerse

如何让机器人在任务指引和实时观测的基础上规划未来动作，一直是具身智能领域的核心科学问题。然而，现有的机器人动作规划方法常常面临着一些问题。比如，其常常由于缺乏对于动态操作空间的理解以及在处理一些长序任务时的记忆处理能力有所欠缺。同时，在机器人动作预测中构建出来的基于2D视频生成的worldmodel难以准确表达复杂的3D关系。

针对上述难题，智元机器人团队提出了EnerVerse架构，通过自回归扩散模型（autoregressivediffusion），在生成未来具身空间的同时引导机器人完成复杂任务，在这个过程中同时具有对动态操作空间的理解能力。同时创新性地引入了自由锚定视角（FreeAnchorView,FAV）和稀疏记忆机制（SparseMemory）。这个架构可以为机器人未来动作的预测提供一个4D的全视角worldmodel同时优化其记忆处理能力。

图表1：EnerVerse视频生成过程

资料来源：机器之心，

在图表1中，我们可以看出EnerVerse的视频生成的大致过程，首先在根据观察输入初始构建出多视角的空间，之后对于这个多视角的空间进行渲染，使得其仿真度更高，接近现实世界，再将这个多角度空间的图像输入右方的多视角扩散生成器，同时给出任务指令（倒茶），便可以生成下一时刻的各个角度的预测图像，借此可以预测机器人的动作进而辅助其进行动作规划策略的构建。

EnerVerse的亮点在于其可以通过逐块生成的自回归扩散框架，结合创新的稀疏记忆机制与自由锚定视角

（FAV）方法，解决上文中提到的一系列问题。

行业动态报告

对于逐块扩散生成（NextChunkDiffusion），EnerVerse采用逐块生成的自回归扩散模型，通过逐步生成未来具身空间来引导机器人动作规划。同时可以使得机器人具有一定对动态操作空间的理解能力。

对于这个自回归扩散模型，如图表2所示，左侧为多视角的扩散生成板块，我们首先输入在i时刻来自相机的图像和对应的光线方向图，分离噪音和观察图像（Obs,ImageLatent），然后通过2D和3D卷积提取图像特征，之后模型使用空间注意力（SpatialAttent）和时间注意力（TemporalAttent）来处理图像特征，以更好地理解图像内容和时间序列信息。经过扩散生成i+1时刻的图像，经过渲染生成对i+1时刻的预测图片（Render,

ImageLatent），再将其输入生成器，不断迭代生成预测视频。

右侧为分块的自回归的训练过程。首先在上半的训练阶段中，从观察视频中随机提取关键帧输入扩散生成器，同时输入目标图像（一般是关键帧的后续帧），通过将生成的图像和目标图像进行对比预测噪声（Prod.Noise）,并通过噪声度量损失，通过损失最小化这一目标实现训练。

下半部分为生成器的运用，通过向其中输入i时刻的观察图像（Obs.ImageLatent）和目标图像（i+1时刻）以及噪声生成预测图像（i+2时刻），在下一个迭代中，将原来的目标图像作为观察图像，预测图像作为目标图像进而预测i+3时刻的图像，迭代即可生成预测视频，具有对于动态操作空间的理解能力。

图表2：逐块扩散生成流程图

资料来源：机器之心，

对于灵活4D生成(FAV)，EnerVers针对具身操作中复杂遮挡环境和多视角需求，提出了自由锚定视角（FAV）方法，以灵活表达4D空间。其核心优势包括：

自由设定视角：FAV支持动态调整锚定视角，克服固定多视角（fixedmulti-anchorview）在狭窄场景中

行业动态报告

的局限性。例如，在厨房等场景中，FAV可轻松适应动态遮挡关系。

跨视角空间一致性：基于光线投射原理（raycasting），EnerVerse通过视线方向图（raydirectionmap）

作为视角控制条件，并将2D空间注意力扩展为跨视角的3D空间注意力（cross-viewspatialattention），确保生成视频的几何一致性。

Sim2Real适配：通过在仿真数据上训练的4D生成模型（EnerVerse-D）与4D高斯泼溅(4DGaussianSplatting)交替迭代，EnerVerse构建了一个数据飞轮，为真实场景下的F

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

智元推出首个4D世界模型，OpenAI重点布局机器人.docxVIP