网站大量收购闲置独家精品文档,联系QQ:2885784924

智元推出首个4D世界模型,OpenAI重点布局机器人.pdf

智元推出首个4D世界模型,OpenAI重点布局机器人.pdf

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

计算机设备

行业动态报告

目录

一、行业变化1

二、持续关注标的3

三、行情回顾3

四、产业要闻7

五、重要公告8

六、风险分析9

请务必阅读正文之后的免责条款和声明。

计算机设备

行业动态报告

一、行业变化

1.1智元机器人推出全球首个4D世界模型EnerVerse

如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是具身智能领域的核心科学问题。然而,

现有的机器人动作规划方法常常面临着一些问题。比如,其常常由于缺乏对于动态操作空间的理解以及在处理

一些长序任务时的记忆处理能力有所欠缺。同时,在机器人动作预测中构建出来的基于2D视频生成的world

model难以准确表达复杂的3D关系。

针对上述难题,智元机器人团队提出了EnerVerse架构,通过自回归扩散模型(autoregressivediffusion),

在生成未来具身空间的同时引导机器人完成复杂任务,在这个过程中同时具有对动态操作空间的理解能力。同

时创新性地引入了自由锚定视角(FreeAnchorView,FAV)和稀疏记忆机制(SparseMemory)。这个架构可以

为机器人未来动作的预测提供一个4D的全视角worldmodel同时优化其记忆处理能力。

图表1:EnerVerse视频生成过程

资料来源:机器之心,中信建投

在图表1中,我们可以看出EnerVerse的视频生成的大致过程,首先在根据观察输入初始构建出多视角的

空间,之后对于这个多视角的空间进行渲染,使得其仿真度更高,接近现实世界,再将这个多角度空间的图像

输入右方的多视角扩散生成器,同时给出任务指令(倒茶),便可以生成下一时刻的各个角度的预测图像,借

此可以预测机器人的动作进而辅助其进行动作规划策略的构建。

EnerVerse的亮点在于其可以通过逐块生成的自回归扩散框架,结合创新的稀疏记忆机制与自由锚定视角

(FAV)方法,解决上文中提到的一系列问题。

请务必阅读正文之后的免责条款和声明。

1

计算机设备

行业动态报告

对于逐块扩散生成(NextChunkDiffusion),EnerVerse采用逐块生成的自回归扩散模型,通过逐步生成未

来具身空间来引导机器人动作规划。同时可以使得机器人具有一定对动态操作空间的理解能力。

对于这个自回归扩散模型,如图表2所示,左侧为多视角的扩散生成板块,我们首先输入在i时刻来自相

机的图像和对应的光线方向图,分离噪音和观察图像(Obs,ImageLatent),然后通过2D和3D卷积提取图像

特征,之后模型使用空间注意力(SpatialAttent)和时间注意力(TemporalAtte

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档