- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
计算机设备
行业动态报告
目录
一、行业变化1
二、持续关注标的3
三、行情回顾3
四、产业要闻7
五、重要公告8
六、风险分析9
请务必阅读正文之后的免责条款和声明。
计算机设备
行业动态报告
一、行业变化
1.1智元机器人推出全球首个4D世界模型EnerVerse
如何让机器人在任务指引和实时观测的基础上规划未来动作,一直是具身智能领域的核心科学问题。然而,
现有的机器人动作规划方法常常面临着一些问题。比如,其常常由于缺乏对于动态操作空间的理解以及在处理
一些长序任务时的记忆处理能力有所欠缺。同时,在机器人动作预测中构建出来的基于2D视频生成的world
model难以准确表达复杂的3D关系。
针对上述难题,智元机器人团队提出了EnerVerse架构,通过自回归扩散模型(autoregressivediffusion),
在生成未来具身空间的同时引导机器人完成复杂任务,在这个过程中同时具有对动态操作空间的理解能力。同
时创新性地引入了自由锚定视角(FreeAnchorView,FAV)和稀疏记忆机制(SparseMemory)。这个架构可以
为机器人未来动作的预测提供一个4D的全视角worldmodel同时优化其记忆处理能力。
图表1:EnerVerse视频生成过程
资料来源:机器之心,中信建投
在图表1中,我们可以看出EnerVerse的视频生成的大致过程,首先在根据观察输入初始构建出多视角的
空间,之后对于这个多视角的空间进行渲染,使得其仿真度更高,接近现实世界,再将这个多角度空间的图像
输入右方的多视角扩散生成器,同时给出任务指令(倒茶),便可以生成下一时刻的各个角度的预测图像,借
此可以预测机器人的动作进而辅助其进行动作规划策略的构建。
EnerVerse的亮点在于其可以通过逐块生成的自回归扩散框架,结合创新的稀疏记忆机制与自由锚定视角
(FAV)方法,解决上文中提到的一系列问题。
请务必阅读正文之后的免责条款和声明。
1
计算机设备
行业动态报告
对于逐块扩散生成(NextChunkDiffusion),EnerVerse采用逐块生成的自回归扩散模型,通过逐步生成未
来具身空间来引导机器人动作规划。同时可以使得机器人具有一定对动态操作空间的理解能力。
对于这个自回归扩散模型,如图表2所示,左侧为多视角的扩散生成板块,我们首先输入在i时刻来自相
机的图像和对应的光线方向图,分离噪音和观察图像(Obs,ImageLatent),然后通过2D和3D卷积提取图像
特征,之后模型使用空间注意力(SpatialAttent)和时间注意力(TemporalAtte
文档评论(0)