网站大量收购独家精品文档,联系QQ:2885784924

Figure发布Helix:效果惊艳、端到端VLA模型在人形机器人的首次落地.docx

Figure发布Helix:效果惊艳、端到端VLA模型在人形机器人的首次落地.docx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

目录

TOC\o1-1\h\z\u一、行业变化 1

二、持续关注标的 3

三、行情回顾 3

四、产业要闻 7

五、重要公告 8

六、风险分析 9

一、行业变化

Figure新进展:通用型视觉语言动作模型Helix

2月21日,美国人形机器人公司FigureAI在官网上发布了一款通用型视觉语言动作模型Helix,能够将语言、视觉、动作融合进行任务完成,支持人形机器人上半身使用,具有较强的泛化能力,需要预训练数据集少,甚至可以同时使两个机器人协调工作。

早在2月5日,Figure的创始人兼CEOBrettAdcoc在推特上发布了一条帖子,宣布终止与OpenAI的合作协议:并表示Figure在完全自主研发的端到端机器人AI方面取得了重大突破,接下来的30天内展示一些人们从未在人形机器人上见过的东西,现在看来Helix就是其中之一。

实际上目前来说,端到端已然成为了具身智能大模型的一个共识。自动驾驶已经验证了端到端的可行性,而Helix的突破性,在于他是第一个运行在人形机器人上的端到端VLA大模型。之前许多实验室都发布过具身智能大模型,但基本都是装载于机械臂上面,自由度偏少。而Helix对应的机器人版本有着足足35个自由度,一般模型可能很难进行迁移。

图表1:Helix执行家务

igure,中信建投

简单来说,Helix做到一系列的突破,包括但不限于:

全上半身控制:Helix是第一个输出对整个人形上半身(包括手腕、躯干、头部和单个手指)进行高速连续控制的VLA。

多机器人协作:Helix是第一个在两个机器人上同时运行的VLA,使它们能够使用以前从未见过的物品解决远距离协作任务。

极强的对象泛化能力:配备Helix的手办机器人现在几乎可以拾取任何小型家用物品,包括它们以前从未遇到过的数千件物品,只需遵循自然语言提示即可。

一套神经网络权重:与以前的方法不同,Helix使用一组神经网络权重来学习所有行为,包括拾取和放置物品、使用抽屉和冰箱以及跨机器人交互,而无需采取任何针对特定任务的微调。

商用就绪:Helix是第一款完全在嵌入式低功耗GPU上运行的VLA,可立即用于商业部署。

图表2:Helix提出的“NEWSCALINGLAW”

igure,中信建投

一般来说,传统的scalinglaw都告诉我们一个模型训练采用的数据量越多越好模型就越好,但是在很多领域,比如家庭中,不同于单一的生产线,家具的种类是非常丰富的,如果依旧采用原来的训练方法,训练所需要的时间和成本都是非常高的,因此Figure要求模型必须具备良好的泛化能力,减少对数据集的依赖。

在图表2中,我们可以看到,相比于传统的编写数据或者是如今流行的收集数据,Helix大大减少了机器人训练需要的时间,因为它追求使得机器人通过VLM直接理解某些常识,即通过自然语言指令就获得某些技能。也就是说,曾经需要数百次演示的新技能,只需用自然语言与机器人交谈就可以立即获得。

图表3:Helix架构

igure,中信建投

如图表3所示,Helix是同类产品中首个“系统1,系统2”的VLA模型,两个系统有点类似于人类的快思考和慢思考,一直以来,VLM是通用的,但不是快速的,就像人类的慢思考,依靠理性,而机器人视觉运动策略是快速的,但不是通用的,如同人类基于直觉的快思考。Helix通过两个互补的系统来解决这种权衡,这些系统经过端到端训练以进行通信。具体如下:

系统2:一种经过训练的VLM,参数量70亿,以7-9Hz的频率运行,用于场景理解和语言理解,实现跨对象和上下文的广泛泛化。主要负责决策部分。

系统1:一种快速反应的视觉运动策略,参数量0.8亿,可将S2产生的潜在语义表示转化为200Hz的精确连续机器人动作。主要负责动作的输出。

系统2中的VLM基于互联网大规模数据进行预训练。它将机器人收到图像和状态信息(包括手腕姿势和手指位置)投影到视觉语言嵌入空间后对其进行处理。结合指定所需行为的自然语言命令,S2将所有语义任务相关信息提取到单个连续的潜在向量中,传递给S1以调节其动作。

系统1中的架构基于一个完全卷积的、多尺度的视觉主干进行视觉处理,虽然S1接收与S2相同的图像和状态输入,但它以更高的频率处理它们(20HZ),以实现更灵敏的闭环控制。来自S2的潜在向量被投射到S1的标记空间中,并与来自S1视觉主干的视觉特征沿序列维

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档