Figure发布Helix：效果惊艳、端到端VLA模型在人形机器人的首次落地.docx

下载文档

0
0
约9.18千字
约 10页
2025-03-04 发布于北京
举报
版权申诉
保障服务

Figure发布Helix：效果惊艳、端到端VLA模型在人形机器人的首次落地.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

TOC\o1-1\h\z\u一、行业变化 1

二、持续关注标的 3

三、行情回顾 3

四、产业要闻 7

五、重要公告 8

六、风险分析 9

一、行业变化

Figure新进展：通用型视觉语言动作模型Helix

2月21日，美国人形机器人公司FigureAI在官网上发布了一款通用型视觉语言动作模型Helix，能够将语言、视觉、动作融合进行任务完成，支持人形机器人上半身使用，具有较强的泛化能力，需要预训练数据集少，甚至可以同时使两个机器人协调工作。

早在2月5日，Figure的创始人兼CEOBrettAdcoc在推特上发布了一条帖子，宣布终止与OpenAI的合作协议:并表示Figure在完全自主研发的端到端机器人AI方面取得了重大突破，接下来的30天内展示一些人们从未在人形机器人上见过的东西，现在看来Helix就是其中之一。

实际上目前来说，端到端已然成为了具身智能大模型的一个共识。自动驾驶已经验证了端到端的可行性，而Helix的突破性，在于他是第一个运行在人形机器人上的端到端VLA大模型。之前许多实验室都发布过具身智能大模型，但基本都是装载于机械臂上面，自由度偏少。而Helix对应的机器人版本有着足足35个自由度，一般模型可能很难进行迁移。

图表1：Helix执行家务

igure，中信建投

简单来说，Helix做到一系列的突破，包括但不限于:

全上半身控制：Helix是第一个输出对整个人形上半身（包括手腕、躯干、头部和单个手指）进行高速连续控制的VLA。

多机器人协作：Helix是第一个在两个机器人上同时运行的VLA，使它们能够使用以前从未见过的物品解决远距离协作任务。

极强的对象泛化能力：配备Helix的手办机器人现在几乎可以拾取任何小型家用物品，包括它们以前从未遇到过的数千件物品，只需遵循自然语言提示即可。

一套神经网络权重：与以前的方法不同，Helix使用一组神经网络权重来学习所有行为，包括拾取和放置物品、使用抽屉和冰箱以及跨机器人交互，而无需采取任何针对特定任务的微调。

商用就绪：Helix是第一款完全在嵌入式低功耗GPU上运行的VLA，可立即用于商业部署。

图表2：Helix提出的“NEWSCALINGLAW”

igure，中信建投

一般来说，传统的scalinglaw都告诉我们一个模型训练采用的数据量越多越好模型就越好，但是在很多领域，比如家庭中，不同于单一的生产线，家具的种类是非常丰富的，如果依旧采用原来的训练方法，训练所需要的时间和成本都是非常高的，因此Figure要求模型必须具备良好的泛化能力，减少对数据集的依赖。

在图表2中，我们可以看到，相比于传统的编写数据或者是如今流行的收集数据，Helix大大减少了机器人训练需要的时间，因为它追求使得机器人通过VLM直接理解某些常识，即通过自然语言指令就获得某些技能。也就是说，曾经需要数百次演示的新技能，只需用自然语言与机器人交谈就可以立即获得。

图表3：Helix架构

igure，中信建投

如图表3所示，Helix是同类产品中首个“系统1，系统2”的VLA模型，两个系统有点类似于人类的快思考和慢思考，一直以来，VLM是通用的，但不是快速的，就像人类的慢思考，依靠理性，而机器人视觉运动策略是快速的，但不是通用的，如同人类基于直觉的快思考。Helix通过两个互补的系统来解决这种权衡，这些系统经过端到端训练以进行通信。具体如下：

系统2：一种经过训练的VLM，参数量70亿，以7-9Hz的频率运行，用于场景理解和语言理解，实现跨对象和上下文的广泛泛化。主要负责决策部分。

系统1：一种快速反应的视觉运动策略，参数量0.8亿，可将S2产生的潜在语义表示转化为200Hz的精确连续机器人动作。主要负责动作的输出。

系统2中的VLM基于互联网大规模数据进行预训练。它将机器人收到图像和状态信息（包括手腕姿势和手指位置）投影到视觉语言嵌入空间后对其进行处理。结合指定所需行为的自然语言命令，S2将所有语义任务相关信息提取到单个连续的潜在向量中，传递给S1以调节其动作。

系统1中的架构基于一个完全卷积的、多尺度的视觉主干进行视觉处理，虽然S1接收与S2相同的图像和状态输入，但它以更高的频率处理它们（20HZ），以实现更灵敏的闭环控制。来自S2的潜在向量被投射到S1的标记空间中，并与来自S1视觉主干的视觉特征沿序列维