- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
目录
TOC\o1-1\h\z\u一、行业变化 1
二、持续关注标的 3
三、行情回顾 3
四、产业要闻 7
五、重要公告 8
六、风险分析 9
一、行业变化
Figure新进展:通用型视觉语言动作模型Helix
2月21日,美国人形机器人公司FigureAI在官网上发布了一款通用型视觉语言动作模型Helix,能够将语言、视觉、动作融合进行任务完成,支持人形机器人上半身使用,具有较强的泛化能力,需要预训练数据集少,甚至可以同时使两个机器人协调工作。
早在2月5日,Figure的创始人兼CEOBrettAdcoc在推特上发布了一条帖子,宣布终止与OpenAI的合作协议:并表示Figure在完全自主研发的端到端机器人AI方面取得了重大突破,接下来的30天内展示一些人们从未在人形机器人上见过的东西,现在看来Helix就是其中之一。
实际上目前来说,端到端已然成为了具身智能大模型的一个共识。自动驾驶已经验证了端到端的可行性,而Helix的突破性,在于他是第一个运行在人形机器人上的端到端VLA大模型。之前许多实验室都发布过具身智能大模型,但基本都是装载于机械臂上面,自由度偏少。而Helix对应的机器人版本有着足足35个自由度,一般模型可能很难进行迁移。
图表1:Helix执行家务
igure,中信建投
简单来说,Helix做到一系列的突破,包括但不限于:
全上半身控制:Helix是第一个输出对整个人形上半身(包括手腕、躯干、头部和单个手指)进行高速连续控制的VLA。
多机器人协作:Helix是第一个在两个机器人上同时运行的VLA,使它们能够使用以前从未见过的物品解决远距离协作任务。
极强的对象泛化能力:配备Helix的手办机器人现在几乎可以拾取任何小型家用物品,包括它们以前从未遇到过的数千件物品,只需遵循自然语言提示即可。
一套神经网络权重:与以前的方法不同,Helix使用一组神经网络权重来学习所有行为,包括拾取和放置物品、使用抽屉和冰箱以及跨机器人交互,而无需采取任何针对特定任务的微调。
商用就绪:Helix是第一款完全在嵌入式低功耗GPU上运行的VLA,可立即用于商业部署。
图表2:Helix提出的“NEWSCALINGLAW”
igure,中信建投
一般来说,传统的scalinglaw都告诉我们一个模型训练采用的数据量越多越好模型就越好,但是在很多领域,比如家庭中,不同于单一的生产线,家具的种类是非常丰富的,如果依旧采用原来的训练方法,训练所需要的时间和成本都是非常高的,因此Figure要求模型必须具备良好的泛化能力,减少对数据集的依赖。
在图表2中,我们可以看到,相比于传统的编写数据或者是如今流行的收集数据,Helix大大减少了机器人训练需要的时间,因为它追求使得机器人通过VLM直接理解某些常识,即通过自然语言指令就获得某些技能。也就是说,曾经需要数百次演示的新技能,只需用自然语言与机器人交谈就可以立即获得。
图表3:Helix架构
igure,中信建投
如图表3所示,Helix是同类产品中首个“系统1,系统2”的VLA模型,两个系统有点类似于人类的快思考和慢思考,一直以来,VLM是通用的,但不是快速的,就像人类的慢思考,依靠理性,而机器人视觉运动策略是快速的,但不是通用的,如同人类基于直觉的快思考。Helix通过两个互补的系统来解决这种权衡,这些系统经过端到端训练以进行通信。具体如下:
系统2:一种经过训练的VLM,参数量70亿,以7-9Hz的频率运行,用于场景理解和语言理解,实现跨对象和上下文的广泛泛化。主要负责决策部分。
系统1:一种快速反应的视觉运动策略,参数量0.8亿,可将S2产生的潜在语义表示转化为200Hz的精确连续机器人动作。主要负责动作的输出。
系统2中的VLM基于互联网大规模数据进行预训练。它将机器人收到图像和状态信息(包括手腕姿势和手指位置)投影到视觉语言嵌入空间后对其进行处理。结合指定所需行为的自然语言命令,S2将所有语义任务相关信息提取到单个连续的潜在向量中,传递给S1以调节其动作。
系统1中的架构基于一个完全卷积的、多尺度的视觉主干进行视觉处理,虽然S1接收与S2相同的图像和状态输入,但它以更高的频率处理它们(20HZ),以实现更灵敏的闭环控制。来自S2的潜在向量被投射到S1的标记空间中,并与来自S1视觉主干的视觉特征沿序列维
您可能关注的文档
- AI与金融催化持续,非银板块有望迎来“戴维斯双击”.docx
- AI与能源系列,煤炭篇——电力消费新旧动能切换影响几何.docx
- AI资本开支,体量有多大?.docx
- A股趋势与风格定量观察:量能支撑行情,关注大小盘风格潜在切换.docx
- DeepSeek冲击全球AI产业格局,看好国产算力与AI应用.pptx
- DeepSeek加快AI在政企的应用落地,Grok3进一步提升大模型性能上限.pptx
- DeepSeek与RAG行业轮动策略.pptx
- ETF策略系列:结合二阶随机占优的资金流向ETF行业配置策略.docx
- ETF市场扫描与策略跟踪:ETF轮动策略YTD收益率6.92.docx
- FOF和资产配置月报:看多信号验证,抓住非美资产一季度波段机会.pptx
文档评论(0)