- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
机械设备
2025年11月9日
人形机器人专题5:
SimtoReal,具身大模型的问题、现状与投资机会
最近一年走势
机械设备沪深30039%
机械设备沪深300
27%
15%
4%
-8%
-19%
2024/10/082025/01/082025/04/082025/07/08
相对沪深300表现
表现
1M
3M
12M
机械设备
5.3%
25.6%
45.6%
沪深300
3.2%
17.9%
15.5%
请务必阅读报告附注中的风险提示和免责声明
请务必阅读报告附注中的风险提示和免责声明2
请务必阅读报告附注中的风险提示和免责声明3
核心提要
本篇报告研究了以下核心问题:1、大模型的问题:我们对大模型的相关概念进行了释义和逻辑解读,认为LLM-VLM-VLA是具身智能发展的进阶路径,需要实现大模型从语义理解到物理世界理解的“具身”化、适应不同环境和任务的通用泛化,在实现的过程中,面临商业化落地的精度取舍和数据缺乏的瓶颈;2、梳理了部分布局者的大模型及本体进展,对比本体厂、大厂和独角兽公司的大模型技术路径及进展,包括银河通用、智元、FigureAI、优必选和PhysicalIntelligencePI;3、投资机会:我们认为,数采工具+垂域场景或可落地先行,可关注有垂直场景和丰富行业数据的公司。
u一、模型的问题:大模型的概念、需求及瓶颈
1、概念的解读:梳理了大模型的相关概念并进行释义和逻辑解读;
2、具身的需求:对大模型来说,完成叠衣服任务的难度远超于赢得国际象棋,具身智能机器人的应用需要跨越虚拟来到现实;
3、泛化的需求:泛化大模型VS.垂域模型;
4、核心的问题:是否是数据缺乏?
u二、布局者的问题:本体厂/大厂/独角兽,具身智能模型进展如何?
梳理了部分布局者的大模型及本体进展,对比本体厂、大厂和独角兽公司的大模型技术路径及进展,包括银河通用、智元、FigureAI、优必选和PhysicalIntelligencePI等。
u三、投资机会:数采工具+垂域场景或可落地先行
1、开发数采工具:部分厂商通过开发便捷易用、性价比较高的数采工具,解决目前具身大模型构建的数据缺乏、真机采集数据成本高的问题
2、拓展垂直场景:基于各公司对垂直行业的深度理解、丰富场景和海量数据,实现具身智能在垂直场景的率先落地
u相关标的:我们认为人形机器人目前处于技术突破、商业化落地初期,后续有望迎来量产空间,维持人形机器人行业“推荐”评级。建议关注:
1)具身智能本体公司优必选、极智嘉等;2)具身智能落地相关场景:杭叉集团、安徽合力、劲旅环境、杰克科技等;3)数采设备供应商汉威科技、南山智尚等。
u风险提示:人形机器人行业进展不及预期风险;中美贸易摩擦超预期风险;大模型落地效果不及预期的风险;重点关注公司业绩不及预期风险;研究报告中使用的公开资料可能存在信息滞后或更新不及时的风险。
一、模型的问题:大模型的概念、需求及瓶颈
1.1概念的解读
u我们认为,从基于海量文本生成的语言模型LLM-理解图像+文本的VLM多模型模型到应用于具身智能机器人的VLA模型,大模型呈现逐步进阶的特征,从文本language和图像vision的理解、逻辑推理到应用于物理世界的动作action,VLA模型使大模型迈入sim2real的阶段。
u由于VLM具有多模态特征,可以延伸为【多】种可选【模态】的组合创新,如智元的ViLLA模型,在VLA模型基础上引入了+MoE混合专家模型,MoE中的LatentPlanner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的ActionExpert(动作专家)借助百万真机数据获得动作执行能力。
u端到端(End-to-End):简单理解,就像动物的大脑,从“看到的图像”和“听到的指令”直接推理出“怎么走”,中间不需要人为拆分多个步骤。传统机器人通常以“指令理解→环境感知→目标识别→路径规划”模块化的形式单独处理分解的子任务,有的甚至还要对工作环境提前构建地图;端到端能够实现看到图像-听到指令-直接推理,不需要人为拆分。
表:大模型部分相关概念举例
概念
含义
解读
LLM
largelanguagemodel
LLM是一种统计建模的通用技术,主要通过自回归Transformer来模拟token流,这些token可以代表
文本、图片、音频、动作选择等(多模态信号)
VLM
vision-language-mod
原创力文档


文档评论(0)