Sim to Real，具身大模型的问题、现状与投资机会.docxVIP

下载本文档

0
0
约2.36万字
约 73页
2025-11-19 发布于北京
举报
版权申诉

Sim to Real，具身大模型的问题、现状与投资机会.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机械设备

2025年11月9日

人形机器人专题5：

SimtoReal，具身大模型的问题、现状与投资机会

最近一年走势

机械设备沪深30039%

机械设备沪深300

27%

15%

-8%

-19%

2024/10/082025/01/082025/04/082025/07/08

相对沪深300表现

表现

12M

机械设备

5.3%

25.6%

45.6%

沪深300

3.2%

17.9%

15.5%

请务必阅读报告附注中的风险提示和免责声明

请务必阅读报告附注中的风险提示和免责声明2

请务必阅读报告附注中的风险提示和免责声明3

核心提要

本篇报告研究了以下核心问题：1、大模型的问题：我们对大模型的相关概念进行了释义和逻辑解读，认为LLM-VLM-VLA是具身智能发展的进阶路径，需要实现大模型从语义理解到物理世界理解的“具身”化、适应不同环境和任务的通用泛化，在实现的过程中，面临商业化落地的精度取舍和数据缺乏的瓶颈；2、梳理了部分布局者的大模型及本体进展，对比本体厂、大厂和独角兽公司的大模型技术路径及进展，包括银河通用、智元、FigureAI、优必选和PhysicalIntelligencePI；3、投资机会：我们认为，数采工具+垂域场景或可落地先行，可关注有垂直场景和丰富行业数据的公司。

u一、模型的问题：大模型的概念、需求及瓶颈

1、概念的解读：梳理了大模型的相关概念并进行释义和逻辑解读；

2、具身的需求：对大模型来说，完成叠衣服任务的难度远超于赢得国际象棋，具身智能机器人的应用需要跨越虚拟来到现实；

3、泛化的需求：泛化大模型VS.垂域模型；

4、核心的问题：是否是数据缺乏？

u二、布局者的问题：本体厂/大厂/独角兽，具身智能模型进展如何？

梳理了部分布局者的大模型及本体进展，对比本体厂、大厂和独角兽公司的大模型技术路径及进展，包括银河通用、智元、FigureAI、优必选和PhysicalIntelligencePI等。

u三、投资机会：数采工具+垂域场景或可落地先行

1、开发数采工具：部分厂商通过开发便捷易用、性价比较高的数采工具，解决目前具身大模型构建的数据缺乏、真机采集数据成本高的问题

2、拓展垂直场景：基于各公司对垂直行业的深度理解、丰富场景和海量数据，实现具身智能在垂直场景的率先落地

u相关标的：我们认为人形机器人目前处于技术突破、商业化落地初期，后续有望迎来量产空间，维持人形机器人行业“推荐”评级。建议关注：

1）具身智能本体公司优必选、极智嘉等；2）具身智能落地相关场景：杭叉集团、安徽合力、劲旅环境、杰克科技等；3）数采设备供应商汉威科技、南山智尚等。

u风险提示：人形机器人行业进展不及预期风险；中美贸易摩擦超预期风险；大模型落地效果不及预期的风险；重点关注公司业绩不及预期风险；研究报告中使用的公开资料可能存在信息滞后或更新不及时的风险。

一、模型的问题：大模型的概念、需求及瓶颈

1.1概念的解读

u我们认为，从基于海量文本生成的语言模型LLM-理解图像+文本的VLM多模型模型到应用于具身智能机器人的VLA模型，大模型呈现逐步进阶的特征，从文本language和图像vision的理解、逻辑推理到应用于物理世界的动作action，VLA模型使大模型迈入sim2real的阶段。

u由于VLM具有多模态特征，可以延伸为【多】种可选【模态】的组合创新，如智元的ViLLA模型，在VLA模型基础上引入了+MoE混合专家模型，MoE中的LatentPlanner（隐式规划器）借助大量跨本体和人类操作视频数据获得通用的动作理解能力，MoE中的ActionExpert（动作专家）借助百万真机数据获得动作执行能力。

u端到端（End-to-End）：简单理解，就像动物的大脑，从“看到的图像”和“听到的指令”直接推理出“怎么走”，中间不需要人为拆分多个步骤。传统机器人通常以“指令理解→环境感知→目标识别→路径规划”模块化的形式单独处理分解的子任务，有的甚至还要对工作环境提前构建地图；端到端能够实现看到图像-听到指令-直接推理，不需要人为拆分。

表：大模型部分相关概念举例

概念

含义

解读

LLM

largelanguagemodel

LLM是一种统计建模的通用技术，主要通过自回归Transformer来模拟token流，这些token可以代表

文本、图片、音频、动作选择等（多模态信号）

VLM

vision-language-mod

您可能关注的文档

文档评论（0）

哈哈 + 关注: 实名认证

文档贡献者

嗨，朋友，我都会用最可爱的语言和最实用的内容，帮助你更好地理解和应对职场中的各种挑战！

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Sim to Real，具身大模型的问题、现状与投资机会.docxVIP