Figure×OpenAI：端到端的大语言-视觉模型让“机器”变“人”.pdfVIP

下载本文档

2
0
约1.02万字
约 5页
2024-03-24 发布于北京
举报
版权申诉

Figure×OpenAI：端到端的大语言-视觉模型让“机器”变“人”.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

行业专题

1Figure和OpenAI合作后，产品迭代迅速

Figure最新视频表明大模型介入人形机器人后，所带来的极快升级。近日人形机器人

公司Figure公布其与OpenAI合作13天后的机器人最新视频，视频中OpenAI将其ChatGPT

强大的语音交互和理解反馈能力移植到Figure01上，Figure01能够1)理解区分面前的场景

对象；2)动作上区分苹果和一堆纸团；3)理解自身行为的目的；4)判断下一步的响应动作；

5)评价自身行为；6)手指灵活度足够且动作较快。

大模型介入有望帮助人形机器人打开C端市场。通过OpenAI大模型的训练后，Figure

01机器人能够从语义层面理解世界，做到理解和回应用户的需求和指令，并展现出了较强

的自主能力。我们认为，相对出色的运动或执行能力和特定场景下的模型训练，能够使得人

形机器人在工业某个单一场景内实现量产应用，而大模型所赋予的较为广泛和强大的交互能

力，有望帮助人形机器人打开C端应用市场。

图1：Figure01机器人正在分拣纸团

资料来源：Figure，浙商证券研究所

端到端的大语言-视觉模型是本次升级的核心，从语言输入开始，模型接管了一切处理，

直接输出语言和行为结果，而不是中间输出一些结果，再加载其他程序处理这些结果。其中

Open的大模型提供负责提供视觉推理和语言理解，而Figure的神经网络提供快速、低水平、

灵巧的机器人动作，机器人所有行为均源自于学习过的。

Figure01的语言交互流程：研究人员将机器人摄像头中的图像输入、机载麦克风捕获的

语音中的文本转录到由OpenAI训练的，可以理解图像和文本的多模态模型(VLM)中，由该

模型处理对话的整个历史记录，得出语言响应，然后通过文本到语音的方式将其回复给人类。

Figure01的动作处理流程：大模型能力可以使机器人拥有短期记忆，以便联系和理解前

后的行为关系。动作拆解包括首先，互联网预训练模型对图像和文本进行常识推理，以得出

高级计划；其次，大模型以200hz的频率生成的24-DOF动作(手腕姿势和手指关节角度)，

充当高速设定点，供更高速率的全身控制器跟踪，以确保安全和稳定。

4/11请务必阅读正文之后的免责条款部分

行业专题

图2：OpenAI大模型对于神经网络决策和身体控制的加持

资料来源：Figure，FounderPark，浙商证券研究所

在性能升级方面，2023年10月Figure01可以实现“动态双足行走”；2024年1月7日

Figure01可以自主操作咖啡机，完成打开机盖、放入咖啡包、按下开始按钮等动作，无需任

何远程遥控；2024年2月27日Figure01可以实现自主完成搬起并转移物体动作；2024

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

Figure×OpenAI：端到端的大语言-视觉模型让“机器”变“人”.pdfVIP