Figure×OpenAI:端到端的大语言-视觉模型让“机器”变“人”.pdfVIP

Figure×OpenAI:端到端的大语言-视觉模型让“机器”变“人”.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

行业专题

1Figure和OpenAI合作后,产品迭代迅速

Figure最新视频表明大模型介入人形机器人后,所带来的极快升级。近日人形机器人

公司Figure公布其与OpenAI合作13天后的机器人最新视频,视频中OpenAI将其ChatGPT

强大的语音交互和理解反馈能力移植到Figure01上,Figure01能够1)理解区分面前的场景

对象;2)动作上区分苹果和一堆纸团;3)理解自身行为的目的;4)判断下一步的响应动作;

5)评价自身行为;6)手指灵活度足够且动作较快。

大模型介入有望帮助人形机器人打开C端市场。通过OpenAI大模型的训练后,Figure

01机器人能够从语义层面理解世界,做到理解和回应用户的需求和指令,并展现出了较强

的自主能力。我们认为,相对出色的运动或执行能力和特定场景下的模型训练,能够使得人

形机器人在工业某个单一场景内实现量产应用,而大模型所赋予的较为广泛和强大的交互能

力,有望帮助人形机器人打开C端应用市场。

图1:Figure01机器人正在分拣纸团

资料来源:Figure,浙商证券研究所

端到端的大语言-视觉模型是本次升级的核心,从语言输入开始,模型接管了一切处理,

直接输出语言和行为结果,而不是中间输出一些结果,再加载其他程序处理这些结果。其中

Open的大模型提供负责提供视觉推理和语言理解,而Figure的神经网络提供快速、低水平、

灵巧的机器人动作,机器人所有行为均源自于学习过的。

Figure01的语言交互流程:研究人员将机器人摄像头中的图像输入、机载麦克风捕获的

语音中的文本转录到由OpenAI训练的,可以理解图像和文本的多模态模型(VLM)中,由该

模型处理对话的整个历史记录,得出语言响应,然后通过文本到语音的方式将其回复给人类。

Figure01的动作处理流程:大模型能力可以使机器人拥有短期记忆,以便联系和理解前

后的行为关系。动作拆解包括首先,互联网预训练模型对图像和文本进行常识推理,以得出

高级计划;其次,大模型以200hz的频率生成的24-DOF动作(手腕姿势和手指关节角度),

充当高速设定点,供更高速率的全身控制器跟踪,以确保安全和稳定。

4/11请务必阅读正文之后的免责条款部分

行业专题

图2:OpenAI大模型对于神经网络决策和身体控制的加持

资料来源:Figure,FounderPark,浙商证券研究所

在性能升级方面,2023年10月Figure01可以实现“动态双足行走”;2024年1月7日

Figure01可以自主操作咖啡机,完成打开机盖、放入咖啡包、按下开始按钮等动作,无需任

何远程遥控;2024年2月27日Figure01可以实现自主完成搬起并转移物体动作;2024

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档