超详细！人形机器人+具身智能高峰论纪要（附PPT）20230708(1).pdfVIP

下载本文档

456
0
约5.08万字
约 93页
2023-07-29 发布于上海
举报
版权申诉

超详细！人形机器人+具身智能高峰论纪要（附PPT）20230708(1).pdf

1、本文档共93页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

目录一、人形机器人高峰论坛 1 1.1、受人启发机器人系统和通用人形机器人 1 1.2、人形机器人仿生感知应用技术 10 1.3、释放潜力，人形机器人的软硬解耦的关键技术 19 1.4、智能人形机器人是人类的第三台计算机 27 1.5、高峰对话环节 33 1.6、人工智能赋能人形机器人 34 1.7、人形机器人规划与控制中的具身智能 35 1.8、高峰对话环节 37 二、具身通用人工智能会议纪要39 2.1 构建人形通用智能机器人 39 2.2 Align AI to Everyone 45 2.3 迈向物理世界的强化学习 50 2.4 具身控制中的泛化能力 54 2.5 面向交互的四维场景理解与生成 59 2.6 自动驾驶的技术进化 67 2.7 数据隐私与计算系统：硬件辅助的隐私保护计算 72 2.8 基于数据融合的在可持续隐变量情形下的长期因果效应估计 77 2.9 大模型的能力边界 80 2.10 迈向成本智能的云数据仓库 84 2.11 数据复杂性对泛化性能的影响 89 一、人形机器人高峰论坛 1.1、受人启发机器人系统和通用人形机器人交流时间 2023 年 7 月 6 日交流地点上海-WAIC 嘉宾中科院乔红院士 1、人形机器人最大的特点为通用性，关键技术为软硬件一体化、人机交互、多模态大模型、人形态机制。 2、特斯拉人形机器人最大的特点：身高、体重，还有速度等都非常接近人，而且价格非常便宜，相当于一个工人一年的工资，最大的特点就是通用。我们国家小米也发会议总结布了 Cyber one 的机器人系统，很早以前波士顿动力就提出过阿特拉斯机器人，但这种机器人很贵，所以商用还是很难。还有包括欧洲的 ICHUB 等。 3、人形机器人拆解 5 大部分：软硬件一体化、人机交互、多模态、更像人、软件硬件相通。打造人形机器人的三个原因：（1）如果我们不应对，我们国家的工业机器人的劳动力优势、成本优势就受到了冲击。（2）在国防领域里面，像士兵装备。（3）如人形机器人牵扯到非常多的相关领域，如果我们现在不做，就会影响这个新赛道对我们国家机器人软硬件发展的刺激。目前的方案： − ChatGPT ：做了通用机器人大模型，相当于机器人可以和人非常自然的互动。 − Pact：因为它本体是不一样的，每一次只是 head 上进行了一点变化，后面都是一样的，把人的就是不同动作的习惯性又给放到后面了，而把前面的这个误差做得很小，没有太多考虑机器人的硬件本体，也没有考虑机器人和环境的关系，所以精度和速度都不高。国重实验室背景： − 国重是两个全国重点实验室合并出来的，一个的是偏认知和感知，一个是偏决策和控制，形成了一个完整的创新链。国重把一个 30 年、一个 35 年的全国重点实验室合并了，现在有 1000 多人，包含中国科学院院士 3 人，科技人员 300 多人，队伍包含万人计划入选者、国家杰出青年基金、科技中青年领军人才等国家级人才队伍 65 人次。人形机器人主要分成五个部分：（1）软硬件一体化：我们有一个下半身机器人的跑的部分，现在上半身和下半身在一起可以倒咖啡、可以握手，而且很便宜。这一版里因为当时只做下半身，上半身的硬件迭代有点问题，所以这版做完后我们又晋升大量的软件仿真。（2）人机交互：我们做到了 VRN 和 VRM ，language 和 vision 结合起来成为 VRN ，VRM 是 vision language manipulation，它可以自动的去抓不同的东西，开始进行这一步泛化。（3）更加接近人：研究人的神经机制、肌肉等通用性。它也有感知，在腹背侧通路也有决策，它有前额叶和杏仁核，有情绪，有肌底神经