大模型时代的具身智能-哈尔滨工业大学.pptx

大模型时代的具身智能-哈尔滨工业大学.pptx

  1. 1、本文档共212页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

大模型时代的具身智能;

什么是智能机器人?;;

古希腊数学家阿基塔斯研制出一种由机械蒸汽驱动的鸟状飞行器,并被命名为“鸽子”。

其腹部是一套用于产生蒸汽的密闭锅炉。;;

1961年,世界上第一台工业机器人Unimate,

用于堆叠金属;

医疗微创机器人物流运输机器人展厅服务机器人家庭清洁机器人

更好的自主性:应对的场景和任务更复杂,涉及多机器人协调;

①自主能力:尽可能少的人类干预

机器人智能机器人≈人类

②泛化能力(通用能力):具备强大的综合能力;

最受关注的智能机器人——类人机器人;

①自主能力:尽可能少的人类干预

②泛化能力(通用能力):具备强大的综合能力;

医疗微创机器人

视觉技术

HARBININSTITUTEOFTECHNOLOGY;

人工智能真的让机器人智能了吗?;

我们设想中的智能机器人是什么?;

p1956年—20世纪60年代初,使用人工智能做符号推理,进行数学证明

p20世纪60年代—70年代初,启发式的搜索算法能力有限

p20世纪70年代初—80年代中,构建专家系统处理医疗、化学、地质等特定领域应用

p20世纪80年代中—90年代中,专家系统需要海量的专业知识,实用价值有限

p20世纪90年代中—2010年,机器学习算法处理实际问题

p2011年之后,深度学习算法用于图像、文本、语音等信息处理

p2022年之后,可以处理通用任务的大模型ü一定的自主能力

ü一定的泛化能力(通用能力)

但离我们设想的智能还有多远?

HARBININSTITUTEOFTECHNOLOGY;

p上个世纪对未来人工智能的幻想,主要表现为智能人形机器人,但目前人工智能技术仍然停留在电脑屏幕,没有以实体的方式进入物理世界

p目前智能程度最强的大模型,与目前最先进的人形机器人,能否结合形成智能机器人?;

先要说明的问题:

如何构建一个智能机器人?;

HARBININSTITUTEOFTECHNOLOGY;

机器人视觉传感器信号;

回到问题:

人工智能真的让机器人智能了吗?;

2D视觉信号或

3D点云信号

机器人躯体的

所有硬件结构

触觉信号或

力反馈信号

位姿信号;大

脑;

当前人工智能这几个方面存在哪些问题?;

当前人工智能这几个方面存在哪些问题?;

当前人工智能这几个方面存在哪些问题?;

关上抽屉;

什么是具身智能?;

p被动移动位置

p只能注意到眼中的物体在变大、缩小

p没有学会走路,甚至不能意识到眼中物体逐渐变大就是在靠近自己;

p定义:一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、

理解问题、做出决策并实现行动,从而产生智能行为和适应性。;

环境

仿真环境

Sim2Real

真实环境;;;

p机器人需要具备环境感知能力,依据感知对象的不同,可以分为四类:;

p机器人需要具备环境感知能力,依据感知对象的不同,可以分为四类:

p物体感知

p几何形状、铰接结构、物理属性

p场景感知

p场景重建场景理解

p行为感知

p手势检测、人体姿态检测、人类行为理解

p表达感知

p情感检测、意图检测;;;

p对于3D空间中的物体,有必要感知其:

p几何形状

p铰接结构

p物理属性;

数据格式;

pPointNet为点云数据编码的经典方法,针对其难以捕捉局部特征的缺点又提出了改进版本PointNet++;

p基于MLP和CNN,编码每个面的空间特征和结构特征,最后获得整体的物体外形表示;

p首先将点云体素化,然后使用基于MLP和CNN的网络编码体素

pPointNet、MeshNet、VoxelNet对3D数据的卷积编码方式,类似于CV中对2D图片的编码;

p之前PointNet、MeshNet和VoxelNet将3D数据视为离散的单元进行卷积编码

pDeepSDF训练神经网络,拟合一个连续函数:以体素坐标为输入,输出其离最近物体表面的距离。这个连续函数同样蕴涵物体的几何形状信息。;

p类似于DeepSDF使用一个连续的函数来表示整个空间的体素分布情况,Occupancy

Network同样使用神经网络来拟合一个连续的函数,该函数以体素坐标为输入,输出该坐标处体素出现的概率;

p位姿估计任务是预测一个物体在3D空间中的位姿,包括三自由度的平移,与三自由度的旋转,或者可视为

文档评论(0)

沧海一粟2020 + 关注
实名认证
内容提供者

文不能提笔控萝莉,武不能骑马战人妻,入佛门则六根不净,入商道则狼性不足,想想还是做文字民工!

1亿VIP精品文档

相关文档