- 1、本文档共212页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
大模型时代的具身智能;
什么是智能机器人?;;
古希腊数学家阿基塔斯研制出一种由机械蒸汽驱动的鸟状飞行器,并被命名为“鸽子”。
其腹部是一套用于产生蒸汽的密闭锅炉。;;
1961年,世界上第一台工业机器人Unimate,
用于堆叠金属;
医疗微创机器人物流运输机器人展厅服务机器人家庭清洁机器人
更好的自主性:应对的场景和任务更复杂,涉及多机器人协调;
①自主能力:尽可能少的人类干预
机器人智能机器人≈人类
②泛化能力(通用能力):具备强大的综合能力;
最受关注的智能机器人——类人机器人;
①自主能力:尽可能少的人类干预
②泛化能力(通用能力):具备强大的综合能力;
医疗微创机器人
视觉技术
HARBININSTITUTEOFTECHNOLOGY;
人工智能真的让机器人智能了吗?;
我们设想中的智能机器人是什么?;
p1956年—20世纪60年代初,使用人工智能做符号推理,进行数学证明
p20世纪60年代—70年代初,启发式的搜索算法能力有限
p20世纪70年代初—80年代中,构建专家系统处理医疗、化学、地质等特定领域应用
p20世纪80年代中—90年代中,专家系统需要海量的专业知识,实用价值有限
p20世纪90年代中—2010年,机器学习算法处理实际问题
p2011年之后,深度学习算法用于图像、文本、语音等信息处理
p2022年之后,可以处理通用任务的大模型ü一定的自主能力
ü一定的泛化能力(通用能力)
但离我们设想的智能还有多远?
HARBININSTITUTEOFTECHNOLOGY;
p上个世纪对未来人工智能的幻想,主要表现为智能人形机器人,但目前人工智能技术仍然停留在电脑屏幕,没有以实体的方式进入物理世界
p目前智能程度最强的大模型,与目前最先进的人形机器人,能否结合形成智能机器人?;
先要说明的问题:
如何构建一个智能机器人?;
HARBININSTITUTEOFTECHNOLOGY;
机器人视觉传感器信号;
回到问题:
人工智能真的让机器人智能了吗?;
2D视觉信号或
3D点云信号
机器人躯体的
所有硬件结构
触觉信号或
力反馈信号
位姿信号;大
脑;
当前人工智能这几个方面存在哪些问题?;
当前人工智能这几个方面存在哪些问题?;
当前人工智能这几个方面存在哪些问题?;
关上抽屉;
什么是具身智能?;
p被动移动位置
p只能注意到眼中的物体在变大、缩小
p没有学会走路,甚至不能意识到眼中物体逐渐变大就是在靠近自己;
p定义:一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、
理解问题、做出决策并实现行动,从而产生智能行为和适应性。;
环境
仿真环境
Sim2Real
真实环境;;;
p机器人需要具备环境感知能力,依据感知对象的不同,可以分为四类:;
p机器人需要具备环境感知能力,依据感知对象的不同,可以分为四类:
p物体感知
p几何形状、铰接结构、物理属性
p场景感知
p场景重建场景理解
p行为感知
p手势检测、人体姿态检测、人类行为理解
p表达感知
p情感检测、意图检测;;;
p对于3D空间中的物体,有必要感知其:
p几何形状
p铰接结构
p物理属性;
数据格式;
pPointNet为点云数据编码的经典方法,针对其难以捕捉局部特征的缺点又提出了改进版本PointNet++;
p基于MLP和CNN,编码每个面的空间特征和结构特征,最后获得整体的物体外形表示;
p首先将点云体素化,然后使用基于MLP和CNN的网络编码体素
pPointNet、MeshNet、VoxelNet对3D数据的卷积编码方式,类似于CV中对2D图片的编码;
p之前PointNet、MeshNet和VoxelNet将3D数据视为离散的单元进行卷积编码
pDeepSDF训练神经网络,拟合一个连续函数:以体素坐标为输入,输出其离最近物体表面的距离。这个连续函数同样蕴涵物体的几何形状信息。;
p类似于DeepSDF使用一个连续的函数来表示整个空间的体素分布情况,Occupancy
Network同样使用神经网络来拟合一个连续的函数,该函数以体素坐标为输入,输出该坐标处体素出现的概率;
p位姿估计任务是预测一个物体在3D空间中的位姿,包括三自由度的平移,与三自由度的旋转,或者可视为
文档评论(0)