- 4
- 0
- 约12.71万字
- 约 90页
- 2025-10-22 发布于江西
- 举报
摘要
摘要
抓取是服务机器人协助老年人日常生活的基础动作。与工业机器人不同的是,
服务机器人通常工作于复杂多变的家庭环境中。在抓取家居物品时,待抓取物品
的种类和位姿不固定,并且在抓取过程中容易受到物品变形或不佳的抓取策略影
响,导致在提升时出现滑移现象,给机器人的抓取任务带来了挑战。目前,机器
人抓取主要依赖于单一的视觉或触觉感知,这在实际工作环境中往往导致难以实
现准确且稳定的抓取。随着深度学习和多模态感知技术发展,视觉与触觉信息的
融合已成为提高抓取准确性的关键途径。本文通过开展视触觉融合的服务机器人
抓取感知方法研究,研究机器人抓取任务中的目标检测、抓取检测以及滑移检测。
具体研究工作如下:
首先,在目标检测方面,针对目前机器人抓取任务中目标检测算法准确率低
的问题。本文基于YOLOv5s目标检测网络进行改进,引入多特征交互式融合
(MultiFeatureInteractiveFusion,MFIF)模块与SE(SqueezeandExcitation)注意力
机制结合的MFIF-SE模块,并且将SPPF模块优化为CSPPFC模块,提出了
YOLOv5s-MSC目标检测网络。由于研究背景设定在家庭环境中,为了适应这一
环境,自建15种家居物品的目标检测数据集,在该数据集下对YOLOv5s-MSC
网络进行训练及测试,该网络可达91.12%的平均精度(MeanAveragePrecision,
mAP)和每秒65.25帧的检测速度FPS(FramePerSecond)。用户可以通过目标检
测的结果,指挥机器人对待操作的物品进行分割,以获得单一物品的图像。
其次,在抓取检测方面,本文在U-Net网络的基础上,结合残差结构和
CA(CoordinateAttention)注意力机制,提出了CAR-U-Net抓取检测网络。该网络
使用RGB-D图像作为输入,通过收缩路径和扩张路径结构,以获得物品的抓取
位姿参数。CAR-U-Net抓取检测网络按图像和按种类划分康奈尔抓取数据集的
检测准确率分别为97.7%和96.6%。
然后,在视触觉融合的滑移检测方面,针对视觉和触觉特征直接融合方法的
融合不充分以及传统时序网络关联能力弱的问题。本研究将直接融合方法改进为
增维张量积(IncreasetheDimensionTensorProduct,IDTP)方法来对视觉和触觉特
征进行融合,并使用Transformer编码器作为时序处理的网络架构,形成
I
摘要
RIT(Resnet50+IDTP+Transformer)网络。IDTP方法的第一阶段操作能够让视触觉
特征既具有视觉和触觉特征特性,又具有两种特征融合的关联特性,第二阶段利
用CBAM(ConvolutionalBlockAttentionModule)注意力机制对第一阶段融合的视
触觉特征进行特征加强和削弱冗余信息。Transformer编码器用于处理IDTP方法
融合后的视触觉特征,优化了时序关系。基于上述的15种物品制作了视觉触觉
滑移检测数据集,在该数据集上对RIT网络进行了相应训练及测试,该网络可以
达到85.56%的准确率。
最后,对机器人进行相机标定和手眼标定,在真实环境中利用目标检测、抓
取检测和滑移检测网络进行抓取测试,检测成功率为82%。抓取测试结果显示,
本研究提出的视触觉融合的机器人抓取感知方法能够有效地提升服务机器人在
复杂环境中的抓取性能。
关键词:机器人抓取;目标检测;抓取检测;滑移检测;视触觉融合
II
ABSTRACT
ABSTRACT
Graspingisafun
原创力文档

文档评论(0)