基于Transformer的人体姿态估计算法研究.pdfVIP

基于Transformer的人体姿态估计算法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

近年来,基于深度学习的方法在解决2D人体姿态估计任务方面取得了卓越的

进步。然而,目前的主流方法仍存在以下问题:(1)基于静态卷积神经网络的模型

对于所有的输入图像均使用一组固定的参数滤波器,难以捕获输入数据中不同尺寸

和动态变化的肢体特征。(2)基于Transformer的姿态估计方法均是将统一采样的

Token序列作为输入。这样固定的特征采样方式难以表示非刚性的人体且存在着一

定的特征冗余,这很大程度上限制了处理如肢体变形和外观模糊等问题。(3)基于

Transformer的姿态估计方法具有巨大的参数量和计算复杂度,对于其在移动设备上

的部署有很大的挑战性。

为了解决上述问题,本文主要研究基于Transformer的2D人体姿态估计算法,

其目标主要是从RGB(Red,Green,Blue)图片中分类和定位出人体关键点的空间

位置。本文结合卷积神经网络(ConvolutionalNeuralNetworks,CNN)与Transformer

的优势,充分利用卷积在局部特征提取方面的卓越性能,同时发挥Transformer在全

局特征建模上的强大能力,以实现更为全面和精准的特征学习。本文的主要研究内

容如下:

(1)为了捕获输入数据中不同尺寸和动态变化的肢体特征,本文提出基于动态

卷积的人体姿态关键点定位网络。将动态卷积结合到本文提出的动态关键点定位模

块中,通过注意力机制不断调整卷积核的参数,以获取输入图像中特定关键点的局

部上下文,有效地增强了关键点定位的准确性和鲁棒性。此外,本文引入人体骨架

特征来编码人体重要的先验知识。这种向量化表示的骨架特征,不仅包含了肢体关

节间的级联关系,还融入了方向信息,从而丰富了获取到的特定关键点的语义特征。

(2)为了解决基于Transformer方法中固定的特征采样方式导致的特征冗余问

题,本文进一步设计了基于稀疏Token化Transformer的姿态估计网络:

KeypointFormer。通过采样基于关键点的特征块提取与关键点相关的Token序列作

为Transformer的输入,在减少Token数量的同时捕获关键点之间的远距离依赖关

系。在基于关键点的特征嵌入中,每个关键点都显式地嵌入为一个Token,以便在

Transformer编码器中学习关键点之间的依赖关系。

(3)为了解决基于Transformer方法在移动设备上的部署问题,本文还设计了

更加轻量化的版本:KeypointFormer-S。具体来说,在MSCOCO验证集上达到了

72.9AP,参数为5.82M,计算量为5.88G,相比于KeypointFormer减少了370%的参

数和44%的计算成本,具有一定的落地应用可能性。

关键字:人体姿态估计;Transformer;动态卷积;骨架特征;

Abstract

Inrecentyears,significantprogresshasbeenmadein2Dhumanposeestimationtasks

usingdeeplearningmethods.However,mainstreamapproachesstillfaceseveralchallenges:

(1)Modelsbasedonstaticconvolutionalneuralnetworksemployafixedsetofparameter

filtersforallinputimages,makingitdifficulttocapturelimbfeaturesofdifferentsizesand

dynamicchangesininputdata.(2)PoseestimationmethodsbasedonTransformers

uniformlysampletokensequencesasinput,leadingtodifficultiesinrepresen

文档评论(0)

精品资料 + 关注
实名认证
文档贡献者

温馨提示:本站文档除原创文档外,其余文档均来自于网络转载或网友提供,仅供大家参考学习,版权仍归原作者所有,若有侵权,敬请原作者及时私信给我删除侵权文

1亿VIP精品文档

相关文档