摘要
三维人体姿态估计作为元宇宙、人机交互和医疗健康等领域的关键感知技术,其精
准建模能力直接决定了智能系统对人类行为的认知深度。但现有基于Transformer架构
的三维人体姿态估计方法在训练效率、局部特征提取能力以及帧间时序建模方面存在不
足。针对Transformer架构的局限性,本文进行深入分析,提出了改进策略并构建了两
种新颖的三维人体姿态估计方法,所提方法在性能、训练速度和泛化能力上均优于现有
技术。本文的主要内容和贡献如下:
针对时空混合Transformer
摘要
三维人体姿态估计作为元宇宙、人机交互和医疗健康等领域的关键感知技术,其精
准建模能力直接决定了智能系统对人类行为的认知深度。但现有基于Transformer架构
的三维人体姿态估计方法在训练效率、局部特征提取能力以及帧间时序建模方面存在不
足。针对Transformer架构的局限性,本文进行深入分析,提出了改进策略并构建了两
种新颖的三维人体姿态估计方法,所提方法在性能、训练速度和泛化能力上均优于现有
技术。本文的主要内容和贡献如下:
针对时空混合Transformer
文档评论(0)