融合 Transformer 和语义图卷积的三维人体 姿态估计方法
DOI:
CSTR:
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

TP391.41

基金项目:

国家自然科学基金(62105196)项目资助


3D human pose estimation method fusing Transformer and semantic graph convolution
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    为了进一步提升从单目二维人体姿态预测三维人体姿态的方法性能,提出一种融合 Transformer 和语义图卷积的三 维人体姿态估计模型,模型由4个部分组成,Transformer 编码网络、语义图卷积编码网络、姿态坐标预测模块和姿态坐标错 误回归模块。首先,Transformer编码网络对关节特征进行全局特征编码,以增强人体姿态的全局关联性。其次,语义图卷积 编码网络专注于局部关节特征提取,以加强局部关节特征之间的关联性。接下来,姿态坐标预测模块和姿态坐标错误回归模 块将关节全局和局部编码特征融合,以增强对三维姿态的准确建模能力。通过在 Human3.6M 数据集上进行实验表明,方法 在估计性能方面取得了较好的改进,以真实的二维人体姿态作为输入,在 MPJPE 和 PA-MPJPE 值分别为32.7和25.9 mm, 与实验对照方法相比,性能分别提升了3.82%和1.14%。

    Abstract:

    In order to enhance 3D human pose prediction from monocular 2D poses,we propose a model that combines Transformer and semantic graph convolution.The model consists of four components:Transformer encoding network, semantic graph convolutional encoding network,pose coordinate prediction module,and pose coordinate error regression module.The Transformer network captures global joint features to improve posture relevance,while the Semantic Graph Convolutional Encoding Network focuses on local joint feature extraction to enhance correlations.The pose prediction and error regression modules fuse global and local joint features,improving 3D pose accuracy.Experimental results on Human3.6M dataset show significant improvements,achieving MPJPE and PA-MPJPE values of 32.7 and 25.9 mm,respectively,representing a 3.82%and 1.14%improvement over the control method.

    参考文献
    相似文献
    引证文献
引用本文

李功浩,贾振堂.融合 Transformer 和语义图卷积的三维人体 姿态估计方法[J].国外电子测量技术,2024,43(3):10-17

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:
  • 最后修改日期:
  • 录用日期:
  • 在线发布日期: 2024-06-12
  • 出版日期:
文章二维码