韩宗旺 杨涵 吴世青 陈龙

韩宗旺, 杨涵, 吴世青, 陈龙. 时空自适应图卷积与Transformer结合的动作识别网络[J]. 电子与信息学报, 2024, 46(6): 2587-2595. doi: 10.11999/JEIT230551
doi: 10.11999/JEIT230551
基金项目: 国家自然科学基金(52005338)






    吴世青 wsq07599@usst.edu.cn

  • 中图分类号: TN911.73; TP391.41; TP18

Action Recognition Network Combining Spatio-Temporal Adaptive Graph Convolution and Transformer

Funds: The National Natural Science Foundation of China (52005338)
  • 摘要: 在一个以人为中心的智能工厂中,感知和理解工人的行为是至关重要的,不同工种类别往往与工作时间和工作内容相关。该文通过结合自适应图和Transformer两种方式使模型更关注骨架的时空信息来提高模型识别的准确率。首先,采用一个自适应的图方法去关注除人体骨架之外的连接关系。进一步,采用Transformer框架去捕捉工人骨架在时间维度上的动态变化信息。为了评估模型性能,制作了智能生产线装配任务中6种典型的工人动作数据集,并进行验证,结果表明所提模型在Top-1精度上与主流动作识别模型相当。最后,在公开的NTU-RGBD和Skeleton-Kinetics数据集上,将该文模型与一些主流方法进行对比,实验结果表明,所提模型具有良好鲁棒性。
  • 图  1  数据收集场景布置与6种工人活动示例图

    图  2  OpenPose提取的人体骨架示例

    图  3  模型的整体流程

    图  4  STA-GCN-Transformer动作识别网络的详细架构

    图  5  建模工人骨架作为图结构

    图  6  自适应图卷积的邻接矩阵示例图

    图  7  本文模型与原始模型方法在工人行为数据集上的测试精度

    图  8  将Feature embedding最后提取到的特征加入位置编码以获取帧序列信息

    表  1  工人活动任务

    4喝水15 sDW
    表  2  工人的行为数据集样本分布

    表  3  在工人数据集和其他有竞争力的方法进行比较(%)

    Deep LSTM [23]79.89
    TCN [13]80.94
    ST-GCN [18]82.22
    DSTANet [7]87.73
    表  4  在NTU-RGBD数据集上和其他有竞争力的方法进行比较(%)

    方法 X-Sub X-View
    Lie Group [4] 50.10 82.80
    Deep LSTM [23] 60.70 67.30
    ARRN-LSTM [10] 80.70 88.80
    nd-RNN [11] 81.80 88.00
    TCN [13] 74.30 83.10
    Clips+CNN+MTLN [14] 79.60 84.80
    Synthesized CNN [15] 80.00 87.20
    CNN+Motion+Trans [16] 83.20 89.30
    ST-GCN [18] 81.50 88.30
    Shift-GCN [12] 90.70 96.50
    MSST-Net [9] 86.60 92.80
    DPRL+GCNN [19] 83.50 89.80
    本文模型 85.95 91.85
    表  5  在Skeleton-Kinetics数据上和其他有竞争力的方法进行比较(%)

    Deep LSTM [23]16.4035.30
    TCN [13]20.3040.00
    ST-GCN [18]30.7052.80
    DSTANet [7]31.1053.20
    CoAGCN [5]35.0057.30
    表  6  比较Transformer的各个组件对工人动作识别精度(%)的影响

    方法 Top-1 Top-5
    MHA 38.28 40.95
    MHA+FFN 54.67 62.61
    MHA+FFN+PE 76.68 87.88
    GCN+FFN+PE 70..53 81.37
    AGCN+FFN+PE 75.42 86.68
    ST-GCN+Transformer 87.61 92.91
    STA-GCN+Transformer 90.91 97.21
