Gait Emotion Recognition Based on a Multi-scale Partitioning Directed Spatio-temporal Graph
-
摘要: 为了有效获取节点之间在多尺度、远距离以及在时间和空间位置上的依赖关系,以提高对步态情绪识别精度,本文首先提出一种构建分区有向时空图的方法:使用所有帧节点进行构图,然后按区域有向连接。其次,提出一种多尺度分区聚合与分区融合的方法。通过图深度学习对图节点进行更新。并对相似节点特征进行融合。最后,提出一个多尺度分区有向自适应时空图卷积神经网络(MPDAST-GCN)方法。网络通过在时间维度上构建图,获取远距离帧节点特征,并自适应地学习每帧上的特征数据。MPDAST-GCN将输入数据分类成高兴、伤心、愤怒和平常4种情绪类型。并在发布的Emotion-Gait数据集上,相比于目前最先进的方法实现6%的精度提升。Abstract: To enhance the precision of gait emotion recognition by effectively capturing the dependencies between nodes at multiple scales, long distances, and temporal and spatial positions, a novel method comprising three parts is proposed in this paper. Firstly, a partitioned directed spatio-temporal graph construction method is proposed. It connects all frame nodes in a directed manner based on their regions. Secondly, a multi-scale partition aggregation and fusion method is proposed. This method updates the graph nodes using graph deep learning and fuses similar node features. Lastly, a Multi-scale Partition Directed Adaptive Spatio-Temporal Graph Convolutional Neural network (MPDAST-GCN) is proposed. It constructs a graph in the temporal dimension to obtain the features of distant frame nodes and learns the feature data adaptively on each frame. The MPDAST-GCN classifies input data into four emotion types: happy, sad, angry, and normal. Experimental results on the Emotion-Gait dataset demonstrate that the proposed method outperforms state-of-the-art methods by 6% in terms of accuracy.
-
Key words:
- Gait emotion recognition /
- Emotion recognition /
- Graph deep learning
-
1. 引言
人类情绪在日常生活中发挥着至关重要的作用,对思考、行为和社交关系产生深远影响。因此,准确识别人类情绪至关重要,它能更深入地理解自身以及他人的情感状态,从而增进彼此的理解[1,2]。在早期的研究中,情绪识别主要依赖于面部表情的识别。然而,随着 步态分析在外科研究中的应用[3],研究人员开始意识到步态在情绪识别中的广泛应用可能性[4]。
然而,在早期步态研究中,获取和分析步态数据的方法主要依赖于人工收集和分析,这给步态数据的获取和分析带来了巨大挑战。随着人工智能技术的快速发展,近年来越来越多的研究开始探讨如何利用神经网络架构从步行视频中提取人体姿态信息[5]。通过精心设计的人工智能算法和精确的损失函数,可以从视频和图片数据中提取出基于人体骨骼的姿态特征数据。文献[6]提出一种基于自动编码器的半监督学习方法,本方法将人体姿态编码映射,并通过自上而下的方式完成对人类步态情绪的分类。为了从步态中更准确地感知人类情绪,文献[7]提出一种新的基于时空图卷积网络架构的方法。更进一步地,文献[8]提出一种将人体空间骨骼特征与原始视觉特征融合的方法,以实现更准确的情绪识别。此外,为了实现更广泛的识别功能,文献[9]提出一种多任务步态识别方法,不仅可以进行步态情绪识别,还可以同时进行步态动作预测与身份识别。为了在获取步态数据时保护被研究者的隐私,文献[10]提出一种利用步态特征识别来保护隐私的方法。
然而,由于步态特征的复杂性,步态特征的提取仍然是一个具有挑战性的问题。现有文献[8-14]使用的方法仅使用空间或时间模块提取特征,忽略不同帧节点之间的关联性。因为步态中的不同时间节点之间存在强相关性,例如腿部和臀部的运动。因此,为了更好地反映步态的结构和动态信息,一个节点的特征应该包含其相关时间节点的信息[15,16]。此外,在特征提取时,文献[9,17-19]只考虑整体人体姿态的变化,而没有进行局部到整体的层次分析。实际上,步态中不同部位的运动具有不同的规律和重要性。所以,通过先提取局部区域的特征变化,再综合多个区域的特征变化来获取全局动作的特征变化,实现步态情绪的识别。因此,本文提出多尺度分区有向自适应时空图卷积神经网络(Multi-scale Partition Directed Adaptive Spatio-Temporal Graph Convolutional Neural network, MPDAST-GCN)方法。首先对人体步态数据按照人体部位进行分区处理,构建分区有向时空图,并使用图深度学习将每帧节点特征按照分区进行聚合和更新。然后通过多尺度自适应图卷积模块,更新的特征数据能够自适应地学习每个图的特征。最后并且使用分区融合模块,融合更新后的局部特征。综上所述,本文的主要贡献如下:
(1) 提出一种分区有向时空图构建方法。本方法将人类步态分割为5个部分,并在时间维度上将所有帧节点打破原有的拓扑结构,重新构建成一张分区有向时空图。由于采用分区有向时空图,所有节点之间都是1跳或多跳邻居,能够获取任意两个帧节点之间的联系,有序地提取特征,避免特征信息的冗余。
(2) 提出一种多尺度分区聚合和分区融合的方法。本方法利用图深度学习技术对构建的分区有向时空图进行特征更新。将分区划分为5个部分,将每个分区内的节点与其前面1帧或多帧的邻居节点进行有向连接。更新特征后,进行分区融合,将1个或多个节点的特征自适应地融合成1个节点特征,从而减小网络复杂度。
(3) 提出多尺度分区有向自适应时空图卷积神经网络(MPDAST-GCN)方法,本方法不仅考虑每帧节点之间的相互影响和相邻帧节点之间相互影响,还同时考虑局部和整体时间的关系,让网络自适应地学习它们之间联系的重要程度,并利用有向时空图更新每帧节点的特征。通过多尺度自适应图卷积模块,更新的特征数据能够自适应地学习多跳邻居的特征。
2. 本文方法
本文模型由3个部分组成:分区聚合更新模块、多尺度自适应图卷积块和分区融合模块。首先,将每个样本数据的所有节点构建为1张分区有向时空图。然后,通过分区聚合更新模块获取每个分区更新后的节点数据。接着,通过多尺度自适应图卷积块自适应地学习每个节点特征数据之间的相关性,并根据相关性自适应地更新这些节点特征。最后,进行分区内1个或多个相似特征节点的融合。如图1所示,模型共有5层。在前两层中,每经过1层,节点都会进行1次融合。而在后3层中,节点并不会进行融合。学习到的特征数据经过全局池化后,将情绪数据分成4种类型:高兴、伤心、愤怒和平常。
2.1 分区聚合
2.1.1 分区方式
本算法使用的是最新的数据集Emotion-Gait[7],它是将视频形式的步态数据转化为每帧21个节点的图结构数据。在进行分区时,将步态图结构数据分为左手、右手、左腿、右腿、躯干5个部分,如图2。一般而言,行走时,手的摆幅比较大,腿的摆幅比较小,而躯干的运动变化则更加细微,此外,手和腿的运动方向也是相反的。因此,把步态图结构数据分为5个部分,可以更加准确地捕捉到行走过程中每个部位的变化,从而更好地解读行走动作。
2.1.2 多尺度分区聚合
在以前的工作中,绝大部分算法都是直接从全局特征入手,没有考虑到人体不同位置的差异。在人类步态序列中,不同节点的特征数据属性因空间位置变化而异。考虑到上述问题,提出一种分区有向聚合方法,本方法为整个样本时间序列构建一个分区有向时空图,打破原来节点间的拓扑结构,图的节点数量是所有帧节点的总和。考虑到时间流逝的方向,边的连接方式是,前一帧或几帧的k跳邻居节点指向当前节点,这是一个有向边,如图3所示。分区有向时空图使用邻接矩阵˜Agk,τ表示,如式(2)。图神经网络对整张分区有向时空图节点进行更新。如式(3)所示
[˜Agk]i,j={1,d(vi,vj)=k0,其他 (1) ˜Agk,τ=[I⋯000⋯0⋯⋯⋯⋯⋯⋯⋯0⋯I˜Agk0⋯00⋯0I˜Agk⋯00⋯00I⋯0⋯⋯⋯⋯⋯⋯⋯0⋯000⋯I]∈RNT×NT (2) Xlout=δ(XlinΘl) (3) 式(1)表示一帧图结构k跳邻居节点间的连接关系,边的权重始终为1,d(vi,vj)代表节点vi到节点vj的距离。式(2)表示分区有向时间图中节点之间的连接关系,当k=1时,表示正常一跳邻居节点的连接关系。τ表示与每帧相连帧的数量,本文中设置为1或2。NT表示整张图中所有节点数量,其值为N×T,N是每帧图节点数量,T是所有帧数量。在图神经网络的第l层中,输出特征被表示为Xlout∈RCout×T×N, Cout表示输出特征图数量。节点输入特征表示为Xlin∈RCin×T×N,Cin表示输入特征图数量。δ为归一化函数,用于归一化更新后的节点特征值。Θl为有向图神经网络抽象函数,包含3个函数:更新函数,以及两个特征提取函数,如式(4)、式(5)
¯vti=gvt(vti),¯vsi=gvs(vsi) (4) v′i=hv([vi,ˉvti,ˉvsi]) (5) 其中Θl的两个特征提取函数用于从原始节点属性提取特征,更新函数来对任意节点i属性进行更新。
(1) 对于每个目标节点,使用gvt(⋅)提取每个目标节点的目标节点vsi的特征。
(2) 对于每个源节点,使用gvs(⋅)用于提取每个源节点vti的特征。
(3) 通过函数hv(⋅)更新所有的节点,使用输入节点特征提取出ˉvti和ˉvsi,最后输出更新后的节点特征。
需要引入两个矩阵来提取它们的特征联系。对于每个节点,通过指定的可学习参数矩阵As对源节点特征进行提取。类似地,采用设定的另一个可学习参数矩阵At对每个节点的目标节点特征提取。进一步,可以将式(4)中关于目标节点和源节点特征提取的方程更新为式(7)
As=[0⋯000⋯0⋯⋯⋯⋯⋯⋯⋯0⋯0˜Agk0⋯00⋯00˜Agk⋯00⋯000⋯0⋯⋯⋯⋯⋯⋯⋯0⋯000⋯0]∈RNT×NT,At=[0⋯000⋯0⋯⋯⋯⋯⋯⋯⋯0⋯000⋯00⋯˜Agk00⋯00⋯0˜Agk0⋯0⋯⋯⋯⋯⋯⋯⋯0⋯000⋯0]∈RNT×NT (6) Vs=As(Xlin),Vt=At(Xlin) (7) 其中,˜Agk是原始步态图中的任意节点与其k跳邻居节点的邻接矩阵。Vs为对源节点特征提取后的特征向量,Vt为对目标节点特征提取后的特征向量。
对每个节点的源节点和目标节点进行特征提取后,利用提取到的特征数据,更新每个节点。更新函数hv的过程可以分为两个主要步骤,首先对数据Vs, Vt和Xlin进行拼接,而后将拼接后的数据通过全连接层,将网络自适应学习3种特征数据权重,得到更新后的节点特征数据Xlout。其节点更新方程式(5)可以更新为式(8)
Xlout=ReLU(W∗CONCAT((Xlin,Vs,Vt) +b) (8) 其中,Xlout是更新后的节点特征。W是一个大小为(3×lchannel,lchannel)的权重矩阵,3×lchannel是输入神经元的数量,lchannel是输出神经元的数量,也是输入数据Xlin的输入特征图数量,方便输入后续模块,并使用服从正态分布的随机数初始化W参数。b内的每个元素初始化为1。
2.2 多尺度分区有向聚合自适应图卷积网络
在2.1节中,构建分区有向时空图,用于描述人体姿态局部特征之间的联系。每个分区包含多个节点和有向边,实现多级特征提取和表示多级关系。此外,通过图神经网络对分区有向时空图中节点特征进行更新,可以有效提高模型的鲁棒性和准确率。然而,在讨论中没有提到如何处理聚合更新后的特征。因此,在本节中,引入多尺度时空分区有向聚合自适应图卷积网络,以完成对每一帧图内的特征提取,从而实现对整体特征的表达。
2.2.1 自适应图卷积网络
自适应图卷积网络[15]是一种改进过的图卷积[11],它为每一帧图添加一个自适应学习结构。可以用式(9)和式(10)来描述它
YlAGCN=Nv∑n=1WnXlout(An+Bn+Cn) (9) Cn=softmax((XloutWθn)TWϕnXlout) (10) 其中,Xlout是第l层的有向更新后输出特征,YlAGCN是第l层的输出特征,Wn是每层网络可学习的权重矩阵,An是表示采用分层策略的图结构,但不进行参数更新。Bn是一个N×N的图结构,Bn的每个元素都是可以学习的参数。Cn表示所有数据的连接相关图,也是可以学习的参数,Wθn和Wφn分别是θ和φ两个图神经网络嵌入函数的参数。通过自适应图卷积网络,可以更有效地提取每一帧图像的特征,此外,还可以通过学习参数Wn, Bn和Cn来调整网络的结构,使模型更加适应不同的场景。
2.2.2 多尺度时空分区有向聚合自适应图卷积块
考虑到按分区提取相邻帧节点特征,却没有考虑每帧多跳节点特征之间的联系。比如仰头大笑动作和拍手动作代表高兴的情绪,头部节点的空间特征应该和拍手动作有很强的关联性。为了能够有效提取多跳节点之间的特征联系,提出多尺度时空分区有向聚合自适应图卷积块,来对长距离邻居特征信息进行提取和更新。输入数据通过多尺度时空分区有向聚合自适应图卷积块中,将所有样本节点合并到同一张图中构建分区有向时空图,而后使用图深度学习方法对节点特征进行更新,设计一个分区有向聚合模块来实现该功能。该图卷积块由以下几个步骤组成:首先,对所有节点按设定的分区方式进行分区,并构建为分区有向时空图。使用图神经网络提取分区内的节点特征联系;其次,使用多尺度自适应图卷积块,提取每帧内多跳节点间的联系,形成一个更加精细的节点特征表达;最后,对每个分区的特征进行融合,将每个分区的相似特征的节点融合聚合成一个新的特征节点表示。采用多尺度分层策略如图4,式(9)和式(10)可以更新为式(11),式(12)
Ylm,AGCN=(Nv∑n=1WnXlout(An,m+Bn,m+Cn)) (11) Cn=softmax((XloutWθn)TWϕnXlout) (12) 其中,An,m是多尺度分层策略为m时的构造图的子图,Bn,m与An,m的形状大小相同,初始值为0。通过多尺度学习的方式,对每个节点的不同距离的邻居节点进行特征提取和更新。由于采用分层策略,可以针对不同类型的邻居采用不同的聚合方式来进行特征提取。
在图4中,绿色代表向心节点,黑色代表人体姿态重心位置,蓝色代表离心节点,红色代表采用策略的目标节点,3条虚线代表3个节点到重心的欧氏空间距离。
2.2.3 多尺度信息自适应融合
通过式(14)和式(15),对每帧图结构节点的m跳邻居节点特征提取学习,但是没有对不同尺度提取到的特征进行整合,考虑到每个节点不同跳的邻居集特征对每个节点的影响是有差异的。所以,通过对不同尺度的特征信息进行拼接,通过一个1×1大小的卷积块对不同尺度的信息进行融合。如式(16)
Xlall=σ(Conv1×1(M⋃m=1Ylm,AGCN)) (13) 其中,M代表最大邻居距离,本文设置为4。Conv1×1第l层1×1大小的卷积块参数。σ(⋅)代表激活函数。式(13)可以自适应地融合不同尺度的邻居的特征,动态地学习不同尺度的特征权重。
2.3 分区融合
2.3.1 节点融合
为了减少信息冗余和增强特征表达,采用自上而下的分区融合方法,将初始图结构中的21个节点进行合并。初始图结构中的节点特征有不同的相似度,例如手指和手腕两个位置,在局部特征变化上有较大的差异,而在整体特征变化上有较小的差异。根据节点特征的相似度,逐步融合特征相近的节点。融合方式如式(14)所示
Xlout,f=D˜AgkXlall (14) 其中,D是融合矩阵,进行两次特征融合操作,分别使用融合矩阵D1∈R21×12和D2∈R12×7。融合矩阵D1的第1维表示源节点,数量为21个节点,第2维表示融合后节点,数量为12。融合矩阵D2的第1维,同样表示源节点,数量为12,第2维表示融合后节点,数量为7。两次融合时,源节点和融合后的节点对应关系如图2所示,数字代表对节点标号,大括号左边代表被融合节点,大括号右边代表融合后新的节点。Xlall是输入数据。
本算法的两次融合以满足两个不同的目的。第1次融合的目的在于将相似的特征融合在一起。网络就可以更加关注特征之间的差异,以便更好地分类输入样本。第2次融合的目的是让网络的注意力更多地集中在全局特征之间的联系上,因此可以通过1次融合就获得多跳邻居节点之间的联系,无需再进行多次叠加操作。
2.3.2 自适应融合
对源节点进行聚合和融合时,不同节点拥有的节点属性有所差异,对目标节点的影响也会有所不同,为了进一步提高源节点对目标节点聚合的鲁棒性,让所有融合节点的参数权重动态地增强和减弱该节点对目标的节点的影响,自适应地调节目标节点的特征强度。并且通过添加掩码˜Dmask,让节点融合时,根据节点特征强度表达的不同,自适应地学习融合权重,式(14)可以更新为式(15)。通过自适应的方式,可以让模型具有更强的鲁棒性,以适应不同节点的特征表达,提高模型的准确率。
Xlout,f=(DטDmask)˜AgkXlall (15) 其中˜Dmask是与融合矩阵D形状相同的矩阵,且每个元素都是可学习的参数,其初始值均设为1。在处理两次不同拓扑结构的图节点融合,使用两种不同的掩码矩阵,分别命名为˜Dmask∈R21×12和˜Dmask∈R12×7。在这两种情况下,˜Dmask1和˜Dmask2分别对应于融合矩阵D1和D2。这样的设计使得可以在不同的融合任务下灵活地应用不同的掩码矩阵。
3. 实验
3.1 数据集
本算法使用最新的Emotion-Gait[7]数据集,包括经典数据集 BML[18], Human3.6M[20], ICT[21], CMU-MoCap,以及新采集的步态数据。Emotion-Gait对各种步态数据进行全面处理,将视频、图片和图序列步态数据都转化为图序列步态数据。此外,该数据集使用文献[22]的算法,将所有模型统一为ELMD[23]中使用的21关节姿势模型,具有更高的标准化程度和可比性。数据集共有1 835个步态,其中10个注释者提供情感标签。标签数据中,大约58%的步态为快乐情感,32%的步态为悲伤情感,23%的步态为愤怒情感,只有14%的步态为中性情感。
3.2 实验环境
本次实验使用Python语言编写,Python版本为3.7.12。实验代码基于PyTorch 1.4.0实现,使用Adam优化器进行网络优化,学习率设置为5E-4。网络的参数设置如下:第1层网络k=3, m=3;第2层网络k=2, m=2;第3层网络k=4, m=4;第4层网络k=4, m=4;第5层网络k=4, m=4,并且使用Dropout因子来降低过拟合风险,设置为0.3。网络迭代次数为500,数据集划分为90%训练集,10%测试集,每层网络构建两个分区有向时空图,所以τ的值分别设置为1,2。实验设备为配备NVIDIA服务器显卡V100的计算机。
3.3 实验结果比较与分析
本文将比较7种算法在步态情绪数据集上的表现,所有方法都基于Emotion-Gait数据集[7]进行展示:(1) 文献[24]将长短期记忆(Long Short Term Memory, LSTM)与步态情绪识别结合,利用步态关节空间位置数据作为输入,将其转换为用于分类任务的向量。(2) 文献[7]采用时空图卷积网络作为基本网络,以步态姿态数据为输入训练网络。同时,构建基于时空图卷积网络的变分自编码器,并通过精调时空图卷积网络参数提高性能。(3) 文献[6]使用基于自编码器的半监督学习,输入为4维数据,包括3维空间运动数据和1维关节旋转数据。编码器中,关节运动数据自下而上分层汇聚;解码器自上而下从潜在嵌入重建每个时间步的关节运动。训练分类器将嵌入数据映射到情感标签。(4) 文献[11]提出分层策略,根据3D骨架结构计算每个关节点的图卷积,依据不同时间步的相同关节点实例计算时间邻域,执行卷积操作。(5) 文献[25]根据运动学依赖性计算骨结构的有向无环图,利用图神经网络和随机游走方法更新节点特征,使用输入人体姿势空间特征数据训练DGNN网络。(6) 文献[17]在空间维度执行多尺度图卷积,时间维度添加跳跃连接,学习各种动作的长程依赖关系。(7) 文献[12]将输入的3D空间姿态数据分为多个通道维度特征,通过堆叠时空图卷积网络进行批处理,学习图节点间的长距离特征。
本文所提出的算法相对于以前的方法提高所有情绪类别的识别性能,如表1所示。具体来说,本文使用的方法在快乐、悲伤、愤怒和正常类别上的准确率相对于分层注意力池化(Hierarchical Attention Pooling, HAP)[6]的方法分别提高1%, 3%, 10%和7%。
从表1的数据可以看出,网络对于高兴和悲伤情绪的识别精度提升较小,而对于愤怒和平常情绪的提升较大。通过在小样本上提高精度,可以验证所提出方法的有效性。
图5分别表示网络对步态情绪识别精度的变化和网络损失值的变化。从图5(a)中可以看出,随着迭代次数的增加,网络的识别精度逐渐提高,并在迭代次数到达250时趋于稳定,识别率也保持在90%。而从图5(b)中可以看出,当迭代次数到达250时,网络损失值也不再变化,表明网络具有较好的鲁棒性。
网络对4种情绪(快乐、悲伤、愤怒、平常)的识别精度变化如图6所示。从如图6(a)可见,经过几轮迭代后,网络对快乐情绪的识别率超过90%,这是因为数据集中快乐情绪样本数量超过50%,同时也说明网络对步态情绪识别的有效性。从图6(b)可知,网络对悲伤情绪的精度提升较慢,当迭代次数达到350时,识别率趋于稳定,达到92%。从图6(c)可见,网络对愤怒情绪的精度提升较缓慢,当识别精度达到80%后,识别精度波动较大,说明网络更倾向于宏观特征和全局特征。当迭代次数达到350后,识别精度趋于稳定,说明网络有效地提取局部特征,并将其融合入全局特征。从图6(d)可看出,对于平常情绪,识别精度一开始波动较大,这是因为平常情绪样本数量最少,网络更倾向于拟合样本数量较多的类别。另一部分原因是平常情绪的特征变化不明显,人体姿态在各个位置上的联系不强,更多地人体局部位置的变化。当迭代次数达到300后,网络有效地提取到局部特征,对平常情绪的识别也趋于稳定,达到78%。
3.4 消融实验
为验证本研究所提出的分区聚合、分区融合和多尺度自适应图卷积块的有效性,分别设计消融实验。
3.4.1 分区聚合
为了研究分区聚合模块的性能,本研究将多尺度自适应图卷积块的学习尺度设置为m=1,并且不使用分区聚合方法,每层模块的输入样本都是21个节点的图数据,分析在使用分区聚合的情况下不同的分区尺度k的性能。实验结果如表2所示。在基准实验中,采用有向聚合方法,但未使用分区聚合。实验结果表明,当使用分区聚合时,相比于基准实验,精度提高1.1个百分点,这表明分区聚合方法能够有效提取局部特征。同时,随着聚合尺度k的增加,精度也不断提升,说明多跳节点特征之间的联系也可以被有效地提取。有向聚合尺度k的设置不断变大,虽然整体精度有提升,当设置k=3时,4种情绪精度相比k=1时,对伤心情绪下降4.4个百分点,对于愤怒情绪提升4.4个百分点,平常情绪提升2.6个百分点。而与这是因为不同情感类别所依赖的时间尺度和空间特征尺度不同。悲伤情绪的特征表达更加依赖近邻结构,过于扩大聚合尺度会使这些特征被过度平滑,从而识别率下降。相比之下,愤怒和平常情绪则更加依赖较大范围的空间特征,因此增大聚合尺度有利于这两类情绪的识别。综上,分区聚合方法可以根据不同类别的特征来调整聚合尺度,当输入训练数据中,愤怒和平常情绪占比较低时,可以适当增加k值,当悲伤情绪占比较低时,可以适当减少k,提高网络对于小样本的识别能力,从而在整体上提高网络的表征能力。
表 2 是否使用分区聚合算法以及不同聚合尺度k对网络性能影响Parameter Accuracy(%) k m Happy Sad Angry Normal MAP 不使用 1 1 96.8 86.0 87.0 70.8 85.1 1 1 98.9 89.4 86.4 70.0 86.2 使用 2 1 98.6 90.3 87.5 68.9 86.3 3 1 98.9 85.0 90.8 72.6 86.8 3.4.2 分区融合
为了分析分区融合对整体网络性能的影响,本研究将分区聚合尺度和多尺度自适应图卷积块的学习尺度均设置为1,探究分区融合模块在步态情绪识别中的作用。为了进行对比实验,还设计一个不使用分区融合模块的网络模型,其性能见表3。实验结果表明,相比于不使用分区融合模块的模型,使用分区融合模块的模型整体性能提升2.1个百分点。这表明分区融合模块能够有效地将局部特征融合成全局特征,从而提高对步态情绪的识别精度。使用分区融合时整体精度提升较大,其中悲伤、愤怒、平常情绪类别都有较大提升,但快乐情绪的识别精度稍微有所降低。这是因为快乐情绪在步态表达上较难以识别和区分,局部特征的融合使得快乐情绪的细微差别被一定程度上平滑掉,增加混淆的可能性,导致识别率下降。总体而言,分区融合模块对提高模型的泛化能力和整体性能有非常重要的作用,但在某些类别上可能会出现一定的识别率降低,需要在未来的研究中进一步优化。
表 3 是否使用分区融合方法对网络性能影响Parameter Accuracy(%) k m Happy Sad Angry Normal MAP 不使用 1 1 98.9 89.4 86.4 70.0 86.2 使用 1 1 97.8 92.2 88.8 74.3 88.3 3.4.3 多尺度自适应图卷积块
为了分析不同的图卷积学习尺度对整体网络性能的影响,本研究设置分区聚合尺度k为1,并添加分区融合的方法,探究多尺度自适应图卷积块在步态情绪识别中的作用。表4显示在不同学习尺度m(分别为1,2,3)下的网络性能效果。实验结果表明,当自适应学习尺度从1设置为2时,精度提高0.8个百分点,当m设置为3时,相比于m=2时,精度提升0.5个百分点。可以看出,多跳邻居之间存在较强联系,随着学习尺度的扩大,远距离邻居之间的联系逐渐减弱。使用多尺度自适应图卷积块进行步态情绪识别时,m设置为3相比于m设置为1时,在快乐情绪上只有细微波动,但在悲伤情绪上下降2.2个百分点,而在愤怒情绪上提升3个百分点,平常情绪上提升4.7个百分点。出现这种情况的原因主要是因为不同情感类别在步态表达上所体现的空间结构特征不同。快乐情绪的步态特征整体较为稳定,扩大学习尺度对其影响不大,而悲伤情绪的特征表达则更加依赖近邻结构,扩大学习尺度会使这些特征被过度平滑,从而导致识别率下降。相比之下,愤怒和平常情绪则更加依赖较大范围的空间特征,因此学习尺度的扩大有利于这两类情绪的识别。
表 4 不同尺度下的图卷积块对网络性能影响Parameter Accuracy(%) k m Happy Sad Angry Normal MAP MPDAST-GCN 1 1 97.8 92.2 88.8 74.3 88.3 1 2 96.8 92.6 91.0 76.0 89.1 1 3 97.4 90.0 91.8 79.0 89.6 4. 结论
本文提出一种新的算法,本算法从整个时间维度和人体姿态局部特征出发,使用分区聚合、分区融合和多尺度自适应图卷积块来提取人体姿态特征,以提高所有情绪类别的识别性能。消融实验表明分区聚合、分区融合和多尺度自适应图卷积块对算法的有效性具有重要作用。其中,分区聚合的方法用于在人体姿态的不同位置提取特征,并获取不同位置之间的特征联系。分区融合的方法对相似特征进行融合,将局部特征融合入全局特征。多尺度自适应图卷积块可以获取人体姿态远距离位置之间的特征联系。本方法在Emotion-Gate数据集上进行实验,结果表明对于愤怒和平常情绪的提升较大,验证本方法的有效性。
-
表 1 与其他算法对比(%)
表 2 是否使用分区聚合算法以及不同聚合尺度k对网络性能影响
Parameter Accuracy(%) k m Happy Sad Angry Normal MAP 不使用 1 1 96.8 86.0 87.0 70.8 85.1 1 1 98.9 89.4 86.4 70.0 86.2 使用 2 1 98.6 90.3 87.5 68.9 86.3 3 1 98.9 85.0 90.8 72.6 86.8 表 3 是否使用分区融合方法对网络性能影响
Parameter Accuracy(%) k m Happy Sad Angry Normal MAP 不使用 1 1 98.9 89.4 86.4 70.0 86.2 使用 1 1 97.8 92.2 88.8 74.3 88.3 表 4 不同尺度下的图卷积块对网络性能影响
Parameter Accuracy(%) k m Happy Sad Angry Normal MAP MPDAST-GCN 1 1 97.8 92.2 88.8 74.3 88.3 1 2 96.8 92.6 91.0 76.0 89.1 1 3 97.4 90.0 91.8 79.0 89.6 -
[1] 王汝言, 陶中原, 赵容剑, 等. 多交互图卷积网络用于方面情感分析[J]. 电子与信息学报, 2022, 44(3): 1111–1118. doi: 10.11999/JEIT210459.WANG Ruyan, TAO Zhongyuan, ZHAO Rongjian, et al. Multi-interaction graph convolutional networks for aspect-level sentiment analysis[J]. Journal of Electronics &Information Technology, 2022, 44(3): 1111–1118. doi: 10.11999/JEIT210459. [2] 韩虎, 吴渊航, 秦晓雅. 面向方面级情感分析的交互图注意力网络模型[J]. 电子与信息学报, 2021, 43(11): 3282–3290. doi: 10.11999/JEIT210036.HAN Hu, WU Yuanhang, and QIN Xiaoya. An interactive graph attention networks model for aspect-level sentiment analysis[J]. Journal of Electronics &Information Technology, 2021, 43(11): 3282–3290. doi: 10.11999/JEIT210036. [3] 陈晓禾, 曹旭刚, 陈健生, 等. 基于三维卷积的帕金森患者拖步识别[J]. 电子与信息学报, 2021, 43(12): 3467–3475. doi: 10.11999/JEIT200543.doi:10.11999/JEIT200543.CHEN Xiaohe, CAO Xugang, CHEN Jiansheng, et al. Shuffling step recognition using 3D convolution for parkinsonian patients[J]. Journal of Electronics &Information Technology, 2021, 43(12): 3467–3475. doi: 10.11999/JEIT200543.doi:10.11999/JEIT200543. [4] 许文正, 黄天欢, 贲晛烨, 等. 跨视角步态识别综述[J]. 中国图象图形学报, 2023, 28(5): 1265–1286. doi: 10.11834/jig.220458.XU Wenzheng, HUANG Tianhuan, BEN Xianye, et al. Cross-view gait recognition: A review[J]. Journal of Image and Graphics, 2023, 28(5): 1265–1286. doi: 10.11834/jig.220458. [5] SEPAS-MOGHADDAM A and ETEMAD A. Deep gait recognition: A survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(1): 264–284. doi: 10.1109/TPAMI.2022.3151865. [6] BHATTACHARYA U, RONCAL C, MITTAL T, et al. Take an emotion walk: Perceiving emotions from gaits using hierarchical attention pooling and affective mapping[C]. The 16th European Conference on Computer Vision, Glasgow, UK, 2020: 145–163. [7] BHATTACHARYA U, MITTAL T, CHANDRA R, et al. STEP: Spatial temporal graph convolutional networks for emotion perception from gaits[C]. The 34th AAAI Conference on Artificial Intelligence, New York, USA, 2020: 1342–1350. [8] SUN Xiao, SU Kai, and FAN Chunxiao. VFL—A deep learning-based framework for classifying walking gaits into emotions[J]. Neurocomputing, 2022, 473: 1–13. doi: 10.1016/j.neucom.2021.12.007. [9] SHENG Weijie and LI Xinde. Multi-task learning for gait-based identity recognition and emotion recognition using attention enhanced temporal graph convolutional network[J]. Pattern Recognition, 2021, 114: 107868. doi: 10.1016/j.patcog.2021.107868. [10] HOANG T and CHOI D. Secure and privacy enhanced gait authentication on smart phone[J]. The Scientific World Journal, 2014, 2014: 438254. doi: 10.1155/2014/438254. [11] YAN Sijie, XIONG Yuanjun, and LIN Dahua. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]. Proceedings of the 32nd AAAI Conference on Artificial Intelligence, New Orleans, USA, 2018. [12] CHEN Zhan, LI Sicheng, YANG Bing, et al. Multi-scale spatial temporal graph convolutional network for skeleton-based action recognition[C]. The 35th AAAI Conference on Artificial Intelligence, 2021: 1113–1122. [13] FENG Dong, WU Zhongcheng, ZHANG Jun, et al. Multi-scale spatial temporal graph neural network for skeleton-based action recognition[J]. IEEE Access, 2021, 9: 58256–58265. doi: 10.1109/ACCESS.2021.3073107. [14] RAHEVAR M, GANATRA A, SABA T, et al. Spatial-temporal dynamic graph attention network for skeleton-based action recognition[J]. IEEE Access, 2023, 11: 21546–21553. doi: 10.1109/ACCESS.2023.3247820. [15] SHI Lei, ZHANG Yifan, CHENG Jian, et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 12018–12027. DOI: 10.1109/CVPR.2019.01230. [16] SI Chenyang, CHEN Wentao, WANG Wei, et al. An attention enhanced graph convolutional LSTM network for skeleton-based action recognition[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 1227–1236. [17] LIU Ziyu, ZHANG Hongwen, CHEN Zhenghao, et al. Disentangling and unifying graph convolutions for skeleton-based action recognition[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 140–149. [18] GEDAMU K, JI Yanli, GAO Lingling, et al. Relation-mining self-attention network for skeleton-based human action recognition[J]. Pattern Recognition, 2023, 139: 109455. doi: 10.1016/j.patcog.2023.109455. [19] ZHOU Yujie, DUAN Haodong, RAO Anyi, et al. Self-supervised action representation learning from partial spatio-temporal skeleton sequences[C]. The 37th AAAI Conference on Artificial Intelligence, Washington, USA, 2023: 3825–3833. [20] IONESCU C, PAPAVA D, OLARU V, et al. Human3.6m: Large scale datasets and predictive methods for 3D human sensing in natural environments[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1325–1339. doi: 10.1109/TPAMI.2013.248. [21] NARANG S, BEST A, FENG A, et al. Motion recognition of self and others on realistic 3D avatars[J]. Computer Animation and Virtual Worlds, 2017, 28(3/4): e1762. doi: 10.1002/cav.1762. [22] SHI Lei, ZHANG Yifan, CHENG Jian, et al. Skeleton-based action recognition with directed graph neural networks[C]. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 7904–7913. [23] DABRAL R, MUNDHADA A, KUSUPATI U, et al. Learning 3D human pose from structure and motion[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 679–696. [24] HABIBIE I, HOLDEN D, SCHWARZ J, et al. A recurrent variational autoencoder for human motion synthesis[C]. In Proceedings of the 28th British Machine Vision Conference (BMVC), London, UK, 2017: 119.1–119.12. [25] RANDHAVANE T, BHATTACHARYA U, KAPSASKIS K, et al. Identifying emotions from walking using affective and deep features[J]. arXiv: 1906.11884, 2019. -