Group Activity Recognition under Multi-scale Sub-group Interaction Relationships
-
摘要: 群体行为识别旨在识别包含多个个体的群体行为。在现实场景中,群体行为通常可以被视为从群体到子群体再到个人的层次结构。然而,以前的群体行为识别方法主要侧重于对个体之间的关系进行建模,缺乏对子群体之间关系的深度研究。从该角度出发,该文提出一种基于多尺度子群体交互关系(MSIR)的多层次群体行为识别框架。除对个体关系进行建模外,重点关注了子群体之间的多尺度交互特征。具体优化如下:设计子群体划分模块,通过个体外观特征和其空间位置来聚合可能存在关联的个体,再进一步利用语义信息动态地生成不同尺度大小的子群体;设计子群体交互特征提取模块,通过构建不同子群体之间的交互矩阵以及图神经网络的关系推理能力,提取更具判别力的子群体特征。实验结果表明,与现有12种方法在排球数据集和集体活动数据集这两个群体行为识别基准数据集上对比,该文方法都取得最好的性能结果。作为一个易于扩展和优化的群体行为识别框架,该算法在不同数据集上都具有较好的泛化能力。Abstract: Group activity recognition aims to identify behaviors involving multiple individuals. In real-world applications, group behavior is often treated as a hierarchical structure, which consists group, subgroups and individuals. Previous researches have been focused on modeling relationships between individuals, without in-depth relationship analysis between subgroups. Therefore, a novel hierarchical group activity recognition framework based on Multi-scale Sub-group Interaction Relationships (MSIR) is proposed, and an innovative multi-scale interaction features extraction method between subgroups is presented as specified below. A sub-group division module is implemented. It aggregates individuals with potential correlations based on their appearance features and spatial positions, then dynamically generates subgroups of different scales using semantic information. A sub-group interactive feature extraction module is developed to extract more discriminative subgroup features. It constructs interaction matrices between different subgroups and leverages the relational reasoning capabilities of graph neural networks. Compared with existing twelve methods on benchmark datasets for group behavior recognition, including volleyball and collective activity datasets, the methodology of this paper demonstrates superior performance. This research presents an easily extendable and adaptable group activity recognition framework, exhibiting strong generalization capabilities across different datasets.
-
Key words:
- Activity recognition /
- Group activity /
- Sub-group division /
- Relational reasoning
-
1. 引言
群体行为识别是视频理解领域中的关键科学问题,在安防、预警、社会管理等领域发挥着重要作用。传统的行为识别一般仅关注个别或少数人的信息,然而,群体行为识别面对的场景通常包含大量个体,呈现出复杂多样的情境。具体来说,群体行为识别算法不仅需要准确识别个体的行为,还需要将这些个体的信息集成,从而推断整个群体的行为。因此,如何有效地汇聚个体信息成为影响识别结果的一个关键因素。
目前,群体行为识别领域面临着两个主要挑战:如何将多个个体划分为子群体并建立层次结构,以及如何捕捉具有判别性的个人交互特征。对于第1个挑战,通常采用基于层次结构的划分方法,例如,层次关系网络[1](Hierarchical Relational Networks, HRN)根据个体空间位置划分多个不同尺度的子群体。对于第2个挑战,许多方法利用个体的外观特征和空间位置来建模他们之间的关系,如关系图方法[2](Learning Actor Relation Graphs, LARG)利用点乘法来度量特征相似度。然而,过去的方法通常仅考虑了子群体之间的空间位置关系,忽略了行为的相似性和子群体的动态变化。此外,对于交互关系的建模,以往的方法主要关注个体之间的关系,却忽略了对子群体之间关系的深入研究。因此,本文提出从动态子群体的角度入手,以更好地建模子群体之间的交互关系,为群体活动识别领域提供了新的解决方案。
本文提出一种基于层次结构的群体行为识别网络(Multi-scale Sub-group Interaction Relationships, MSIR),该网络算法的重点在于子群体关系生成部分,该部分由两个主要模块组成,子群体划分模块(Sub-group Division Module, SDM)和子群体交互特征提取模块(Sub-group Interactive Feature Extraction Module, SIFEM)。首先,SDM负责划分子群体,具体来说,SDM将空间位置信息映射到与外观特征相同的维度,再将它们融合在一起,从而动态地构造子群体,以使子群体在语义信息上更加相似。其次,SIFEM在建模过程中使用关系邻接矩阵(Relation Adjacency Matrix, RAM)来表达子群体之间的交互关系,RAM矩阵依赖不同个体的空间位置距离和外观特征的相似度,从而在个体层次描述子群体之间的关系。此外,还引入关系注意力矩阵来过滤冗余关系,使SIFEM能够更好地捕获具有判别性的关系特征。
本文的贡献总结如下:
(1)提出一种基于层次结构的群体行为识别框架MSIR,能在网络内部动态地划分子群体;
(2)设计SDM模块以同时考虑个体外观特征和空间位置,使划分到同一子群体的语义信息更为相似;
(3)提出SIFEM模块来构建子群体之间的关系矩阵,从而提取子群体之间的交互特征;
(4)在两个公开数据集上,MSIR相较于主流方法,可以达到先进的群体行为识别性能。
2. 相关工作
2.1 群体行为识别
群体行为识别任务作为视觉领域的研究热点之一,其中大多数方法都采用卷积神经网络(Convolutional Neural Network, CNN)、长短期记忆网络(Long Short Term Memory, LSTM)和Transformer等架构来实现。这些方法可分为以下两类:第1类是通过构建层次结构对群体行为进行分类。例如,文献[3]详细描述了各个层次的人类行为,认为层次结构是基于不同层级的解释来构建的。某个个体行为在低层级可被解释为“站立”行为,在高层次上可变成“防御”行为(排球动作)。HiGCIN[4]从更细粒度的角度构造层次结构,提出了身体区域推理模块(Body-regions Inference Module, BIM)和人推理模块(Persons Inference Module, PIM),其中BIM用于捕捉身体区域特征之间的关系,而PIM则提取个体特征之间的时空依赖关系。Zhu等人[5]提出HSTT,将层次概念与时空Transformer结合,采用层次策略自适应地捕捉个体的空间交互和跨帧时间依赖,并引入运动轨迹分支辅助最终决策。另一类则是通过生成交互关系来拟合群体行为。Hu等人[6]构建一个语义图来描述个体之间的交互关系,再通过两个智能体根据马尔可夫决策过程策略对语义关系图进行调整。LARG[2]提出使用个体关系图来模拟个体之间的交互关系,通过个体的外观特征和位置信息构造关系图,最后利用GCN层对特征进行聚合。文献[7]提出一种统一Transformer编码器(Universal Transformer Encoder, UTE),首先在条件随机场中加入时空注意力机制,以同时学习到单独个体的时间演化和个体之间的空间关联。Wang等人[8]为了解决遮挡和视觉偏差问题,将个体的3D特征重建并构造统一的时空图,该方法利用个体的深度信息,确定了更为精确的空间和运动交互关系。
然而现有方法均存在不足,基于层次结构的研究停留在细粒度或将所有个体视为整体,忽略了其他潜在层级。基于交互关系的方法只考虑固定结构下的时空特征,缺乏多层级逐步理解群体交互关系。为此,本文提出了基于多尺度子群体交互关系的群体行为识别方法,增加了多个层次关系,建立子组并详细建模子组间的交互关系。
2.2 图神经网络
近年来,随着大量非欧氏空间数据的涌现,图卷积网络(Graph Convolutional Network, GCN)在计算机视觉领域得到广泛应用。在这些研究中,文献[9]设计的模块为在各种任务中大规模应用图卷积提供了简单的模板。在行为识别场景中,人体骨架被视为一个图形结构,行为动作可以直接体现在人体骨架的运动规律,所以诸多基于骨架数据的研究[10, 11]都采用了图卷积网络。然而,在群体行为场景下,大量的个体以及个体之间的遮挡使得姿态估计算法难以精确地预测个体骨架中关键点的正确坐标。许多研究尝试另一种建模方法,将每个个体作为节点构成一个图,图中的边则表示个体之间的联系。在DRGCN[12]中,通过CNN提取个体的单独特征后,再使用提出的深度关系GCN网络来学习个体之间的关系图,最后整合这些特征完成群体行为识别。IARG[13]使用归一化互相关和绝对差总和来计算外观相似度并构建Actor关系图,再使用GCN学习如何对群体行为进行分类。在本文工作中,采用Kipf等人[9]提出的GCN来对交互特征进行推理。
3. 实验方法
3.1 总体框架
图1是本文提出方法MSIR的框架图。给定一个视频序列和每个个体的边界框,该框架分为4个步骤:第1步,以Inception-v3为特征提取网络,提取图像特征。根据每个个体的边界框,采用RolAlign算法得到个体的外观特征。第2步,基于个体的外观特征和空间位置特征,使用SDM对子群体进行划分。然后,使用SIFEM对划分的子群体构建RAM矩阵,并使用GCN学习子群体之间的交互特征。第3步,构建个体关系图(Individual Relation Graph, IRG),再利用GCN来学习个体之间的交互特征。第4步,对子群体和个人的交互特征使用逐元素矩阵加法融合。然后在融合特征上应用两个分类器分别对个体行为和群体行为进行分类。
3.2 子群体分支
群体行为可以通过不同层次子群体的互动行为来呈现。通过精细划分群体,模型更精确地捕捉群体内各子集的行为动态,有助于建模复杂群体动态。因此,子群体之间的互动特征显得尤为重要。然而,这种交互关系在网络中很难捕捉。受最近关系推理和图神经网络的启发,本文在设计网络架构中使用矩阵来表示不同子群体之间的关系。如图1所示,子群体分支主要包含子群体划分模块SDM和子群体交互特征提取模块SIFEM这两部分。
3.2.1 子群体划分模块SDM
先前的群体分割方法如HRN[1],依赖空间上的近距离来划分子群体,这种方法仅关注了空间信息,忽略了个体之间在行为特性上具有潜在的关联。因此,本文设计SDM来更加关注子组划分过程中个体行为的语义信息。在SDM中,个体的位置定义为(xpos,ypos),xpos和ypos是边界框中心点的坐标。然后,使用多层感知器将空间位置信息映射到D维位置特征。位置特征和外观特征再通过逐元素相加得到个体特征。对每个个体特征,计算与其他个体特征之间的余弦相似度,再选择相似度最高的前k个个体划分为同一子群体。由于不同帧中同一个体特征可能不同,所以需要动态划分子群体。此外,固定尺度的子群体无法捕捉所有交互关系。因此,通过调整k的值构建不同尺度的子群体,随着不同尺度子群体信息增加,形成更具表达力的群体行为特征。同时,再设计一种扩张选择策略,即选择最相似的k个个体进行比较。
3.2.2 子群体交互特征提取模块SIFEM
子群体划分后,设计SIFEM用于捕捉子群体之间的交互关系。通过基于位置距离的几何矩阵以及基于特征相似性关系注意力矩阵,共同组成了关系邻接矩阵RAM,具体过程如图2所示,其中包含了两个子群体,分别以黄色、蓝色表示。
几何矩阵RAMg。目的是从子群体的密切接触信息中提取交互特征。如图2所示的排球比赛中,当距离很近的黄色子群体在网的两侧跳跃时,可判定为进攻动作。与此同时,其他蓝色子群体并不提供关键信息。因此,更接近的子群体通常具有更高的相关性。几何矩阵计算如式(1)所示
RAMg[t,gti,gtj]=exp(−‖Fpos(gti)−Fpos(gtj)‖2Cin) (1) 其中,Cin是输入特征的通道数,Fpos为空间位置特征,gti为第t帧中的子群体i。RAMg值越大,子群体之间的欧氏距离越小,并且RAMg的值被限制为[0,1]。
关系注意力矩阵RAMr。用于计算特征之间的相似度,更好地捕捉不同空间距离上的交互关系。例如,所有子群体在“排队”行为中都保持相同的“等待动作”,这也是区分不同群体行为的关键线索。关系注意力矩阵计算如式(2)所示
RAMr=h(f(Fg(gti)T,Fg(gtj))) (2) 其中,f为余弦距离计算函数,h是变换后的Tanh函数,它将值限制为[0,1]。
然后,将几何矩阵和关系注意力矩阵组合成RAM,RAM的计算如式(3)所示
RAM=(1−α)RAMg+αRAMr (3) 其中,α为可学习参数,值设置在0~1,初始化为0.5。
在此基础上,为防止模型过拟合,本文采用两种稀疏策略对图进行稀疏处理。第1种策略为简单地去掉不相关的连接,过程表示为式(4)
RAM[t,gti,gtj]={RAM[t,gti,gtj],0,RAM[t,gti,gtj]≥0.5RAM[t,gti,gtj]<0.5 (4) 第2种策略为随机丢弃图的节点,使图结构达到稀疏状态。对于图神经网络中的矩阵,过去的方法使用Softmax对矩阵进行归一化,但是Softmax并不能消除弱连接的影响。在本文工作中,用式(5)进行归一化
RAM=D−12rRAMD−12c (5) 其中,D−12r和D−12c是用于归一化的对角矩阵,这两个矩阵的值对应RAM行和列的累加和。
3.2.3 交互特征学习
本节中,交互特征是基于层次关系进行推理学习。通过两个GCN层的特征聚合,可以得到子群体的交互特征。第1层GCN基于RAM对交互关系进行推理,即子群体a和子群体b之间计算1个RAM矩阵,然后,GCN层将子群体b的特征和RAM作为输入,计算得到子群体a的交互特征,可表示为式(6)
Z(l+1)=σ(Z(l)W(l)RAM) (6) 其中,σ(⋅)表示激活函数ReLU,Z(l)∈RN×D为第l层的子群体交互特征,Z(0)=Fg(gtb)为子群体b的外观特征,W(l)∈RD×D为可学习的权重矩阵。同理,对于子群体b的交互特征使用相同的操作,而输入是子群体a的特征和转置RAM矩阵。然后,为每个子群体定义一个邻接信息矩阵A,如图2所示。该矩阵使子群体划分模块中当前计算的个体与子群体中的所有其他个体建立连接关系,当前个体定义视作中心个体。第2层GCN层以第1层GCN的输出和矩阵A作为输入,输出D维交互特征。最终,可以获得维度为T×N×D的子群体交互特征,该过程可表示为式(7)
FS=σ(FiAW) (7) 其中,Fi为独立的子群体交互特征,FS表示聚合后的子群体交互特征。
3.3 个体分支
个体交互关系也是本文多层次关系中的重要组成部分。与子群体类似,本文同样使用图的结构来描述不同个体之间的关系。图中的节点代表一组个体A={(xai,xsi)|i=1,2,⋯,N},其中xai∈RD为对应个体的外观特征,xsi=(txi,tyi)是个体边界框的中心点坐标。本文构建个体关系图IRG∈RN×N来表示个体之间的成对关系,IRGi,j则表示个体i对个体j的重要性。对于交互关系的计算,本文同时考虑外观特征和空间位置特征,设计一种类似于计算子群体之间相似度的方法,如式(8)所示
IRGi,j=hs(xsi,xsj)+ha(xai,xaj)N∑j=1(hs(xsi,xsj)+ha(xai,xaj)) (8) 其中,ha(xai,xaj)表示个体之间的余弦相似度,hs(xsi,xsj)表示个体之间的空间位置关系。
3.4 训练损失
本文所提出的网络以端到端方式进行训练,以同时识别个人行为和群体行为。对两个任务使用交叉熵损失,并将两个损失合并为加权和,如式(9)所示
L=L1(yG,ˆyG)+λL2(yI,ˆyI) (9) 其中,L1和L2是交叉熵损失函数,yG和yI分别是群体行为和个人行为的真实标签,ˆyG和ˆyI分别是模型对群体行为和个人行为的预测标签,λ是用于平衡两个任务的权重。
4. 实验结果与分析
4.1 数据集
排球数据集[14]由55个排球比赛视频组成,被分为两个子数据集。其中一个为包含39个视频的训练集,裁剪为3 493个视频帧;另一个是包含其余16个视频的测试集,裁剪成1337个视频帧。共计8个群体行为标签和9个个体行为标签。每个片段被切成41帧,只有中间部分的视频帧提供了完整的群体行为类别、个体行为类别和个体的边界框。文献[15]中,给剩余的帧添加了标签和边界框,本文在此基础上进行实验。集体行为数据集[16]由44个视频序列组成,共计有5个群体行为标签和6个个体行为标签。群体的行为类别由参与者中占多数的行为类别决定。本文使用与stageNet[17]相同的评估方法,选择1/3的视频进行测试,其余的作为训练集。其中,排球数据集人员层次相对清晰,共计12人参与待识别的群体行为中,而集体行为数据集拍摄于街道场景,人员流动较大,结构松散多变,没有显著的层次关系,同时人员数量存在差异。
4.2 实验细节
为了公平比较,本文将排球数据集中的每帧图像的尺寸大小调整为720×1280,集体行为数据集调整为720×480。在所有本文试验中,使用Inception-v3来提取个体的外观特征。对于每个个体,使用RolAlign根据其边界框提取1024维的特征向量。在训练过程中,从视频序列间隔10帧来抽取图像共计3帧。出于对显存大小的考虑,本文所提出的方法分为两部分:首先,对在ImageNet上预训练模型进行微调。然后,在特征提取网络参数固定的情况下,利用该模型构建多层次交互关系。在训练期间,采用超参数为β1=0.9,β2=0.999,ε=10−8的Adam优化策略。对于排球数据集,将批大小设置为6,学习率从0.0002到0.00001,总计训练150个轮次。对于集体行为数据集,将批大小设置为17,学习率设置为0.00001,总计训练100个轮次。本文方法在Ubuntu16.04上使用PyTorch框架来实现,所有实验是在两个显存为8 GB的GTX 1080Ti GPU上进行,所需显存较小。
对于损失函数的权重λ,本文进行了敏感性分析实验,依次设置为0.5, 0.3, 0.1在排球数据集上总计训练150个轮次。实验结果如图3所示,在前30个轮次中,取值为0.1时可以让模型的损失更快地下降,取值为0.5时会产生较大的波动,但随着训练轮次的增加,取值为0.3时可以保持更好的回归效果,这是因为前期对于整体的关注可以辅助群体行为的初步理解,在后期阶段由于个体冗余信息的参与阻碍了识别效果的进一步提升,因此λ取值为0.3时可以最好地实现全局和局部语义的统一。
4.3 与现有方法对比结果
为了实现在排球数据集和集体行为数据集上开展定量与定性试验比较,本文分别采用多数方法采用的骨干网络Inception-v3和VGG16。表1表示本文方法与其他先进方法[1,2,5, 7,18–25]在两个群体行为数据集上的定量对比。在排球数据集上,本文提出的MSIR方法达到了95.2%的准确率,比SOTA方法高出0.2%,在集体行为数据集上,同样是以Inception-v3为骨干网络的MSIR达到了最高准确率即96.4%,比SOTA方法Composer[25]高出了0.2%。其中有些方法[18,19,21,23,24]仅从个体和整个群体的角度分别建模,忽略了个体之间潜在的子群体语义。有些方法[1,7,22,25]虽然考虑到了子群体级别特征,但是子群体划分方式粗糙或者仅依赖单一尺度进行推理,同样无法最有效地利用该特征。因此可以看出本文方法MSIR相对于其他先进方法,利用子群体级别信息加强了对多尺度交互特征的学习,从而达到了最佳的性能表现。
表 1 排球测试数据集和集体行为测试数据集上不同方法的准确率(%)比较方法 发表时间 骨干网络 个人行为准确率(排球) 群体行为准确率(排球) 群体行为准确率(集体行为) HRN ECCV2018 VGG16 – 89.1 – ARG CVPR2019 Inception-v3 81.2 92.1 90.5 Pramono等人 ECCV2020 I3D 83.1 95.0 95.2 DIN ICCV2021 VGG16 – 93.6 95.9 COMPOSER ECCV2022 Transformer 86.8 94.2 96.2 VSGNN-PAL Neurocomputing2022 I3D 85.8 94.4 93.2 Wu等人 Sensors2022 I3D 84.1 94.1 92.2 GRAIN IJCAI2022 VGG16 – 94.5 95.2 HSTT ICASSP2023 Inception-v3 83.9 93.7 96.1 Wu等人 TCSVT2023 Inception-v3 – 92.4 85.0 Du等人 TCSVT2023 Inception-v3 – 94.7 95.4 DECOMPL arXiv2023 VGG16 – 93.8 95.5 MSIR (本文) – VGG16 86.8 94.5 96.2 MSIR (本文) – Inception-v3 86.7 95.2 96.4 本文选择一些视频帧并可视化RAM,如图4所示。为了清晰简洁,每帧中只选择两个子群体,其中一个用黄色边界框,另一个用红色边界框。线条用来连接具有强交互关系的个体,其亮度表示这种交互关系的强度。图下方的矩阵是相应子群体之间的RAM。由于RAM使用归一化操作,去除了弱连接,所有的个体不一定都是相互关联的,所以仅当两个个体之间的关系较强时,RAM中相应的位置才会存在一个非0的值。从可视化中可以发现RAM能够准确地捕捉并学习子群体之间的关键交互信息。例如,在第3列中,击球手和拦截者之间的关系具有较大的权重值,这种相互作用对于识别进攻的群体行为非常重要。
4.4 消融实验
4.4.1 子群体划分
本节验证了子群体划分模块的有效性,通过在排球测试数据集上进行定量实验对比。使用不同的子群体构建策略,并基于Inception-v3骨干网络进行比较。结果如表2所示,与传统方法相比,使用设计的SDM模块可以获得更好的识别效果。SDM划分的子群体具有低相似度和低冗余度,有助于提取不同子群体行为之间的关系。对于个体选择策略的比较,扩张选择策略因为其较低的有效关联度导致并没有提高准确性,反而降低了精度。因此,本文最终选择了SDM划分子群体,并选择k个最相似的个体组成子群体。
表 2 子群体划分模块的定向实验比较(%)策略 具体方法 排球数据集准确率 子群体划分 距离划分 92.1 SDM (本文) 95.2 个体选择 传统选择 95.2 扩张选择 93.5 4.4.2 多尺度信息
如表3所示,本文对不同尺度子群体的性能进行了定量比较,模型基于Inception-v3骨干网络。通过改变k的值,可以得到不同尺度的子群体。实验结果表明,在单尺度上,个体数目为2或5时,有较好的识别效果。综合两种单尺度取值,即多尺度(k=2, 5),获得最佳的识别效果。同时使用多层次关系时,本文方法在排球数据集和集体活动数据集上达到了最高精度,分别为95.2%和96.4%。与不使用子群体的模型相比,两个数据集的准确率分别提高了4.4%和7%。这证明群体行为是一个多层次结构,子群体的交互信息是多层次存在的。集体活动数据集的分析也表明,本文的改进方法不仅适用于具备明显层次结构的排球行为,还可以提高其他类型群体行为的识别精度。
表 3 子群体尺度的定量实验比较(%)子群体尺度 个体数目k 排球数据集准确率 集体活动数据集准确率 无 – 90.8 89.4 单尺度 2 93.8 94.9 单尺度 3 91.3 90.2 单尺度 4 91.6 91.3 单尺度 5 92.6 93.5 单尺度 6 92.4 93.2 多尺度 2, 5 95.2 96.4 4.4.3 子群体交互特征
本文对SIFEM进行消融实验研究,以验证SIFEM中不同组件的有效性。通过在排球数据集比较8种不同组件模型的识别精度。从表4可以看出,完整模型的精度较变种1高,表明SIFEM学习的子群体交互关系对群体行为分类至关重要,仅提取个体关系是不充分的。变种2的性能低于变种3和变种4,表明两个矩阵都提供关键信息。只使用其中一个时,精度下降说明两个矩阵可以提取不同的子群体交互信息并互补。变种3优于变种4,因为无监督生成的矩阵受益于先验知识,位置接近的子群体有更强的关系,而变种4缺乏这种先验知识。变种6, 7, 8相对于变种5都有性能提升,说明在图神经网络设计中,归一化邻接矩阵和稀疏图对学习效果有较大提升。
表 4 SIFEM中不同组件的定量实验比较模型
变种模型介绍 RAMg RAMr 归一化 稀疏 排球数据集
准确率(%)1 基准模型 90.8 2 RAM为全一矩阵 √ √ 91.5 3 只有RAMg √ √ √ 94.7 4 只有RAMr √ √ √ 91.9 5 无归一化和稀疏化 √ √ 92.7 6 无归一化 √ √ √ 93.6 7 无稀疏化 √ √ √ 94.5 8 完整模型 √ √ √ √ 95.2 5. 结束语
本文提出一种新型基于多尺度子群体的多层次群体识别网络框架MSIR。研究通过探索个体和子群体之间的交互关系,并结合关系图推理,实现了个体行为和群体行为的同时分类。该框架涵盖了子群体分支和个体分支,用于提取子群体和个体之间的交互特征。在子群体分支中,本文设计了子群体划分模块,该模块实现了一种符合人类逻辑且具有较高可解释性的子群体划分方法。此外,还设计了一种关系邻接矩阵,并将其应用于子群体交互特征提取模块,以表示子群体之间复杂潜在的交互关系。相对于其他研究结果,本方法在两个公共数据集上都取得了较好的性能结果。同时,在有限的显存情况下,该算法表现出良好的群体行为泛化能力。未来的研究可以集中在多模态信息对群体行为识别的影响上,并进一步探索不同模态之间的可解释关系,例如引入人体关键点和有效的背景信息。
-
表 1 排球测试数据集和集体行为测试数据集上不同方法的准确率(%)比较
方法 发表时间 骨干网络 个人行为准确率(排球) 群体行为准确率(排球) 群体行为准确率(集体行为) HRN ECCV2018 VGG16 – 89.1 – ARG CVPR2019 Inception-v3 81.2 92.1 90.5 Pramono等人 ECCV2020 I3D 83.1 95.0 95.2 DIN ICCV2021 VGG16 – 93.6 95.9 COMPOSER ECCV2022 Transformer 86.8 94.2 96.2 VSGNN-PAL Neurocomputing2022 I3D 85.8 94.4 93.2 Wu等人 Sensors2022 I3D 84.1 94.1 92.2 GRAIN IJCAI2022 VGG16 – 94.5 95.2 HSTT ICASSP2023 Inception-v3 83.9 93.7 96.1 Wu等人 TCSVT2023 Inception-v3 – 92.4 85.0 Du等人 TCSVT2023 Inception-v3 – 94.7 95.4 DECOMPL arXiv2023 VGG16 – 93.8 95.5 MSIR (本文) – VGG16 86.8 94.5 96.2 MSIR (本文) – Inception-v3 86.7 95.2 96.4 表 2 子群体划分模块的定向实验比较(%)
策略 具体方法 排球数据集准确率 子群体划分 距离划分 92.1 SDM (本文) 95.2 个体选择 传统选择 95.2 扩张选择 93.5 表 3 子群体尺度的定量实验比较(%)
子群体尺度 个体数目k 排球数据集准确率 集体活动数据集准确率 无 – 90.8 89.4 单尺度 2 93.8 94.9 单尺度 3 91.3 90.2 单尺度 4 91.6 91.3 单尺度 5 92.6 93.5 单尺度 6 92.4 93.2 多尺度 2, 5 95.2 96.4 表 4 SIFEM中不同组件的定量实验比较
模型
变种模型介绍 RAMg RAMr 归一化 稀疏 排球数据集
准确率(%)1 基准模型 90.8 2 RAM为全一矩阵 √ √ 91.5 3 只有RAMg √ √ √ 94.7 4 只有RAMr √ √ √ 91.9 5 无归一化和稀疏化 √ √ 92.7 6 无归一化 √ √ √ 93.6 7 无稀疏化 √ √ √ 94.5 8 完整模型 √ √ √ √ 95.2 -
[1] IBRAHIM M S and MORI G. Hierarchical relational networks for group activity recognition and retrieval[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 742–758. doi: 10.1007/978-3-030-01219-9_44. [2] WU Jianchao, WANG Limin, WANG Li, et al. Learning actor relation graphs for group activity recognition[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Bench, USA, 2019: 9956–9966. doi: 10.1109/Cvpr.2019.01020. [3] LAN Tian, SIGAL L, and MORI G. Social roles in hierarchical models for human activity recognition[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012: 1354–1361. doi: 10.1109/CVPR.2012.6247821. [4] YAN Rui, XIE Lingxi, TANG Jinhui, et al. HiGCIN: Hierarchical graph-based cross inference network for group activity recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(6): 6955–6968. doi: 10.1109/Tpami.2020.3034233. [5] ZHU Xiaolin, WANG Dongli, and ZHOU Yan. Hierarchical spatial-temporal transformer with motion trajectory for individual action and group activity recognition[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Rhodes Island, Greece, 2023: 1–5. doi: 10.1109/ICASSP49357.2023.10096109. [6] HU Guyue, CUI Bo, HE Yuan, et al. Progressive relation learning for group activity recognition[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 977–986. doi: 10.1109/Cvpr42600.2020.00106. [7] PRAMONO R R A, CHEN Y T, and FANG W H. Empowering relational network by self-attention augmented conditional random fields for group activity recognition[C]. The 16th European Conference on Computer Vision, Glasgow, UK, 2020: 71–90. doi: 10.1007/978-3-030-58452-8_5. [8] WANG Lukun, FENG Wancheng, TIAN Chunpeng, et al. 3D-unified spatial-temporal graph for group activity recognition[J]. Neurocomputing, 2023, 556: 126646. doi: 10.1016/j.neucom.2023.126646. [9] KIPF T N and WELLING M. Semi-supervised classification with graph convolutional networks[C]. The 5th International Conference on Learning Representations, Toulon, France, 2017. [10] 曹毅, 吴伟官, 李平, 等. 基于时空特征增强图卷积网络的骨架行为识别[J]. 电子与信息学报, 2023, 45(8): 3022–3031. doi: 10.11999/JEIT220749.CAO Yi, WU Weiguan, LI Ping, et al. Skeleton action recognition based on spatio-temporal feature enhanced graph convolutional network[J]. Journal of Electronics & Information Technology, 2023, 45(8): 3022–3031. doi: 10.11999/JEIT220749. [11] DUAN Haodong, ZHAO Yue, CHEN Kai, et al. Revisiting skeleton-based action recognition[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 2959–2968. doi: 10.1109/Cvpr52688.2022.00298. [12] FENG Yiqiang, SHAN Shimin, LIU Yu, et al. DRGCN: Deep relation gcn for group activity recognition[C]. 27th International Conference on Neural Information Processing, Bangkok, Thailand, 2020: 361–368. doi: 10.1007/978-3-030-63820-7. [13] KUANG Zijian and TIE Xinran. IARG: Improved actor relation graph based group activity recognition[C]. The Third International Conference on Smart Multimedia, Marseille, France, 2020. doi: 10.1007/978-3-031-22061-6_3. [14] AMER M R, LEI Peng, and TODOROVIC S. HiRF: Hierarchical random field for collective activity recognition in videos[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014, 8694: 572–585. doi: 10.1007/978-3-319-10599-4_37. [15] BAGAUTDINOV T, ALAHI A, FLEURET F, et al. Social scene understanding: End-to-end multi-person action localization and collective activity recognition[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 3425–3434. doi: 10.1109/Cvpr.2017.365. [16] CHOI W, SHAHID K, and SAVARESE S. What are they doing?: Collective activity classification using spatio-temporal relationship among people[C]. 2009 IEEE 12th International Conference on Computer Vision Workshops, Kyoto, Japan, 2009: 1282–1289. doi: 10.1109/ICCVW.2009.5457461. [17] QI Mengshi, QIN Jie, LI Annan, et al. stagNet: An attentive semantic RNN for group activity recognition[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018, 11214: 104–120. doi: 10.1007/978-3-030-01249-6_7. [18] DEMIREL B and OZKAN H. DECOMPL: Decompositional learning with attention pooling for group activity recognition from a single volleyball image[EB/OL]. https://arxiv.org/abs/2303.06439 2023. [19] DU Zexing, WANG Xue, and WANG Qing. Self-supervised global spatio-temporal interaction pre-training for group activity recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(9): 5076–5088. doi: 10.1109/Tcsvt.2023.3249906. [20] LI Wei, YANG Tianzhao, WU Xiao, et al. Learning graph-based residual aggregation network for group activity recognition[C]. The Thirty-First International Joint Conference on Artificial Intelligence, Vienna, Austria, 2022: 1102–1108. doi: 10.24963/ijcai.2022/154. [21] LIU Tianshan, ZHAO Rui, LAM K M, et al. Visual-semantic graph neural network with pose-position attentive learning for group activity recognition[J]. Neurocomputing, 2022, 491: 217–231. doi: 10.1016/j.neucom.2022.03.066. [22] WU Lifang, LANG Xianglong, XIANG Ye, et al. Active spatial positions based hierarchical relation inference for group activity recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(6): 2839–2851. doi: 10.1109/Tcsvt.2022.3228731. [23] WU Lifang, LANG Xixanglong, XIANG Ye, et al. Multi-perspective representation to part-based graph for group activity recognition[J]. Sensors, 2022, 22(15): 5521. doi: 10.3390/s22155521. [24] YUAN Hangjie, NI Dong, and WANG Mang. Spatio-temporal dynamic inference network for group activity recognition[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 7456–7465. doi: 10.1109/Iccv48922.2021.00738. [25] ZHOU Honglu, KADAV A, SHAMSIAN A, et al. COMPOSER: Compositional reasoning of group activity in videos with keypoint-only modality[C]. The 17th European Conference on Computer Vision, Tel Aviv, Israel, 2022: 249–266. doi: 10.1007/978-3-031-19833-5_15. -