Loading [MathJax]/jax/element/mml/optable/BasicLatin.js
Advanced Search
Volume 46 Issue 10
Oct.  2024
Turn off MathJax
Article Contents
Zheng He, HuHan-ying, Zhou Hua-ying. New Approach to Optimal Approximation of Tanh Rule for LDPC Codes under the Gaussian Approximation[J]. Journal of Electronics & Information Technology, 2006, 28(10): 1837-1841.
Citation: HUO Wei, WANG Ke, TANG Jun, WANG Nian, LIANG Dong. A Dual-stream Network Based on Body Contour Deformation Field for Gait Recognition[J]. Journal of Electronics & Information Technology, 2024, 46(10): 4062-4071. doi: 10.11999/JEIT231025

A Dual-stream Network Based on Body Contour Deformation Field for Gait Recognition

doi: 10.11999/JEIT231025
Funds:  The National Natural Science Foundation of China (62273001, 61772032), Anhui Provincial Key Research and Development Project (2022k07020006), The Natural Science Research Key Project of Anhui Educational Committee (KJ2021ZD0004)
  • Received Date: 2023-09-19
  • Rev Recd Date: 2024-09-04
  • Available Online: 2024-09-16
  • Publish Date: 2024-10-30
  • Gait recognition is susceptible to external factors such as camera viewpoints, clothing, and carrying conditions, which could lead to performance degradation. To address these issues, the technique of non-rigid point set registration is introduced into gait recognition, which is used to improve the dynamic perception ability of human morphological changes by utilizing the deformation field between adjacent gait frames to represent the displacement of human contours during walking. Accordingly, a dual-flow convolutional neural network-GaitDef exploiting human contour deformation field is proposed in this paper, which consists of deformation field and gait silhouette extraction branches. Besides, a multi-scale feature extraction module is designed for the sparsity of deformation field data to obtain multi-level spatial structure information of the deformation field. A dynamic difference capture module and a context information augmentation module are proposed to capture the changing characteristics of dynamic regions in gait silhouettes and consequently enhance gait representation ability by utilizing context information. The output features of the dual-branch network structure are fused to obtain the final gait representation. Extensive experimental results verify the effectiveness of GaitDef. The average Rank-1 accuracy of GaitDef can achieve 93.5%和68.3% on CASIA-B and CCPG datasets, respectively.
  • 步态识别是一种基于受试者的身体外形和行走方式实现身份认证的生物识别技术,然而现实场景中的相机视角、服装和携带物等因素会导致人体轮廓发生明显变化,从而给步态识别任务带来巨大挑战[1,2]

    根据研究对象的数据类型,步态识别方法可以大致分为两类:基于模型的方法[310]和基于表观的方法[1122]。近年来,基于步态剪影的表观学习方法表现出更为优秀的性能,且占用计算资源更少,因而该类方法逐渐成为主流。当前基于表观的深度步态识别方法大致可以分为3类。第1类方法[14,15]将步态序列当作一个无序的图像帧集合,分别提取帧级特征和集合级特征,并使用水平金字塔映射(Horizontal Pyramid Mapping, HPM)聚合全局和局部特征;第2类方法[1618]关注于步态特征在空间维度上的划分方式,并利用3D卷积神经网络(Convolutionnal Nerual Network, CNN)以获得全局时空特征和各个身体部分的局部时空表征;第3类方法[1922]侧重对步态序列进行时间关系建模和运动特性捕捉,尝试设计多尺度时间特征和运动特征提取方法。

    通过观察分析,步态剪影的有效信息集中在边缘轮廓,然而上述方法没有针对人体轮廓设计特定的特征提取方法。因此,Liang等人[23]提出GaitEdge,该方法利用语义分割从RGB图像中提取步态剪影,并将剪影中的边缘区域与对应位置的语义分割概率相乘,然后将该边缘与人体内部区域组合以得到边缘增强的步态剪影,但该方法依然缺乏重要的显式运动信息。针对该问题,本文创新性地借助点集配准中的形变场来刻画行走过程中人体轮廓的位移量和位移方向,该形变场不仅能够有效保留人体形态信息,还可以弥补GaitEdge缺乏显式运动信息的问题,为后续获取步态运动特征奠定良好基础。

    综上,本文的主要贡献包括:(1)针对步态剪影数据中运动信息不足的问题,本文首次将非刚性点集配准算法引入步态识别,利用人体轮廓形变场提升对运动变化的感知能力,并提出基于形变场和步态剪影的双路径网络模型GaitDef;(2)利用人体轮廓预处理和非刚性点集配准算法从剪影序列中获取人体轮廓形变场,并针对形变场数据的稀疏性,本文在形变场分支中设计多尺度特征提取模块以提升网络对形变场数据的表征能力;(3)针对受试者的行走特性,本文在步态剪影分支中提出帧间差异性特征提取模块以捕捉行走过程中人体的动态变化特征,并构建帧间上下文特征提取模块以提取连续步态帧之间的上下文信息。

    GaitDef的网络结构如图1所示,其主要包括形变场特征提取分支、步态剪影特征提取分支,全连接层(Fully Connected Layer, FC)[1416]和分类器(Classifier)组成。与多数直接将步态剪影作为输入数据的步态识别方法不同,本文利用经过点集配准得到的形变场提升对人体轮廓形状信息和运动特性的表征能力。

    图  1  GaitDef网络框架

    形变场和步态剪影数据分别经过特征提取网络得到形变场和步态剪影特征。在形变场分支中,形变场数据依次经过3维卷积(Conv3d)、时间聚合操作(Temporal Aggregation, TA)、多尺度特征提取模块(Multi-Scale Feature Extraction Module, MSFEM)、时间池化(Temporal Pooling, TP)和空间维度GeM(Generalized-Mean)池化。根据求和与拼接这两种特征融合方式,本文将MSFEM模块分别定义为MSFEM A和MSFEM B, MSFEM模块的结构如图2所示。此外,本文针对步态剪影设计了帧间差异性和上下文信息特征提取模块(Adjacent frame difference and Context Feature Extraction Module, ACFEM)。同样,根据特征融合方式将ACFEM模块定义为ACFEM A和ACFEM B,其结构如图3所示。

    图  2  多尺度特征提取模块(MSFEM)的网络结构
    图  3  帧间差异性和上下文信息特征提取模块(ACFEM)

    形变场特征和步态剪影特征通过相加操作得到最终的步态特征,该步态特征依次经过FC层和分类器。本文对全连接层的输出特征计算3元组损失(triplet loss),对分类器输出的结果计算交叉熵损失(cross-entropy loss)。

    在经典的非刚性点集匹配算法中,薄板样条鲁棒点匹配算法(Thin-Plate Spline RPM, TPS-RPM)[24]将退火算法、薄板样条和软分配用于空间变换和离群值的剔除,从而获得点集间的对应关系。由于人体轮廓变化是一种典型的非刚性变换,因而本文使用TPS-RPM算法对相邻帧的人体轮廓点进行非刚性点集配准,以刻画相邻帧之间的人体轮廓点对应关系和挖掘受试者在行走过程中所隐含的运动特征。

    图4(a)展示了从步态剪影生成形变场的过程,本文首先进行人体轮廓提取,利用等间隔抽样将连续的人体轮廓离散化,然后对相邻帧的轮廓点集合进行配准。人体轮廓配准可视化效果如图4(b)所示,红色圆圈代表前一帧的人体轮廓点,黄色十字代表后一帧的人体轮廓点。

    图  4  人体轮廓点离散化和配准过程

    TPS-RPM算法主要包含两个相互迭代的关键步骤:计算点集之间的对应关系M和求解非刚性空间变换函数f。假设两个待配准人体轮廓点集为V={va,a=1,2,,K}U={ui,i=1,2,,N},其中,vaR2×1uiR2×1是表示2维空间坐标点的列向量。定义X为中间变换点集,fVX的变换函数,V中每个点通过f映射到一个新位置xa=f(va)。点集配准的目标可以表示为最小化2次能量函数E(Z,f)

    min (1)

    {\boldsymbol{Z}} = \{ {z_{ai}}\} 是二值矩阵,它表示 {\boldsymbol{V}} {\boldsymbol{U}} 的对应关系矩阵,如果两个点对应,则该位置值为1,否则为0。

    式(1)中第2项的 {\left\| {{\bf{Lf}}} \right\|^2} 是引入的平滑性约束项,其可以表示为

    \begin{split} {\left\| {{\bf{Lf}}} \right\|^2} =\,& \int\limits_{ - \infty }^\infty \int\limits_{ - \infty }^\infty \left[ {{\left(\frac{{{\partial ^2}{\boldsymbol{f}}}}{{\partial {x^2}}}\right)}^2} + 2{{\left(\frac{{{\partial ^2}{\boldsymbol{f}}}}{{\partial x\partial y}}\right)}^2}\right.\\ & \left.+ {{\left(\frac{{{\partial ^2}{\boldsymbol{f}}}}{{\partial {y^2}}}\right)}^2} \right] {\mathrm{d}}x{\mathrm{d}}y \end{split} (2)

    第3项用于防止过多的点被判断为野点。 \lambda \xi 是权重参数。TPS-RPM使用关系矩阵 {\boldsymbol{M}} 代替 {\boldsymbol{Z}} 将整数匹配变换为实数匹配。 {\boldsymbol{M}} 的大小为 N \times K ,且 {\boldsymbol{M}} 中每个元素 {m_{ai}} 的取值范围为 [0,1] {m_{ai}} 越接近1表示两点对应程度越高。则式(1)可以表示为

    \begin{split} \mathop {\min}\limits_{{\boldsymbol{M}},{\boldsymbol{f}}} E({\boldsymbol{M}},f) = \,& \mathop {\min}\limits_{{\boldsymbol{M}},{\boldsymbol{f}}} \sum\limits_{i = 1}^N {\sum\limits_{a = 1}^K {{m_{ai}}} } {\left\| {{{\boldsymbol{u}}_i} - {\boldsymbol{f}}({{\boldsymbol{v}}_a})} \right\|^2} \\ & + \lambda {\left\| {{\bf{Lf}}} \right\|^2} - \xi \sum\limits_{i = 1}^N {\sum\limits_{a = 1}^K {{m_{ai}}} } \end{split} (3)

    在此基础上,迭代更新对应关系矩阵 {\boldsymbol{M}} 和变换函数 {\boldsymbol{f}} 。首先,根据退火参数 w 和空间变换 {\boldsymbol{f}} 更新对应矩阵 {\boldsymbol{M}} ,直至 w 达到或小于终止温度时终止

    {m_{ai}} = \frac{1}{w}\exp\left( { - \frac{{{{({{\boldsymbol{u}}_i} - {\boldsymbol{f}}({{\boldsymbol{v}}_a}))}^{\mathrm{T}}}({{\boldsymbol{u}}_i} - {\boldsymbol{f}}({{\boldsymbol{v}}_a}))}}{{2w}}} \right) (4)

    然后逐行、逐列对 {\boldsymbol{M}} 进行归一化,根据更新后的对应关系矩阵 {\boldsymbol{M}} 对变换函数 {\boldsymbol{f}} 进行更新

    \mathop {\min}\limits_{\boldsymbol{f}} E({\boldsymbol{f}}) = \mathop {\min}\limits_{\boldsymbol{f}} \sum\limits_{a = 1}^K {{{\left\| {{{\boldsymbol{y}}_a} - {\boldsymbol{f}}({{\boldsymbol{v}}_a})} \right\|}^2} + \lambda {{\left\| {{\bf{Lf}}} \right\|}^2}} (5)

    其中, {{\boldsymbol{y}}_a} = \displaystyle\sum\nolimits_{i = 1}^N {{m_{ai}}} {{\boldsymbol{u}}_i} ,变量 {{\boldsymbol{y}}_a} 为点集 {\boldsymbol{U}} 根据对应关系矩阵 {\boldsymbol{M}} 计算得到 {{\boldsymbol{v}}_a} 的对应点。

    最后,将TPS与式(5)中的能量目标 E({\boldsymbol{f}}) 结合,并展开平滑项 {\left\| {{\bf{Lf}}} \right\|^2} ,即可得到薄板样条能量函数

    \begin{split} {E_{{\mathrm{TPS}}}}({\boldsymbol{f}}) =\,& \sum\limits_{a = 1}^K {{\left\| {{{\boldsymbol{y}}_a} - {\boldsymbol{f}}({{\boldsymbol{v}}_a})} \right\|}^2} \\ & + \lambda \int\limits_{ - \infty }^\infty \int\limits_{ - \infty }^\infty \left[ {{\left(\frac{{{\partial ^2}{\boldsymbol{f}}}}{{\partial {x^2}}}\right)}^2} + 2{{\left(\frac{{{\partial ^2}{\boldsymbol{f}}}}{{\partial x\partial y}}\right)}^2} \right.\\ & \left.+ {{\left(\frac{{{\partial ^2}{\boldsymbol{f}}}}{{\partial {y^2}}}\right)}^2} \right] {\mathrm{d}}x{\mathrm{d}}y\\[-1pt] \end{split} (6)

    相邻帧人体轮廓集合经过配准可以对应关系矩阵 {\boldsymbol{M}} {\boldsymbol{M}} 记录了从点 {v_a} 移动到点 {u_i} 过程中水平和垂直方向的位移量。定义输入剪影序列 {\boldsymbol{S}} 维度为 1 \times T_0 \times H \times W T_0为序列的帧数, H \times W 代表图像的高度和宽度,通道数1表示剪影为灰度图像。定义点集配准输出的形变场序列 {\boldsymbol{D}} 的维度为 2 \times (T_0 - 1) \times H \times W ,通道数2为水平和垂直方向发生的位移量。 {\boldsymbol{D}} 记录了相邻两帧人体轮廓点间的对应关系。由于个体间行为习惯和人体形态存在差异,连续帧的形变场序列可以有效表征人体形态变化,提升对人体行为动作的动态感知能力。

    人体轮廓形变场虽然可以有效表征人体行走过程中的运动变化量,但其只在人体轮廓离散点上有数据。因此,本文在空间维度上使用多尺度卷积以提升对形变场数据的感知能力和获得高判别力步态特征。形变场分支的网络结构如图1所示,形变场 {\boldsymbol{D}} 经过3维卷积和时间聚合操作[16]得到特征 {{\boldsymbol{f}}_{\mathrm{D}}} ,该过程可以表示为

    {{\boldsymbol{f}}_{\mathrm{D}}} = {{\boldsymbol{F}}_{{\mathrm{TA}}}}({F_{{\mathrm{Conv3d}}}}({\boldsymbol{D}})) (7)

    其中, {{\boldsymbol{f}}_{\mathrm{D}}} 的维度为 {C_{{\mathrm{TA}}}} \times {T_{{\mathrm{TA}}}} \times H \times W {C_{{\mathrm{TA}}}} 表示通道数, {T_{{\mathrm{TA}}}} 为压缩后的帧数, {F_{{\mathrm{Conv3d}}}}( \cdot ) 表示卷积核尺寸为 k = (3,3,3) 的3维卷积。 {{\boldsymbol{F}}_{{\mathrm{TA}}}}( \cdot ) 为时间聚合操作,它是卷积核为 k = (3,3,3) ,步长为 s = (3,1,1) 的3维卷积。

    由于形变场 {\boldsymbol{D}} 中的有效数值只分布在人体轮廓点位置,形变场数据具有稀疏性,针对该特性,本文设计多尺度特征提取模块(MSFEM),该模块的网络结构如图2所示。假设输入特征为 {\boldsymbol{f}}_{{\mathrm{Input}}}^{{\mathrm{Def}}} ,其维度为 {C_{{\mathrm{In}}}} \times {T_{{\mathrm{In}}}} \times H \times W {\boldsymbol{f}}_{{\mathrm{Input}}}^{{\mathrm{Def}}} 分别被送入卷积核尺寸为 k = (3,3,3) , k = (3,5,5) k = (3,7,7) 的3维卷积。同时,本文对卷积核尺寸为 k = (3,5,5) k = (3,7,7) 的两个3维卷积增加残差连接,以增强特征的表征能力。此外,如图2所示,根据该模块的输出特征融合方式(Feature Fusion),本文将MSFEM模块定义为:MSFEM A(元素级特征相加)和MSFEM B(通道维度特征拼接)。

    融合后的特征定义为 {\boldsymbol{f}}_{{\mathrm{Fusion}}}^{{\mathrm{Def}}} {\boldsymbol{f}}_{{\mathrm{Fusion}}}^{{\mathrm{Def}}} 的特征维度定义为 {C_{{\mathrm{Fusion}}}} \times {T_{{\mathrm{Fusion}}}} \times H \times W 。然后, {\boldsymbol{f}}_{{\mathrm{Fusion}}}^{{\mathrm{Def}}} 经过TP层,在时间维度对特征进行最大池化操作并得到 {{\boldsymbol{f}}_{{\mathrm{TP}}}} {{\boldsymbol{f}}_{{\mathrm{TP}}}} 的维度为 {C_{{\mathrm{Fusion}}}} \times 1 \times H \times W 。进一步, {{\boldsymbol{f}}_{{\mathrm{TP}}}} 被送入GeM层[16]以在空间维度上实现特征压缩,该过程可以表示为

    {\boldsymbol{f}}_{{\mathrm{GeM}}}^{{\mathrm{Def}}} = {\left(F_{{\mathrm{Avg}}}^{1 \times 1 \times W}({({{\boldsymbol{f}}_{{\mathrm{TP}}}})^p})\right)^{{1 \mathord{\left/ {\vphantom {1 p}} \right. } p}}} (8)

    其中, {\boldsymbol{f}}_{{\mathrm{GeM}}}^{{\mathrm{Def}}} 为形变场分支最终的输出特征,其维度为 {C_{{\mathrm{Fusion}}}} \times 1 \times H \times 1 F_{{\mathrm{Avg}}}^{1 \times 1 \times W}( \cdot ) 表示对 W 维度的平均池化操作, p 是可以随网络训练而不断更新的参数。

    步态剪影序列不仅可以有效地反映出人体轮廓的形状特点,同时直接刻画了行走过程中人体的动态变化。本文从帧间动态差异性提取和时间上下文信息增强的角度出发,设计步态剪影特征提取网络分支,该分支的网络结构如图1所示。定义输入剪影序列为 {\boldsymbol{S}} {\boldsymbol{S}} 的维度为 1 \times T \times H \times W {\boldsymbol{S}} 首先经过卷积层和时间聚合层得到 {{\boldsymbol{f}}_{\boldsymbol{S}}} ,然后 {{\boldsymbol{f}}_{\boldsymbol{S}}} 被送入帧间差异性和上下文信息特征提取模块(ACFEM)。

    图3是ACFEM模块的网络结构,其输入特征定义为 {\boldsymbol{f}}_{{\mathrm{Input}}}^{{\mathrm{Sil}}} {\boldsymbol{f}}_{{\mathrm{Input}}}^{{\mathrm{Sil}}} 的维度为 C_{\mathrm{In}} \times T_{\mathrm{In}} \times H \times W 。该模块由3部分组成:全局特征提取分支、帧间差异性特征提取分支和上下文信息提取分支。其中,全局特征提取分支由卷积核为 k = (3,3,3) 的3维卷积和激活函数LeakyReLU构成,用于提取整体特征 {\boldsymbol{f}}_{{\mathrm{Global}}\_{\mathrm{final}}}^{{\mathrm{Sil}}}

    在帧间差异性特征提取分支中,为捕捉连续帧的人体动态变化特性,本文在时间维度上计算 {\boldsymbol{f}}_{{\mathrm{Input}}}^{{\mathrm{Sil}}} 中相邻帧之间的特征差值并得到 {\boldsymbol{f}}_{{\mathrm{Dif}}}^{{\mathrm{Sil}}} {\boldsymbol{f}}_{{\mathrm{Dif}}}^{{\mathrm{Sil}}} 的维度为 C_{\mathrm{In}}\times (T_{\mathrm{In}}-1)\times H\times W ,然后使用0值填充得到 {\boldsymbol{f}}_{{\mathrm{Dif}}'}^{{\mathrm{Sil}}} ,其维度为 C_{\mathrm{In}} \times T_{\mathrm{In}} \times H \times W {\boldsymbol{f}}_{{\mathrm{Dif}}'}^{{\mathrm{Sil}}} 分别经过卷积核为 k = (3,3,3) 的3维卷积得到动态区域的时空特征和卷积核为 k = (1,3,3) 的3维卷积得到动态区域的空间特征,两个特征相加后经过激活函数得到增强特征 {\boldsymbol{f}}_{{\mathrm{Dif}}\_{\mathrm{final}}}^{{\mathrm{Sil}}}

    在上下文信息提取分支中,本文对特征 {\boldsymbol{f}}_{{\mathrm{Input}}}^{{\mathrm{Sil}}} 中相邻帧之间的特征计算均值并得到 {\boldsymbol{f}}_{{\mathrm{Cont}}}^{{\mathrm{Sil}}} {\boldsymbol{f}}_{{\mathrm{Cont}}}^{{\mathrm{Sil}}} 的维度为 C_{\mathrm{In}}\times (T_{\mathrm{In}}-1)\times H\times W ,使用0值填充得到 {\boldsymbol{f}}_{{\mathrm{Cont}}'}^{{\mathrm{Sil}}} ,其维度为 C_{\mathrm{In}} \times T_{\mathrm{In}} \times H \times W 。然后, {\boldsymbol{f}}_{{\mathrm{Cont}}'}^{{\mathrm{Sil}}} 分别经过卷积核 k = (3,3,3) 的3维卷积以提取时空特征和卷积核 k = (3,1,1) 的3维卷积以提取时序特征,两个输出特征在经过激活函数后相加得到特征 {\boldsymbol{f}}_{{\mathrm{Cout}}\_{\mathrm{final}}}^{{\mathrm{Sil}}} 。此外,如图3所示,根据该模块的输出特征融合方式,将ACFEM模块定义为:ACFEM A(元素级特征相加)和ACFEM B(通道维度特征拼接)。ACFEM模块的输出特征定义为 {\boldsymbol{f}}_{{\mathrm{Fusion}}}^{{\mathrm{Sil}}} {\boldsymbol{f}}_{{\mathrm{Fusion}}}^{{\mathrm{Sil}}} 依次经过TP层和GeM层,得到输出特征 {\boldsymbol{f}}_{{\mathrm{GeM}}}^{{\mathrm{Sil}}} {\boldsymbol{f}}_{{\mathrm{GeM}}}^{{\mathrm{Sil}}} {\boldsymbol{f}}_{{\mathrm{GeM}}}^{{\mathrm{Def}}} 拥有相同的特征维度。

    本文对形变场特征 {\boldsymbol{f}}_{{\mathrm{GeM}}}^{{\mathrm{Def}}} 和步态剪影特征 {\boldsymbol{f}}_{{\mathrm{GeM}}}^{{\mathrm{Sil}}} 进行元素级特征求和并得到融合特征 {{\boldsymbol{f}}_{{\mathrm{Fusion}}}} = {\boldsymbol{f}}_{{\mathrm{GeM}}}^{{\mathrm{Def}}} + {\boldsymbol{f}}_{{\mathrm{GeM}}}^{{\mathrm{Sil}}} 。然后, {{\boldsymbol{f}}_{{\mathrm{Fusion}}}} 依次经过FC层和分类器,其中FC层的输出特征用于计算3元组损失以拉近类内样本的距离和推远类间样本的距离,分类器的输出分类结果用于计算交叉熵损失以约束网络学习身份判别性特征。

    对于3元组损失,假设给定一个特征3元组 ({{\boldsymbol{f}}_a},{{\boldsymbol{f}}_p},{{\boldsymbol{f}}_q}) ,其中 {{\boldsymbol{f}}_a} {{\boldsymbol{f}}_q} 属于同一受试者的特征, {{\boldsymbol{f}}_a} {{\boldsymbol{f}}_p} 属于不同受试者的特征,当存在 H 个3元组 \{ {{\boldsymbol{G}}_h}|{{\boldsymbol{G}}_h} = ({\boldsymbol{f}}_a^h,{\boldsymbol{f}}_p^h,{\boldsymbol{f}}_q^h),h = 1,2,\cdots,H\} 时,则3元组损失可以表示为

    {L_{{\mathrm{tri}}}} = \frac{1}{H}\sum\limits_{h = 1}^H {\max(m - d_h^ - + d_h^ + ,0)} (9)

    其中, d_h^ + = \left\| {{\boldsymbol{f}}_a^h - {\boldsymbol{f}}_q^h} \right\|_2^2 d_h^ - = \left\| {{\boldsymbol{f}}_a^h - {\boldsymbol{f}}_p^h} \right\|_2^2 表示两个特征间的欧氏距离, m 表示边界阈值。

    本文中的交叉熵损失可以表示为

    {L_{{\mathrm{ce}}}} = - \sum\limits_{i = 1}^I {{{\boldsymbol{z}}_i}} \ln({p_i}) (10)

    其中, I 是身份特征的数量, {{\boldsymbol{z}}_i} 是第 i 个样本对应的one-hot类型身份标签, {p_i} 表示第 i 个样本的预测概率。

    最终,网络训练的总损失 {L_{{\mathrm{all}}}} 可以表示为

    {L_{{\mathrm{all}}}} = {L_{{\mathrm{ce}}}} + {L_{{\mathrm{tri}}}} (11)

    CASIA-B[25]包含了124位受试者在3种行走条件下采集的10组步态数据,其中包括6组正常行走(NM)数据、2组背包行走(BG)数据和2组穿衣行走(CL)数据。并且每组步态数据对应有11个不同视角,即每位受试者共有110组步态序列。其中74位受试者的步态数据用于训练,剩余50位受试者的步态数据用于测试。在测试阶段,每位受试者在NM条件下的前4组数据为验证集(Gallery),剩余6组数据为探针集(Probe)。

    CCPG[26]包含了200位受试者的步态数据,每位受试者数据包含7组不同的服装和携带物以及10个不同方位的相机视角,共有室内和室外两种采集场景。其中前100位受试者的步态数据用于训练,剩余100位受试者的步态数据用于测试。测试阶段包含了4种测试场景:全身换装,仅换上装,仅换下装和背包。

    网络模型输入的步态剪影尺寸为 H \times W = 64 \times 44 ,训练阶段中,输入的步态序列长度为 T = 30 ,测试阶段将序列中所有帧送入网络架构。3元组损失中边界阈值设为 m = 0.2 ,GeM层中的参数 p 采用与文献[16]相同的设置,初始值设为6.5。在CASIA-B数据集上,MSFEM和ACFEM模块在3个阶段(A,A,B)输出的特征通道数分别为(64,128,128),在CCPG数据集上,设为(64,128,256)。此外,在网络训练阶段,Batchsize设置为 8 \times 8 = 64 ,其中每组训练数据抽取的受试者人数设置为8,每位受试者中选取的样本数为8。本文采用Adam作为优化器,学习率设置为0.000 1,训练迭代次数(epoch)设置为100K。本文使用的硬件环境为2卡NVIDIA GeForce RTX 3090,CPU型号为Intel(R)Core(TM)i9-13900KF。实验环境使用的Ubuntu20.04.6,Cuda版本为12.2,Python版本为3.9.16,Pytorch版本为1.10.2。

    本节分别在CASIA-B和CCPG数据集上将GaitDef与近年来先进的步态识别方法进行对比,包括GaitSet[14], GaitGL[16], GaitPart[19],基于上下文敏感的时间特征学习网络(Context-Sensitive Temporal feature Learning network, CSTL)[20], Lagrange[22], MetaGait[27]和GaitGCI-T[28]。由于CSTL, Lagrange, MetaGait和GaitGCI-T等方法仅包含CASIA-B数据集上的实验结果,且尚未提供源码或源码不完整,因此本文在CCPG数据集上仅对GaitSet, GaitPart和GaitGL 3种方法进行实验对比。

    在CASIA-B数据集上,GaitDef与对比方法的结果如表1所示。从表1可以看出,在NM, BG和CL条件下,GaitDef的Rank-1识别准确率分别可以达到97.6%, 95.7%和87.2%。其中在NM条件下,本文所提方法超过了GaitSet, GaitPart, GaitGL和Lagrange等4种最先进的方法,略低于CSTL, GaitGCI和MetaGait。在BG条件下,本文所提方法达到了SOTA的性能,与MetaGait和GaitGCI-T相比,GaitDef准确率也分别高出0.5%和0.7%。在CL条件下,GaitDef的识别结果明显高于其他对比方法,分别比MetaGait和GaitGCI-T高出0.3%和0.8%。实验结果表明,虽然MetaGait在NM条件下取得了最优结果,但GaitDef整体表现更优,且GaitDef在应对背包和穿衣场景时可以达到更高的识别准确率。

    表  1  Rank-1识别准确率在CASIA-B数据集上的对比结果,不包括相同视角的情况(%)
    验证集 NM#1-4 0°~180° 均值
    探针集 18° 36° 54° 72° 90° 108° 126° 144° 162° 180°
    NM#
    5-6
    GaitSet AAAI19 90.8 97.9 99.4 96.9 93.6 91.7 95.0 97.8 98.9 96.8 85.8 95.0
    GaitPart CVPR20 94.1 98.6 99.3 98.5 94.0 92.3 95.9 98.4 99.2 97.8 90.4 96.2
    GaitGL ICCV21 96.0 98.3 99.0 97.9 96.9 95.4 97.0 98.9 99.3 98.8 94.0 97.4
    CSTL ICCV21 97.2 99.0 99.2 98.1 96.2 95.5 97.7 98.7 99.2 98.9 96.5 97.8
    Lagrange CVPR22 95.2 97.8 99.0 98.0 96.9 94.6 96.9 98.8 98.9 98.0 91.5 96.9
    MetaGait ECCV22 97.3 99.2 99.5 99.1 97.2 95.5 97.6 99.1 99.3 99.1 96.7 98.1
    GaitGCI-T CVPR23 97.9
    GaitDef 本文 95.3 98.1 99.2 98.0 96.7 96.0 98.6 99.4 99.2 99.1 94.1 97.6
    BG#
    5-6
    GaitSet AAAI19 83.8 91.2 91.8 88.8 83.3 81.0 84.1 90.0 92.2 94.4 79.0 87.2
    GaitPart CVPR20 89.1 94.8 96.7 95.1 88.3 94.9 89.0 93.5 96.1 93.8 85.8 91.5
    GaitGL ICCV21 92.6 96.6 96.8 95.5 93.5 89.3 92.2 96.5 98.2 96.9 91.5 94.5
    CSTL ICCV21 91.7 96.5 97.0 95.4 90.9 88.0 91.5 95.8 97.0 95.5 90.3 93.6
    Lagrange CVPR22 89.9 94.5 95.9 94.6 93.9 88.0 91.1 96.3 98.1 97.3 88.9 93.5
    MetaGait ECCV22 92.9 96.7 97.1 96.4 94.7 90.4 92.9 97.2 98.5 98.1 92.3 95.2
    GaitGCI-T CVPR23 95.0
    GaitDef 本文 93.8 97.0 97.1 96.7 95.8 92.5 95.2 97.5 98.3 97.0 92.0 95.7
    CL#
    5-6
    GaitSet AAAI19 61.4 75.4 80.7 77.3 72.1 70.1 71.5 73.5 73.5 68.4 50.0 70.4
    GaitPart CVPR20 70.7 85.5 86.9 83.3 77.1 72.5 76.9 82.2 83.8 80.2 66.5 78.7
    GaitGL ICCV21 76.6 90.0 90.3 87.1 84.5 79.0 84.1 87.0 87.3 84.4 69.5 83.6
    CSTL ICCV21 78.1 89.4 91.6 86.6 82.1 79.9 81.8 86.3 88.7 86.6 75.3 84.2
    Lagrange CVPR22 81.6 91.0 94.8 92.2 85.5 82.1 86.0 89.8 90.6 86.0 73.5 86.6
    MetaGait ECCV22 80.0 91.8 93.0 87.8 86.5 82.9 85.2 90.0 90.8 89.3 78.4 86.9
    GaitGCI-T CVPR23 86.4
    GaitDef 本文 77.8 92.8 94.2 91.0 87.7 82.7 86.4 90.1 91.9 88.5 75.6 87.2
    下载: 导出CSV 
    | 显示表格

    在CCPG数据集上,本文将GaitDef与GaitSet, GaitPart, GaitGL等3个主流步态识别方法进行对比,对比结果如表2所示,所有结果为10个不同方位相机的平均值,且不包括相同相机,其中不同方位的相机对应不同的相机编号。从表2可以看出,在全身换装(CL-FULL)、仅换上装(CL-UP)、仅换下装(CL-DN)和背包(BG)等条件下,GaitDef的Rank-1识别准确率分别可以达到65.4%, 71.1%, 64.5%和72.1%,实验结果在多数相机视角下超过其它方法。在CL-FULL, CL-UP和BG条件下,GaitDef的Rank-1准确率比GaitGL分别高出3.8%, 3.3%和2.6%,实验结果表明GaitDef在换衣和背包场景下可以获得更高的识别准确率。

    表  2  Rank-1识别准确率在CCPG数据集上的对比结果,不包括相同视角的情况(%)
    相机编号
    1 2 3 4 5 6 7 8 9 10 均值
    CL-FULL GaitSet AAAI19 50.6 44.7 57.0 63.8 59.2 61.4 58.3 65.9 62.5 67.4 59.1
    GaitPart CVPR20 49.8 42.4 56.5 60.3 58.8 62.4 56.1 63.7 62.1 66.1 57.8
    GaitGL ICCV21 56.0 47.9 60.9 65.8 60.7 64.9 58.2 67.8 68.2 65.7 61.6
    GaitDef 本文 59.3 52.3 65.4 66.5 66.3 70.3 62.9 70.1 68.5 72.3 65.4
    CL-UP GaitSet AAAI19 59.2 56.0 64.2 65.2 66.8 70.7 66.0 66.3 64.5 72.2 65.1
    GaitPart CVPR20 58.6 52.3 62.4 65.1 65.9 68.3 61.8 65.8 64.4 67.6 63.2
    GaitGL ICCV21 61.8 59.1 67.4 68.9 68.6 72.3 65.0 71.6 73.9 69.8 67.8
    GaitDef 本文 66.1 62.4 71.2 71.2 72.7 76.8 69.3 72.9 73.0 75.6 71.1
    CL-DN GaitSet AAAI19 59.9 52.9 62.7 68.0 65.1 66.3 63.7 69.6 67.6 72.4 64.8
    GaitPart CVPR20 58.2 49.6 61.1 65.5 64.9 68.0 60.8 66.2 69.4 69.4 63.3
    GaitGL ICCV21 63.4 51.7 63.7 65.1 63.4 67.1 59.3 68.3 71.6 66.9 64.1
    GaitDef 本文 63.8 51.2 62.5 62.5 66.8 68.9 61.2 69.1 70.0 69.4 64.5
    BG GaitSet AAAI19 64.3 54.8 69.9 74.1 69.6 73.3 67.5 67.7 66.2 73.6 68.1
    GaitPart CVPR20 62.7 56.0 67.1 68.3 70.1 72.8 63.4 67.4 65.0 72.9 66.6
    GaitGL ICCV21 64.7 55.0 71.6 72.6 67.3 74.9 66.0 74.1 73.1 75.4 69.5
    GaitDef 本文 67.6 55.2 74.1 76.0 72.3 77.0 71.2 75.2 74.6 77.8 72.1
    下载: 导出CSV 
    | 显示表格

    本文在人体轮廓配准前,对人体轮廓进行了等间隔抽样的离散化处理,由于数据集中部分样本的人体轮廓点数少于140个,因此本节在轮廓点抽样时分别设置了4种不同轮廓点数:50个、80个、100个和120个。图5为基于不同抽样点数得到的形变场数据经过形变场分支的实验结果。从中可以发现在NM, BG和CL条件下,步态识别准确率随人体轮廓点数量增加而逐渐提升。其中,在NM条件下,抽样点数为100个时取得了最高识别准确率93.1%。在BG和CL条件下,准确率随轮廓点数增加得到的提升效果更为明显。此外,从对比实验结果中可以发现,即使形变场中只有50个有效数据点,在NM, BG和CL条件下,识别准确率也分别可以达到91.7%, 80.1%和65.4%,进而验证了人体轮廓形变场数据的有效性。

    图  5  基于不同人体轮廓点数量的形变场分支网络在CASIA-B数据集上的实验结果

    本节分别在CASIA-B和CCPG数据集上进行了网络分支的消融实验以验证不同分支的有效性,该实验中的形变场分支的输入数据为基于120个人体轮廓点得到的形变场。

    CASIA-B数据集上的消融实验结果如表3所示。在形变场网络结构中,当MSFEM模块中分别单独使用卷积核尺寸为3, 5和7的卷积层提取形变场特征时,它们在3种状态下的平均Rank-1识别准确率分别可以达到75.7%, 81.5%和81.5%;同时使用两种不同尺寸的卷积核提取步态特征时,识别准确率明显高于单独使用一种尺寸卷积核时的结果;同时使用3种不同尺寸卷积核的卷积提取形变场特征时,其性能达到最优。

    表  3  不同分支网络结构在CASIA-B数据集上的Rank-1识别准确率,不包括相同视角的情况(%)
    网络分支 特征提取模块结构 NM BG CL 均值
    形变场分支 MSFEM只使用卷积核尺寸为(3,3,3)的卷积 88.9 80.2 58.1 75.7
    MSFEM只使用卷积核尺寸为(3,5,5)的卷积 92.4 85.3 66.9 81.5
    MSFEM只包含卷积核尺寸为(3,7,7)的卷积 92.4 84.8 67.3 81.5
    MSFEM使用卷积核尺寸为(3,3,3)和(3,5,5)的卷积 92.5 85.7 67.6 81.9
    MSFEM使用卷积核尺寸为(3,3,3)和(3,7,7)的卷积 92.8 85.4 67.3 81.8
    MSFEM使用卷积核尺寸为(3,5,5)和(7,7,7)的卷积 93.1 85.7 67.9 82.2
    MSFEM 93.0 86.4 69.2 82.9
    步态剪影分支 ACFEM只使用全局特征分支 96.8 94.1 84.1 91.7
    ACFEM只使用帧间差异性特征提取分支 97.0 94.6 84.6 92.1
    ACFEM只使用上下文特征提取分支 96.6 94.0 83.7 91.4
    ACFEM使用全局特征和帧间差异性特征提取分支 97.2 95.3 86.1 92.9
    ACFEM使用全局特征和上下文特征提取分支 97.2 94.7 85.2 92.4
    ACFEM使用帧间差异性特征和上下文特征提取分支 97.1 95.1 86.4 92.9
    ACFEM 97.5 95.4 86.6 93.2
    特征融合 形变场分支(MSFEM)+步态剪影分支(ACFEM) 97.6 95.7 87.2 93.5
    下载: 导出CSV 
    | 显示表格

    在步态剪影分支中,ACFEM分别只使用全局分支、帧间差异性特征提取分支和上下文特征提取分支的Rank-1指标可以达到91.7%, 92.1%和91.4%,其中帧间差异性提取分支的性能最优。同时使用任意两个特征提取分支取得的准确率明显高于单独使用帧间差异性提取分支。在融合3个特征提取分支后,ACFEM在NM, BG和CL条件下可以达到97.5%, 95.4%和86.6%,取得最优结果。

    此外,基于形变场和步态剪影的特征融合方法在NM, BG和CL条件下的Rank-1识别准确率分别为97.6%, 95.7%和87.2%,该结果超过了单独使用形变场分支和步态剪影分支,进而验证了特征融合的有效性。

    CCPG数据集上的消融实验结果如表4所示。由于换衣对人体轮廓影响较大,并且形变场为离散的轮廓点数据,因此单独使用形变场分支在CL-Full, CL-UP, CL-DN, BG等条件下的Rank-1识别准确率仅为50.5%, 59.8%, 57.5%和61.4%。同时使用形变场和步态剪影分支在4种条件下的平均结果为68.3%,比单独使用形变场和步态剪影分支分别高出11%和3.2%,进而验证了特征融合的有效性。

    表  4  不同分支网络结构在CCPG数据集上的Rank-1识别准确率,不包括相同视角的情况(%)
    网络分支特征提取模块结构CL-FullCL-UPCL-DNBG均值
    形变场分支MSFEM50.559.857.561.457.3
    步态剪影分支ACFEM62.067.562.868.265.1
    特征融合形变场分支(MSFEM)+步态剪影分支(ACFEM)65.471.164.572.168.3
    下载: 导出CSV 
    | 显示表格

    本节分析了3元组损失函数中边界值 m 对模型的影响,并设置 m 的取值范围为 \{ 0.1,0.2,0.3,0.4,0.5\} 。由表5可知,不同的边界值 m 会影响模型在训练阶段的步态特征学习,进而导致模型在测试阶段的性能差异。当 m 值设置为0.2时,模型的Rank-1识别准确率最高;而当 m 值设置偏小或偏大,模型性能都会有所下降。

    表  5  3元组损失函数中的不同边界值在CASIAB数据集上的Rank-1识别准确率对比,不包括相同视角的情况(%)
    m NM BG CL 均值
    0.1 97.3 95.3 85.9 92.8
    0.2 97.6 95.7 87.2 93.5
    0.3 97.3 94.9 84.9 92.4
    0.4 97.3 94.9 85.2 92.5
    0.5 97.5 95.0 84.6 92.4
    下载: 导出CSV 
    | 显示表格

    本节对比了GaitDef与GaitSet, GaitPart, GaitGL等方法在CASIA-B数据集上的NM, BG和CL 3种条件下的平均识别准确率、模型参数量和浮点计算次数(FLoating Point Operations, FLOPs)。对比结果如表6所示。在步态识别准确率方面,GaitDef的平均Rank-1识别准确率优于其他对比方法;而在模型复杂度方面,由于GaitDef是双分支网络结构,因此GaitDef的模型复杂度较高。形变场分支通过使用多尺度3维卷积提升形变场特征的表征能力,导致该分支模型参数量和FLOPs较高,如何在保持较高识别准确率的条件下设计更为轻量的步态识别模型成为本文未来的研究方向。

    表  6  平均Rank-1识别准确率(%)、参数量(M)和浮点计算次数(G)在CASIA-B数据集上的对比
    方法 平均Rank-1
    识别准确率
    参数量 浮点计算次数
    GaitSet 84.2 2.59 6.54
    GaitPart 88.8 1.20 113.92
    GaitGL 91.8 2.49 25.24
    GaitDef(形变场分支) 82.9 8.07 136.45
    GaitDef(步态剪影分支) 93.2 2.48 55.91
    GaitDef(形变场分支+
    步态剪影分支)
    93.5 10.55 178.38
    下载: 导出CSV 
    | 显示表格

    本文将点集配准引入步态识别任务,利用点集配准得到的人体轮廓形变场表征行走过程中人体轮廓的动态变化,对比实验验证了形变场数据的有效性。并在此基础上,提出一种基于人体轮廓形变场的双流步态识别网络结构GaitDef,针对形变场数据的稀疏性设计多尺度特征提取模块,利用多尺度卷积捕捉人体空间特征,针对步态剪影序列提出帧间差异性捕捉模块和上下文信息特征增强模块,以提升网络对行走过程中动态区域变化特性和上下文信息的表征能力,消融实验验证了网络结构的有效性。

  • [1]
    杨旗, 薛定宇. 基于双尺度动态贝叶斯网络及多信息融合的步态识别[J]. 电子与信息学报, 2012, 34(5): 1148–1153. doi: 10.3724/SP.J.1146.2011.01012.

    YANG Qi and XUE Dingyu. Gait recognition based on two-scale dynamic Bayesian network and more information fusion[J]. Journal of Electronics & Information Technology, 2012, 34(5): 1148–1153. doi: 10.3724/SP.J.1146.2011.01012.
    [2]
    王茜, 蔡竞, 郭柏冬, 等. 面向公共安全的步态识别技术研究[J]. 中国人民公安大学学报: 自然科学版, 2023, 29(1): 68–76. doi: 10.3969/j.issn.1007-1784.2023.01.009.

    WANG Qian, CAI Jing, GUO Baidong, et al. Research on gait recognition technology for public security[J]. Journal of People’s Public Security University of China: Science and Technology, 2023, 29(1): 68–76. doi: 10.3969/j.issn.1007-1784.2023.01.009.
    [3]
    LIAO Rijun, YU Shiqi, AN Weizhi, et al. A model-based gait recognition method with body pose and human prior knowledge[J]. Pattern Recognition, 2020, 98: 107069. doi: 10.1016/j.patcog.2019.107069.
    [4]
    CAO Zhe, SIMON T, WEI S E, et al. Realtime multi-person 2D pose estimation using part affinity fields[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 1302–1310. doi: 10.1109/CVPR.2017.143.
    [5]
    TEEPE T, GILG J, HERZOG F, et al. Towards a deeper understanding of skeleton-based gait recognition[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 1568–1576. doi: 10.1109/CVPRW56347.2022.00163.
    [6]
    AN Weizhi, YU Shiqi, MAKIHARA Y, et al. Performance evaluation of model-based gait on multi-view very large population database with pose sequences[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2020, 2(4): 421–430. doi: 10.1109/tbiom.2020.3008862.
    [7]
    WANG Likai, CHEN Jinyan, and LIU Yuxin. Frame-level refinement networks for skeleton-based gait recognition[J]. Computer Vision and Image Understanding, 2022, 222: 103500. doi: 10.1016/j.cviu.2022.103500.
    [8]
    TEEPE T, KHAN A, GILG J, et al. Gaitgraph: Graph convolutional network for skeleton-based gait recognition[C]. 2021 IEEE International Conference on Image Processing, Anchorage, USA, 2021: 2314–2318. doi: 10.1109/icip42928.2021.9506717.
    [9]
    LIAO Rijun, CAO Chunshui, GARCIA E B, et al. Pose-based temporal-spatial network (PTSN) for gait recognition with carrying and clothing variations[C]. The 12th Chinese Conference on Biometric Recognition, Shenzhen, China, 2017: 474–483. doi: 10.1007/978-3-319-69923-3_51.
    [10]
    LI Xiang, MAKIHARA Y, XU Chi, et al. End-to-end model-based gait recognition[C]. The 15th Asian Conference on Computer Vision, Kyoto, Japan, 2020: 3–20. doi: 10.1007/978-3-030-69535-4_1.
    [11]
    HAN Ju and BHANU B. Individual recognition using gait energy image[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(2): 316–322. doi: 10.1109/TPAMI.2006.38.
    [12]
    LIU Jianyi and ZHENG Nanning. Gait history image: A novel temporal template for gait recognition[C]. 2007 IEEE International Conference on Multimedia and Expo, Beijing, China, 2007: 663–666. doi: 10.1109/ICME.2007.4284737.
    [13]
    CHEN Changhong, LIANG Jimin, ZHAO Heng, et al. Frame difference energy image for gait recognition with incomplete silhouettes[J]. Pattern Recognition Letters, 2009, 30(11): 977–984. doi: 10.1016/j.patrec.2009.04.012.
    [14]
    CHAO Hanqing, HE Yiwei, ZHANG Junping, et al. GaitSet: Regarding gait as a set for cross-view gait recognition[C]. The 33th AAAI Conference on Artificial Intelligence, Honolulu, USA, 2019: 8126–8133. doi: 10.1609/aaai.v33i01.33018126.
    [15]
    HOU Saihui, CAO Chunshui, LIU Xu, et al. Gait lateral network: Learning discriminative and compact representations for gait recognition[C]. The 16th European Conference on Computer Vision, Glasgow, UK, 2020: 382–398. doi: 10.1007/978-3-030-58545-7_22.
    [16]
    LIN Beibei, ZHANG Shunli, and YU Xin. Gait recognition via effective global-local feature representation and local temporal aggregation[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 14628–14636. doi: 10.1109/ICCV48922.2021.01438.
    [17]
    WANG Ming, LIN Beibei, GUO Xianda, et al. GaitStrip: Gait recognition via effective strip-based feature representations and multi-level framework[C]. The 16th Asian Conference on Computer Vision, Macao, China, 2023: 711–727. doi: 10.1007/978-3-031-26316-3_42.
    [18]
    LI Huakang, QIU Yidan, ZHAO Huimin, et al. GaitSlice: A gait recognition model based on spatio-temporal slice features[J]. Pattern Recognition, 2022, 124: 108453. doi: 10.1016/j.patcog.2021.108453.
    [19]
    FAN Chao, PENG Yunjie, CAO Chunhui, et al. GaitPart: Temporal part-based model for gait recognition[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 14213–14221. doi: 10.1109/CVPR42600.2020.01423.
    [20]
    HUANG Xiaohu, ZHU Duowang, WANG Hao, et al. Context-sensitive temporal feature learning for gait recognition[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 12889–12898. doi: 10.1109/ICCV48922.2021.01267.
    [21]
    LIN Beibei, ZHANG Shunli, and BAO Feng. Gait recognition with multiple-temporal-scale 3D convolutional neural network[C]. The 28th ACM International Conference on Multimedia, Seattle, USA, 2020: 3054–3062. doi: 10.1145/3394171.3413861.
    [22]
    CHAI Tianrui, LI Annan, ZHANG Shaoxiong, et al. Lagrange motion analysis and view embeddings for improved gait recognition[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 20217–20226. doi: 10.1109/CVPR52688.2022.01961.
    [23]
    LIANG Junhao, FAN Chao, HOU Saihui, et al. GaitEdge: Beyond plain end-to-end gait recognition for better practicality[C]. The 17th European Conference on Computer Vision, Tel Aviv, Israel, 2022: 375–390. doi: 10.1007/978-3-031-20065-6_22.
    [24]
    CHUI H and RANGARAJAN A. A new point matching algorithm for non-rigid registration[J]. Computer Vision and Image Understanding, 2003, 89(2/3): 114–141. doi: 10.1016/s1077-3142(03)00009-2.
    [25]
    YU Shiqi, TAN Daoliang, and TAN Tieniu. A framework for evaluating the effect of view angle, clothing and carrying condition on gait recognition[C]. The 18th International Conference on Pattern Recognition, Hong Kong, China 2006: 441–444. doi: 10.1109/icpr.2006.67.
    [26]
    LI Weijia, HOU Saihui, ZHANG Chunjie, et al. An in-depth exploration of person re-identification and gait recognition in cloth-changing conditions[C]. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 13824–13833. doi: 10.1109/CVPR52729.2023.01328.
    [27]
    DOU Huanzhang, ZHANG Pengyi, SU Wei, et al. MetaGait: Learning to learn an Omni sample adaptive representation for gait recognition[C]. The 17th European Conference on Computer Vision, Tel Aviv, Israel, 2022: 357–374. doi: 10.1007/978-3-031-20065-6_21.
    [28]
    DOU Huanzhang, ZHANG Pengyi, SU Wei, et al. GaitGCI: Generative counterfactual intervention for gait recognition[C]. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 5578–5588. doi: 10.1109/cvpr52729.2023.00540.
  • 加载中

Catalog

    通讯作者: 陈斌, bchen63@163.com
    • 1. 

      沈阳化工大学材料科学与工程学院 沈阳 110142

    1. 本站搜索
    2. 百度学术搜索
    3. 万方数据库搜索
    4. CNKI搜索

    Figures(5)  / Tables(6)

    Article Metrics

    Article views (265) PDF downloads(49) Cited by()
    Proportional views
    Related

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return