Semantic Part Constraint for Person Re-identification
-
摘要: 为减轻行人图片中的背景干扰,使网络着重于行人前景并且提高前景中人体部位的利用率,该文提出引入语义部位约束(SPC)的行人再识别网络。在训练阶段,首先将行人图片同时输入主干网络和语义部位分割网络,分别得到行人特征图和部位分割图;然后,将部位分割图与行人特征图融合,得到语义部位特征;接着,对行人特征图进行池化得到全局特征;最后,同时使用身份约束和语义部位约束训练网络。在测试阶段,由于语义部位约束使得全局特征拥有部位信息,因此测试时仅使用主干网络提取行人的全局信息即可。在大规模公开数据集上的实验结果表明,语义部位约束能有效使得网络提高辨别行人身份的能力并且缩减推断网络的计算花费。与现有方法比较,该文网络能更好地抵抗背景干扰,提高行人再识别性能。Abstract: In order to alleviate the background clutter in pedestrian images, and make the network focus on pedestrian foreground to improve the utilization of human body parts in the foreground. In this paper, a person re-identification network is proposed that introduces Semantic Part Constraint(SPC). Firstly, the pedestrian image is input into the backbone network and the semantic part segmentation network at the same time, and the pedestrian feature map and the part segmentation label are obtained respectively. Secondly, the part segmentation label and the pedestrian feature maps are merged to obtain the semantic part feature. Thirdly, the pedestrian feature map is obtained and the global average pooling is used to gain global features. Finally, the network is trained using both identity constraint and semantic part constraint. Since the semantic part constraint makes the global features obtain the part information, only the backbone network can be used to extract the features of the pedestrian during the test. Experiments on large-scale datasets show that semantic part constraints can effectively make the network improve the ability to identify pedestrians and reduce the computational cost of inferring networks. Compared with the state of art, the proposed network can better resist background clutter and improve person re-identification performance.
-
1. 引言
压缩感知(Compressed Sensing, CS)是一种探寻欠定线性系统稀疏解的技术,用于获取和重构稀疏或可压缩的信号。该方法利用信号稀疏的特性,在远小于Nyquist采样率的条件下,用随机采样获取信号的离散样本,通过非线性重建算法完美地重建信号[1]。压缩感知理论基于信号的可压缩性,通过低维空间、低分辨率和欠Nyquist采样数据的非相关观测来实现高维信号的感知,丰富了信号恢复的优化策略,促进了数学理论和工程应用的结合。
常见的压缩感知算法包括:匹配追踪(Matching Pursuit, MP)算法[2]、迭代阈值(Iterative Hard Thresholding, IHT)算法[3]和全变分(Total Variation, TV)算法[4]等。以上算法中,TV算法具有较高的重构精度和所需测量值较少的特点,并且能够很好地保留图像的边缘信息,但由于基于变分过程,往往会导致严重的阶梯效应,使图像纹理出现缺失而过度平滑。Zhang等人[5]结合TV算法和非局部正则化提出了基于非局部正则化的全变分(Total Variation based on Nonlocal Regularization, TVNR)算法,增强了图像的细节纹理,但该算法复杂度高,计算时间长,不适用实时处理。刘亚男等人[6]将分数阶微分作为正则化项,提出了分数阶全变分(Fractional Order Total Variation, FOTV)算法,在低频分量损失有限的情况下大幅度增加高频分量,由低分辨率图像重构得到纹理细节较清晰的高分辨率图像,但Ma等人[7]的研究指出,在图像信号中噪声和结构信息均属于高频成分,因此FOTV在提升图像细节的同时也放大了加性噪声,导致了该算法在噪声环境下失效,缩小了该算法的实际应用范围。目前针对抗噪声性能的研究工作主要集中在具体实验装置改进[8,9]或测量矩阵的优化上[10,11],大多数图像重构算法仅考虑了无噪声条件下的图像重构[12,13],而兼顾图像重构和抗噪声性能的算法报道较少[14]。在实际成像系统中,具有较好抗噪声性能的图像重构算法能有效地提高图像重构的质量,并且能够为单像素成像等计算成像实验系统的图像重构提供较好的解决方案。
本文较详细地分析了分数阶微分模型和高斯平滑滤波的原理,结合Li等人[15]提出的增广拉格朗日交替方向算法,给出了一种基于高斯平滑压缩感知分数阶全变分(Fractional Order Total Variation based on Gaussian Smooth, FOTVGS)算法。在求解优化目标函数的过程中,使用交替方向乘子法(Alternating Direction Method of Multipliers, ADMM)[16]将优化目标函数划分为两个子问题进行求解,并使用高斯平滑滤波算子更新拉格朗日梯度算子,改进了FOTV的抗噪声性能,使FOTV具有良好的鲁棒性。
2. 数学模型
2.1 分数阶微分系统的幅频特性
对满足狄利克雷条件的函数,其傅里叶变换为
F(w)=+∞∫−∞f(t)e−jwtdt (1) 利用傅里叶变换的微分性质
Dαf(t)FT→(jw)αF(w)=dα(w)F(w) (2) 其中,
dα(w)=(jw)α=λα(w)ejθα(w) ,幅频特性函数为λα(w)=|w|α ,相频特性函数为θα(w)= απ/2sgn(w) ,即分数阶微分算符为线性时不变系统,在不同阶次(1≤α≤2 )下的分数阶微分算子的幅频特性如图1所示。为简要说明分数阶次
α 对信号幅频特性的影响,图1中低频和高频均被归一化,0.5~1.0 Hz表示低频区,1.0~1.5 Hz表示高频区,随着分数阶次α 增大,分数阶微分算子对高频分量的幅度拉升作用逐渐增强,呈现出非线性增长,同时对低频分量的幅度有一定的抑制作用。为了提高信号的高频分量,同时使得低频信息不至于损失过多,一般选取1~2之间的阶数。本文以0.1为间隔,经过多次经验验证,当α=1.7 时,重构的图像能获得最佳的峰值信噪比(Peak Signal to Noise Ratio, PSNR)和结构相似度(Structural SIMilarity, SSIM),为此本文采用α=1.7 。2.2 高斯平滑
高斯平滑是一种线性平滑滤波,利用2维高斯分布函数生成高斯模板,扫描图像中的每一个像素,将邻域内像素的加权平均值作为新图像中模板中心位置的像素值。2维高斯滤波使用高斯核为x和y两个1维高斯核的乘积,其形式如式(3)
G(x,y)=12πσ2exp(−x2+y22σ2) (3) 本文利用其去噪特性,结合拉格朗日交替方向算法,改进分数阶全变分算法,增强了算法的抗噪声性能。其中,高斯平滑的过程如式(4)
G(i,j)=∑k,lf(i+k,j+l)×h(k,l) (4) 其中,
h 为高斯核函数,也称为权值。3. 算法改进与优化
3.1 算法的改进
利用自然图像具有梯度最小化的先验信息,通过研究自然图像在梯度域的稀疏性,传统的全变分算法为
min|Du|,y=Au (5) 为减小梯度效应,结合分数阶微分,式(5)转化为
min|Dαu|,y=Au (6) 其中,
D=[Dv,Dh] 分别代表垂直和水平分数阶微分算子,A∈RM×N 为投影矩阵,u 为原始图像,y 为测量值。由于原优化问题带有约束,并且不可微分。引入中间变量w ,式(6)等价于式(7)minw,u‖w‖1,w=Dαu,y=Au (7) 构建拉格朗日函数,将有约束的优化问题转换为无约束的优化问题
L(w,u)=minw,u‖w‖1−νT(Dαu−w)+β2‖Dαu−w‖22−λT(Au−y)+γ2‖Au−y‖22 (8) 其中,
β 和γ 为惩罚因子,ν 和λ 为拉格朗日梯度算子。利用增广拉格朗日方法迭代求解问题式(9)、式(10)来进一步求解无约束问题式(8)(wk+1,uk+1)=argminL(w,u) (9) ν(k+1)=ν(k)−β(w(k+1)−Dαν(k+1))ν(k+1)=Gν(k+1)λ(k+1)=λ(k)−γ(y−Au(k+1))} (10) 从式(10)可知,在每次更新
ν 时,使用高斯平滑滤波算子G 更新拉格朗日梯度算子,以起到滤除分数阶微分造成的加性噪声高频分量增加部分。3.2 算法的求解过程
式(8)由于其不可微分,很难得到解析解,本文采用ADMM方法将原始问题转化成若干个子问题并逐一求解。
(1)
w 子问题。对于给定u ,经过简化后,与w 有关的优化问题表示为wk+1=minw‖w‖1−νT(w−Dαu)+β2‖w−Dαu‖22 (11) 根据2D shrinkage-like定理[17],式(11)的封闭形式为
w(k+1)=max{|Dαu−νβ|−1β,0}×sgn(Dαu−νβ) (12) (2)
u 子问题。通过式(12)得到了w 的情况下,求解子u 问题等价于式(13),其中w 已经由上述w 子问题求得,视为定值uk+1=minu{−νT(Dαu−w)+β2‖Dαu−w‖22−λT(Au−y)+γ2‖Au−y‖22} (13) 式(13)是一个2次方程,其离散梯度
d 可被简化为d=DαT(βDαu−ν−βw)+AT(γ(Au−y)−λ) ,令d=0 得到式(13)的解析解为uk+1=H−1(DαTν+ATλ+γATy+βDαTw) (14) 其中,
H=(βDαTDα+γATA) ,考虑到Moore-Penrose广义逆求解在数值计算上计算成本过高,因此,这里采用具有最优步长的最速梯度下降方法,通过式(15)和式(16)进行迭代求解uk+1=uk−ηkdk (15) dk=∑iβi(Dαi)T(−Dαiu−wk+1i)−(Dαi)Tνi)+γAT(Au−y)−ATλ (16) 其中,
ηk=abs(dTd/dTHd) 表示Barzilai-Borwein步长因子,dk 表示梯度,通过反复迭代,可以求出uk+1 。解决
w 和u 两个子问题,得到每次迭代中的w 和u ,然后通过式(10),更新拉格朗日算子ν 和λ 。再继续回到上述两个子问题更新下一次的w 和u ,如此迭代,便可用较少的测量值重构出完整的图像。具体算法如表1。表 1 改进算法流程输入:测量矩阵A,测量值y,相关参数ν, λ, β, γ, α 初始化:u=ATy, ν=0, λ=0, β=26, γ=27, α=27 While (目标函数式(8)未达到最优解) do While ‖u(k+1)−uk‖2≥ε do 利用式(12)求解w子问题 利用式(13)求解u子问题 End while 利用式(10),使用高斯平滑滤波算子G更新拉格朗日梯度算子 使用式(4),将输入图像的像素值作为权重,乘以相关核 将上面各步得到的结果相加后输出 End while 输出:恢复的图像u 4. 实验结果和分析
仿真数据源选取斯坦福大学和南加州大学图像库的4幅像素为256×256的图像(Lena, Boats, Barbara, Peppers)作为原始图像,如图2所示。
通过仿真实验,在不同采样率和不同的加性噪声下,将5种算法进行定性和定量对比。本实验中,测量矩阵采用高斯随机矩阵,分数阶次
α 为1.7,相关参数β 和γ 的初始化根据Li等人的经验,分别设定为26 ,27 。迭代截止条件等其他参数根据个人经验值设定。实验使用的硬件配置为四核Intel®Core(TM)i53317U CPU@1.70 GHz的PC端,仿真软件采用MATLAB R2018b。4.1 无噪声和噪声环境下图像重构的PSNR
本文利用高斯平滑算子更新拉格朗日梯度算子,抑制分数阶微分对噪声的放大。图3给出了在采样率为0.1, SNR=10 dB时,加入高斯平滑算子前后,Barbara图像的梯度算子
ν 的变化对比图。在迭代过程中,梯度算子ν 共更新了12次,本文选取了5次作为实验对比图。如图3所示,随着算法的迭代进行,算子
ν 包含的图像梯度信息逐渐增多,同时弥漫在梯度算子上的噪声也随之增大,通过对比图3(a)和图3(b),特别是第2次和第4次迭代,可以发现在加入高斯平滑后,能有效地抑制分数阶微分对噪声的放大,从而提高重构精度。本研究组在实际单像素成像系统中,将实验时外界的环境噪声和器件的热噪声等效成图像测量值的加性高斯白噪声模型,测量值的SNR变化范围为10~35 dB,本文仿真了5种算法在不同采样率和测量值无噪声与有噪声情况下的图像重构PSNR,通过10次测量求平均PSNR,结果如表2。
表 2 在无噪声(测量值SNR=∞ )和有噪声情况下5种算法图像重构峰值信噪比(PSNR: dB)采样率 0.1 0.2 SNR (dB) 10 20 25 30 35 ∞ 10 20 25 30 35 ∞ Barbara TV 12.53 16.26 18.77 19.39 20.43 22.06 13.62 17.25 19.83 20.48 21.66 24.12 TVNR 13.50 16.73 18.92 19.83 21.53 23.06 14.54 17.82 20.23 21.56 22.23 25.05 FOTV 10.83 15.55 16.39 18.28 19.86 24.35 12.91 16.77 18.10 19.24 20.04 25.56 TVGS 13.10 16.57 18.43 18.76 20.04 21.53 14.12 17.73 19.94 19.52 20.62 23.21 FOTVGS 14.32 17.93 19.17 20.36 22.30 25.28 15.25 18.37 20.77 22.10 23.31 26.35 Lena TV 16.65 20.48 22.53 23.96 24.03 25.29 18.33 22.10 23.43 25.24 26.94 28.42 TVNR 17.87 21.42 23.10 24.40 25.15 26.34 19.54 23.03 24.93 26.94 27.55 28.93 FOTV 15.93 19.40 21.58 22.78 23.44 27.81 17.21 21.22 22.30 24.19 25.12 29.38 TVGS 17.28 20.98 22.78 23.52 23.87 24.72 18.88 22.74 24.23 25.14 26.21 28.02 FOTVGS 18.69 22.59 24.41 25.42 26.46 27.93 20.39 24.47 25.38 27.58 28.20 30.77 Boats TV 14.75 18.58 20.13 21.30 22.51 23.21 15.57 19.38 21.00 22.91 24.28 26.66 TVNR 15.93 19.74 20.99 21.94 23.01 23.75 16.55 20.34 22.88 23.65 24.87 27.12 FOTV 13.51 17.37 18.89 20.86 21.39 24.60 14.21 18.75 20.78 21.93 23.93 27.86 TVGS 15.33 19.00 20.23 21.02 22.06 23.01 16.02 19.93 21.21 22.82 24.01 26.03 FOTVGS 17.10 20.86 22.37 23.55 24.37 25.46 17.82 23.26 24.69 25.15 26.84 28.69 Peppers TV 16.66 20.51 21.19 22.54 23.53 24.03 17.89 21.75 23.24 24.65 25.30 26.06 TVNR 17.52 21.79 22.36 23.11 24.00 24.78 18.77 23.23 24.88 25.94 26.23 27.83 FOTV 15.75 19.13 20.23 21.47 22.72 25.66 16.51 20.96 22.41 23.71 24.51 28.41 TVGS 17.21 21.55 21.24 22.31 23.17 23.84 18.25 22.55 23.94 24.71 25.02 25.87 FOTVGS 18.63 22.35 23.79 24.47 25.32 26.33 19.54 24.77 25.44 26.11 27.32 28.88 采样率 0.3 0.4 SNR (dB) 10 20 25 30 35 ∞ 10 20 25 30 35 ∞ Barbara TV 14.69 18.55 21.05 22.50 23.40 26.33 16.55 20.45 23.64 24.98 25.90 28.11 TVNR 15.77 19.49 21.97 23.87 24.58 27.33 17.63 22.37 24.53 25.78 26.45 29.49 FOTV 13.93 18.56 19.04 21.51 22.54 27.95 15.34 19.24 22.21 23.48 24.24 29.98 TVGS 15.43 19.03 21.24 22.47 23.21 26.00 17.21 21.23 24.01 25.07 25.79 27.91 FOTVGS 16.83 20.36 22.45 24.34 25.14 28.57 18.56 23.66 25.49 26.03 27.86 30.47 Lena TV 19.41 23.90 25.72 27.42 28.01 31.14 21.31 25.80 27.86 29.73 30.01 32.62 TVNR 21.32 25.45 26.11 28.01 29.21 31.95 22.41 26.97 28.99 30.01 31.52 33.43 FOTV 18.33 22.97 24.50 25.93 27.18 32.66 20.45 24.85 25.06 27.11 29.99 34.53 TVGS 20.78 24.35 25.96 27.51 27.94 30.99 22.17 26.65 27.99 29.70 29.88 32.39 FOTVGS 22.45 26.36 27.69 29.02 30.03 33.10 23.58 27.51 29.73 31.48 32.89 35.36 Boats TV 17.88 23.01 24.19 25.27 26.55 28.35 19.23 25.36 26.00 27.41 28.28 29.87 TVNR 19.53 24.94 25.24 26.45 27.14 28.83 20.82 26.65 27.21 28.77 29.56 30.29 FOTV 17.02 22.94 23.12 24.56 25.51 29.25 18.88 24.16 25.78 26.03 27.64 30.68 TVGS 18.77 24.68 24.23 25.10 26.35 28.01 20.59 26.18 26.55 27.46 28.00 29.51 FOTVGS 20.45 25.49 26.22 27.18 28.03 29.67 21.96 27.42 28.69 29.15 30.24 31.43 Peppers TV 18.61 23.40 24.22 25.04 26.74 27.96 19.97 24.06 25.61 26.97 28.16 29.71 TVNR 19.93 24.82 25.96 26.92 27.71 28.32 21.32 25.36 26.99 27.98 28.72 29.92 FOTV 17.44 20.67 22.58 24.23 25.35 29.11 18.54 23.66 24.97 26.05 27.14 30.51 TVGS 19.66 24.54 24.42 25.02 26.45 27.31 20.86 25.88 25.97 26.87 29.03 29.41 FOTVGS 21.23 25.35 26.79 27.47 28.89 29.42 22.39 26.77 27.44 28.35 29.11 30.89 从表2可知,在相同的采样率下,本文所提FOTVGS算法有最大的PSNR。在无噪声(SNR=
∞ )情况下,通过对4幅图像在不同采样率下的PSNR求平均,FOTVGS算法相比于文献[6]中的FOTV算法平均PSNR提高0.66 dB,最大提高1.39 dB。在噪声(SNR 为10~35 dB)情况下,对比于只含高斯平滑的全变分(Total Variation with Gaussian Smooth, TVGS)算法,在大噪声情况(SNR<25 dB),文献[4]中的TV算法会受到噪声干扰导致性能差于TVGS算法,而在小噪声情况下(SNR>25 dB)TV算法性能要好于TVGS算法,根据经验判断,可能是大噪声情况下,平滑算子去除的噪声较多,而小噪声情况下,平滑算子使图像过于平滑导致细节丢失。与无噪声情况下的结果相反,在噪声环境下,FOTV算法受噪声影响较大,文献[5]提出的TVNR算法性能好于FOTV算法,FOTV算法是最差的图像重构算法,而改进的FOTVGS算法却弥补了该算法的缺陷。通过对4幅图像在不同采样率下和不同测量噪声情况下求平均,给出的FOTVGS算法相比于FOTV算法平均PSNR提高3.11 dB,最大提高4.68 dB。4.2 图像重构纹理细节分析
图4展示了在采样率为0.2时无噪声(SNR=
∞ ),测量值的SNR=25 dB以及采样率为0.1,测量值SNR=10 dB时3种情况下的5种算法对标准Lena图像的重构。图4(a)—图4(d)显示了在无噪声情况下,5种算法重构图像纹理细节对比,由每幅子图的右下角展示的帽子环带的放大图可以看出,对比于FOTV算法,给出的FOTVGS算法在图像纹理细节上与其相近,甚至比其有更多的纹理细节。图4(f)—图4(j)展示了在测量值SNR=25 dB时5种算法重构的图像弥漫着形似椒盐噪声的噪声点,分数阶微分对噪声高频成分的放大作用导致FOTV算法具有最大的噪声值。本文给出的FOTVGS算法所重构的图像相比其他4种算法具有较小的噪声和较多的纹理细节,可见,FOTVGS算法有较强的抗噪声性能。图4(k)—图4(o)展示了在测量值SNR=10 dB和采样率为0.1时,5种算法的图像重构对比,在此种极端情况下,FOTV算法重构的图像噪声点较多,TVGS算法虽然噪声较小,但同时也导致了图像过于平滑,如图4中帽子环带信息缺失,从中可以看到改进的FOTVGS算法图像重构效果要好于其他4种,这与表2中给出的图像评价指标一致。
图5给出了在采样率为0.2情况下,5种算法在不同的噪声水平下的结构相似度(SSIM)变化值,其中测量值的SNR变化范围为10~35 dB。图中可知,在采样率为0.2的情况下,5种算法重构图像的SSIM随着噪声的增加逐渐减小。在相同的SNR下,FOTV算法有最小的SSIM,表明该算法不适合有噪声情况,本文改进的FOTVGS算法有最大的SSIM,说明该算法提高了原算法(FOTV)的抗噪声性能。
4.3 图像重构时间分析
为定量对比5种算法的算法复杂度,图6给出了5种算法在无噪声和噪声环境下(SNR变化范围10~35 dB)的平均图像重构时间对比图。
由图6可知,与FOTV算法相比,改进的FOTVGS算法在不增加过多的处理时间的情况下,具有FOTV算法提高图像纹理细节的特性同时克服了其较差的抗噪声性能。
5. 结论
本文详细分析了分数阶全变分和高斯平滑的数学模型,给出的FOTVGS算法解决了FOTV算法引起的梯度效应导致的图像纹理细节丢失和FOTV算法抗噪声性能较差的问题。文中对该算法进行了详细的分析,采用ADMM算法求解,给出了具体的求解过程,在求解过程中采用高斯平滑算子更新拉格朗日梯度算子,在较好地保留图像纹理细节的同时提高了原有算法的抗噪声性能。在算法时间复杂度方面,改进的算法在不增加过多图像重构时间的基础上,增强了图像重构的纹理细节。因此,该算法为单像素成像等计算成像的实际成像系统提供了行之有效的图像重构方法。
-
表 1 在Market-1501数据集上的对比实验(%)
实验编号 行人特征 网络约束 Rank-1 Rank-5 Rank-10 mAP 1 fg Lid 92.0 96.9 98.2 80.4 2 Cf Lid 92.7 97.5 98.6 80.6 3 fg Lid+Lsp 93.6 97.6 98.7 83.6 表 2 不同网络测试时长对比(ms)
方法 批次特征提取耗时 复现SPReID 82.87 本文网络 9.45 表 3 不同方法在两个数据集上的性能比较(%)
方法 Market-1501 DukeMTMC-reID Rank-1 mAP Rank-1 mAP VIM[11] 79.5 59.9 68.9 49.3 SVDNet[12] 82.3 62.1 76.7 56.8 APR[3] 84.3 64.7 70.7 51.2 FMN[13] 86.0 67.1 74.5 56.9 PSE[14] 87.7 69.0 79.8 62.0 PN-GAN[15] 89.4 72.6 73.6 53.2 CamStyle[16] 89.5 71.6 78.3 57.6 HA-CNN[17] 91.2 75.7 80.5 63.8 Part-Aligned[4] 91.7 79.6 84.4 69.3 SPReID[5] 92.5 81.3 84.4 71.0 AHR[18] 93.1 76.2 81.7 65.9 本文方法 93.6 83.6 85.4 71.3 -
LIAO Shengcai, HU Yang, ZHU Xiangyu, et al. Person re-identification by local maximal occurrence representation and metric learning[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, America, 2015: 2197–2206. doi: 10.1109/CVPR.2015.7298832. 陈莹, 许潇月. 基于双向参考集矩阵度量学习的行人再识别[J]. 电子与信息学报, 2020, 42(2): 394–402. doi: 10.11999/JEIT190159CHEN Ying and XU Xiaoyue. Matrix metric learning for person re-identification based on bidirectional reference set[J]. Journal of Electronics &Information Technology, 2020, 42(2): 394–402. doi: 10.11999/JEIT190159 LIN Yutian, ZHENG Liang, ZHENG Zhedong, et al. Improving person re-identification by attribute and identity Learning[J]. Pattern Recognition, 2019, 95: 151–161. doi: 10.1016/j.patcog.2019.06.006 SUH Y, WANG Jingdong, TANG Siyu, et al. Part-aligned bilinear representations for person re-identification[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 402–419. doi: 10.1007/978-3-030-01264-9_25. KALAYEH M M, BASARAN E, GOKMEN M, et al. Human semantic parsing for person re-identification[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, America, 2018: 1062–1071. doi: 10.1109/CVPR.2018.00117. HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, America, 2016: 770–778. doi: 10.1109/CVPR.2016.90. FU Jun, LIU Jing, TIAN Haijie, et al. Dual attention network for scene segmentation[C]. The 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, America, 2019: 3146–3154. GÜLER R A, NEVEROVA N, and KOKKINOS I. DensePose: Dense human pose estimation in the wild[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, America, 2018: 7297–7306. doi: 10.1109/CVPR.2018.00762. ZHENG Liang, SHEN Liyue, TIAN Lu, et al. Scalable person re-identification: A benchmark[C]. 2015 IEEE International Conference on Computer Vision, Santiago, Chile, 2015: 1116–1124. doi: 10.1109/ICCV.2015.133. ZHENG Zhedong, ZHENG Liang, and YANG Yi. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 3754–3762. doi: 10.1109/ICCV.2017.405. ZHENG Zhedong, ZHENG Liang, and YANG Yi. A discriminatively learned CNN embedding for person reidentification[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2018, 14(1): 13. doi: 10.1145/3159171 SUN Yifan, ZHENG Liang, DENG Weijian, et al. SVDNet for pedestrian retrieval[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 3800–3808. doi: 10.1109/ICCV.2017.410. DING Guodong, KHAN S, TANG Zhenmin, et al. Feature mask network for person re-identification[J]. Pattern Recognition Letters, 2020, 137: 91–98. doi: 10.1016/j.patrec.2019.02.015 SARFRAZ M S, SCHUMANN A, EBERLE A, et al. A pose-sensitive embedding for person re-identification with expanded cross neighborhood re-ranking[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, America, 2018: 420–429. doi: 10.1109/CVPR.2018.00051. QIAN Xuelin, FU Yanwei, XIANG Tao, et al. Pose-normalized image generation for person re-identification[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 650–667. doi: 10.1007/978-3-030-01240-3_40. ZHONG Zhun, ZHENG Liang, ZHENG Zhedong, et al. CamStyle: A novel data augmentation method for person re-identification[J]. IEEE Transactions on Image Processing, 2019, 28(3): 1176–1190. doi: 10.1109/TIP.2018.2874313 LI Wei, ZHU Xiatian, and GONG Shaogang. Harmonious attention network for person re-identification[C]. The 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, America, 2018: 2285–2294. doi: 10.1109/CVPR.2018.00243. 陈鸿昶, 吴彦丞, 李邵梅, 等. 基于行人属性分级识别的行人再识别[J]. 电子与信息学报, 2019, 41(9): 2239–2246. doi: 10.11999/JEIT180740CHEN Hongchang, WU Yancheng, LI Shaomei, et al. Person re-identification based on attribute hierarchy recognition[J]. Journal of Electronics &Information Technology, 2019, 41(9): 2239–2246. doi: 10.11999/JEIT180740 -