Pedestrian Re-IDentification Algorithm Based on Dual-domain Filtering and Triple Metric Learning
-
摘要: 在图像的捕获、传输或者处理过程中都有可能产生噪声,当图像被大量噪声影响时,许多行人再识别(ReID)方法将很难提取具有足够表达能力的行人特征,表现出较差的鲁棒性。该文主要针对低质图像的行人再识别问题,提出双域滤波分解构建3元组,用于训练度量学习模型。所提方法主要分为两个部分,首先分析了监控视频中不同图像噪声的分布特性,通过双域滤波进行图像增强。然后基于双域滤波分解对图像噪声具有很好的分离作用,该文提出一种新的3元组构建方式。在训练阶段,将双域滤波生成的低频原始图像和高频噪声图像,与原图一起作为输入3元组,网络可以进一步抑制噪声分量。同时优化了损失函数,将3元组损失和对比损失组合使用。最后利用re-ranking扩充排序表,提高识别的准确率。在加噪Market-1501和CUHK03数据集上的平均Rank-1为78.3%和21.7%,平均准确率均值(mAP)为66.9%和20.5%。加噪前后的Rank-1精度损失只有1.9%和7.8%,表明该文模型在含噪情况表现出较强的鲁棒性。Abstract: Noise may be generated in the process of image capture, transmission or processing. When the image is affected by a large amount of noise, it is difficult for many pedestrian Re-IDentification(ReID) methods to extract pedestrian features with sufficient expressive ability, which shows poor robustness. This paper focuses on the pedestrian re-identification with low quality image. The dual-domain filtering decomposition is proposed to construct triplet, which is used to train metric learning model. The proposed method mainly consists of two parts. Firstly, the distribution characteristics of different image noise in surveillance videos is analyzed and images are enhanced by dual-domain filtering. Secondly, based on the separation effect of dual-domain filtering, a new triplet is proposed. In the training stage, the original image with the low-frequency component, the noise with high-frequency component generated by the dual-domain filtering and the original image are used as the input triplet. So the noise component can be further suppressed by the network. At the same time, the loss function is optimized, and the triple loss and contrast loss are used in combination. Finally, re-ranking is used to expand the sorting table to improve the accuracy of identification. The average Rank-1 on the noisy Market-1501 and CUHK03 datasets are 78.3% and 21.7%, and the mean Average Precision(mAP) is 66.9% and 20.5%. The accuracy loss of Rank-1 before and after adding noise is only 1.9% and 7.8%, which indicates that the model in this paper shows strong robustness in the case of noise.
-
1. 引言
行人再识别(pedestrian Re-IDentification, ReID)也称行人重识别,简称为ReID,是利用计算机视觉方法判断图像或者视频序列中是否存在特定行人的技术,被认为是图像检索的一个子问题,实现跨监控设备间的行人图像检索。光照变化、复杂背景变换、低分辨率图像、遮挡、不同行人的相似着装等复杂应用环境,使得行人再识别研究仍然具有挑战性。在实际视频监控场景中,在图像的捕获、传输或者处理过程中都有可能产生大量噪声,大部分模型很难获得具有足够表达能力的行人特征。这些问题主要是由于摄像头获取的图像被噪声所淹没,提升了有效信息的提取难度。
噪声环境下的行人再识别,比较直观的解决方案是利用图像增强技术进行预处理去噪。然而这种方案存在两个问题:一是图像增强存在细节丢失问题,给特征提取带来困难;二是步骤繁琐,无法端到端实现行人特征提取。常规的3元组度量学习网络如图1所示[1],它对于不同样本有较好的聚类效果,然而在噪声条件下,其泛化能力会显著下降。主要原因在于训练与测试样本均是含噪图像,样本间差异较小,导致模型无法获得足够的区分能力。
为了解决上述问题,本文通过分析监控视频中图像噪声的特性,提出利用双域滤波方法生成两幅分解图,再与原图一起构成新的3元组。网络学习图像的噪声特性,并抑制了输出特征图谱中的噪声成分,提高行人特征对于噪声的鲁棒性。
2. 相关工作
行人再识别由特征表达和相似性度量两个步骤组成。特征表达的目的是利用具有良好区分性和鲁棒性的特征向量来代表行人图像。特征提取的研究追求对特征的精确表达,尽可能保留对行人再识别最为有效的信息,去除无效信息。相似性度量是指建立一个与提取的特征相适应的度量标准,用于计算不同行人图像特征的相似度,作为判定是否为来自同一个人的依据。计算时应使得来自同一行人样本的特征相似度高,不同行人样本的特征相似度低。根据行人再识别的两个步骤,行人再识别大致可以分为基于特征表达[2-7]和基于度量学习两种。
最初,行人相似度的计算都是使用简单的距离度量方法,如余弦距离、欧氏距离等,没有考虑各维度之间的主次关系和重要程度,所以很多度量学习的算法被研究者提出,用于取代距离度量的方式。
Köstinger等人[8]提出了一种简单直接的度量学习(Keep It Simple and Straightforward MEtric, KISSME)算法,首先通过主成分分析对特征进行降维,然后计算主成分分析(Principle Component Analysis, PCA)子空间中相同标签样本与不同标签样本的协方差逆矩阵的差值,将此作为度量矩阵,简化了马氏距离的计算。随后, Liao等人[2]在KISSME的基础上继续改进,提出了跨视角2次判别分析(Cross-view Quadratic Discriminant Analysis, XQDA)算法。首先使用高斯分布分别拟合类内与类间样本特征的差值分布,然后根据两个高斯分布的对数似然比推导出度量矩阵,最后,定义了一个新的判别子空间,将度量矩阵映射到新的子空间中,提高了度量函数的判别能力。
在基于卷积神经网络的度量学习中,许多模型将损失函数作为样本相似性度量函数,通过监督学习使类内距离缩小,类间距离拉大,从而提高区分性。对比损失是一种比较常见的度量损失函数,常用于孪生网络的学习过程。3元组损失函数是另一种流行的度量学习损失函数,在判别网络中应用广泛,它在训练时需要同时输入3个样本,包括固定样本、正样本和负样本。固定样本和正样本是一对正样本对,它们有相同的行人标签,负样本则有不同的行人标签,与固定样本构成负样本对。Hermans等人[9]在3元组损失的基础上,引入了难例挖掘策略,提出了一种难样本挖掘3元组损失(TriHard loss),该方法在每个批量训练样本中,针对每个固定样本分别挑选出最难的正样本和负样本组成3元组来进行迭代。难样本挖掘能提高网络的泛化能力,而小批量训练则能保证网络的稳定性和收敛性。Chen等人[10]在3元组中多输入了一个负样本,提出了一种4元组损失(quadruplet loss)函数,考虑的是正负样本间的绝对距离,能够使网络有更好的特征表达能力。
3. 噪声环境下的行人再识别分析
在实际视频监控场景中,图像在获取和传输以及处理时容易混入噪声,一定程度上影响了图像质量。本节将具体分析图像噪声的特性,并分析高斯噪声、脉冲噪声和雨噪声对于行人再识别性能的影响。
3.1 图像噪声分析
在图像的频率域中,低频部分往往是图像中像素值连续渐变的区域,即相对变化较小,梯度值较低,主要以图像的大致轮廓和整体内容为主,是图像大尺度上的风格信息。高频部分则相反,往往是图像中像素值变化较快的区域,如图像边缘和图像的细节部分等。因此,人眼对图像的高频部分会更加敏感,它包含了图像小尺度的纹理和细节信息。
噪声是图像的无用信息,大多属于图像的高频部分,常见的有均匀噪声、高斯噪声、脉冲噪声、瑞利噪声等。此外还有自然场景中的雨雪雾等噪声。图像的边缘和纹理也同属图像的高频部分。不同的是,噪声在图像中常表现为随机且孤立呈现的像素点或像素块,其与周围像素的灰度值会有明显的区别,从而造成较强视觉效果。边缘和纹理则反映了图像中同质现象,代表重复出现的局部模式。
综上所述,在进行图像增强时,我们可以重点抑制图像高频部分的噪声成分,利用噪声的随机性来区分同属高频的图像细节信息。
3.2 基于双域滤波的去噪分析
针对噪声场景下的行人再识别研究,如上所述,主要采用图像增强技术进行预处理去噪,然后进行再识别。本文提出一种基于图像分解的增强算法,称为双域滤波算法,它属于变换域滤波方法,基本思路是将图像变换到频率域后,对图像高频部分进行去噪处理,然后恢复到空间域中,生成增强后的图像。图2是算法整体流程图,双边滤波器(Bilateral Filtering, BF)和短时傅里叶变换(Short-Time Fourier Transform, STFT)的结合可以更好地保留图像的边缘、纹理和细节信息。
首先,对输入图像
x 进行联合双边滤波得到背景层图像˜x 和引导层˜g ˜x(p)=∑q∈Npk(p,q)x(q)/∑q∈Npk(p,q)˜g(p)=∑q∈Npk(p,q)g(q)/∑q∈Npk(p,q)} (1) 其中,
Np 是以像素点p 为中心,半径为r 的邻域窗口,k(p,q) 是双边滤波器的核函数,在第1次迭代时g = x ,即和输入图像一致,滤波结果将作为下次迭代的引导层。然后进行短时傅里叶变换[11],计算输入图像
x 和引导层g 在点p 的邻域残差∇x(p,q) 和∇g(p,q) ,并利用核函数k(p,q) 加窗来进行系数收缩˜X(p,f)=∑q∈Npexp(−i⋅2π(q−p)⋅f2⋅r+1)⋅k(p,q)⋅∇x(p,q)˜G(p,f)=∑q∈Npexp(−i⋅2π(q−p)⋅f2⋅r+1)⋅k(p,q)⋅∇g(p,q)} (2) 利用
˜G(p,f) 来构造高斯核函数˜K(p,f) ,结合˜X(p,f) 计算细节层图像˜z ,如式(3)所示˜z(p)=1|Fp|∑f∈Fp˜K(p,f)˜X(p,f) (3) 其中,
Fp 为˜X(p,f) 对应的频率分布矩阵,|Fp| 是Fp 的元素个数,˜z 是得到的细节层图像。为了体现图像噪声对行人再识别的影响,本节针对Market-1501和CUHK03数据集,在测试样本中添加高斯噪声、椒盐噪声以及雨噪声,使用文献[12]提出的IDE_ResNet_50图像特征提取网络,通过欧氏距离计算行人相似度,从而对比不同图像增强方法的行人再识别性能。测试算法包括改进的双域滤波算法[11]、K次奇异值分解算法(K-Singular Value Decomposition, K-SVD)[13]、Huang等人[14]、Kang等人[15]、Luo等人[16]和Son等人[17]提出的算法,是同时期的一些方法,用来做对比。本文提出的双域滤波算法利用了噪声的频域分布特性来实现图像去噪,而文献[13,16]是基于稀疏表示和字典学习的方法,文献[14,15,17]均是在变换域对图像进行分解的去噪方法。使用Rank-1和平均准确率均值(mean Average Precision, mAP)指标来考量性能,评价指标如5.1节所述。
表1展示了在Market-1501和CUHK03数据集上对比实验的实验结果。无处理表示直接使用IDE_ResNet_50对加噪后的图像进行测试。
表 1 不同图像增强方法在Market-1501和CUHK03数据集上的性能对比(%)指标 无处理[12] K-SVD[13] Huang等人[14] Kang等人[15] Luo等人[16] Son等人[17] 双域滤波[11] 高斯噪声 Rank-1 74.0/18.4 72.3/19.3 75.3/20.1 73.5/19.7 75.0/20.2 74.8/19.9 75.5/20.5 mAP 49.2/17.2 46.7/18.1 51.4/18.8 47.8/18.6 51.2/19.1 51.0/18.7 51.9/19.2 椒盐噪声 Rank-1 64.8/18.5 65.6/19.1 66.6/20.9 66.3/19.6 66.4/20.1 66.2/19.6 66.4/20.3 mAP 40.3/17.2 43.0/17.9 42.7/19.2 42.2/18.2 42.4/18.8 42.1/18.1 42.2/18.9 雨噪声 Rank-1 75.5/15.9 74.9/16.5 75.9/16.6 76.2/17.5 76.6/17.8 75.9/16.8 76.8/18.1 mAP 51.4/14.6 51.3/15.4 51.7/15.5 52.0/16.0 52.1/16.4 51.8/15.7 63.4/16.8 无噪声 Rank-1 78.9/22.2 76.2/22.3 79.1/22.4 77.7/22.3 79.0/22.4 78.9/22.3 79.2/22.5 mAP 55.0/21.0 52.4/21.8 65.1/22.5 53.8/22.0 64.7/22.6 64.4/22.2 66.8/22.9 从表1第1列可以看到,在行人图像中添加不同噪声后,行人再识别的匹配准确率都有不同程度的降低。所以在图像质量不佳的条件下,研究如何保障行人再识别性能是非常有必要的。
基于表1,本文可以计算在加噪条件下,各方法相对没有图像增强前,Rank-1和mAP指标的平均增益大小,结果如表2所示。实验结果可知,表2中大部分图像增强方法在两个数据集上虽不能完全达到原始图像下的指标,但均能一定程度恢复行人再识别的准确度。而本文改进的双域滤波算法[18]相比其他方法,对于大多数噪声类型都有较好去除效果,两项指标增益均最高,可以最大限度恢复到不含噪声时的行人再识别性能。进一步观察可以发现,个别方法的指标增益反而存在下降的现象。
分析实验结果可以得出结论,在含噪场景中的行人再识别,单纯通过图像增强预处理虽然能恢复部分准确率,但仍然有很大的性能损失。其中一个原因是部分图像增强方法存在过平滑问题,会导致行人图像细节丢失而给特征提取带来难度;另一个原因是特征提取网络本身没有将图像增强过程中反映的噪声特性纳入到训练过程中,导致对噪声的鲁棒性不高。因此在此基础上,本文在后续尝试在特征提取网络中进一步考虑噪声因素,提高匹配的精度。
4. 双域滤波分解的3元组度量模型
第3节的讨论发现噪声会使行人再识别性能显著下降,而基于双域滤波的去噪方法对图像有良好的增强效果,并反映了图像噪声的分布特性。因此本文结合双域滤波分解来改变3元组的输入方式进行度量学习,提高模型的泛化能力和对噪声的鲁棒性。
本文提出的3元组网络结构如图3所示。本文在模型的训练阶段,利用双域滤波分解,将原始行人图作为3元组的固定图,将图像分解得到的低频图作为正样本图,高频图作为负样本图,构建训练3元组。因为高频图中含有丰富的噪声信息,将其当作负样本可以使得模型充分学习到图像噪声分布,提高模型对噪声的鲁棒性,提高行人特征对噪声的泛化能力。因为在图像的捕获、传输或者处理过程中都不可避免地会产生噪声。所以对于没有手动添加噪声的图像,其高频图也含有部分噪声信息,用其经过双域滤波得到的高频图当作负样本训练,并不会过多地降低模型的检测效果。最终在模型的测试及应用阶段,图像不需要双域滤波进行去噪,而是直接输入到网络,端到端的获取行人样本的特征向量。
具体来说,本文设计了一种新的训练3元组构建方式,并改进了ResNet50的网络结构以此来适应3元组度量学习模型的训练。本文研究分析了双域滤波的分解特性,并基于其分解特性改进了对比损失和3元组损失的计算,优化了损失函数,使模型能稳定收敛。最后利用re-ranking扩充排序表,提高识别的准确率。
4.1 改进的3元组网络架构
理想的度量学习是使间隔最大化,即相同标签样本的间距尽可能小而不同标签样本的距离尽可能大。在常规3元组度量模型中,固定图与正样本图是拍摄自同一个行人的图像,负样本图是拍摄自不同行人的图像,它们通过一个共享参数的孪生网络来提取特征。只要有适当的损失函数和输入样本,3元组度量模型通过迭代训练后,就可以逐步实现扩大类间差、缩小类内差的目的,得到一个准确度较高的特征提取网络。然而,对于噪声环境下监控视频的行人再识别,由于查询图与样本库图像都含有噪声成分,因此在常规的3元组度量学习中,模型对于图像噪声很难有分辨能力,导致在分离样本空间时对噪声将没有聚类效果。
所以不同于常规的3元组度量模型,本文结合双域滤波分解与3元组度量学习,将原始行人图作为3元组的固定图,将图像分解得到的低频图作为正样本图,高频图作为负样本图,提出一种新的3元组构建方式,使网络能学习图像噪声的分布,提高行人特征对噪声的泛化能力。图3是本文采用的融合双域滤波分解的3元组度量模型在训练阶段的整体结构图。
与其他的3元组度量方法[19]类似,模型中每个子网络都由一个相同的主干特征提取网络构成,子网络共享参数和权值。本文特征提取网络基于ResNet50结构,针对3元组度量学习将子网络的最后用最大池化、全连接层来替代常规的平均池化、全连接层和Softmax损失。
4.2 改进的损失函数
本文模型的损失函数主要包含对比损失和3元组损失两部分,结合了前面介绍的3元组构建方式。本文基于它们的基本形式进行了对应改进,主要是由于双域滤波分解得到的低频图和高频图包含的图像信息量并不完全对等。在与原图进行损失值计算时,数值范围会有一定差距,因此本文在两个损失函数中添加了一个权重因子来调节它们的相对大小。具体来说,在通过本文模型进行特征计算后,分别得到原图即固定图的特征向量
fA ,低频图即正样本图的特征向量fP ,高频图即负样本图的特征向量fN 。对比损失具体可以表示为
LCont = ∑y‖fA−fP‖22+λ(1−y)max(w−‖fA−fN‖2,0)2 (4) 其中,低频图对应
y=1 ,高频图对应y=0 ,w 是设置的阈值,指最小的间隔。当fN 和fA 的距离小于w 时损失函数才发挥作用。由于低频图与高频图包含的图像信息量并不完全对等,fN 和fA 之间的距离会远大于fP 和fA 之间的距离,需要添加权重因子λ 调节两项的权重。3元组损失可以增加正样本对之间的相似度,逐步减小负样本对之间的相似度,最后在样本空间中,使得正负样本形成聚集的效果。具体可以表示为
LTrip = ∑max(‖fA−fP‖22−μ‖fA−fN‖22 + w,0) (5) 其中,
w 指最小的间隔,权重因子μ 与对比损失中λ 作用一致,用于调节低频图与高频图两项损失的权重。于是,网络整体损失函数将表示为
Loss=LCont+LTrip (6) 根据多组实验对比结果,
λ 为0.2、μ 为0.1、w 为0.2时损失函数可以发挥最佳性能。4.3 特征提取与重排序
图4展示了本文的3元组度量模型在测试及应用阶段的流程图。在模型测试时,不需要双域滤波进行去噪,含噪的行人图像被直接输入到训练完成的一个分支子网络中,端到端地获取行人样本的特征向量。这得益于模型的训练3元组来自双域滤波分解,表现了良好的噪声分布特性,正是基于这些分解图,使简单的特征提取网络也能学习图像的噪声特性,并且抑制噪声的特征表达。
输出特征向量后,需要利用距离度量方法来计算行人特征的差异性,在此基础上对候选结果进行排序。考虑到光照、姿态、视角和遮挡等影响,匹配结果的排列顺序可能并不准确,于是本文利用文献[12]的
k -互近邻重排序方法,扩充排序表,提高识别的准确率,本实验k 取20。对于查询样本q ,其前k 个与其最近邻样本的集合可以表示为N(q,k)={p1,p2,⋯,pk} (7) 接着定义互为近邻的样本集合,即样本
q 和样本g 都在对方的k -NN集合中,称为k -互近邻集合,表示为R(q,k)={g|(g∈N(q,k)∩q∈N(g,k))} (8) 最后,为了扩充原本的查询排序表,针对样本
q 的k -互近邻集合中的每个样本g ,找到其k -互近邻集合R|g,k2| ,若它与样本q 的k -互近邻集合重合样本数量足够大,则可以认为R|g,k2| 这个集合中的样本与样本q 接近,并将其添加入查询排序表中。具体可以表示为R∗(q,k)=R(q,k)∪R(g,k2),s.t.|R(q,k)∩R(g,k2)|≥23|R(g,k2)|,∀g∈R(q,k) (9) 5. 实验与分析
5.1 实验环境和评价指标
本文主要使用Market-1501和CUHK03数据集作为训练样本,以证明提出的模型良好的和较好的泛化能力。Market-1501数据集公开于2015年,通过6台摄像机在清华大学校园内采集而成。数据集总共包含32668张行人样本,对应1501个行人ID标签,图像分辨率为128×64。其中训练集、测试集和查询集分别包含12936, 19732和3368张行人样本。CUHK03数据集公开于2014年,通过10台(5对)摄像机在香港中文大学校园中采集而成。数据集由detected和labeled 两部分组成。在最新的测试协议中,训练集和测试集分别包含767和700个行人样本。
本文的实验环境为:操作系统Ubuntu16.04、编程语言python2、深度学习框架Caffe。硬件环境为Intel Core i5-8300H CPU 2.30 GHz, NVIDIA Tesla K40 GPU 12 GB, 32 GB RAM。为了减少运算量,使用ResNet50模型在ImageNet数据集学习到的预训练参数。网络训练时,训练样本均被调整到224×224像素大小。每个迭代周期Mini-batch大小设置为64。进行反向传播优化模型时,采用随机梯度下降算法,基础学习率0.0002,每100个周期呈指数衰减。
本文使用两种客观评价指标来衡量算法性能的优劣,分别是Rank-N和mAP。Rank-N:行人再识别问题通常被看作图像检索问题。在进行测试时,针对某一查询图,根据其与候选集中所有样本的相似度对候选集进行排序,然后计算前N个中能与查询图正确匹配的样本的比例,称为Rank-N。常用的指标如Rank-1, Rank-5, Rank-10。在Rank-N的基础上,可以绘制累积匹配(CMC)曲线,曲线横轴为N,纵轴为Rank-N。mAP:mAP称为平均准确率均值,即在每个样本的匹配平均准确率(Average Precision, AP)的基础上,计算所有样本AP的均值。相比Rank-N只计算前N个的准确率,mAP能考察算法整体的准确率,体现模型的召回能力。mAP可以表示为
mAP=1QQ∑i=1APi (10) 其中,
Q 表示查询集中样本个数,APi 为单个查询样本的匹配平均准确率。5.2 实验结果及分析
本文主要对比了3类比较有代表性的行人再识别方法,分别是传统特征提取方法、深度学习特征融合方法以及重排序方法,对比算法具体包括局部最大发现联合跨视角2次判别分析(LOcal Maximal Occurrence + Cross-view Quadratic Discriminant Analysis, LOMO+XQDA)方法[2]、人体关节点定位检测(SpindleNet)方法[7]和残差网络集成开发(Integrated Development Environment of ResNet_50, IDE_ResNet_50)方法[12]。LOMO+XQDA方法属于传统特征提取方法,作者融合色调饱和度明度(Hue Saturation Value, HSV)色彩直方图和不变尺度局部3值模式(Scale Invariant Local Ternary Pattern, SILTP)特征,提出了局部最大发现(LOcal Maximal Occurrence, LOMO)特征,并通过跨视角2次判别分析(Cross-view Quadratic Discriminant Analysis, XQDA)算法提高度量函数的判别能力,可以较好地应对视角和光照变化。SpindleNet属于多局部特征融合的方法,通过提取不同局部感兴趣区域的特征,并在不同层次进行不同粒度的融合,对于姿态及遮挡都有较好鲁棒性。IDE_ResNet_50方法属于度量学习模型,通过重排序来改进度量矩阵的计算,并且模型结合了行人检测阶段的先验知识,对匹配成功率提升较大。这3种方法代表了3类典型的行人再识别手段,针对不同方面力图改善行人再识别特征的泛化能力,本文将与它们进行实验对比,综合考虑图像噪声对不同类型行人再识别方法的影响。此外,本文还进一步与近期的基于深度学习的行人再识别算法:奇异值分解网络(Singular Value Decomposition Network, SVDNet)[20]、基于属性行人识别(Attribute Person Recognition, APR)[21]、 姿态不变嵌入(Pose Invariant Embedding, PIE)[6]进行比较,重点计算了不同算法的Rank-1指标和mAP指标,以及它们的变化情况。
5.2.1 消融实验
为探求不同因素对网络的影响,基线网络(Baseline)采用基于ResNet50特征提取主干网络和改进的3元组网络架构,各种因素包括3元组损失函数(Triplet loss)、对比损失函数(Contrastive loss)、改进的损失函数(3元组损失函数和对比损失函数的组合)、
k -互近邻重排序方法(re-ranking)。消融实验采用Market-1501数据集,添加的噪声为雨噪声,实验结果如表3。表 3 消融实验结果3元组网络 Triplet loss Contrastive loss reranking Rank-1 (%) mAP (%) 常规 改进 √ √ √ √ 76.7 65.3 √ √ 74.9 53.2 √ √ √ 76.5 54.6 √ √ √ √ 78.7 67.8 根据表3所示结果,可以看到在Market-1501数据集上含有雨噪声的实验结果。在相同条件下,使用改进的3元组网络与传统的3元组网络相比,mAP提高了2.5%、Rank-1提高了2.0%。因为改进的3元组网络可以学习到抑制噪声成分表达的能力。另外改进的损失函数与单独使用3元组损失相比,mAP提高了1.4%、Rank-1提高了1.6%。在使用重排序后,整个网络的检测mAP提高到67.8,Rank-1提高到了78.7%。实验结果可以看出改进的3元组网络架构、改进的损失函数和重排序可以提高网络的检测性能。
5.2.2 Market-1501数据集对比实验
表4列出了在Market-1501数据集上不同方法在加噪前的原始图像、加高斯噪声图像、加椒盐噪声图像和加雨噪声图像上的行人再识别实验结果。表5为在Market-1501数据集上,各方法在3种噪声场景下Rank-1和mAP相对不含噪时的平均下降率。可以观察到本文设计的3元组度量模型mAP在不同噪声场景下均优于大部分方法。而Rank-1则略逊于SVDNet和APR,主要原因是虽然SVDNet和APR与本文类似网络都是基于ResNet50,然而本文主要调整了网络的输出结构以适应损失函数计算,没有专门针对准确率在模型上进行改进,而是更专注于提升模型对于噪声场景的鲁棒性。通过本文算法使模型能学习噪声的分布特性,在复杂场景下保持稳定的性能。
表 4 Market-1501数据集各方法的Rank-1和mAP(%)方法 原始图像 高斯噪声 椒盐噪声 雨噪声 Rank-1 mAP Rank-1 mAP Rank-1 mAP Rank-1 mAP LOMO+XQDA[2] 43.8 22.7 37.5 19.5 39 21.6 35.7 20.3 SpindleNet[7] 76.9 / 72.4 / 74.4 / 73.7 / IDE_ResNet_50[12] 78.9 55 74.2 49.4 75.5 51.9 75.1 50.6 SVDNet[20] 82.3 62.1 78.6 58.4 80.3 59.2 78.1 57.5 APR[21] 84.3 64.7 79.2 60.2 81.4 61.9 80.8 60.8 PIE[6] 79.3 56.0 74.8 50.5 76.1 53.0 77.1 54.2 本文模型 79.8 68.3 77.5 65.8 78.6 67.1 78.7 67.8 图5展示了3种代表性方法的累积匹配(Cumulative Match Characteristic, CMC)曲线随样本场景变化情况。从图5可以观察到,LOMO+XQDA方法主要针对光照和视角变化问题,对于全局的高斯噪声和雨噪声无法很好地适应,mAP和Rank-1指标较低、CMC曲线和mAP值下降较多。SpindleNet考虑了多个局部区域的信息,在3种噪声情况下均有一定的鲁棒性。IDE_ResNet_50主要利用行人检测阶段的空间信息和ID信息提升模型精度,而对于噪声的泛化能力较弱。本文提出的3元组度量模型在不同噪声环境中都具有较高鲁棒性,mAP指标和Rank-1指标优于大部分对比算法,能够最接近现实场景中的行人再识别性能。
5.2.3 CUHK03数据集对比实验
与Market-1501数据集上的实验类似,表6列出了在CUHK03数据集上不同噪声场景的行人再识别对比实验结果。本文方法在CUHK03数据集上的性能与一些近期的深度学习方法还存在一定差距。本文模型在Market-1501的表现结果较好,在CUHK03数据集上表现结果较差,可能的原因是在Market-1501数据集上,query和gallery可能来自相同的摄像头视角。CUHK03数据集上,query和gallery集来自不同的摄像头视角。本文模型没有考虑来自不同摄像头视觉,所以效果不佳。
表 6 CUHK03数据集各方法的Rank-1和mAP(%)方法 原始图像 高斯噪声 椒盐噪声 雨噪声 Rank-1 mAP Rank-1 mAP Rank-1 mAP Rank-1 mAP LOMO+XQDA[2] 14.8 13.6 8.2 9.5 12.7 10.8 10.5 10.1 SpindleNet[7] 33.8 / 31.7 / 32.2 / 31.5 / IDE_ResNet_50[12] 22.2 21.0 18.4 17.6 19.5 18.8 18.9 17.8 SVDNet[20] 40.9 37.8 37.2 28.8 38.4 31.6 36.4 27.1 APR[21] 45.7 46.8 42.4 41.6 43.3 42.7 42.8 42.1 PIE[6] 34.2 31.1 31.4 25.8 33.1 29.6 29.4 22.6 本文模型 23.5 22.7 21.1 19.8 21.4 20.2 22.5 21.5 表7列出了在CUHK03数据集上,各方法在3种噪声场景下Rank-1和mAP相对不含噪时的平均下降率,同样可以说明本文模型在不同场景下受噪声影响造成的性能损失最小,表明本文模型的指标下降率较低,与现实场景下的行人再识别精度更接近。
图6展示了CUHK03数据集上,3种代表性方法的CMC曲线随样本场景变化情况。实验结果表明本文设计的3元组度量模型的CMC曲线和mAP指标衰减较小。
6. 结论
本文针对低质图像的行人再识别问题,提出利用双域滤波分解构建3元组,用于训练度量学习模型。首先,基于噪声的分布特性,采用双域滤波分解的图像增强方法进行预处理。其次,经过双域滤波生成两幅分解图,与原图一起构成3元组。并在3元组损失函数和对比损失函数的基础上设计权重因子,使损失函数更适用于改进的3元组网络结构。在模型的测试及应用阶段,能摆脱图像预处理去噪过程,实现端到端的行人再识别。最后,通过在公开数据集与同时期算法进行实验对比分析,验证了本文方法对含噪图像行人再识别的有效性。
本文的数值计算得到了武汉大学超级计算中心的计算支持和帮助。
-
表 1 不同图像增强方法在Market-1501和CUHK03数据集上的性能对比(%)
指标 无处理[12] K-SVD[13] Huang等人[14] Kang等人[15] Luo等人[16] Son等人[17] 双域滤波[11] 高斯噪声 Rank-1 74.0/18.4 72.3/19.3 75.3/20.1 73.5/19.7 75.0/20.2 74.8/19.9 75.5/20.5 mAP 49.2/17.2 46.7/18.1 51.4/18.8 47.8/18.6 51.2/19.1 51.0/18.7 51.9/19.2 椒盐噪声 Rank-1 64.8/18.5 65.6/19.1 66.6/20.9 66.3/19.6 66.4/20.1 66.2/19.6 66.4/20.3 mAP 40.3/17.2 43.0/17.9 42.7/19.2 42.2/18.2 42.4/18.8 42.1/18.1 42.2/18.9 雨噪声 Rank-1 75.5/15.9 74.9/16.5 75.9/16.6 76.2/17.5 76.6/17.8 75.9/16.8 76.8/18.1 mAP 51.4/14.6 51.3/15.4 51.7/15.5 52.0/16.0 52.1/16.4 51.8/15.7 63.4/16.8 无噪声 Rank-1 78.9/22.2 76.2/22.3 79.1/22.4 77.7/22.3 79.0/22.4 78.9/22.3 79.2/22.5 mAP 55.0/21.0 52.4/21.8 65.1/22.5 53.8/22.0 64.7/22.6 64.4/22.2 66.8/22.9 表 2 不同图像增强方法的指标平均增益(%)
表 3 消融实验结果
3元组网络 Triplet loss Contrastive loss reranking Rank-1 (%) mAP (%) 常规 改进 √ √ √ √ 76.7 65.3 √ √ 74.9 53.2 √ √ √ 76.5 54.6 √ √ √ √ 78.7 67.8 表 4 Market-1501数据集各方法的Rank-1和mAP(%)
方法 原始图像 高斯噪声 椒盐噪声 雨噪声 Rank-1 mAP Rank-1 mAP Rank-1 mAP Rank-1 mAP LOMO+XQDA[2] 43.8 22.7 37.5 19.5 39 21.6 35.7 20.3 SpindleNet[7] 76.9 / 72.4 / 74.4 / 73.7 / IDE_ResNet_50[12] 78.9 55 74.2 49.4 75.5 51.9 75.1 50.6 SVDNet[20] 82.3 62.1 78.6 58.4 80.3 59.2 78.1 57.5 APR[21] 84.3 64.7 79.2 60.2 81.4 61.9 80.8 60.8 PIE[6] 79.3 56.0 74.8 50.5 76.1 53.0 77.1 54.2 本文模型 79.8 68.3 77.5 65.8 78.6 67.1 78.7 67.8 表 5 Market-1501数据集各方法Rank-1和mAP的平均下降率(%)
表 6 CUHK03数据集各方法的Rank-1和mAP(%)
方法 原始图像 高斯噪声 椒盐噪声 雨噪声 Rank-1 mAP Rank-1 mAP Rank-1 mAP Rank-1 mAP LOMO+XQDA[2] 14.8 13.6 8.2 9.5 12.7 10.8 10.5 10.1 SpindleNet[7] 33.8 / 31.7 / 32.2 / 31.5 / IDE_ResNet_50[12] 22.2 21.0 18.4 17.6 19.5 18.8 18.9 17.8 SVDNet[20] 40.9 37.8 37.2 28.8 38.4 31.6 36.4 27.1 APR[21] 45.7 46.8 42.4 41.6 43.3 42.7 42.8 42.1 PIE[6] 34.2 31.1 31.4 25.8 33.1 29.6 29.4 22.6 本文模型 23.5 22.7 21.1 19.8 21.4 20.2 22.5 21.5 -
[1] 何果财, 刘峡壁. 基于图像三元组挖掘的无监督视觉表示学习[J]. 计算机学报, 2018, 42(12): 2787–2803. doi: 10.11897/SP.J.1016.2018.02787HE Guocai and LIU Xiabi. Unsupervised visual representation learning with image triplets mining[J]. Chinese Journal of Computers, 2018, 42(12): 2787–2803. doi: 10.11897/SP.J.1016.2018.02787 [2] LIAO Shengcai, HU Yang, ZHU Xiangyu, et al. Person re-identification by local maximal occurrence representation and metric learning[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, 2015: 2197–2206. [3] 桑海峰, 王传正, 吕应宇, 等. 基于多信息流动卷积神经网络的行人再识别[J]. 电子学报, 2019, 47(2): 351–357. doi: 10.3969/j.issn.0372-2112.2019.02.014SANG Haifeng, WANG Chuanzheng, LÜ Yingyu, et al. Person re-identification based on multi-information flow convolutional neural network[J]. Acta Electronica Sinica, 2019, 47(2): 351–357. doi: 10.3969/j.issn.0372-2112.2019.02.014 [4] LUO Hao, JIANG Wei, ZHANG Xuan, et al. AlignedReID++: Dynamically matching local information for person re-identification[J]. Pattern Recognition, 2019, 94: 53–61. doi: 10.1016/j.patcog.2019.05.028 [5] 刘一敏, 蒋建国, 齐美彬, 等. 融合生成对抗网络和姿态估计的视频行人再识别方法[J]. 自动化学报, 2020, 46(3): 576–584. doi: 10.16383/j.aas.c180054LIU Yimin, JIANG Jianguo, QI Meibin, et al. Video-based person re-identification method based on GAN and pose estimation[J]. Acta Automatica Sinica, 2020, 46(3): 576–584. doi: 10.16383/j.aas.c180054 [6] ZHENG Liang, HUANG Yujia, LU Huchuan, et al. Pose-invariant embedding for deep person re-identification[J]. IEEE Transactions on Image Processing, 2019, 28(9): 4500–4509. doi: 10.1109/TIP.2019.2910414 [7] ZHAO Haiyu, TIAN Maoqing, SUN Shuyang, et al. Spindle net: Person re-identification with human body region guided feature decomposition and fusion[C]. The 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 907–915. [8] KÖSTINGER M, HIRZER M, WOHLHART P, et al. Large scale metric learning from equivalence constraints[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012: 2288–2295. [9] HERMANS A, BEYER L, and LEIBE B. In defense of the triplet loss for person re-identification[J]. arXiv preprint arXiv: 1703.07737. 2017. [10] CHEN Weihua, CHEN Xiaotang, ZHANG Jianguo, et al. Beyond triplet loss: A deep quadruplet network for person re-identification[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 1320–1329. [11] XIAO Jinsheng, ZOU Wentao, CHEN Yunhua, et al. Single image rain removal based on depth of field and sparse coding[J]. Pattern Recognition Letters, 2018, 116: 212–217. doi: 10.1016/j.patrec.2018.10.006 [12] ZHONG Zhun, ZHENG Liang, CAO Donglin, et al. Re-ranking person re-identification with k-reciprocal encoding[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 3652–3661. [13] AHARON M, ELAD M, and BRUCKSTEIN A. K-SVD: An algorithm for designing overcomplete dictionaries for sparse representation[J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311–4322. doi: 10.1109/TSP.2006.881199 [14] HUANG Dean, KANG Liwei, YANG Minchun, et al. Context-aware single image rain removal[C]. 2012 IEEE International Conference on Multimedia and Expo, Melbourne, Australia, 2012: 164–169. [15] KANG Liwei, LIN C W, and FU Y H. Automatic single-image-based rain streaks removal via image decomposition[J]. IEEE Transactions on Image Processing, 2012, 21(4): 1742–1755. doi: 10.1109/TIP.2011.2179057 [16] LUO Yu, XU Yong, and JI Hui. Removing rain from a single image via discriminative sparse coding[C]. 2015 IEEE International Conference on Computer Vision, Santiago, Chile, 2015: 3397–3405. [17] SON C H and ZHANG Xioaping. Rain detection and removal via shrinkage-based sparse coding and learned rain dictionary[J]. Journal of Imaging Science and Technology, 2020, 64(3): 30501. doi: 10.2352/J.ImagingSci.Technol.2020.64.3.030501 [18] 肖进胜, 李文昊, 姜红, 等. 基于双域滤波的三维块匹配视频去噪算法[J]. 通信学报, 2015, 36(9): 91–97. doi: 10.11959/j.issn.1000-436x.2015245XIAO Jinsheng, LI Wenhao, JIANG Hong, et al. Three dimensional block-matching video denoising algorithm based on dual-domain filtering[J]. Journal on Communications, 2015, 36(9): 91–97. doi: 10.11959/j.issn.1000-436x.2015245 [19] 陈巧媛, 陈莹. 基于困难样本三元组损失的多任务行人再识别[J]. 计算机辅助设计与图形学学报, 2019, 31(7): 1156–1165. doi: 10.3724/SP.J.1089.2019.17463CHEN Qiaoyuan and CHEN Ying. TriHard loss based multi-task person re-identification[J]. Journal of Computer-Aided Design &Computer Graphics, 2019, 31(7): 1156–1165. doi: 10.3724/SP.J.1089.2019.17463 [20] SUN Yifan, ZHENG Liang, DENG Weijian, et al. SVDNet for pedestrian retrieval[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 3820–3828. [21] LIN Yutian, ZHENG Liang, ZHENG Zhedong, et al. Improving person re-identification by attribute and identity learning[J]. Pattern Recognition, 2019, 95: 151–161. doi: 10.1016/j.patcog.2019.06.006 期刊类型引用(1)
1. 肖进胜,吴婧逸,郭浩文,郭圆,赵持恒,王银. 精细化局部语义与属性学习的行人重识别. 计算机学报. 2024(10): 2387-2400 . 百度学术
其他类型引用(2)
-