An Optimal Plot-to-Track Association Method Based on JVC Algorithm for Maritime Target with Compact HFSWR
-
摘要: 紧凑型地波雷达由于接收天线阵列孔径减小导致对海上目标的定位精度低,在多目标跟踪算法中采用序贯式的点迹-航迹关联方式易发生误关联导致航迹断裂、误跟踪等问题。对此,该文将多目标点迹-航迹关联转化为最优分配问题,提出一种基于JVC算法的多目标点迹-航迹最优关联方法。对于关联波门重叠区域内存在公共候选点迹的多条航迹,首先以雷达获取的目标多普勒速度、距离与方位角作为目标特征参数,利用最小代价函数确定公共候选点迹与所有航迹之间的相似度,得到关联代价矩阵;然后以总关联代价最小化作为优化准则,采用JVC算法求解得到最优的点迹-航迹关联结果。利用仿真与实测目标数据开展了点迹-航迹关联实验,并与序贯最近邻关联方法的关联结果进行了对比。实验结果表明:采用该文所提方法跟踪得到的航迹时长明显优于序贯最近邻关联方法的结果,解决了序贯式关联因关联错误导致的航迹断裂、误跟踪等问题,提高了航迹跟踪的连续性。Abstract: The compact High-Frequency Surface Wave Radar (HFSWR) has low spatial resolution for target detection due to its reduced aperture size of the receiving antenna array. The sequential plot-to-track association method used in multi-target tracking algorithms is prone to erroneous association, which easily leads to track fragmentation and false tracking. In order to solve this problem, regarding the multi-target plot-to-track association as an optimal allocation problem, an optimal multi-target plot-to-track association method based on JVC (Jonker-Volgenant-Castanon) algorithm is proposed. For multiple tracks with common candidate plots in their overlapped association gate, firstly, the similarity between their candidate plots and all tracks is calculated using the minimal cost function with target Doppler velocity, range and azimuth as parameters and an association cost matrix is formed. Then, the optimal association result is achieved by minimizing the total association cost using the JVC algorithm. Both simulation and field target data are used to carry out the plot-to-track association experiment, and the association results are compared with those of the sequential nearest neighbor association method. The experimental results show that the track length obtained by the proposed method is superior to that of the sequential nearest neighbor method, thus the track continuity is improved.
-
Key words:
- Compact HFSWR /
- Multitarget tracking /
- Plot-to-track association /
- Optimal association
-
1. 引言
随着计算机视觉技术的进步,创建无处不在的智能监控系统成为可能,安装可视摄像机和红外摄像机能够监控不断变化的环境,加强对犯罪的检测,为公共安全提供保障。该技术关键在于跨越不同的摄像机来匹配相同身份的行人图像。然而,大多数现有行人重识别(Re-IDentification, Re-ID)技术只关注在白天或者在光线充足的场景中用可见光谱摄像机来搜集可见光RGB(Red Green Blue)图像,专注于RGB图像的匹配,例如文献[1-3],这就具有很大的局限性。夜晚进行犯罪活动等违法行为时,很难用可见光谱的摄像机来进行识别。但是现在大多数监控摄像头可以在夜间捕捉红外(Infrared, IR)图像,这就可以为跨模态的相关任务提供可用的信息。在这种情况下,传统的Re-ID技术不能解决这种问题,因为RGB图像和IR图像具有巨大的差异性。具体来说,红外图像缺少颜色信息,而RGB图像具有丰富的颜色信息。
为解决这一问题,Chen等人[4]提出了一种新颖的摄像机协同关系感知特定视角下的特征增强框架,解决复杂场景下行人重识别问题。随后,更多关注跨模态可共享全局特征的工作来理模态差异。Ye等人[5]提出了一种双流网络架构TONE(TwO-stream CNN NEtwork),该方法同样是关注全局特征来扩大特征的类间差异。同时,Dai等人[6]采用生成对抗网络的方法来生成不同模态下的图像,提出了一种交叉模式生成对抗网络(cross-modality Generative Adversarial Network, cmGAN),该网络可以学习模态不变的特征表示。这些方法都是通过全局特征进行学习,但是全局特征往往对背景杂波敏感,不能很好地处理模态的差异。因此,基于这种缺陷,Ye等人[7]提出了一种非局部注意力成分来恢复图像的部分信息。Zhu等人[8]提出了一种双流局部特征网络(Two-Stream Local Feature Network, TSLFN),该方法通过在特征提取模块中不采用下采样操作来扩大局部特征的感受野,但仅仅也只是关注到了局部的细粒度信息,从而忽略了全局的粗粒度信息,没有尝试全局与局部特征的多粒度特征融合。
针对上述问题,受Wang等人[9]在单模态下提出的多粒度网络的启发,本文提出了一种针对跨模态端到端的特征学习策略,该策略集成了不同粒度的判别信息。设计了一种新的多粒度共享特征融合(Multiple-granularity Shared Feature Fusion, MSFF)网络,所提MSFF框架旨在学习两种模态共享的全局和局部特征表示,是一种多分支网络体系结构。在框架中,采用一个全局特征表示的分支和两个用于局部特征表示的分支组成。本文将只有一个完整的全局信息看作最粗糙的信息,随着分块的增加,局部的部分特征可以更多地集中在每个分块中更精细的判别信息上,如图1所示,行人身份从粗粒度信息到细粒度信息划分的越来越详细,更多有用信息被捕捉到。
此外,本文在骨干网络中设计了子空间共享特征模块,将来自不同模态的特征信息对齐投影到同一子空间中,共享更多权值,使网络提取更有效的共享特征,同时有利于损失函数进行约束,来扩大特征类间差异和提高类内跨模态相似性。在公共数据集上进行了一系列的实验,实验结果表明本文所提MSFF网络框架有着优越的性能。本文主要贡献如下:
(1)本文提出了一种新的MSFF网络结构框架,该框架结合了全局和局部特征来学习两种模态的不同粒度表示,共同学习图像的多尺度信息,最后形成更强的特征描述符。
(2)提出了一种子空间共享特征模块,在该模块中将两种模态各自的特征提前映射到同一子空间中,使骨干网络共享更多的权重参数,提取更有效的共享特征,同时有利于损失函数更好地监督约束网络,实现扩大类间的差异和提高类内相似性。
(3)在两个公共的数据集上进行实验表明,该网络框架具有很好的性能和可靠性。
2. 本文算法
2.1 网络总体框架
单模态行人重识别中,一种经典的方法是文献[10]中将局部特征进行切片与LSTM(Long Short Term Memory)网络合并,并与从分类度量学习中学习的全局特征相结合。在文献[9]中特征被连接表示身体的局部结构和全身结构,行人身体的结构是行人固有的属性,该结构的表示不随着模态的变化而改变,所以行人身体结构信息是跨模态中共享的。基于这一特性本文提出了适用于跨模态的MSFF网络,其网络结构如图2所示,包含多尺度特征提取模块和特征嵌入模块。
2.2 多尺度特征提取
网络由两条路径(可见光路径和红外路径)组成,分别从两种模态中提取信息,在每条路径中采用ResNet-50作为本文的骨干网络[11],不同之处在于,在骨干网络的第3层之后又分为3个独立的分支,提取图像的全局和局部特征。
表1列出了这些分支的结构设置,第1个分支中,骨干网络的第3层之后采用下采样,在相应的输出特征图中我们采用全局最大池化操作[12],该分支中没有任何分区信息的情况下学习全局特征表示,该分支命名为全局分支(Part-global)。然后,采用全连接层(Fully Connected, FC)来进行特征向量的降维。对于FC层,采用一个Leaky ReLU(Rectified Linear Units)激活层和一个批处理归一化层[13],使特征维度由2048减少到512。第2个分支中,采用与全局分支相似的网络结构,与全局分支不同在于,骨干网络的第3层之后没有采用下采样操作,为局部特征扩大感受野,丰富特征粒度,该部分作为第2个分支的全局特征。同时分支输出特征映射在水平方向上被均匀地分割成两个部分,两部分别表示行人的上半身和下半身,作为第2个分支的局部特征。在该分支中得到这些特征向量之后,执行与全局分支相同以上操作来学习全局和局部特征,该分支命名为Part-1。第3个分支中,与第2个分支具有相同的网络架构,不同的是将输出的特征映射在水平上均匀地分为3部分,表示行人的头部,上半身和下半身。得到这些特征条带之后执行和Part-global, Part-1相同的操作,该分支命名为Part-2。
表 1 网络3个分支的结构设置Branch Part Map size Dims Feature Part-global 1 12×4 512 Fg Part-1 1+2 24×8 512×2+512 Fg1/Fp1 Part-2 1+3 24×8 512×3+512 Fg2/Fp2 2.3 子空间共享特征模块
子空间共享特征模块旨在骨干网络中提前共享两种模态更多特征,首先可见光图像
xiRGB 和红外图像xiIR 分批次的输送到双流网络中提取各模态特定的特征,然后经过子空间共享特征模块将两种模态特征对齐并映射到同一子空间中,使网络产生更丰富的共享权值,本文采用在骨干网络的第4层加入了子空间共享特征模块,表述为yiRGB=feat(xiRGB) (1) yiIR=feat(xiIR) (2) Yi=Conv(cat(yiRGB,yiIR)) (3) 其中,
yiRGB⊆RC×H×W 和yiIR⊆RC×H×W 分别为经过双流网络得到模态特定特征的可见光图像和红外图像的特征图,其中C表示通道数目,H和W表示图片的长和宽。feat表示提取两种模态特定特征支路。cat用于连接两种模态的对齐特征,将连接起来的对齐特征投影到同一子空间中。Conv表示将子空间的对齐特征进行卷积。Yi表示经过骨干网络得到的两种模态共享特征。在测试阶段,根据模态将图像输入到相应的分支中。然后,将特征向量进行L2归一化。最后,所有的特征向量连接起来形成最后的特征描述符,训练好的模型测试过程中,给定一个探针图像,提取所有异质图库图像的特征描述符,接下来根据探针和所有图库图像的欧氏距离对图库图像进行排序,异类的类内图像最高的相似性。
2.4 特征嵌入模块
特征嵌入模块是用损失函数来约束网络学习的特征表示,从而扩大类间的差异和提高类内跨模态的相似性,所以采用交叉熵损失和异质中心损失(Hetero Center Loss, HC Loss)联合对网络进行监督。对于交叉熵损失,将全局和局部特征向量输入到分类器中,该分类器由全连接(FC)层和softmax激活层组成。本文有8个特征向量输入到8个独立参数的分类器中,分类器预测每一个特征向量的身份。在每一个分支中,根据分类器的预测值和图像的身份标签来计算交叉熵损失。对于异质中心损失,在进行计算时要先经过L2归一化。最后,各个分支的损失在训练阶段用来更新相应的参数。
2.5 损失函数设计
在跨模态行人图像中,行人的身体结构是行人固有的属性,属于模态共享信息,不随着模态的变化而变化,而对于行人的衣服颜色等属于模态的特定信息,这种特定模态的信息会降低相同身份的两个异质样本的相似性。这就需要相应的损失函数来监督网络学习到特定的信息。以往跨模态行人重识别方法中,采用交叉熵损失(Cross Entropy Loss, CE Loss)和3元组损失(Triplet Loss),对于交叉熵损失是用来刻画实际输出与期望输出的距离,主要用来行人身份的分类。对于3元组损失用于扩大类间差异和提高类内相似性。但是3元组损失不能很好地监督网络提取模态共享信息。所以,本文采用CE Loss和HC Loss联合监督的方法来监督网络,对于CE Loss计算公式为
LC=−K∑i=1lneWTyixi+byin∑j=1eWTjxi+bj (4) 其中,K表示批次的大小,xi表示第yi类中第i个样本提取的特征,Wj表示权重的第j列权重,b表示偏差项。从交叉熵损失公式可知,交叉熵损失的目的是提取特定的身份进行分类,所以在对行人特定信息(如行人衣服颜色)预测真实标签时能够监督网络提取,来形成描述符。本文采用CE Loss作为ID损失,而对于模态共享的信息交叉熵损失不能起到约束网络的作用。
因此对于模态共享的信息采用HC Loss来监督,HC Loss具有很强的聚类能力,能够约束两个模态特征分布之间的中心距离,提高类内跨模态的相似性。HC Loss计算如式(5)所示
LHC=U∑i=1[||ci,1−ci,2||22] (5) Ci,1=1MM∑j=1Xi,1,j,Ci,2=1NM∑j=1Xi,2,j (6) 其中,
Ci,1 表示RGB模态下第i类图像的特征分布中心,Ci,2 表示IR模态下第i类图像的特征分布中心。U表示分类的数量,M和N表示该类中RGB图像和IR图像的数量,Xi,1,j 表示第i类图像中第j个RGB图像,Xi,2,j 表示第i类图像中第j个红外图像。由于HC Loss仅约束图库图像各类的中心损失来提高类内的相似性,所以不能单独用来监督网络来扩大类间的相似性。本文采用文献[8]的损失函数监督策略来监督本文设计的网络,用CE Loss和HC Loss联合监督的方法来实现跨模态行人再识别的任务。在整个优化阶段实现端到端的训练,在每个小批次中,总的损失函数表述如式(7)所示
L=LC+λ⋅LHC=−K∑i=1lneWTyixi+byin∑j=1eWTjxi+bj+λ⋅U∑i=1[||ci,1−ci,2||22] (7) 其中,
LC 和LHC 分别表示CE Loss和HC Loss,λ表示平衡两个损失函数的超参数,控制HC Loss占总损失中的权重。3. 实验结果与分析
3.1 数据集描述
本文在两个公开的跨模态数据集SYSU-MM01[14]和RegDB[15]上进行了一系列实验来评估所提方法的有效性。SYSU-MM01是由中山大学采集的第1个跨模态行人重识别领域的大型数据集,如图3所示,这些图像在不同的摄像机之间和不同的模态、光照、环境、人的体态之间呈现出很大差异。它包括了287628张RGB图像,15792张IR图像,其中对应491个不同身份的行人,这些图像是由6台摄像机拍摄收集的,其中包括4台可见光摄像头和2台红外摄像头,摄像机位于室内和室外环境中。Camera 1, Camera 2, Camera 4, Camera 5为可见光摄像头,Camera 3, Camera 6为红外摄像头。该数据集包含的491个身份的行人中,每个身份至少由1个可见摄像机和1个红外摄像机捕捉。
评估方案实验,采用文献[16,17]将数据集随机分为两部分,一部分用于训练,一部分用于测试。训练集包含395个身份的22258幅可见光图像和11909幅红外图像。测试集包含了可见光图像和对应于95个身份的红外图像。在测试阶段,红外图像用作为探针图像,来搜索出测试集中的RGB图像。测试模式分为两种,第1种是全搜索模式,包括使用所有的摄像头;第2种模式是室内搜索模式,使用室内的摄像机采集图库图像。全搜索模式由于场景复杂多样性比室内搜索模式更加困难,而室内搜索模式更接近于理想状态,能更好地评估跨模态网络的检索性能。对于两种搜索模式下还设置了单镜头(Single-hot)和多镜头(Multi-hot),这两种模式的区别在于构成图库集时每个身份的图像量。在单镜头设置中,随机为每个身份选择一个图像来构建图库,而在多镜头设置中,每个身份包含图库集中10个图像。
评估指标采用文献[17]中CMC、平均精度mAP作为评估标准;CMC表示第n次命中概率,即R-n (Rank n)表示搜索结果最靠前的n张图片的准确率,当n=1,10,20时即计算测试集中前1,10,20张与查询集中图片相似度排序后为同一标签的准确率。mAP如式(8)所示,APi表示类别的平均精度,C表示类别的个数。每个实验用随机测试集重复10次,以获得平均性能。
mAP=n∑i=1APiC (8) 3.2 实验设置
本文实验环境配置为显卡GeForce RTX 2080ti, CPU为I9-10900k, 64 bit Ubuntu 16.04系统,CUDA10.0, Pytorch1.2。行人图像预处理成384×128大小;数据增广策略采用对图像进行随机旋转和剪裁;batch size大小设置为16;1个批次中行人身份数量设置为4,所以在每个批次中,每个身份包含4个RGB图像和4个红外图像。网络输出3个分支的特征图中每个条带的输出维度为2048,本文采用FC层将特征维度降为512。因此,测试阶段特征描述符的维数为8×512=4096。对于损失函数中λ参数设置,将λ的值设置为0.1来平衡HC损失函数。在训练阶段epoch大小设置为60;初始学习率设为0.01,前30个epoch的学习率为0.01,后30个epoch的学习率为0.001;优化器采用动量为0.9的SGD进行优化。
3.3 与其他方法进行比较
为了验证本文算法的先进性,将所提方法与以往跨模态的先进方法进行了比较。如表2与图4所示,比较的方法有Zero-padding[17], D2RL[19](Dual-level Discrepancy Reduction Learning), DPMBN[21](Dual-Path Multi-Branch Network), LZM[23](Local Zernike Moments), DDAG[27](Dynamic Dual-attentive AGgregation), TSLFN[8]等。其中DDAG[27]是利用注意力模块局部分块特征来细化样本的表示。Xmodal[26](X Modality)是利用中间辅助模态X,将两种模态的问题转化为三模态问题。cm-SSFT[28](cross-modality Shared Specific Feature Transfer)实现了目前跨模态行人重识别的最高性能,该方法融合了模态共享特征和模态特定特征,可以基于最近邻传播来自不同模态的信息,但是该方法有复杂的网络结构,且需要辅助数据集,在现实应用中没有辅助数据集无法实现端到端的学习。对于基线TSLFN[8]网络采用局部条带的分支策略,用HC损失作为目标函数将正样本进行拉近,更加关注局部信息。
表 2 在SYSU-MM01的All-search模式下和其他方法对比实验结果(%)方法 单镜头 多镜头 R-1 R-10 R-20 mAP R-1 R-10 R-20 mAP One-Stream[17] 12.04 49.68 66.74 13.67 19.13 58.14 75.05 8.59 Two-stream[17] 11.65 47.99 65.50 12.85 16.33 58.35 74.46 8.03 Zero-padding[17] 14.80 54.12 71.33 15.95 – 61.40 78.41 10.89 TONE[5] 12.52 50,72 68.60 14.42 – – – – HCML[5] 14.32 53.16 69.17 16.16 – – – – BDTR[16] 27.32 66.96 81.7 27.32 – – – – eBDTR[18] 27.82 67.34 81.34 28.42 – – – – D2RL[19] 28.90 70.60 82.40 29.20 – – – – MAC[20] 33.26 79.04 90.09 36.22 – – – – DPMBN[21] 37.02 79.46 89.87 40.28 – – – – AlignGAN[22] 42.40 85.00 93.70 40.70 51.50 89.40 95.70 33.90 LZM[23] 45.00 89.06 – 45.94 – – – – Hi-CMD[24] 34.94 77.58 – 35.94 – – – – AGW[25] 47.50 84.39 92.14 47.65 – – – – Xmodal[26] 49.92 89.79 95.96 50.73 47.56 88.13 95.98 36.08 DDAG[27] 54.75 90.39 95.81 53.02 – – – – cm-SSFT[28] 67.60 89.20 93.90 63.20 64.4 91.2 95.7 62.0 Baseline(TSLFN)[8] 59.96 91.50 96.82 54.95 62.09 93.74 97.85 48.02 本文 62.93 93.68 97.67 60.62 68.42 95.71 98.22 54.51 从表2和表3可以很清晰地看出在SYSU-MM01和RegDB两个数据集上所提出方法性能的优越性,在所有的搜索模式下都优于基线网络。表中最后一行展示了本文方法的CMC和mAP,即使在最困难的模式下,即全搜索单镜头模式下,本文方法在R-1, R-10, R-20分别超过了基线网络TSLFN方法2.97%, 2.18%, 0.85%,mAP的性能上提高了5.67%。其中“–”表示原论文中没有报告的结果。
表 3 在RegDB数据集和其它方法对比实验结果(%)方法 Visible to Infrared Infrared to Visible R-1 R-10 R-20 mAP R-1 R-10 R-20 mAP Zero-padding[17] 17.75 34.21 44.35 18.90 16.63 34.68 44.25 17.82 HCML[5] 24.44 47.53 56.78 20.08 21.70 45.02 55.58 22.24 BDTR[16] 33.56 58.61 67.43 32.76 32.92 58.46 68.43 31.96 eBDTR[18] 34.62 58.96 68.72 33.46 34.21 58.74 68.64 32.49 AlignGAN[22] 57.90 – – 53.60 56.30 – – 53.40 MAC[20] 36.43 62.36 71.63 37.03 36.20 61.68 70.99 36.63 Xmodal[26] 62.21 83.13 91.72 60.18 – – – – DDAG[27] 69.34 86.19 91.49 63.46 68.06 85.15 90.31 61.80 cm-SSFT*[28] 72.30 – – 72.90 71.00 – – 71.70 Baseline(TSLFN)[8] – – – – – – – – 本文 78.06 91.36 96.12 72.43 – – – – 3.4 消融实验
本文在SYSU-MM01数据集单镜头全搜索模式下进行了一系列消融实验,来证明MSFF网络各个分支的有效性。在每个对比实验中,参数设置为相同,因为本文网络有3个分支,在消融实验过程中采用依次删除子空间共享特征模块、Part-global, Part-1, Part-2分支分别训练,验证该模块和分支是否在网络中缺一不可。
如表4所示,其中P表示删除子空间共享特征模块,在本文设计的MSFF网络的基础上进行训练,实验结果发现采用本文设计的网络结构框架在性能上依然相比基线(TSLFN)网络要高。Pg-1表示删除网络的第1个分支(Part-global),保留子空间共享特征模块、Part-1和Part-2分支,在删除网络中第1个全局分支之后发现性能下降,R-1和mAP分别下降1.3%、2.21%,可见该全局分支表示的粗粒度信息能够被网络学习到。Pg-2表示删除第2个分支(Part-1),保留其余的模块和分支。删除的分支中包含一个全局特征分支和一个特征图分成两部分的局部特征分支,实验结果表明在删除的第2个分支后R-1和mAP分别下降1.3%、2.79%,相比于Pg-1下降得更明显,这说明特征图分为两部分的局部特征分支在网络的训练过程中能够学习到细粒度的有用信息,例如,行人衣服上图案的形状等细节特征。Pg-3表示删除第3分支(Part-2),保留其余的模块和分支。该部分删除的分支中包含全局特征分支和一个特征图分成3部分的局部特征分支,在删除该分支后性能明显下降,R-1和mAP分别下降5.49%, 5.34%。充分体现出第3分支的重要性,既能学习到行人粗糙的全身信息又能学习到行人各个部位的细粒度信息。MSFF表示保留网络中各个模块和分支的完整结构。
表 4 网络各个模块在SYSU-MM01数据集All-search single模式下实验结果(%)子空间共享特征模块 Part-global Part-1 Part-2 R-1 R-10 R-20 mAP P × √ √ √ 56.67 91.85 97.14 55.27 Pg-1 √ × √ √ 61.63 93.02 97.51 58.41 Pg-2 √ √ × √ 61.63 92.63 96.92 57.83 Pg-3 √ √ √ × 57.44 91.53 97.01 55.28 MSFF √ √ √ √ 62.93 93.68 97.67 60.62 通过上述消融实验结果能够看出网络中的这些局部特征在性能上有很大的提升,有了更细粒度的信息之后能够得到更好的结果,通过将特征图分割成若干块,该模型能更加集中行人样本中的细节信息,获得更高的精度。局部特征的方法验证了行人局部特征能提供丰富的匹配线索信息。另外,也证实了局部特征和全局特征结合的有效性,在MSFF网络框架形成的最终描述符中结合了局部特征和全局特征,显著提升性能。局部特征提供细粒度的信息,而全局特征补充整体行人特征表示。
3.5 参数和子空间共享特征模块位置分析
本节进行了一系列实验来研究总损失函数中参数λ的影响。参数λ影响总损失函数中HC Loss所占权重,λ的值以0.1为区间,从0.1到0.5进行实验。图5(a)所示在全搜索单镜头模式下,不同λ的值在SYSU-MM01数据集上的性能。观察到λ的最佳值是0.1,随着λ的增加,mAP的性能逐渐下降,网络收敛速度降低,当λ取0.3, 0.4, 0.5时网络甚至不收敛。分析得出可能是因为两种模态的共享信息不够,使得网络无法将两种模态的中心距离拉的更近,不能在正确的方向上优化HC Loss,导致过拟合。
为验证子空间共享特征模块在骨干网络中位置的影响,分别将该模块依次加入到骨干网络中,如图5(b)所示在SYSU-MM01数据集全搜索单镜头模式下,该模块在MSFF网络中不同位置的性能实验结果。其中横坐标表示依次加入到骨干网络第2层、第3层和第4层,FC表示不在骨干网络中加入子空间共享特征层,而是在网络最终层之后全连接层共享特征,使两种模态有更多的单独层提取各自特定的特征。实验发现,在骨干网络第4层及之后加入性能最好,网络的最终层之前更多的单独层可以生成更多的异构特征,在损失函数的约束下扩大不同模态的类间差异。但是过多的单独层使得两种模态的共享特征信息不够,不利于提高不同模态的类内相似性。同时,过多的共享特征层会使得异构特征信息不够,导致损失函数优化过程的低效性。
4. 结束语
本文针对跨模态行人重识别提出了一种新的多粒度共享特征融合网络(MSFF),该网络是一种新的多分支深度网络,从跨模态图像中学习局部和全局特征的区别性表示,不引入局部注意力或姿势估计等区域定位的方法,实现完全的端到端。此外,本文还提出了子空间共享特征模块,用于网络提取更有效的模态共享特征,在CE损失和HC损失联合监督约束下,实现跨模态行人重识别重要的目标,扩大类间的差距和提高类内相似性。在两个公共数据集上,进行了消融实验以及与现有的先进方法进行比对实验,充分验证了所提方法的先进性,具有更好的鲁棒性和识别精度,为该领域提供了简单有效的思路。
-
表 1 仿真目标的参数
初始距离(km) 初始方位角(°) 初始多普勒速(km/h) 帧数 目标1 147.2 8.4 20.8 180 目标2 151.6 8.7 19.7 180 目标3 157.4 11.1 19.4 180 目标4 138.1 –19.5 30.6 180 目标5 138.8 –19.0 19.1 180 表 2 不同跟踪时长的航迹数量对比
方法 跟踪时长>30 min 跟踪时长>40 min 跟踪时长>50 min 航迹总数 平均跟踪时长(min) 航迹总数 平均跟踪时长(min) 航迹总数 平均跟踪时长(min) 序贯最近邻关联方法 181 46.9 123 52.4 92 54.8 本文方法 145 69.1 109 80.7 81 93.7 表 3 目标个例详细信息
船名 MMSI 船长(m) 船宽(m) 吃水深度(m) 初始距离(km) 初始方位角(∘) 多普勒速度(km/h) 跟踪时长(m) JIN YUAN XING 16 413271210 224 32 12.4 91.7 10.4 20.1 124 TONG DA 698 412454070 103 16 3.5 26.6 28.8 –10.2 180 YONG XING ZHOU 413203000 228 32 11.4 27.1 26.4 –12.2 150 表 4 采用两种方法时的跟踪结果比较
关联方法 正确关联航迹数目 关联正确率(%) 平均运行时间(s) NNDA 29 53.7 49.61 本文方法 44 81.5 54.7 -
[1] 纪永刚, 张杰, 王祎鸣, 等. 紧凑型高频地波雷达目标探测研究进展[J]. 中国海洋大学学报, 2017, 47(2): 1–7. doi: 10.16441/j.cnki.hdxb.20160285JI Yonggang, ZHANG Jie, WANG Yiming, et al. An overview of target monitoring with compact HFSWR[J]. Periodical of Ocean University of China, 2017, 47(2): 1–7. doi: 10.16441/j.cnki.hdxb.20160285 [2] 叶磊, 王勇, 杨强, 等. 基于对数行列式散度与对称对数行列式散度的高频地波雷达目标检测器[J]. 电子与信息学报, 2019, 41(8): 1931–1938. doi: 10.11999/JEIT181078YE Lei, WANG Yong, YANG Qiang, et al. High frequency surface wave radar detector based on log-determinant divergence and symmetrized log-determinant divergence[J]. Journal of Electronics &Information Technology, 2019, 41(8): 1931–1938. doi: 10.11999/JEIT181078 [3] PARK S, CHO C J, KU B, et al. Compact HF surface wave radar data generating simulator for ship detection and tracking[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(6): 969–973. doi: 10.1109/LGRS.2017.2691741 [4] SMITH M, ROARTY H, GLENN S, et al. Methods of associating CODAR seasonde vessel detection data into unique tracks[C]. 2013 IEEE OCEANS, San Diego, USA, 2013: 1–5. doi: 10.23919/OCEANS.2013.6741197. [5] LU Bo, WEN Biyang, TIAN Yingwei, et al. A vessel detection method using compact-array HF radar[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(11): 2017–2021. doi: 10.1109/LGRS.2017.2748142 [6] HELZEL T, HANSEN B, KNIEPHOFF M, et al. Introduction of the compact HF radar WERA-S[C]. 2012 IEEE/OES Baltic International Symposium (BALTIC), Klaipeda, Lithuania, 2012: 1–3. doi: 10.1109/BALTIC.2012.6249215. [7] JI Yonggang, ZHANG Jie, WANG Yiming, et al. Target monitoring using small-aperture compact high-frequency surface wave radar[J]. IEEE Aerospace and Electronic Systems Magazine, 2018, 33(3): 22–31. doi: 10.1109/MAES.2018.170023 [8] SUN Weifeng, HUANG Weimin, JI Yonggang, et al. A vessel azimuth and course joint re-estimation method for compact HFSWR[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(2): 1041–1051. doi: 10.1109/TGRS.2019.2943065 [9] SUN Weifeng, HUANG Weimin, JI Yonggang, et al. Vessel tracking with small-aperture compact high-frequency surface wave radar[C]. OCEANS 2019- Marseille, Marseille, France, 2019: 1–4. doi: 10.1109/OCEANSE.2019.8867267. [10] 辛云宏, 杨万海. 被动多站多目标的测量数据关联算法研究[J]. 宇航学报, 2005, 26(6): 748–752, 797. doi: 10.3321/j.issn:1000-1328.2005.06.015XIN Yunhong and YANG Wanhai. A method of the passive multi-sensor multi-target measurement data association[J]. Journal of Astronautics, 2005, 26(6): 748–752, 797. doi: 10.3321/j.issn:1000-1328.2005.06.015 [11] CHEN Qinxin, YAN Yude, and DAI Yuewei. Joint nearest neighbor data association based on interacting multiple model Kalman filtering[C]. 2016 IEEE International Conference on Computer and Communications (ICCC), Chengdu, China, 2016: 75–79. doi: 10.1109/CompComm.2016.7924668. [12] 李保珠, 关键, 董云龙. 基于航迹矢量检测的雷达与电子支援设施抗差关联算法[J]. 电子与信息学报, 2019, 41(1): 123–129. doi: 10.11999/JEIT180303LI Baozhu, GUAN Jian, and DONG Yunlong. Anti-bias track association algorithm of radar and electronic support measurements based on track vectors detection[J]. Journal of Electronics &Information Technology, 2019, 41(1): 123–129. doi: 10.11999/JEIT180303 [13] HUANG Yuan, SONG T L, and KIM D S. Linear multitarget integrated probabilistic data association for multiple detection target tracking[J]. IET Radar, Sonar & Navigation, 2018, 12(9): 945–953. doi: 10.1049/iet-rsn.2017.0481 [14] ZHANG Hui, LIU Yongxin, JI Yonggang, et al. Vessel fusion tracking with a dual-frequency high-frequency surface wave radar and calibrated by an automatic identification system[J]. Acta Oceanologica Sinica, 2018, 37(7): 131–140. doi: 10.1007/s13131-018-1250-0 [15] 李文超, 邹焕新, 雷琳, 等. 目标数据关联技术综述[J]. 计算机仿真, 2014, 31(3): 1–5, 10. doi: 10.3969/j.issn.1006-9348.2014.03.001LI Wenchao, ZOU Huanxin, LEI Lin, et al. A survey of target data association[J]. Computer Simulation, 2014, 31(3): 1–5, 10. doi: 10.3969/j.issn.1006-9348.2014.03.001 [16] 康旭超, 何广军, 陈峰, 等. 密集杂波下的模糊数据关联多目标跟踪算法[J]. 探测与控制学报, 2019, 41(4): 56–61, 65.KANG Xuchao, HE Guangjun, CHEN Feng, et al. Fuzzy data associated with multi-target tracking algorithm under dense clutter[J]. Journal of Detection &Control, 2019, 41(4): 56–61, 65. [17] WINTER M, SCHMIDLIN V, and FAVIER G. Classical and neural solutions for plot-to-track association[C]. SPIE 3163, Signal and Data Processing of Small Targets, San Diego, USA, 1997: 546–557. doi: 10.1117/12.279537. [18] BORDONARO S, WILLETT P, and BAR-SHALOM Y. Decorrelated unbiased converted measurement Kalman filter[J]. IEEE Transactions on Aerospace and Electronic Systems, 2014, 50(2): 1431–1444. doi: 10.1109/TAES.2014.120563 [19] 盛卫东, 林两魁, 安玮, 等. 基于全局最优的被动多传感器多目标轨迹关联算法[J]. 电子与信息学报, 2010, 32(7): 1621–1625. doi: 10.3724/SP.J.1146.2009.01091SHENG Weidong, LIN Liangkui, AN Wei, et al. A passive multisensor multitarget track association algorithm based on global optimization[J]. Journal of Electronics &Information Technology, 2010, 32(7): 1621–1625. doi: 10.3724/SP.J.1146.2009.01091 [20] NIKOLIC D, STOJKOVIC N, and LEKIC N. Maritime over the horizon sensor integration: High frequency surface-wave- radar and automatic identification system data integration algorithm[J]. Sensors, 2018, 18(4): 1147. doi: 10.3390/s18041147 期刊类型引用(7)
1. 庄建军,庄宇辰. 一种结构化双注意力混合通道增强的跨模态行人重识别方法. 电子与信息学报. 2024(02): 518-526 . 本站查看
2. 张阔,范馨月,李嘉辉,张干. 基于掩模重构与动态注意力的跨模态行人重识别. 激光与光电子学进展. 2024(10): 263-272 . 百度学术
3. 夏冉,雷晓艳,郭梦晴,王文韬. 基于身份导向自监督表示学习的智能寻人系统. 周口师范学院学报. 2024(02): 50-54 . 百度学术
4. 何磊,栗风永,秦川. 跨通道交互注意力机制驱动的双流网络跨模态行人重识别. 应用科学学报. 2024(05): 884-892 . 百度学术
5. 朱沛伍,高树辉. 低高频多尺度融合的跨模态行人重识别研究. 重庆邮电大学学报(自然科学版). 2024(06): 1183-1193 . 百度学术
6. 张永飞,杨航远,张雨佳,豆朝鹏,廖胜才,郑伟诗,张史梁,叶茫,晏轶超,李俊杰,王生进. 行人再识别技术研究进展. 中国图象图形学报. 2023(06): 1829-1862 . 百度学术
7. 吴林涛,王文明. 基于多维互信息特征的跨模态行人重识别方法. 实验技术与管理. 2023(12): 82-91 . 百度学术
其他类型引用(4)
-