Patch-based Adversarial Example Generation Method for Multi-spectral Object Tracking
-
摘要: 当前面向跟踪器的对抗样本生成研究主要集中于可见光谱段,无法在多谱段条件下实现对跟踪器的有效攻击。为了填补这一空缺,该文提出一种基于多谱段的目标跟踪补丁式对抗样本生成网络,有效提升了对抗样本在多谱段条件下的攻击有效性。具体来说,该网络包含对抗纹理生成模块与对抗形状优化策略,对可见光谱段下跟踪器对目标纹理的理解进行语义干扰,并显著破坏对热显著目标相关特征的提取。此外,根据不同跟踪器的特点设计误回归损失和掩膜干扰损失对多谱段跟踪模型补丁式对抗样本生成提供指引,实现跟踪预测框扩大或者脱离目标的效果,引入最大特征差异损失削弱特征空间中模版帧和搜索帧间的相关性,进而实现对跟踪器的有效攻击。定性和定量实验证明该文对抗样本可以有效提升多谱段环境下对跟踪器的攻击成功率。Abstract:
Objective Current research on tracker-oriented adversarial sample generation primarily focuses on the visible spectral band, leaving a gap in addressing multi-spectral conditions, particularly the infrared spectrum. To address this, this study proposes a novel patch-based adversarial sample generation framework for multi-spectral object tracking. By integrating adversarial texture generation modules and adversarial shape optimization strategies, the framework disrupts the tracking model’s interpretation of target textures in the visible spectrum and impairs the extraction of thermal salient features in the infrared spectrum, respectively. Additionally, tailored loss functions, including mis-regression loss, mask interference loss, and maximum feature discrepancy loss, guide the generation of adversarial patches, leading to the expansion or deviation of tracking prediction boxes and weakening the correlation between template and search frames in the feature space. Research on adversarial sample generation contributes to the development of robust object tracking models resistant to interference in practical scenarios. Methods The proposed framework integrates two key components. A generative adversarial network (GAN) synthesizes texture-rich patches to interfere with the tracker’s semantic understanding of target appearance. This module employs upsampling layers to generate adversarial textures that disrupt the tracker’s ability to recognize and localize targets in the visible spectrum. A deformable patch algorithm dynamically adjusts geometric shapes to disrupt thermal saliency features. By optimizing the length of radial vectors, the algorithm generates adversarial shapes that interfere with the tracker’s extraction of thermal salient features, which are critical for infrared object tracking. Tailored loss functions are designed for different trackers. Mis-regression loss and mask interference loss guide attacks on region-proposal-based trackers (e.g., SiamRPN) and mask-guided trackers (e.g., SiamMask), respectively. These losses mislead the regression branches of region-proposal-based trackers and degrade the mask prediction accuracy of mask-guided trackers. Maximum feature discrepancy loss reduces the correlation between template and search features in deep representation space, further weakening the tracker’s ability to match and track targets. The adversarial patches are generated through iterative optimization of these losses, ensuring cross-spectral attack effectiveness. Results and Discussions Experimental results validate the method’s effectiveness. In the visible spectrum, the proposed framework achieves attack success rates of 81.57% (daytime) and 81.48% (night) against SiamRPN, significantly outperforming state-of-the-art methods PAT and MTD ( Table 1 ). For SiamMask, success rates reach 53.65% (day) and 52.77% (night), demonstrating robust performance across different tracking architectures (Fig. 3 ). In the infrared spectrum, the method attains attack success rates of 71.43% (day) and 81.08% (night) against SiamRPN, exceeding the HOTCOLD method by more than 30% (Table 2 ). For SiamMask, the success rates reach 65.95% (day) and 65.85% (night), highlighting the effectiveness of the adversarial shape optimization strategy in disrupting thermal salient features. Multi-scene robustness is further demonstrated through qualitative results (Fig. 4 ), which show consistent attack performance across diverse environments, including roads, grasslands, and playgrounds under varying illumination conditions. Ablation studies confirm the necessity of each loss component. The combination of mis-regression and feature discrepancy losses improves the SiamRPN attack success rate to 75.95%, while the mask and feature discrepancy losses enhance SiamMask attack success to 65.91% (Table 3 ). Qualitative and quantitative experiments demonstrate that the adversarial samples proposed in this study effectively increase attack success rates against trackers in multi-spectral environments. These results highlight the framework’s ability to generate highly effective adversarial patches across both visible and infrared spectra, offering a comprehensive solution for multi-spectral object tracking security.Conclusions This study addresses the gap in multi-spectral adversarial attacks on object trackers by proposing a novel patch-based adversarial example generation framework. The method integrates a texture generation module for visible-spectrum attacks and a shape optimization strategy for thermal infrared interference, effectively disrupting trackers’ reliance on texture semantics and heat-significant features. By designing task-specific loss functions, including mis-regression loss, mask disruption loss, and maximum feature discrepancy loss, the framework enables precise attacks on both region-proposal and mask-guided trackers. Experimental results demonstrate the adversarial patches’ strong cross-spectral transferability and environmental robustness, causing trackers to deviate from targets or produce excessively enlarged bounding boxes. This work not only advances multi-spectral adversarial attacks in object tracking but also provides insights into improving model robustness against real-world perturbations. Future research will explore dynamic patch generation and extend the framework to emerging transformer-based trackers. -
Key words:
- Adversarial example generation /
- Tracker attacks /
- Multi-spectral /
- Adversarial patch /
- Object tracking
-
1. 引言
目标跟踪任务[1]旨在从视频中的第一帧选定目标,在后续帧中识别并持续定位目标位置。随着深度神经网络的不断更新,目标跟踪模型效率和性能都有显著的提升,并广泛应用于自动驾驶和智能安防等领域。鉴于该项技术的重要性,确保目标跟踪模型的安全成为重要科学问题。研究发现,深度神经网络容易受到对抗性样本的攻击和干扰,其中具备攻击性能的扰动即对抗样本[2]。因此,对抗样本生成研究[3]有助于设计并实现实际场景下抗干扰的目标跟踪鲁棒模型[4]。
尽管现有的对抗样本方案可以一定程度上干扰跟踪模型,但仍然存在3方面亟需解决的挑战。当前目标跟踪对抗样本大多集中在可见光条件下跟踪器的攻击,对于多谱段也即可见光谱段和红外谱段下跟踪器的攻击尚未探索。这种谱段的差异性使得可见光对抗样本迁移到红外谱段下攻击失效,因此如何设计一个多谱段场景跟踪模型对抗样本生成架构以填补当前空白是第1个挑战。热红外谱段下跟踪器通过热辐射目标显著特征进行跟踪使得纹理攻击思路难以有效干扰跟踪器,因此以何种攻击方式设计热红外谱段下的对抗样本成为第2个挑战。此外,现有跟踪模型配有不同的特征提取器和预测头以实现更精准的跟踪而难以攻击,因此如何设计损失可以精细化提升对跟踪模型的攻击能力便是第3个挑战。
因此,基于上述挑战,本文提出一种基于多谱段的目标跟踪补丁式对抗样本生成网络填补当前多谱段跟踪模型攻击方案缺失的问题。具体而言,首先设计形状优化策略以生成热红外谱段下具备攻击形状的补丁。其次采用对抗纹理生成模块生成可见光谱段下具备攻击纹理的补丁。最后,为了精细化提升对跟踪模型的攻击能力,面向两类典型跟踪器提出不同的攻击损失,以此进一步提升多谱段补丁式对抗样本的攻击效用。本文主要贡献如下所示:
(1)首次提出一种多谱段条件下目标跟踪的补丁式对抗样本生成网络,实现可见光谱段和红外谱段对抗补丁的生成。
(2)设计对抗形状优化策略生成热红外对抗补丁以干扰跟踪器对热显著目标相关特征的提取;采用对抗纹理生成模块生成可见光对抗补丁以破坏跟踪器对于目标纹理的理解。
(3)针对区域建议型跟踪器和掩膜引导型跟踪器设计误回归和掩膜干扰损失函数,并采用最大特征差异损失破坏跟踪器深层特征空间中模版图和搜索图的相关性。
(4)定性和定量实验表明,本文的多谱段对抗补丁可以有效干扰两类典型跟踪器,使得跟踪器出现跟踪精度降低甚至跟丢的效果。
2. 相关工作
2.1 目标跟踪
目标跟踪的目的是在可见光视频的第1帧中识别并定位目标[5]。根据所采用的架构,现有的跟踪器也可以分为基于CNN的跟踪器[6]和基于Transformer的跟踪器[7,8] 。基于CNN的跟踪器主要利用Siamese CNN的特征表示能力,将目标跟踪建模为相似度学习问题。该类型下又包含两种典型的跟踪器,一个是区域建议型跟踪器,主要受到区域建议网络的启发,提出很多候选框由粗到精进行筛选并获得最后的精准跟踪结果,例如SiamRPN[9]引入了一个区域建议网络,包括一个前背景分类分支和一个建议回归分支,实现了卓越的跟踪性能。另一种是掩膜引导型,例如SiamMask[10]从实例分割中获取灵感,即一个精确的目标掩膜可以看成目标边界框的上界,基于此,SiamMask在原有置信度分支和回归框分支的基础上增加了掩膜分支,掩膜分支的存在可以引导精细边界框的产生,从而提高跟踪精度。如今,基于Transformer的方法凭借强大的长程建模能力获得了最先进的跟踪性能。例如,SwinTrack[11]统一了特征提取和模板搜索交互的过程,并提出了一种在跟踪过程中融入丰富运动上下文的运动token。虽然基于Transformer的方法可以利用构建起更为强大的全局联系以实现高精度跟踪,但跟踪过程计算开销大,耗时久。相比之下,在实际跟踪应用中基于CNN孪生网络的跟踪器更占优势。
2.2 对抗攻击
对抗攻击的主要目的是研究深度学习模型本身的脆弱性,对于现实生活深度模型安全性保障和潜在风险点排除有着重要意义。近年来,许多学者调研了对抗攻击在不同视觉任务上的应用,例如图像分类[12],目标检测[13],以及目标跟踪[6]。在目标跟踪领域,IoU(Intersection over Union)攻击[14]根据当前和历史帧的预测IoU得分依次产生扰动。不仅局限于扰动形式的攻击, MTD(maximum textural discrepancy)[15]提出了一种基于补丁的攻击方法,对单目标跟踪发起通用物理攻击。在对抗补丁存在的情况下,跟踪器忽略了最初跟踪的目标。近期,Huang等人[16]提出内容引导的扰动攻击方法,可以利用历史帧信息形成当前帧扰动以此干扰跟踪器对目标的预测。值得注意的是,虽然上述攻击方法均能达到较好的攻击跟踪器的效果,但均局限于可见光谱段下,鲜有提及多谱段条件下跟踪器的攻击方案,使得多谱段环境下跟踪器对抗攻击方法亟待探索。
3. 该文方法
3.1 对抗攻击
对于目标跟踪模型,其跟踪过程可以被定义为:bs=T(Is),其中Is表示当前视频中第s帧图像,T(⋅)表示跟踪器,bs表示第s帧图像中跟踪器预测的目标回归框参数。针对目标跟踪对抗样本生成是指向视频帧图像如Is的目标处张贴对抗补丁p,生成具备攻击性的对抗样本帧I(s,adv),使得跟踪器b(s,adv)=T(I(s,adv))预测的结果为b(s,adv)≠bs。本文设计一种多谱段条件下目标跟踪的补丁式对抗样本生成网络,结合精心设计的损失函数优化生成红外谱段和可见光谱段下对抗补丁pm,其中m∈{vi,ir}表示可见光和红外两个谱段。对抗补丁张贴在目标上形成对抗样本的过程可以表示为
I(s,adv)m=A(Ism,pm) (1) 其中,A(⋅)表示补丁加载的过程,I(s,adv)m表示当前视频第s帧两个谱段下的对抗样本。最终优化后的对抗样本需要有效干扰跟踪器预测框并实现跟踪框与干净跟踪结果尽可能不一致,具体公式为
bsm≠b(s,adv)m=T(I(s,adv)m) (2) 其中,bsm和b(s,adv)m表示两个谱段下第s帧干净图像和对抗样本中跟踪器预测的目标回归框参数。
3.2 整体网络模型
本文目标是分别生成可见光和热红外谱段下可以有效攻击的区域建议型和掩膜引导型跟踪器的对抗样本。整个网络模型如图1所示,其中包含可见光补丁对抗纹理生成模块ATG(⋅)和热红外补丁对抗形状优化策略ASG(⋅)。可见光谱段下,产生攻击效用的攻击纹理,本文借鉴生成对抗网络(GAN)[17]中的生成器设计对抗纹理生成模块。从隐向量l逐步经过多次上采样形成含有对抗纹理的对抗补丁,具体过程为
pvi = ATG(l) (3) 根据损失优化对抗网络参数,不断迭代优化后获得最终的可见光谱段包含对抗纹理的对抗补丁。值得注意的是,因为热红外补丁不存在纹理上的有力攻击模式,所以需要通过形状变化来强化热红外补丁攻击性能,本文预设一个基础掩膜形状pintir,其中形状的大小是由极矢长度决定的,根据最大特征差异损失、误回归损失或掩膜干扰损失梯度返传优化极矢长度,以此反复优化迭代生成红外对抗形状,生成过程可以粗略表示为
pir = ASG(pintir) (4) 用于优化网络的损失函数包括误回归、掩膜干扰损失函数以及最大特征差异损失,分别表示为Lreg, Lmsk和Lmtd。它们的细节将在3.4节中详细阐述。
3.3 可见光补丁对抗纹理生成
随机生成的潜在编码l经过精心设计的对抗纹理生成模块ATG(⋅),生成对抗补丁pvi,具体架构如图2(a)所示,每一个小模块中分别包含卷积层,批归一化层以及ReLU层,最后一个模块中只包含卷积层和激活函数层Tanh。
上述设计有如下优势。随机潜在编码:生成式对抗网络是一种无监督学习方法,需要通过学习数据的潜在分布来生成新的数据。因此,随机潜在编码是生成式对抗网络的重要组成部分,它能够为生成网络提供多样性和创造性,使得生成的对抗补丁更加多样化。相较于直接优化的方式,利用生成网络生成对抗补丁并且间接优化的方式可以引入更多的纹理细节,使得对抗补丁更加多样,有着更强的鲁棒性。
3.4 热红外补丁对抗形状优化
由于热红外补丁纹理信息较弱,而补丁的形状能够对跟踪器产生鲁棒的攻击效果。因此,不同于可见光补丁式对抗样本的生成方式,本文将一种可变形补丁算法[18]合理应用于热红外补丁式对抗样本生成策略中,通过优化补丁形状来实现对热红外图像的有效攻击。为了使生成的补丁产生有效的攻击性能,在优化过程中,以补丁中心为圆心C,设定N条沿不同半径方向的长度可变的向量,通过连接各相邻向量终点构成数量众多的细小三角平面,最终将三角平面连接成统一的整体对跟踪器进行攻击,攻击损失反向传播的梯度最终被用来优化不同向量的长度。当各向量的长度发生变化后,生成的补丁的形状将对跟踪器产生有效的攻击效果。
为了合理将这种形状优化策略应用于红外补丁的生成,首先需要构建一个可形变且可训练的框架,本文同样使用多边形来初始化一个可形变框架,该框架包含自身中心点C和N条极矢端点构成的图形组成,如图2(b)左图所示。中心点在训练过程中并不移动,所以也不会影响形变补丁,N条极矢长度r的可变性使得整个框架边界形状发生变化,进而在热红外谱段下形成攻击效能,整个变形过程如图2(b)中图所示。但是对于每一个局部补丁而言,如何判断某一个像素点D是否属于当前补丁,对于任意一个像素点D,对抗补丁的表达具体公式为
pir(D)={1,D∈△ACB0,D∈△ACB (5) 因此这种可形变式的对抗样本被表达为当前像素点是否在框架内部的问题,对于落在框架内部的点D,如果|CD/CG|>1,那么当前点不在补丁中设定为0,反之则在补丁中设定为1。由于真实世界中红外补丁制作的限制,本文需要让pir近似量化到{0,1}。基于此,采用上述可变形补丁算法中的特殊激活函数,具体公式表示为
Φ(x)=tanh(λ(x−1))+12 (6) 其中,λ控制激活函数的稀疏性,其值为–100,使得激活函数更接近阶跃函数。对于输入x的输出,设计的激活函数Φ和阶跃函数存在相似效果,表明激活函数的有效性。在笛卡儿坐标系中,通过射线长度和角度间隔计算出A和B的坐标,因此可以通过方程求解,解决点D的归属问题。因此公式可以改写为
pir(D)=Φ(|CD||CG|) (7) 由于补丁的生成由损失函数控制,因此整个对抗补丁的优化过程可以描述为
rk←rk−1+γsign(∇L) (8) 虽然该方法可以实现可微计算,但pir在数值上只是接近二值化,而希望近似为二进位,为了解决这个问题,本文在投影补丁之前对补丁进行二值化锐化。最终通过可变形补丁算法迭代优化补丁的形状,以实现对热红外目标跟踪器的有效攻击。
3.5 损失函数
3.5.1 针对区域建议型跟踪器的攻击
区域建议型跟踪器主要借助区域建议网络,中间会生成大量粗略的提议框,最后进行精细的筛选并生成最后目标跟踪回归结果。该类型跟踪器凭借着强大的提取候选框的能力和精准的回归头模块得以有效跟踪,但过强的候选框提取能力也使得跟踪器更容易察觉对抗补丁而被攻击,因此如何精准地破坏回归部分而实现干扰成为关键。结合其特性,本文设计了一种误回归损失以攻击回归支路,在训练过程中加上补丁并将原本正确的回归框标签扰乱,使得预测框标签的中心位置发生明显偏移,预测框标签的长宽显著增大最终导致预测框无法准确定位到待跟踪的目标上。具体的实现过程为将正常的标签中中心点位置Gct偏移到图像的左上角,将目标框宽高Gw和Gh均扩展为原始大小的5倍,得到扰动后的标签,然后利用平滑损失计算回归损失,定义为
Lreg={0.5σ2δ2,|δ|<1σ2|δ|−12δ2,|δ|≥1σ2 (9) 其中,δ表示网络输出与构建的标签之间的差值,σ为固定的阈值。回归损失对所有的预测框计算损失,保证所有正确的预测框均能被有效地攻击。
受到变形补丁算法的启发,本文采用最大特征差异损失以破坏模版帧和搜索帧的相关性。具体来说,算法基于主干网络提取的浅层特征的相关性进行攻击,降低模板特征图和搜索特征图之间的相关性。由于模板帧和搜索帧的特征维度不一致无法直接计算差异,需要更改维度进行适配,模板帧和搜索帧特征的l1距离能够描述两特征图之间的距离,因此将l1距离的相反数作为最大纹理差异损失,定义为
Lmtd(z,x)=−1N∑n∈N‖ (10) 其中, z 表示模板帧的框选区域经过裁剪放缩后的图像, x 表示搜索帧经过裁剪方法后的图像, \varphi 表示特征提取的主干网络, r 表示变换尺寸操作,使得尺寸与模板帧特征保持一致,随着最大纹理差异损失的减小,两特征图的相关性减小,最终导致网络的跟踪性能变差。
为了保证攻击补丁能够有效地攻击中的各个模块,最终的攻击损失函数为两项攻击函数的加权和
{L_{\text{R}}} = {\alpha _1}{L_{{\text{reg}}}} + {\beta _1}{L_{{\text{mtd}}}} (11) 其中, {\alpha _1} 和 {\beta _1} 分别为调节两项损失的权重。
3.5.2 针对掩膜引导型跟踪器的攻击
考虑到掩膜引导型跟踪器中也存在回归框分支,因此在攻击的过程中可以与区域建议型跟踪器类似,将回归框结果采用错误信息进行引导,但值得注意的是掩膜引导型跟踪器并没有候选区域提取的过程,因此对抗补丁更难以被跟踪器察觉。不仅如此,该类跟踪器借助掩膜这种高精度的预测结果对最终跟踪框进行引导而使得误回归攻击方法更难以产生攻击效果。基于此,针对掩膜引导型跟踪器,本文设计一种对掩膜分支的攻击策略,该损失采用跟踪框缩小的方法进行攻击引导,这种方式攻击成功的原因有两种:第一,缩小回归框使得跟踪器的注意力仍在目标上,掩膜会根据引导缩小,进而降低边界框的上界精度;第二,缩小的过程中,对抗补丁的影响力在逐步加强,逐步增加对跟踪算法的攻击,导致跟踪器失效。
为了满足上述攻击策略,具体介绍这种掩膜损失,主要思想是降低掩膜分类的精度,使得本应被识别为目标的像素变为背景,结合掩膜引导型跟踪器的原理,本文同时降低目标补丁处的掩膜区域和目标与掩膜之间的区域,但是用不平衡的权重去控制。跟踪得到的目标框由于对抗补丁的存在,一个目标中的掩膜容易被补丁分离变成两个独立的掩膜,然而跟踪器掩膜分支生成的掩膜中仅选取一个掩膜上界作为边界框,该种方式很容易联合浅层特征的相关性进行攻击损失使得跟踪器仅能产生一个很小的错误框,因此采用更大的权重去降低目标补丁处的掩膜区域。考虑到跟踪器的掩膜分支和回归分支的一体性,本文也设计缩小生成目标与掩膜之间的区域掩膜的大小,使得掩膜越来越小,而丧失对整个目标的轮廓感知。其中该项损失具体可以表达为
{L_{{\text{msk}}}} = {\gamma _1}\left\| {{\text{loc}}_{{\text{oth}}}^{{\text{msk}}} \cdot {\text{Num}}_{{\text{msk}}}^{{\text{pre}}}} \right\|_2^2 + {\gamma _2}\left\| {{\text{loc}}_{\text{p}}^{{\text{msk}}} \cdot {\text{Num}}_{{\text{msk}}}^{{\text{pre}}}} \right\|_2^2 (12) 其中, {\text{loc}}_{{\text{oth}}}^{{\text{msk}}} 表示补丁和目标真值边界之间区域处二值掩膜, {\text{loc}}_{\text{p}}^{{\text{msk}}} 表示补丁位置处二值掩膜, {\text{Num}}_{{\text{msk}}}^{{\text{pre}}} 表示算法预测的目标掩膜像素数,后一项 {\text{loc}}_{\text{p}}^{{\text{msk}}} \cdot {\text{Num}}_{{\text{msk}}}^{{\text{pre}}} 代表着补丁位置包含的分割像素结果,换言之,该项损失的存在不仅可以降低除了补丁位置外预测掩膜的结果,还能使得目标预测掩膜出现分离的情况。
不仅如此,类似于3.4.1节,本文也采用了基于主干网络提取的浅层特征的相关性进行攻击,以降低模板特征图各搜索特征图之间的相关性以及前景背景的攻击。具体损失函数可以表达为
{L_{\text{M}}} = {\alpha _2}{L_{{\text{msk}}}} + {\beta _2}{L_{{\text{mtd}}}} (13) 其中, {\alpha _2} 和 {\beta _2} 分别为调节两项损失的权重。
4. 实验与结果分析
4.1 实验设置
(1)评价指标。本文采用攻击成功率来衡量不同谱段下对抗样本的攻击能力,其具体计算方式为
{\text{ASR = }}\frac{{{\text{TS}}{{\text{N}}_{{\text{cln}}}}-{\text{TS}}{{\text{N}}_{{\text{atk}}}}}}{{{\text{TS}}{{\text{N}}_{{\text{cln}}}}}} (14) 其中, {\text{ASR}} 表示跟踪模型的攻击成功率, {\text{TS}}{{\text{N}}_{{\text{cln}}}} 表示干净视频跟踪成功视频数目, {\text{TS}}{{\text{N}}_{{\text{atk}}}} 表示同一数据集下对抗样本跟踪成功视频数目,具体来说,分子即对抗样本的攻击成功视频数目。因此,跟踪模型攻击成功率反映了对抗样本的攻击性能,对抗样本攻击能力越显著,对抗样本的攻击成功视频数目越多,即对抗样本的跟踪模型攻击成功率越高。其中IoU大于等于0.5定义为跟踪成功帧,一个视频中跟踪成功帧占比大于等于0.7定义当前跟踪视频为跟踪成功视频。值得注意的是,如果一个干净视频都无法跟踪成功,则直接筛除该组视频不进行跟踪成功率的计算。
(2)数据集。本文以 {\text{RGBT}} 234[19]中的视频作为训练数据对多谱段补丁式对抗样本生成网络进行训练,利用大疆御3T无人机拍摄真实行人和车辆数据作测试对抗补丁在可见光和红外谱段下攻击成功率。
(a) {\text{RGBT}} 234数据集是由安徽大学李成龙团队于2019年公开的多模跟踪数据集。其中包含 {\text{RGBT}} 234提供234对可见光和热红外成对的视频,总帧数约234K,每个序列最多8K。它由平行光轴可见光和热红外成像系统获取,并提供两种谱段的真实标签。
(b)自测数据集包含200段真实场景视频,其中红外视频100段,可见光视频100段,每一种谱段的视频包含50段黑夜和50段白天场景,涵盖公路、操场、空地、山顶等多种环境场景。值得注意的是测试过程采用自建数据集,一方面公开数据集中目标较小,对抗攻击纹理难以被察觉而无法详细探究对抗样本干扰跟踪器的根本原因。另一方面,本文着重研究不同对抗纹理和形状对于多谱段环境下跟踪器的攻击性能,因此采用较大目标的自建数据集作为测试数据能更准确度量我们设计的攻击纹理和攻击形状的有效性。
(3)实验配置。所有实验采用的硬件环境为英特尔Core i9-10940X@3.30 GHz处理器,TITAN RTX GPU显卡,显存大小32 GB。代码开发软件环境为3.8版本的Python语言,1.6.0版本的深度学习Pytorch框架,在Ubuntu 22.04 LTS系统上进行训练和测试,集成开发环境为Visual Studio和PyCharm。
4.2 可见光谱段攻击对比实验
为了说明本文生成的补丁式对抗样本攻击能力,本文选取了两组可见光目标跟踪对抗样本生成对比算法进行对比。选取PAT[20]和MTD[15]两种针对可见光跟踪算法的对抗样本生成算法进行对比,值得注意的是,本文根据论文提供的想法和模块设计进行复现,并在RGBT234上进行重新训练,最后在典型区域建议型跟踪器和掩膜引导型跟踪器SiamRPN和SiamMask上的定性结果如图3所示。
可以看出本文对抗样本在大多数场合中都能达到较好的攻击效果,会有着更加强力的攻击模式,反观现有先进的攻击方法PAT和MTD难以对多种场景下的行人目标有效攻击,目标依旧被跟踪器所识别,尽管PAT有着让跟踪方法某一帧失去跟踪能力的性能,但是过度依赖于面积。PAT失去大面积后生成的对抗样本较为容易被跟踪而使得跟踪性能降低。MTD拥有着特征相关性干扰的能力,但是没有为不同类型跟踪器精细设计不一样的损失,使得最后的结果并不显著。本文也给出定量的结果进一步说明本文方案的优势,如表1所示。在白天黑夜多种场景下,本文设计的可见光对抗补丁在测试集上针对SiamRPN跟踪器的攻击均能达到80%以上的攻击成功率,由于SiamMask带有掩膜分支可以更好地促进跟踪器跟踪能力,因此攻击难度也大大提升,但是本文借助掩膜损失依旧可以达到50%以上的攻击成功率,胜过对比方案。
表 1 SiamRPN/SiamMask对抗样本可见光谱段攻击对比定量结果跟踪器 场景 跟踪结果 干净视频 PAT 攻击成功率(%) MTD 攻击成功率(%) 本文 攻击成功率(%) SiamRPN 白天 成功 38 22 42.11 21 44.71 7 81.57 失败 12 28 29 43 黑夜 成功 27 15 44.44 11 59.25 5 81.48 失败 23 35 39 45 SiamMask 白天 成功 41 27 34.15 36 12.19 19 53.65 失败 9 23 14 31 黑夜 成功 36 21 41.06 29 19.44 17 52.77 失败 14 29 21 33 4.3 热红外谱段攻击对比实验
同样地,在热红外谱段下进行攻击对比实验。根据调研,现在针对红外谱段跟踪器的攻击方法存在缺失,考虑到目标跟踪和目标检测的相似性,本文选取一个高质量的红外谱段检测器的攻击方法HOTCOLD[21]在RGBT234数据集和跟踪器上进行训练,再和本文设计的方案进行对比。具体热红外谱段定性对比实验结果如图3右侧所示。
由图4可以看出,本文方案可以使得跟踪器在红外谱段下跟踪失败,即跟踪预测框与真值的IoU小于0.5,在两个典型跟踪器多场景下均能表现较好的攻击性能。同样地,本文也给出热红外对抗样本在热红外谱段下的定量对比结果,如表2所示。本文的红外对抗样本在白天和黑夜展现出强大的攻击能力,能以高于65%的攻击成功率有效误导跟踪器。
表 2 SiamRPN/SiamMask对抗样本红外谱段攻击对比定量结果跟踪器 场景 跟踪结果 干净视频 HOTCOLD 攻击成功率(%) 本文 攻击成功率(%) SiamRPN 白天 成功 42 32 23.81 12 71.43 失败 8 18 38 黑夜 成功 37 20 45.94 7 81.08 失败 13 30 43 SiamMask 白天 成功 47 39 17.02 16 65.95 失败 3 11 34 黑夜 成功 41 21 48.78 14 65.85 失败 9 29 36 4.4 多场景攻击实验
为了说明本文提出对抗样本方法具备一定的场景鲁棒性,本文进行多场景的攻击定性实验展示。如图4所示,包含可见光红外两个谱段,白天、黑夜两种环境,道路、草地、操场等多个场地下对抗样本和干净样本跟踪的对比结果。可以看到干净样本均能被有效跟踪,但对抗样本却会出现跟踪框偏移和扩大的情况,并在多种场景下均能实现有效攻击,可以看出本文所提对抗样本具备一定的环境鲁棒性。
4.5 消融实验
为了证实设计的误回归损失、掩膜损失和最大特征差异损失具备提高对抗样本攻击性能的效果,以红外谱段为例,本文对3种损失函数进行了消融实验。本文进行了消融实验,结果如表3所示。由表3可知,相较于,本文提出的误回归损失能有效提升对区域建议型跟踪器的攻击成功率,掩膜损失也能有效破坏精细化掩膜引导型跟踪器掩膜分支以达到更高的攻击成功率,最大特征差异损失作为一种特征级别的损失可以有效在多种跟踪器上起效果,有效给跟踪器提供了有力干扰。
表 3 损失函数消融实验跟踪器 损失函数 干净跟踪成功视频数 对抗样本跟踪成功视频数 攻击成功率(%) SiamRPN 误回归损失 79 25 68.35 最大特征差异损失 33 58.23 误回归损失+最大特征差异损失 19 75.95 SiamMask 掩膜损失 88 37 57.95 最大特征差异损失 52 40.91 掩膜损失+最大特征差异损失 30 65.91 5. 结束语
本文针对当前多谱段条件下跟踪器的对抗样本生成方法缺失问题进行了尝试。首先,为了生成高效的多谱段对抗补丁,本文提出一种基于多谱段的目标跟踪补丁式对抗样本生成框架以分别形成两个模态适用的对抗攻击补丁。然后,本文设计对抗纹理生成网络和对抗形状优化策略以分别生成可见光谱段补丁攻击纹理和热红外谱段补丁攻击形状。最后,为了更精细地干扰不同的跟踪器,引入最大特征差异损失,设计误回归损失和掩膜干扰损失3种损失函数以应对3种不同的典型跟踪器。广泛的实验结果证明本文方案生成的对抗样本可以大幅干扰热红外和可见光谱段下跟踪器的跟踪性能。
-
表 1 SiamRPN/SiamMask对抗样本可见光谱段攻击对比定量结果
跟踪器 场景 跟踪结果 干净视频 PAT 攻击成功率(%) MTD 攻击成功率(%) 本文 攻击成功率(%) SiamRPN 白天 成功 38 22 42.11 21 44.71 7 81.57 失败 12 28 29 43 黑夜 成功 27 15 44.44 11 59.25 5 81.48 失败 23 35 39 45 SiamMask 白天 成功 41 27 34.15 36 12.19 19 53.65 失败 9 23 14 31 黑夜 成功 36 21 41.06 29 19.44 17 52.77 失败 14 29 21 33 表 2 SiamRPN/SiamMask对抗样本红外谱段攻击对比定量结果
跟踪器 场景 跟踪结果 干净视频 HOTCOLD 攻击成功率(%) 本文 攻击成功率(%) SiamRPN 白天 成功 42 32 23.81 12 71.43 失败 8 18 38 黑夜 成功 37 20 45.94 7 81.08 失败 13 30 43 SiamMask 白天 成功 47 39 17.02 16 65.95 失败 3 11 34 黑夜 成功 41 21 48.78 14 65.85 失败 9 29 36 表 3 损失函数消融实验
跟踪器 损失函数 干净跟踪成功视频数 对抗样本跟踪成功视频数 攻击成功率(%) SiamRPN 误回归损失 79 25 68.35 最大特征差异损失 33 58.23 误回归损失+最大特征差异损失 19 75.95 SiamMask 掩膜损失 88 37 57.95 最大特征差异损失 52 40.91 掩膜损失+最大特征差异损失 30 65.91 -
[1] 卢湖川, 李佩霞, 王栋. 目标跟踪算法综述[J]. 模式识别与人工智能, 2018, 31(1): 61–67. doi: 10.16451/j.cnki.issn1003-6059.201801006.LU Huchuan, LI Peixia, and WANG Dong. Visual object tracking: A survey[J]. Pattern Recognition and Artificial Intelligence, 2018, 31(1): 61–67. doi: 10.16451/j.cnki.issn1003-6059.201801006. [2] SZEGEDY C, ZAREMBA W, SUTSKEVER I, et al. Intriguing properties of neural networks[C]. The 2nd International Conference on Learning Representations, Banff, Canada, 2014. [3] 潘文雯, 王新宇, 宋明黎, 等. 对抗样本生成技术综述[J]. 软件学报, 2020, 31(1): 67–81. doi: 10.13328/j.cnki.jos.005884.PAN Wenwen, WANG Xinyu, SONG Mingli, et al. Survey on generating adversarial examples[J]. Journal of Software, 2020, 31(1): 67–81. doi: 10.13328/j.cnki.jos.005884. [4] JIA Shuai, MA Chao, SONG Yibing, et al. Robust tracking against adversarial attacks[C]. The 16th European Conference on Computer Vision, Glasgow, UK, 2020: 69–84. doi: 10.1007/978-3-030-58529-7_5. [5] CHEN Fei, WANG Xiaodong, ZHAO Yunxiang, et al. Visual object tracking: A survey[J]. Computer Vision and Image Understanding, 2022, 222: 103508. doi: 10.1016/j.cviu.2022.103508. [6] CHEN Xuesong, FU Canmiao, ZHENG Feng, et al. A unified multi-scenario attacking network for visual object tracking[C]. The 35th AAAI Conference on Artificial Intelligence, Vancouver, Canada, 2021: 1097–1104. doi: 10.1609/aaai.v35i2.16195. [7] YAN Bin, PENG Houwen, FU Jianlong, et al. Learning spatio-temporal transformer for visual tracking[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 10428–10437. doi: 10.1109/ICCV48922.2021.01028. [8] TANG Chuanming, WANG Xiao, BAI Yuanchao, et al. Learning spatial-frequency transformer for visual object tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(9): 5102–5116. doi: 10.1109/TCSVT.2023.3249468. [9] LI Bo, YAN Junjie, WU Wei, et al. High performance visual tracking with Siamese region proposal network[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 8971–8980. doi: 10.1109/CVPR.2018.00935. [10] HU Weiming, WANG Qiang, ZHANG Li, et al. SiamMask: A framework for fast online object tracking and segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(3): 3072–3089. doi: 10.1109/TPAMI.2022.3172932. [11] LIN Liting, FAN Heng, ZHANG Zhipeng, et al. SwinTrack: A simple and strong baseline for transformer tracking[C]. The 36th International Conference on Neural Information Processing Systems, New Orleans, USA, 2022: 1218. doi: 10.5555/3600270.3601488. [12] LIN Xixun, ZHOU Chuan, WU Jia, et al. Exploratory adversarial attacks on graph neural networks for semi-supervised node classification[J]. Pattern Recognition, 2023, 133: 109042. doi: 10.1016/j.patcog.2022.109042. [13] HUANG Hao, CHEN Ziyan, CHEN Huanran, et al. T-SEA: Transfer-based self-ensemble attack on object detection[C]. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 20514–20523. doi: 10.1109/CVPR52729.2023.01965. [14] JIA Shuai, SONG Yibing, MA Chao, et al. IoU attack: Towards temporally coherent black-box adversarial attack for visual object tracking[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 6705–6714. doi: 10.1109/CVPR46437.2021.00664. [15] DING Li, WANG Yongwei, YUAN Kaiwen, et al. Towards universal physical attacks on single object tracking[C]. The 35th AAAI Conference on Artificial Intelligence, Vancouver, Canada, 2021: 1236–1245. doi: 10.1609/aaai.v35i2.16211. [16] HUANG Xingsen, MIAO Deshui, WANG Hongpeng, et al. Context-guided black-box attack for visual tracking[J]. IEEE Transactions on Multimedia, 2024, 26: 8824–8835. doi: 10.1109/TMM.2024.3382473. [17] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139–144. doi: 10.1145/3422622. [18] CHEN Zhaoyu, LI Bo, WU Shuang, et al. Shape matters: Deformable patch attack[C]. The 17th European Conference on Computer Vision, Tel Aviv, Israel, 2022: 529–548. doi: 10.1007/978-3-031-19772-7_31. [19] LI Chenglong, LIANG Xinyan, LU Yijuan, et al. RGB-T object tracking: Benchmark and baseline[J]. Pattern Recognition, 2019, 96: 106977. doi: 10.1016/j.patcog.2019.106977. [20] WIYATNO R and XU Anqi. Physical adversarial textures that fool visual object tracking[C]. 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 4821–4830. doi: 10.1109/ICCV.2019.00492. [21] WEI Hui, WANG Zhixiang, JIA Xuemei, et al. HOTCOLD block: Fooling thermal infrared detectors with a novel wearable design[C]. The 37th AAAI Conference on Artificial Intelligence, Washington, USA, 2023: 15233–15241. doi: 10.1609/aaai.v37i12.26777. -