Scene-adaptive Knowledge Distillation-based Fusion of Infrared and Visible Light Images
-
摘要: 红外与可见光图像融合的目的是将这两种异模态图像信息整合成场景细节信息更全面的融合图像。现有的一些融合算法仅关注评价指标的提升,而忽略了其在现实应用中的模型轻量性和场景泛化性的需求。为了解决该问题,该文提出一种基于场景自适应知识蒸馏的红外与可见光图像融合方法。首先,将领先的融合算法作为教师网络得到白天场景的学习样本,用低光增强算法继续处理得到黑夜场景的学习样本;然后,通过光照感知网络预测可见光图像的白天黑夜场景概率,从而指导学生网络实现对教师网络的场景自适应知识蒸馏;最后,引入基于结构重参数化的视觉变换器(RepViT)进一步降低模型的计算资源消耗。在MSRS和LLVIP数据集上与7种主流的深度学习融合算法进行了定性与定量的实验对比,所提融合方法能够在更低的计算资源消耗下,实现多个评价指标的提升,并在白天黑夜场景均能实现较好的融合视觉效果。
-
关键词:
- 红外与可见光图像融合 /
- 场景自适应 /
- 知识蒸馏 /
- 结构重参数化 /
- 深度学习
Abstract:Objective The fusion of InfRared (IR) and VISible light (VIS) images is critical for enhancing visual perception in applications such as surveillance, autonomous navigation, and security monitoring. IR images excel in highlighting thermal targets under adverse conditions (e.g., low illumination, occlusions), while VIS images provide rich texture details under normal lighting. However, existing fusion methods predominantly focus on optimizing performance under uniform illumination, neglecting challenges posed by dynamic lighting variations, particularly in low-light scenarios. Additionally, computational inefficiency and high model complexity hinder the practical deployment of state-of-the-art fusion algorithms. To address these limitations, this study proposes a scene-adaptive knowledge distillation framework that harmonizes fusion quality across daytime and nighttime conditions while achieving lightweight deployment through structural re-parameterization. The necessity of this work lies in bridging the performance gap between illumination-specific fusion tasks and enabling resource-efficient models for real-world applications. Methods The proposed framework comprises three components: a teacher network for pseudo-label generation, a student network for lightweight inference, and a light perception network for dynamic scene adaptation ( Fig. 1 ). The teacher network integrates a pre-trained progressive semantic injection fusion network (PSFusion) to generate high-quality daytime fusion results and employs Zero-reference Deep Curve Estimation (Zero-DCE) to enhance nighttime outputs under low-light conditions. The light perception network, a compact convolutional classifier, dynamically adjusts the student network’s learning objectives by outputting probabilistic weights (Pd, Pn) based on VIS input categories (Fig. 3 ). The student network, constructed with structurally Re-parameterized Vision Transformer (RepViT) blocks, utilizes multi-branch architectures during training that collapse into single-path networks during inference, significantly reducing computational overhead (Fig. 2 ). A hybrid loss function combines Structural SIMilarity (SSIM) and adaptive illumination losses (Eq. 8–15), balancing fidelity to source images with scene-specific intensity and gradient preservation.Results and Discussions Qualitative analysis on the MSRS and LLVIP datasets demonstrates that the proposed method preserves IR saliency (highlighted in red boxes) and VIS textures (green boxes) more effectively than seven benchmark methods, including DenseFuse and PSFusion, particularly in low-light scenarios (Fig. 4, 5). Quantitative evaluation reveals superior performance in six metrics: the method achieves SD scores of 9.728 7 (MSRS) and 10.006 7 (LLVIP), AG values of 6.5477 and 4.7956, and SF scores of 0.0670 and 0.0648, outperforming existing approaches in contrast, edge sharpness, and spatial detail preservation ( Table 1 ). Computational efficiency is markedly improved, with the student network requiring only 0.76 MB parameters and 4.49 ms runtime on LLVIP, representing a 98.8% reduction in runtime compared to PSFusion (380.83 ms) (Table 2 ). Ablation studies confirm the necessity of RepViT blocks and adaptive illumination loss, as removing these components degrades SD by 16.2% and AG by 60.7%, with other evaluation metrics also experiencing varying degrees of decline,respectively (Table 3 ,Fig. 6 ).Conclusions This work introduces a scene-adaptive knowledge distillation framework that unifies high-performance IR-VIS fusion with computational efficiency. Key innovations include teacher knowledge distillation for illumination-specific pseudo-label generation, RepViT-based structural re-parameterization for lightweight inference, and probabilistic weighting for dynamic illumination adaptation. Experimental results validate the framework’s superiority in perceptual quality and operational efficiency across benchmark datasets. Future work will extend the architecture to multispectral fusion and real-time video applications. -
1. 引言
单一传感器往往由于天气、环境等影响难以获得信息全面的图像,因此,多传感器成像场景的融合成为越来越多学者研究的方向。其中,红外和可见光图像由于其互补特性受到广泛关注[1]。红外图像可以凸显行人、车辆的显著目标,但缺乏对成像场景整体细节方面的描述;而可见光图像对纹理细节信息具有较强的描述能力,但是对光照条件要求较高,易受低光或遮挡的影响[2]。利用这两种图像的互补特性能有效促进后续目标跟踪、军事侦察和安防监控等任务的进行[3]。
为了进一步提高红外与可见光图像融合的视觉感知,许多学者已经提出了一些解决不同问题的融合方法,主要分为传统方法和基于深度学习的方法[4]。传统方法包括多尺度变换[5]、稀疏表示[6]、基于子空间[7]、基于显著性[8]和基于优化[9]等几类,但传统方法对复杂场景特征提取能力有限,而深度学习方法因其强大的特征提取能力以及泛化性得到了快速发展。
随着深度学习的持续发展,学者们提出不同的基于深度学习融合方法来解决融合任务中的诸多问题。密集融合网络(Dense Fusion network, DenseFuse)[10]由卷积层、融合层和密集块组成,而融合层通过简单的加法和参数化来实现。为了进一步提升特征提取的能力,嵌套融合网络(Nested Fusion network, NestFuse)[11]和嵌套残差融合网络(Nested Residual Fusion Network, RFN-Nest)[12]在网络中引入了嵌套连接和剩余密集块。聚合残差密集融合网络(Re-aggregated Residual Dense Nested Fusion network, RXDNFuse)[13]结合了DenseNet[14]和残差网络(Residual Network, ResNet)[15]的优点,提出一种残差密集网络,可更全面地提取不同尺度的特征。显著目标检测融合网络(SalientTarget Detection Fusion Network, STDFusionNet)[16]使用目标掩模辅助提取可见光图像的目标和背景,作为提高融合效果的一种方法,但掩模的标注是手动标注,导致前期工作量较大。对抗生成融合网络(Generative Adversarial Fusion Network, FusionGAN)[17]开创性地将生成对抗机制引入到红外与可见光图像融合任务,并将融合任务设计为生成器和鉴别器之间的博弈对抗。这些方法在提高融合结果的视觉效果和评价指标方面有一定成效,但是它们仅仅考虑正常光照场景的融合,而忽略了低光场景所带来的问题。具体来说,当只考虑正常光照情况时,低光场景的融合效果不佳;而若仅考虑低光场景,则正常光照场景会出现过曝的情况。因此,需要一种自适应的方法来应对不同场景的高质量融合。然而,自适应方法势必会带来额外的计算消耗,因此,需考虑方法的轻量化问题。尽管有些方法考虑了融合网络的轻量化问题,例如:快速轻量融合网络(Fast and Lightweight Fusion Network, FLFuse-Net)[18]设计了一个轻量卷积神经网络结构,在特征提取的过程中将异模态特征交叉连接,从而快速实现特征提取和特征融合;陈昭宇等人[19]引入结构重参数化技术使网络轻量化;马美燕等人[20]将结构重参数化与边缘算子相结合设计轻量级融合网络。但这些方法在考虑模型轻量化问题时,融合性能提升有限。
针对以上图像融合方法存在的问题,本文提出一种基于场景自适应知识蒸馏的红外与可见光图像融合方法。本方法的目标是实现应对不同场景的图像融合。在白天场景的融合中引入融合性能领先的渐进式语义注入融合网络(Progressive Semantic injection Fusion network, PSFusion)[21]作为教师网络,但该方法在黑夜场景表现不佳,所以引入低光增强性能领先的零参考深度曲线估计(Zero-reference Deep Curve Estimation, Zero-DCE)[22]来增强其融合结果并作为夜晚场景的标签,从而让本文提出的融合网络通过知识蒸馏的方式学习不同场景的参考图像,实现场景自适应知识蒸馏的图像融合网络训练。此外,为进一步提高融合网络的实用性,本文在学生网络中引入基于结构重参数化的视觉变换器(Vision Transformer based on structural Re-parameterization, RepViT)[23]以实现模型的轻量化。
2. 融合方法
2.1 网络整体结构
通常,在红外与可见光图像融合任务中,可见光图像能提供场景纹理细节的前提是源图像是在正常光照条件下获得的,而在低光场景中,可见光图像会产生严重退化,无法提供有效的场景纹理细节信息。因此,本文设计了一种基于场景自适应知识蒸馏的轻量级红外与可见光图像融合方法,其整体方法框架如图1所示。
所提方法总体结构由教师网络(包含PSFusion和Zero-DCE)、学生网络和光照感知网络[24]3个部分组成。首先,源图像输入预训练的PSFusion网络,其融合结果作为白天场景的学习样本,再将其融合结果输入到预训练的Zero-DCE低光增强网络,增强结果作为黑夜场景的学习样本。可见光源图像送入预训练的光照感知网络中预测可见光图像的光照类别概率(白天或黑夜场景),根据图像光照类别学习其对应的场景样本。本文方法通过知识蒸馏让学生网络学习复杂模型的性能优势,同时,以知识蒸馏和结构重参数化技术降低网络的复杂度。
学生网络通过不同场景标签来学习参数为θS的函数SθS,从而使网络融合红外与可见光图像得到融合图像
Isf=Sθs(Iir,Ivi) (1) 其中,Isf表示学生网络生成的融合图像。
此外,学生网络在训练过程中通过最小化损失函数,在反向传播中更新参数
˜θ=argθsminLs(Itf,Isf) (2) 其中,Ls是总体的损失函数,Itf为教师网络生成的标签。
2.2 教师网络
由于红外与可见光图像融合任务缺乏参考图像,无法直接对融合结果进行直观评价,往往用多个通用图像质量评价指标来综合评估融合性能。目前,PSFusion是一种领先的图像融合算法,但其在黑夜场景中的性能有待提升,且模型较大,不利于图像融合技术在实际场景中的应用。为了实现更好的融合效果,本文期望通过知识蒸馏、光照增强技术和结构重参数化技术的有效结合,使所提方法的结果于白天场景偏向PSFusion融合图像,而黑夜场景偏向PSFusion融合图像低光增强后的效果。具体来说,当光照类别概率判断为白天场景时,损失函数中对学生网络以PSFusion融合图像为参考图像学习的权重会更大;而当光照类别概率判断为黑夜场景时,损失函数中对学生网络以PSFusion融合图像低光增强后的结果作为参考图像学习的权重会更大。这样就可以通过损失函数的方式约束学生网络自适应学习不同场景的内容,从而提高融合网络在多场景的泛化能力。同时,这样的方式在推理阶段并不会带来额外的计算消耗。
本文中增强的融合图像是没有参考图像的,因此引入Zero-DCE用于低光图像增强。此方法不需要配对的数据,而是从一组专门设计的非参考损失函数(包括空间一致性损失,曝光控制损失,颜色恒定性损失和照明平滑性损失等多个方面)考虑低光增强的因素。此时摒弃了传统的图像到图像映射技术,转而采用一种新颖的图像特定曲线估计方法。以低光照条件下的图像作为输入,并输出一组高阶曲线。这些曲线随后被用于对输入图像的动态范围进行逐像素的精细调整,以实现图像质量的显著提升。在曲线估计过程中,本方法特别注重保持增强后图像的亮度范围,并确保相邻像素间的对比度得到有效保持。此外,此过程是完全可微分的,使其能够通过深度卷积神经网络来优化曲线的参数。
2.3 学生网络
本文学生网络主要由多个基于结构重参数化的视觉变换器模块(Vision Transformer based on structural Re-parameterization Block, RepViTBlock)构成,具体结构如图2所示。在提取红外和可见光图像特征方面,标准卷积的融合方法与复杂模型相比,其在特征融合方面的性能仍有待提高,但引入复杂的网络结构又不可避免地增加模型的计算资源消耗。为此,本文将结构重参数化技术引入融合网络,以实现模型表征能力与计算资源消耗之间的平衡。在基于结构重参数化的视觉几何组网络(Visual geometry group based on structural Re-parameterization Block, RepVgg Block)中,每个3×3卷积层会平行地添加1×1卷积分支和恒等映射分支,构成一个RepVgg Block。这种多分支结构可以在训练时学习到更丰富的特征表示。此外,结构重参数化技术允许模型在训练时采用更复杂的结构,而在推理时转换为更简单的结构,从而在不牺牲推理效率的前提下提升训练性能。所以,这种技术特别适用于资源受限的环境。
融合任务是一个较为低层的视觉任务,为了能让融合任务更好服务后续的高层视觉任务,往往会设计融合网络的轻量化。然而,有些轻量化操作是采用参数共享[18]或是减少深度网络的层数的方法,这会降低网络的融合性能。而深度学习模型通常在训练阶段需要复杂的网络结构来促进融合任务达到高性能,但在推理阶段(即实际使用阶段)期望模型尽可能简单,以提高速度和减少资源消耗。因此,本文在学生网络中引入基于结构重参数化的RepViT模块,使网络模型在训练阶段以多尺度的方式有效提取图像特征;而在推理阶段,多尺度网络模块可通过结构重参数技术优化为直连网络,从而降低计算成本。本学生网络可以学习复杂的教师网络知识,达到最优性能,其具体网络由图2所示。由于红外图像和可见光图像之间差异较大,本文还设计了双分支网络结构分别对源图像提取特征信息。
如图2所示,在训练阶段,红外与可见光图像被送入不同分支网络提取图像特征,经过一个1×1卷积提取浅层的特征,浅层特征FiS包含较多纹理信息
FiS=LR(Conv1×1(Ii)),i={ir,vi} (3) 其中,LR(⋅)表示LeakyReLu激活函数,Conv1×1(⋅)表示卷积核为1×1的卷积操作。
浅层特征被送入基于结构重参数化技术的下采样模块(DownConv)和基于结构重参数化的视觉变换器挤压激励模块(Vision Transformer Squeeze-and-Excitation based on structural Re-parameterization Block, RepViTSEBlock)中,在该模块进一步提取纹理特征和显著特征。RepViTSEBlock在训练阶段是由多尺度的方式丰富网络的特征表征能力,与此同时,在RepViTBlock的基础上引入自注意力模块,其相对于卷积的一个优点是可以根据输入调整权重。作为通道注意力模块,挤压与激励(Squeeze-and-Excitation, SE)层可以弥补卷积在缺乏数据驱动属性上的限制,从而带来更好的性能,该过程可表示为
⌢FSi=FFN(SE(Repvgg(FSi))),i={ir,vi} (4) 其中,Repvgg(⋅)代表RepvggBlock模块,SE(⋅)为通道注意力机制模块。
在特征信息融合的过程中,不同阶段的特征信息经过特征级联和1×1卷积融合这两种异模态图像特征,仅需较少的计算量便可有效集成源图像信息,该过程为
Ffi=LR(Conv1×1(⌢FSi)),i={1,2,3} (5) 其中,Fjfi为经过融合阶段得到的特征。
如图2所示,在推理阶段,模型中的RepViTSEBlock和RepViTBlock可通过重参数化技术优化为直连网络,从而降低网络的计算成本。随后,通过上采样过程的解码器(由RepViTBlock和最邻近插值模块构成)对不同尺度特征进行集成并重建图像。再利用场景自适应知识蒸馏的损失函数辅助融合网络的训练。最后,整体网络通过重参数化技术的等效优化后得到最终推理阶段的网络。
2.4 光照感知网络
光照感知网络的目的是计算图像场景属于白天或黑夜的概率,其本质上是一个二分类网络,其输入是可见光图像,输出是白天和黑夜的场景光照概率。MSRS数据集能为该网络的训练提供白天和黑夜场景的真实标签数据。
光照感知网络的网络结构如图3所示。它由4个卷积层、1个全局平均池化层和2个全连接层组成。步长为2的4×4卷积层压缩空间信息并提取光照信息。所有卷积层都使用LeakyRelu作为激活函数。利用全局平均池化操作来整合光照信息。全连接层根据光照信息计算场景光照概率。
具体来说,给定可见光图像Ivi输入光照感知网络,可得到白天场景概率Pd和夜晚场景概率Pn。本文目标是让学生网络的融合结果能自适应学习到在白天和黑夜场景的不同偏好。如果是白天场景,该网络模型更偏向于学习PSFusion;由于黑夜场景中PSFusion的结果不太理想,所以将融合结果进行增强后的图像作为黑夜场景学习偏好。因此,需要计算出白天和黑夜的权重,并以该权重来判断学生网络学习偏好的方向,此过程可表示为
Wd=PdPd+Pn (6) Wn=PnPd+Pn (7) 其中,Wd为白天的权重,Wn为黑夜的权重。
2.5 损失函数
为了实现更好的性能和特征学习能力,损失函数约束学生网络能够同时学习不同场景图像信息的提取能力。由于缺乏真实的数据作为图像融合的参考图像标签,本文使用教师网络生成的结果作为伪标签指导学生网络的训练。其中,教师网络部分的PSFusion网络和增强网络Zero-DCE都是预先训练好的。
为了让学生网络得到预期效果的融合图像,采用结构相似性损失Lssim和自适应光照损失Lauto共同指导网络的训练,总损失公式为
LS=αLssim+βLauto (8) 其中,α和β为这两个损失函数的权重。
(1)结构相似性损失。
本方法期望融合图像既能突出红外图像的显著目标,又能包含可见光图像的信息。结构相似性(SSIM)能有效评估融合图像与源图像之间的相似性,结构相似性损失公式为
Lssim=1−SSIM(Ifuse,Ivi) + SSIM(Ifuse,Iir)2 (9) SSIM(x,y)=(2μxμy+C1)(2σxσy+C2)(μ2x+μ2y+C1)(σ2x+σ2y+C2) (10) 其中,Ifuse表示融合图像,Iir, Ivi分别表示红外图像和可见光图像;SSIM(x,y)计算两个图像间的结构相似度,μx和μy是两个源图像中所有像素的平均值;σx和σy是两个源图像像素值的方差;C1, C2是常数,用来保证函数的稳定性。
(2)自适应光照损失。
本方法期望学生网络能学习到场景自适应的能力,故将光照类别概率作为不同场景的权重引入到损失函数,以期望网络学习到不同的偏向,Lauto可表示为
Lauto=Wd(Lint+γLgard)+Wn(Lenint+γLengrad) (11) 其中,Lint和Lgrad分别表示学习PSFusion的强度损失和梯度损失;Lenint和Lengrad则为学习增强后PSFusion的强度损失和梯度损失;Wd和Wn分别代表白天和黑夜场景的光照类别概率,可通过光照感知网络获取。
强度损失从像素级的层面衡量融合图像的强度分布。其中,强度损失约束融合图像的整体表观强度,提高图像的对比度,增强目标区域。强度损失Iir的公式为
Lint=1HW‖ (12) L_{{\text{int}}}^{{\text{en}}} = \frac{1}{{{\bf{HW}}}}{\left\| {\left. {{{\boldsymbol{I}}_{{\text{fuse}}}} - {\boldsymbol{I}}_{{\text{ps}}}^{{\text{en}}}} \right\|} \right._1} (13) 其中, H , W 分别是输入图像的高度和宽度; \|.\|_{1} 代表 L_{1} 范数;{{\boldsymbol{I}}_{{\text{ps}}}}为经过PSFusion生成的融合结果;{\boldsymbol{I}}_{{\text{ps}}}^{{\text{en}}}为经过增强后的PSFusion生成的融合图像。
此外,通过梯度损失让学生网络学习教师网络的边缘梯度分布,以实现更高质量边缘细节的保持,梯度损失计算公式为
{L_{{\text{grad}}}} = \frac{1}{{{\bf{HW}}}}{\left\| {\left. {\nabla {{\boldsymbol{I}}_{{\text{fuse}}}} - \nabla {{\boldsymbol{I}}_{{\text{ps}}}}} \right\|} \right._1} (14) L_{{\text{grad}}}^{{\text{en}}} = \frac{1}{{{\bf{HW}}}}{\left\| {\left. {\nabla {{\boldsymbol{I}}_{{\text{fuse}}}} - \nabla {\boldsymbol{I}}_{{\text{ps}}}^{{\text{en}}}} \right\|} \right._1} (15) 其中, \nabla 是计算图像边缘纹理信息的算子,文中使用Sobel计算图像特征的梯度。
3. 实验分析
3.1 实验设置
实验均在NVIDIA 2080Ti和Intel i5-14600KF上进行,深度学习框架为PyTorch。为了让模型更具有泛化性,本文将已配准的红外与可见光图像任务公共数据集MSRS的训练集部分,从1 083个图像对裁剪为尺寸大小为160pixelx120pixel的17 328个图像对,基本能满足训练要求。网络优化器为AdamW,训练轮次为100,训练批次为32,学习率为1×10–3,损失函数参数为α=5, β=15和γ=3。测试选用MSRS和LLVIP的测试集部分,各选择30和50对图像进行算法对比实验。实验中所有对比算法均以原论文公开代码进行实验。
3.2 对比实验
为了验证本方法性能的提升效果,选用两个公开数据集MSRS[23], LLVIP[25]进行定性分析和定量分析实验,并选用7种主流的融合方法与本文方法进行对比,分别是DenseFuse[10]、图像融合卷积神经网络(Image Fusion Base on Convolutional Neural Network, IFCNN)[26],多类约束生成对抗网络(Generative Adversarial Network With Multiclassification Constraints, GANMcC)[27],FLFuse[18],U2Fusion[28],PSFusion[21]和平衡纹理与显著性融合网络(Balancing Texture and Salience Fusion network, BTSFusion)[29]。在MSRS和LLVIP数据集上的可视化实验结果分别如图4和图5所示,实验结果用红色框突出图中的显著目标,用绿色框突出图中的背景信息。
从图4和图5可以看出:由于DenseFuse采用自编码器网络和简单的融合策略,整体融合图像都对源图像特征有不同程度的弱化;IFCNN简单高效实现融合,能突出显著目标,但从图中绿色框能看出该方法在黑夜场景下对背景细节的表达较弱;GANMcC用生成对抗网络作为骨干网络,但为了平衡红外图像与可见光图像,依然没能利用好两种源图像的优势;为了实现网络的轻量化,FLFuse在一定程度上牺牲了性能,因此它对源图像信息的提取能力较弱,导致显著目标和背景信息都不清晰;U2Fusion作为一个多任务融合的框架,其针对性较弱,该方法不可避免会削弱红外目标的显著性;BTSFusion在红外目标的保存和背景细节的表达上效果不尽如人意。本文所提方法和PSFusion都在低光场景下对红外目标的保存和背景信息的挖掘具有优势,从整体图像看,这两种方法也更加符合人类视觉系统。但从图5的PSFusion方法结果绿色框中可以看到,该方法在背景细节的挖掘方面稍弱于本文方法,说明本文方法在低光场景下是优于PSFusion方法的。然而,仅靠可视化的实验结果会存在主观性的差异,因此,选取6个评价指标对结果进行客观评价。评价指标分别是标准差(Standard Deviation, SD)、视觉保真度(VIsual Fidelity, VIF)、平均梯度(Average Gradient, AG)、差异相关和(Sum of Correlation of Differences, SCD)、信息熵(ENtropy, EN)和空间频率(Spatial Frequency, SF)。以上指标均为正向指标,值越大越好。在两个数据集上的评价指标结果如表1所示,加粗表示算法结果最优,下划线表示次优。
表 1 本文方法与 7 种对比算法的评价指标结果数据集 算法 评价指标 SD VIF AG SCD EN SF MSRS DenseFuse[10] 7.5 090 0.7 317 2.2 024 1.4 668 6.0 225 0.0 255 IFCNN[26] 6.6 247 0.6 904 3.6 574 1.4 483 5.8 457 0.0 450 GANMcC[27] 8.0 840 0.6 283 1.9 036 1.4 622 6.0 204 0.0 212 FLFuse[18] 6.6 117 0.4 791 1.7 241 1.1 108 5.5 299 0.0 189 U2Fusion[28] 5.7 280 0.3 902 1.8 871 0.9 897 4.7 535 0.0 243 PSFusion[21] 8.2 107 1.0 638 4.4 334 1.8 315 6.7 084 0.0 519 BTSFusion[29] 7.3 536 0.5 342 3.9 851 1.4 804 6.1 631 0.0 525 本文方法 9.7 287 1.0 010 6.5 477 1.5 573 7.3 170 0.0 670 LLVIP DenseFuse[10] 9.2 490 0.8 317 2.7 245 1.4 190 6.8 727 0.0 363 IFCNN[26] 8.6 038 0.8 094 4.1 833 1.3 853 6.7 336 0.0 565 GANMcC[27] 9.0 244 0.7 155 2.1 196 1.2 786 6.6 894 0.0 267 FLFuse[18] 8.8 942 0.6 337 1.2 916 0.8 539 6.4 600 0.0 162 U2Fusion[28] 7.7 951 0.5 631 2.2 132 0.8 092 5.9 464 0.0 287 PSFusion[21] 9.9 358 1.1 044 5.5 673 1.6 784 7.6 017 0.0 754 BTSFusion[29] 8.8 164 0.6 736 4.5 411 1.2 510 6.7 583 0.0 617 本文方法 10.0 067 1.0 436 4.7 956 1.7 005 7.4 720 0.0 648 由表1结果可知,本方法的6个指标高于除PSFusion的其他6种方法。VIF是基于人类视觉系统量化源图像和融合图像共享的信息量,VIF的值较高说明本文方法生成的融合图像更加符合人类视觉系统;AG和SF测量梯度分布与梯度信息,这两个值高说明本文方法的结果包含更加丰富的边缘信息与纹理信息;SCD是通过计算结果与源图像的差异表征融合算法的优劣,表明本文方法的结果拥有的源图像信息十分丰富;而表示融合图像对比度的SD值在两个数据集上都超过了PSFusion以及其他算法,说明本文方法在显著目标的对比度上是最优的。
本文方法与PSFusion相比其他算法在这些评价指标上的表现整体占优。接下来针对模型参数量以及各算法运行效率进行对比,结果如表2所示。其中,加粗代表最优结果,下划线表示次优结果,斜体代表再次优的结果,“/”表示数据过大,无法收集。
表 2 模型参数与运行效率的对比结果算法 模型参数 MSRS(480×640) LLVIP( 1024 ×1280 )参数量 权重(MB) 运行时间(ms) FLOPs(G) 运行时间(ms) FLOPs(G) DenseFuse[10] 88 225 0.34 165.52 27.03 459.54 115.32 IFCNN[26] 129 987 0.50 19.21 40.05 45.52 170.87 GANMcC[27] 1 864 129 7.11 260.48 572.96 734.13 / FLFuse[18] 14 328 0.05 1.10 4.36 1.34 18.59 U2Fusion[28] 659 217 2.51 169.93 202.36 482.12 863.41 PSFusion[21] 45 899 360 175.09 171.23 180.86 380.83 / BTSFusion[29] 55 444 0.21 153.91 15.73 160.11 67.11 本文方法* 200 689 0.77 4.30 1.87 6.80 7.97 本文方法 199 457 0.76 2.40 1.86 4.49 7.93 从表2可以看出本文方法的参数量和权重大小远小于PSFusion算法,更有利于算法的实际部署。在两个不同尺寸的数据集上,本方法的运行时间也远少于其他算法,仅次于FLFuse,但FLFuse为了使其网络轻量化,设计的网路深度较浅,无法全面提取特征,因此融合效果并不理想。FLOPs指标在一定程度上能反映网络模型的计算复杂度,本文方法在这两个数据集上均获得了最好的结果。表2中,“本文方法*”表示未进行结构重参数化操作,即去掉RepViT优化的训练阶段模型。从表中可以看出引入结构重参数化思想,在推理阶段可对融合的运行时间进一步优化。
3.3 消融实验
为了进一步验证本方法主融合网络部分提出的RepViTBlock(RVB)以及自适应光照损失{L_{{\text{auto}}}}的有效性,在本节设计了消融实验。实验1为本文方法,实验2将网络中的RVB部分换为普通卷积层,实验3将损失函数{L_{{\text{auto}}}}中去掉白天黑夜的权重并将PSFusion生成的融合图像更换为源图像,即融合网络不使用知识蒸馏的训练模型,具体公式为
L_{{\text{auto}}}^{'} = {L_{{\text{in}}}^{'}} + L_{{\text{grad}}}^{'} (16) L_{{\text{in}}}^{'} = \frac{1}{{{\bf{HW}}}}{\left\| {\left. {{{\boldsymbol{I}}_{{\text{fuse}}}} - {{\boldsymbol{I}}_{{\text{vi}}}}} \right\|} \right._1} + \frac{1}{{{\bf{HW}}}}{\left\| {\left. {{{\boldsymbol{I}}_{{\text{fuse}}}} - {{\boldsymbol{I}}_{{\text{ir}}}}} \right\|} \right._1} (17) L_{{\text{grad}}}^{'} = \frac{1}{{{\bf{HW}}}}{\left\| {\left. {\nabla {{\boldsymbol{I}}_{{\text{fuse}}}} - \nabla {{\boldsymbol{I}}_{{\text{vi}}}}} \right\|} \right._1} + \frac{1}{{{\bf{HW}}}}{\left\| {\left. {\nabla {{\boldsymbol{I}}_{{\text{fuse}}}} - \nabla {\boldsymbol{{I}}_{{\text{ir}}}}} \right\|} \right._1} (18) 实验4将网络中的RVB部分换为普通卷积层,并将{L_{{\text{auo}}}}换为L_{{\text{auo}}}^{'},即常规的强度损失和梯度损失。可视化结果与指标评价如图6和表3所示。
表 3 消融实验的客观评价指标结果消融实验 评价指标 编号 RVB Lauto SD VIF AG SCD EN SF 1 √ √ 9.7 287 1.0 010 6.5 477 1.5 573 7.3 170 0.0 670 2 × √ 8.9 909 0.8 988 6.2 219 1.2 732 7.1 821 0.0 625 3 √ × 7.8 663 0.9 494 3.2 929 1.7 506 6.3 839 0.0 403 4 × × 8.1 535 0.8 838 2.5 674 1.6 765 6.4 347 0.0 339 由实验结果可知,本文提出的方法在主观结果上从背景和显著目标保持方面都优于替换的模型。在指标评价上,本方法在除去SCD以外的指标上表现都优于替换模型。SCD是评价融合图像与源图像差异的指标,由于本方法对结果进行了增强,融合图像难免与源图像之间有差异。综上,本文所提方法的模块与损失函数均能有效促进融合任务的性能提升。
4. 结束语
本文提出一种场景自适应的知识蒸馏框架,用于红外与可见光图像融合。本方法构建双分支伪标签生成机制:采用融合算法生成日间伪标签,通过低光增强生成夜间伪标签,并结合光照感知网络动态调整融合权重,实现教师网络向学生网络的场景自适应知识迁移,并通过引入RepViT模块有效降低模型复杂度。在MSRS和LLVIP数据集上的实验表明,本方法在SD, VIF等客观指标上优于7种对比方法,并有效降低计算复杂度。此外,消融实验验证了光照感知模块与双伪标签机制的有效性。红外与可见光图像融合作为一种低层视觉任务,要求其具有较好的实时性与有效性。针对低层视觉任务的实时性需求,未来将探索面向多场景任务的轻量化融合架构。在本工作基础上,未来将继续探索可在多场景促进后续高层视觉任务性能提升的轻量级融合方法。
-
表 1 本文方法与 7 种对比算法的评价指标结果
数据集 算法 评价指标 SD VIF AG SCD EN SF MSRS DenseFuse[10] 7.5 090 0.7 317 2.2 024 1.4 668 6.0 225 0.0 255 IFCNN[26] 6.6 247 0.6 904 3.6 574 1.4 483 5.8 457 0.0 450 GANMcC[27] 8.0 840 0.6 283 1.9 036 1.4 622 6.0 204 0.0 212 FLFuse[18] 6.6 117 0.4 791 1.7 241 1.1 108 5.5 299 0.0 189 U2Fusion[28] 5.7 280 0.3 902 1.8 871 0.9 897 4.7 535 0.0 243 PSFusion[21] 8.2 107 1.0 638 4.4 334 1.8 315 6.7 084 0.0 519 BTSFusion[29] 7.3 536 0.5 342 3.9 851 1.4 804 6.1 631 0.0 525 本文方法 9.7 287 1.0 010 6.5 477 1.5 573 7.3 170 0.0 670 LLVIP DenseFuse[10] 9.2 490 0.8 317 2.7 245 1.4 190 6.8 727 0.0 363 IFCNN[26] 8.6 038 0.8 094 4.1 833 1.3 853 6.7 336 0.0 565 GANMcC[27] 9.0 244 0.7 155 2.1 196 1.2 786 6.6 894 0.0 267 FLFuse[18] 8.8 942 0.6 337 1.2 916 0.8 539 6.4 600 0.0 162 U2Fusion[28] 7.7 951 0.5 631 2.2 132 0.8 092 5.9 464 0.0 287 PSFusion[21] 9.9 358 1.1 044 5.5 673 1.6 784 7.6 017 0.0 754 BTSFusion[29] 8.8 164 0.6 736 4.5 411 1.2 510 6.7 583 0.0 617 本文方法 10.0 067 1.0 436 4.7 956 1.7 005 7.4 720 0.0 648 表 2 模型参数与运行效率的对比结果
算法 模型参数 MSRS(480×640) LLVIP( 1024 ×1280 )参数量 权重(MB) 运行时间(ms) FLOPs(G) 运行时间(ms) FLOPs(G) DenseFuse[10] 88 225 0.34 165.52 27.03 459.54 115.32 IFCNN[26] 129 987 0.50 19.21 40.05 45.52 170.87 GANMcC[27] 1 864 129 7.11 260.48 572.96 734.13 / FLFuse[18] 14 328 0.05 1.10 4.36 1.34 18.59 U2Fusion[28] 659 217 2.51 169.93 202.36 482.12 863.41 PSFusion[21] 45 899 360 175.09 171.23 180.86 380.83 / BTSFusion[29] 55 444 0.21 153.91 15.73 160.11 67.11 本文方法* 200 689 0.77 4.30 1.87 6.80 7.97 本文方法 199 457 0.76 2.40 1.86 4.49 7.93 表 3 消融实验的客观评价指标结果
消融实验 评价指标 编号 RVB Lauto SD VIF AG SCD EN SF 1 √ √ 9.7 287 1.0 010 6.5 477 1.5 573 7.3 170 0.0 670 2 × √ 8.9 909 0.8 988 6.2 219 1.2 732 7.1 821 0.0 625 3 √ × 7.8 663 0.9 494 3.2 929 1.7 506 6.3 839 0.0 403 4 × × 8.1 535 0.8 838 2.5 674 1.6 765 6.4 347 0.0 339 -
[1] ZHANG Xingchen and DEMIRIS Y. Visible and infrared image fusion using deep learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(8): 10535–10554. doi: 10.1109/TPAMI.2023.3261282. [2] 唐霖峰, 张浩, 徐涵, 等. 基于深度学习的图像融合方法综述[J]. 中国图象图形学报, 2023, 28(1): 3–36. doi: 10.11834/jig.220422.TANG Linfeng, ZHANG Hao, XU Han, et al. Deep learning-based image fusion: A survey[J]. Journal of Image and Graphics, 2023, 28(1): 3–36. doi: 10.11834/jig.220422. [3] ZHANG Hao, XU Han, TIAN Xin, et al. Image fusion meets deep learning: A survey and perspective[J]. Information Fusion, 2021, 76: 323–336. doi: 10.1016/j.inffus.2021.06.008. [4] KARIM S, TONG Grng, LI Jinyang, et al. Current advances and future perspectives of image fusion: A comprehensive review[J]. Information Fusion, 2023, 90: 185–217. doi: 10.1016/j.inffus.2022.09.019. [5] LI Hui, WU Xiaojun, and KITTLER J. MDLatLRR: A novel decomposition method for infrared and visible image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4733–4746. doi: 10.1109/TIP.2020.2975984. [6] LIU Yu, CHEN Xun, WARD R K, et al. Image fusion with convolutional sparse representation[J]. IEEE Signal Processing Letters, 2016, 23(12): 1882–1886. doi: 10.1109/LSP.2016.2618776. [7] FU Zhizhong, WANG Xue, XU Jin, et al. Infrared and visible images fusion based on RPCA and NSCT[J]. Infrared Physics & Technology, 2016, 77: 114–123. doi: 10.1016/j.infrared.2016.05.012. [8] MA Jinlei, ZHOU Zhiqiang, WANG Bo, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]. Infrared Physics & Technology, 2017, 82: 8–17. doi: 10.1016/j.infrared.2017.02.005. [9] ZHAO Wenda, LU Huimin, and WANG Dong. Multisensor image fusion and enhancement in spectral total variation domain[J]. IEEE Transactions on Multimedia, 2017, 20(4): 866–879. doi: 10.1109/TMM.2017.2760100. [10] LI Hui and WU Xiaojun. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614–2623. doi: 10.1109/TIP.2018.2887342. [11] LI Hui, WU Xiaojun, and DURRANI T. NestFuse: An infrared and visible image fusion architecture based on nest connection and spatial/channel attention models[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(12): 9645–9656. doi: 10.1109/TIM.2020.3005230. [12] LI Hui, WU Xiaojun, and KITTLER J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72–86. doi: 10.1016/j.inffus.2021.02.023. [13] LONG Yongzhi, JIA Haitao, ZHONG Yida, et al. RXDNFuse: A aggregated residual dense network for infrared and visible image fusion[J]. Information Fusion, 2021, 69: 128–141. doi: 10.1016/j.inffus.2020.11.009. [14] HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 2261–2269. doi: 10.1109/CVPR.2017.243. [15] XIE Saining, GIRSHICK R, DOLLÁR P, et al. Aggregated residual transformations for deep neural networks[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 5987–5995. doi: 10.1109/CVPR.2017.634. [16] MA Jiayi, TANG Linfeng, XU Meilong, et al. STDFusionNet: An infrared and visible image fusion network based on salient target detection[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 5009513. doi: 10.1109/TIM.2021.3075747. [17] MA Jiayi, YU Wei, LIANG Pengwei, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11–26. doi: 10.1016/j.inffus.2018.09.004. [18] XUE Weimin, WANG Anhong, and ZHAO Lijun. FLFuse-Net: A fast and lightweight infrared and visible image fusion network via feature flow and edge compensation for salient information[J]. Infrared Physics & Technology, 2022, 127: 104383. doi: 10.1016/j.infrared.2022.104383. [19] 陈昭宇, 范洪博, 马美燕, 等. 基于结构重参数化的红外与可见光图像融合[J]. 控制与决策, 2024, 39(7): 2275–2283. doi: 10.13195/j.kzyjc.2022.2003.CHEN Zhaoyu, FAN Hongbo, MA Meiyan, et al. Infrared and visible image fusion based on structural re-parameterization[J]. Control and Decision, 2024, 39(7): 2275–2283. doi: 10.13195/j.kzyjc.2022.2003. [20] 马美燕, 陈昭宇, 刘海鹏. 基于差分融合与边缘增强的轻量级红外与可见光图像融合算法[J]. 化工自动化及仪表, 2024, 51(4): 644–651. doi: 10.20030/j.cnki.1000-3932.202404013.MA Meiyan, CHEN Zhaoyu, and LIU Haipeng. A lightweight infrared and visible image fusion algorithm based on difference fusion and edge enhancement[J]. Control and Instruments in Chemical Industry, 2024, 51(4): 644–651. doi: 10.20030/j.cnki.1000-3932.202404013. [21] TANG Linfeng, ZHANG Hao, XU Han, et al. Rethinking the necessity of image fusion in high-level vision tasks: A practical infrared and visible image fusion network based on progressive semantic injection and scene fidelity[J]. Information Fusion, 2023, 99: 101870. doi: 10.1016/j.inffus.2023.101870. [22] GUO Chunle, LI Chongyi, GUO Jichang, et al. Zero-reference deep curve estimation for low-light image enhancement[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 1777–1786. doi: 10.1109/CVPR42600.2020.00185. [23] WANG Ao, CHEN Hui, LIN Zijia, et al. Rep ViT: Revisiting mobile CNN from ViT perspective[C]. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2024: 15909–15920. doi: 10.1109/CVPR52733.2024.01506. [24] TANG Linfeng, YUAN Jiteng, ZHANG Hao, et al. PIAFusion: A progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83/84: 79–92. doi: 10.1016/j.inffus.2022.03.007. [25] LIU Jinyuan, FAN Xin, HUANG Zhanbo, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 5792–5801. doi: 10.1109/CVPR52688.2022.00571. [26] ZHANG Yu, LIU Yu, SUN Peng, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99–118. doi: 10.1016/j.inffus.2019.07.011. [27] MA Jiayi, ZHANG Hao, SHAO Zhenfeng, et al. GANMcC: A generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 5005014. doi: 10.1109/TIM.2020.3038013. [28] XU Han, MA Jiayi, JIANG Junjun, et al. U2Fusion: A unified unsupervised image fusion network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 502–518. doi: 10.1109/TPAMI.2020.3012548. [29] QIAN Yao, LIU Gang, TANG Haojie, et al. BTSFusion: Fusion of infrared and visible image via a mechanism of balancing texture and salience[J]. Optics and Lasers in Engineering, 2024, 173: 107925. doi: 10.1016/j.optlaseng.2023.107925. -