A Fusion Network for Infrared and Visible Images Based on Pre-trained Fixed Parameters and Deep Feature Modulation

XU Shaoping; ZHOU Changfei; XIAO Jian; TAO Wuyong; DAI TianYu

doi:10.11999/JEIT231283

Volume 46 Issue 8

Aug. 2024

Turn off MathJax

Article Contents

Article Navigation > Journal of Electronics & Information Technology > 2024 > 46(8): 3305-3313

XU Shaoping, ZHOU Changfei, XIAO Jian, TAO Wuyong, DAI TianYu. A Fusion Network for Infrared and Visible Images Based on Pre-trained Fixed Parameters and Deep Feature Modulation[J]. Journal of Electronics & Information Technology, 2024, 46(8): 3305-3313. doi: 10.11999/JEIT231283

Citation:

XU Shaoping, ZHOU Changfei, XIAO Jian, TAO Wuyong, DAI TianYu. A Fusion Network for Infrared and Visible Images Based on Pre-trained Fixed Parameters and Deep Feature Modulation[J]. Journal of Electronics & Information Technology, 2024, 46(8): 3305-3313. doi: 10.11999/JEIT231283

Citation:

XU Shaoping, ZHOU Changfei, XIAO Jian, TAO Wuyong, DAI TianYu. A Fusion Network for Infrared and Visible Images Based on Pre-trained Fixed Parameters and Deep Feature Modulation[J]. Journal of Electronics & Information Technology, 2024, 46(8): 3305-3313. doi: 10.11999/JEIT231283

PDF( 6217 KB)

A Fusion Network for Infrared and Visible Images Based on Pre-trained Fixed Parameters and Deep Feature Modulation

doi: 10.11999/JEIT231283 cstr: 32379.14.JEIT231283

School of Mathematics and Computer Sciences, Nanchang University, Nanchang 330031, China

Funds: The National Natural Science Foundation of China (62162043)

Received Date: 2023-11-20
Rev Recd Date: 2024-03-15

Available Online: 2024-03-26

Publish Date: 2024-08-30

Abstract

Abstract

To better leverage complementary image information from infrared and visible light images and generate fused images that align with human perception characteristics, a two-stage training strategy is proposed to obtain a novel infrared-visible image fusion Network based on pre-trained fixed Parameters and Deep feature modulation (PDNet). Specifically, in the self-supervised pre-training stage, a substantial dataset of clear natural images is employed as both inputs and outputs for the UNet backbone network, and pre-training is accomplished with autoencoder technology. As such, the resulting encoder module can proficiently extract multi-scale depth features from the input image, while the decoder module can faithfully reconstruct it into an output image with minimal deviation from the input. In the unsupervised fusion training stage, the pre-trained encoder and decoder module parameters remain fixed, and a fusion module featuring a Transformer structure is introduced between them. Within the Transformer structure, the multi-head self-attention mechanism allocates deep feature weights, extracted by the encoder from both infrared and visible light images, in a rational manner. This process fuses and modulates the deep image features at various scales into the manifold space of deep features of clear natural image, thereby ensuring the visual perception quality of the fused image after reconstruction by the decoder. Extensive experimental results demonstrate that, in comparison to current mainstream fusion models (algorithms), the proposed PDNet model exhibits substantial advantages across various objective evaluation metrics. Furthermore, in subjective visual evaluations, it aligns more closely with human visual perception characteristics.
- Infrared and visible images,
- Image fusion,
- Self supervised pre-training,
- Unsupervised fusion training,
- Fixed parameters,
- Deep feature modulation

FullText(HTML)

1. 引言

由于硬件设备的技术限制，单一模态传感器很难全面有效地捕获成像场景中目标对象的所有信息。一般来讲，可见光成像技术虽然可以获取分辨率高、纹理细节丰富的图像，但它的成像效果严重受制于光照条件，无法在暗光环境中捕获目标对象^[1]；而红外成像技术可以在低照度条件下清晰地捕捉到热辐射目标，但所得到图像背景、目标对象的纹理不够清晰^[2]。因此，红外与可见光图像融合技术因其能利用不同模态传感器之间的互补性并生成符合人眼感知特性的单一图像，在军事侦查、卫星遥感和目标跟踪等领域得到广泛应用^[3,4]。近10年来，深度神经网络强大的特征提取与建模能力推动了其在图像处理和计算机视觉领域的飞速发展，越来越多的研究者将深度神经网络应用于红外与可见光图像融合工作。

Prabhakar等人^[5]将自编码器首次应用于图像融合领域。该网络结构主要由5个卷积层组成，其中前2个卷积层作为编码器用于特征提取，后3个卷积层则作为解码器用于特征重建。这种模型在图像融合领域取得了令人满意的效果。在此基础上，Li等人^[6]提出了一种被称为DenseFuse (a fusion approach to infrared and visible images)的红外与可见光融合网络模型。该模型引入了稠密块(dense block)，其中网络模型的每一层输出都连接到下一层，以减少特征提取过程中的信息流失。编码器和解码器均由卷积核大小为3 × 3的卷积层构成。然而，DenseFuse方法虽然使用了编码器-解码器结构，但并未充分发挥网络的特征提取能力。为解决此问题，Zhang等人^[7]提出了一种基于梯度和强度比例保持(Proportional Maintenance of Gradient and Intensity, PMGI)的端到端图像融合模型。该模型将模型分为强度路径和梯度路径，同时设计了路径传输模块来实现两个路径的信息交流。损失函数由灰度损失和梯度损失两部分构成，通过调节损失间的权重实现不同的图像融合任务。Ma等人^[8]还将生成对抗网络技术引入到红外与可见光图像融合问题中，提出了一种基于对抗生成网络的红外与可见光图像融合模型(a Generative Adversarial Network for infrared and visible image Fusion, FusionGAN)。该方法将红外与可见光图像融合过程转化为可见光图像和融合结果之间的对抗博弈，在生成器和判别器博弈的过程中融合结果将包含越来越多可见光图像的纹理信息。FusionGAN仅使用一个辨别器，故保存的细节信息不够，生成的图像不清晰。为此，Ma等人^[9]进一步提出了双判别器的条件生成对抗网络。该模型包含1个生成器和2个判别器，生成器负责生成融合图像，而2个判别器分别用于辨别融合图像与红外与可见光图像的结构差异和内容损失。最终的融合图像可以同时保留可见光图像的纹理细节信息和红外图像中与温度相关的显著性信息。与此同时，Li等人^[10]将注意力机制引入融合模型中，提出一种基于注意力的对抗生成网络(Attention-based Generative Adversarial Networks, AttentionFGAN)的融合算法，得到了不错的融合效果。Xu等人^[11]提出了一种统一的无监督图像融合模型(Unified Unsupervised image Fusion network, U2Fusion)，该模型能够同时应用于多聚焦、多光谱以及红外与可见光融合等多个任务中。此模型分为特征提取和信息度量两部分，通过信息度量可以自适应地确定源图像的信息保持度。总体而言，上述所提到的各类基于深度学习的红外与可见光图像融合模型，其核心层大多采用卷积层以实现特征提取与重构，缺乏对长距离像素点依赖关系的描述能力。此外，大多采用单阶段训练模型方案，图像融合模块与特征提取、图像重构模块之间深度绑定在一起，融合模块的调节能力相对较弱，现有的融合模型在融合效果上还有很大的改进空间。

为进一步提升红外与可见光图像融合模型的融合效果，本文提出一种基于预训练固定参数和深度特征调制的红外与可见光图像融合网络(infrared-visible image fusion Network based on pre-trained fixed Parameters and Deep feature modulation, PDNet)。大量实验表明：PDNet模型在各项常用客观评价指标中具有综合优势，能产生更符合人眼感知习惯的融合结果，其性能优势主要源于以下原因：(1)模型采用两阶段的训练策略可以将特征提取、重建和特征融合任务隔离，使得网络模型能够更好地进行特征提取和融合，从而改善最终融合图像的图像质量；(2)在特征融合模块中引入Transformer结构^[12]和多尺度策略来改善网络模型的融合结果，其中Transformer可以通过自注意力机制建立像素之间的长距离依赖关系，而多尺度策略可以使得融合结果保留更多的图像细节。

2. 相关工作

UNet网络^[13]是一种经典的编码器-解码器(encoder-decoder)网络。如图1所示，UNet模型的整体架构呈现出U形拓扑结构，由对称的编码器(下采样路径)、解码器(上采样路径)以及连接两者的跳跃连接(skip connections)组成。UNet的编码器负责提取输入图像在多个不同分辨率尺度上的深度特征，采用了3×3的卷积层和2×2的池化层。每经过1个最大池化层，就能得到1个不同尺度的图像特征，最终生成5个不同尺度的图像特征(UNet网络的尺度层数可根据应用需要进行调整)。随着网络深度的增加，图像特征的通道数也相应增加，但图像特征的尺度逐渐减小。这种下采样操作有助于从输入图像中提取多尺度的特征。另一方面，UNet的解码器负责对编码器提取的特征进行上采样和重构操作。每次上采样操作都通过跳跃连接将编码器同层的特征与解码器得到的特征进行融合。最后，通过使用1×1的卷积层，将通道数降低到与目标输出图像相同的数量，从而获得所需的输出图像。除了编码器和解码器，跳跃连接也是UNet网络结构的一个重要组成部分。跳跃连接将编码器中的特征图与解码器中相应的特征图进行连接(一般就是拷贝直通模式)，使得编码器同层的特征可以直接传递给对应层的解码器，这有助于精确的位置定位，避免图像信息在下采用过程中的丢失问题。

图 1 UNet网络中典型的编码器和解码器架构图

下载: 全尺寸图片幻灯片

UNet网络模型采用相对简单编码器-解码器架构，通过逐步下采样和上采样的方式，能够有效地捕获不同尺度的特征且所需参数量较少。它通过多尺度特征提取与重构，可以获取更丰富的语义信息，从而提高对复杂场景和不同尺度的目标的理解能力，进而生成细节更加丰富的图像。UNet模型进行修改和定制后，可适用于多种底层图像处理任务。然而，UNet网络下采样操作也会导致分辨率降低，会丢失一些细节信息。与此同时，UNet的解码器采用上采样操作来恢复分辨率，也容易导致信息瓶颈，即解码器难以有效地传递细节信息。为了解决这个问题，UNet网络采用了跳跃连接结构。尽管如此，跳跃连接结构仍然非常简单，仅在编码器和解码器同级深度水平上传递特征信息，并不具备对编码器输出的特征作进一步调制的能力。

3. PDNet网络模型

3.1 改进策略

本文所提PDNet融合网络模型核心的构建思想是将融合网络中的特征融合模块从特征提取、图像重建功能中完全分离出来，采用两阶段训练策略实现：(1)自监督预训练阶段；为更好地表征图像特征(使重构图像具有更好地满足人眼感知特性)，采用自编码器(Autoencoder)技术完成UNet骨干网络的预训练。当UNet网络在输入和输出图像采用同一清晰图像进行训练时，即可视为一种自编码器网络。如图2所示，Encoder部分表示编码器，参数记为${\theta _w}$, Decoder部分表示解码器，参数记为$ {\theta _v} $。此时，UNet骨干网络以最小化重建误差为训练目标实现对输入图像的重建。一旦模型完成训练，UNet网络的编码器可用于提取图像的深度特征，而解码器则可能生成与输入图像差异极小的重构图像。这时，UNet网络中的编码器和解码器协同工作可实现对自然图像的深度特征表示和图像重建。(2)无监督融合训练阶段：在自监督预训练任务完成后，采用固定住UNet网络编码器和解码器参数的方法来固化其对清晰自然图像的建模能力。由于经典UNet网络的编码器和解码器之间依赖简单的跳跃连接关联，对不同尺度上图像特征的调制能力比较弱。因此，本文提出在编码器和解码器之间新增含Transformer^[12]结构的融合模块。具体地，在跳跃连接前引入拥有多头自注意机制的且善于对长距离像素点关系建模的Transformer结构来实现对红外和可见光图像深度图像特征的调制，以最终实现深度特征的有效融合。Transformer结构能够通过自注意力机制实现特征之间的权重分配，能实现特征的有效融合和更具有信息量的表示。它不仅可以捕捉到像素之间的局部关系，还能有效地建模长距离像素点之间的复杂关系。这对于调整图像中的纹理、边缘和细节等特征信息非常关键，因为这些特征通常需要更广泛的上下文信息才能被正确地重建。无监督融合训练阶段过程如图3所示，参数$ \theta _w^* $和$ \theta _v^* $分别表示加载自监督预训练阶段所得到编码器和解码器参数，在训练过程中保持固定不变。融合模块的网络参数值在训练过程中根据目标损失函数进行必要调整，$ \phi _{{\text{ir}}}^i $和$ \phi _{{\text{vis}}}^i $分别表示红外和可见光图像经过编码器提取到的第$ i $个尺度的特征，$ \phi _{\mathrm{f}}^i $表示对应尺度特征的融合结果(已完成特征调制)。

图 2 自监督预训练阶段网络模型框架图

下载: 全尺寸图片幻灯片

图 3 无监督融合阶段网络模型框架图

下载: 全尺寸图片幻灯片

3.2 网络结构

PDNet网络模型由编码器(Encoder)、解码器(Decoder)和融合模块(含2个Transformer结构)3部分组成。其中，第1阶段训练只涉及到编码器和解码器。(1)编码器：如图2所示，在编码器的每一层有两个3×3的卷积层，前一个卷积层特征图通道数是后一个卷积层特征图的通道数的1/2，在第1层中还增加1×1的卷积层来改变输入图像的通道数。层与层之间通过一个2×2的最大池化层来进行下采样操作，总共在4个尺度上提取深度特征。为了方便计算特征损失，在卷积操作时，使用padding操作来保持特征图的大小不改变。(2)解码器：为了更好地对提取到的特征进行特征重建，对UNet网络的解码器进行必要的改进(与经典的UNet解码器模块采样的跳跃连接有所不同)。具体地，在每一层中，解码块之间使用密集连接的方法，每隔两个3×3的卷积层的输出都连接到其他网络层。此外，解码器网络还通过跨层连接来组合不同尺度的特征，使得解码器可利用的特征来源更为丰富，从而使得重构效果更好。在解码器的最后使用一个1×1的卷积层使得网络的输出和输入通道数相同。(3)特征融合模块：如图3所示，融合模块中的Transformer^[12]结构是由一个基于移位窗口的多头自注意力(Mutil-head Self Attention, MSA)模块和多层感知机(Multi-Layer Perceptron, MLP)构成，归一化(LayerNorm, LN)层被用于每个MSA模块和MLP模块前。此外，在每个MSA模块和MLP模块后都应用了残差连接。Transformer模块不会改变输入特征图的大小和通道数，可以方便的嵌入到编码器和解码器网络之间。中间特征融合部分在每个尺度上均是由2个1×1的卷积层和2个Transformer基本模块构成。使用2个1×1的卷积层分别将编码器特征提取过程中得到的红外图像和可见光图像的特征图通道数减半，将两个特征图进行拼接，这样既能使融合模块输出的特征图的大小和通道数符合解码器网络的输入，还能减少计算量。然后将拼接后的结果输入到2个连续的Transformer模块进行特征融合，最后在不同尺度上将Transformer模块的输出作为解码器网络的输入。图中编码器的输入${{\boldsymbol{I}}_{{\text{ir}}}}$和${{\boldsymbol{I}}_{{\text{vis}}}}$分别指的是红外图像和可见光图像，而解码器的输出即为融合图像${{\boldsymbol{I}}_{\mathrm{o}}}$。

3.3 自监督预训练阶段损失函数

UNet骨干网络主要任务的是特征提取和特征重建，它在自监督训练阶段所采用的损失函数${L_{{\text{sef}}}}$是由${L_{{\text{pixel}}}}$和${L_{{\text{ssim}}}}$两部分构成

${L_{{\text{sef}}}} = {L_{{\text{pixel}}}} + {L_{{\text{ssim}}}}$

(1)

其中，像素损失函数${L_{{\text{pixel}}}}$使得融合(输出)图像在像素级上接近输入图像，定义为

${L_{{\text{pixel}}}} = \left\| {{{\boldsymbol{I}}_{\mathrm{o}}} - {{\boldsymbol{I}}_{\mathrm{i}}}} \right\|_{\text{F}}^2$

(2)

其中，${{\boldsymbol{I}}_{\mathrm{i}}}$和${{\boldsymbol{I}}_{\mathrm{o}}}$分别是网络的输入图像和输出图像，${\left\| . \right\|_{\text{F}}}$表示F-范数。为了更好地度量输入图像和输出图像在局部结构上的相似性，引入了SSIM损失函数${L_{{\text{ssim}}}}$

${L_{{\text{ssim}}}} = 1 - {\text{SSIM}}({{\boldsymbol{I}}_{\mathrm{o}}},{{\boldsymbol{I}}_{\mathrm{i}}})$

(3)

其中，函数${\text{SSIM}}(.)$是图像处理领域常用的计算两张图像之间结构相似性指标。其值在0～1，值越大表示两者之间的相似度越高。故在被利用为损失函数值时，需要用1减去其值后再使用。

3.4 无监督融合阶段损失函数

为了在无监督融合训练过程中同时保留可见光图像的纹理信息和红外图像的显著性信息，使用的损失函数定义为

${L_{{\text{un}}}} = \lambda {L_{{\text{detail}}}} + {L_{{\text{feature}}}}$

(4)

其中，${L_{{\text{detail}}}}$是图像细节损失函数，${L_{{\text{feature}}}}$是特征损失函数，$\lambda $是超参数。在红外与可见光图像融合过程中，大部分纹理细节信息由可见光图像提供，${L_{{\text{detail}}}}$损失函数就是为了在融合过程中保留红外和可见光图像的纹理细节信息，由于可见光图像通常包含更多的纹理细节信息，所以在可见光图像的SSIM损失值乘以权重2以保留更多的纹理细节信息，具体如式(5)所示

${L_{{\text{detail}}}} = (1 - {\text{SSIM}}({{\boldsymbol{I}}_{\mathrm{o}}},{{\boldsymbol{I}}_{{\text{ir}}}})) + 2 \times (1 - {\text{SSIM}}({{\boldsymbol{I}}_{\mathrm{o}}},{{\boldsymbol{I}}_{{\text{vis}}}}))$

(5)

其中，$ {\boldsymbol{I}}_{{\text{ir}}}^{} $和$ {\boldsymbol{I}}_{{\text{vis}}}^{} $分别表示红外与可见光图像。为了保留红外与可见光图像中包含的目标特征信息，设计了损失函数${L_{{\text{feature}}}}$

${L_{{\text{feature}}}} = \sum\limits_{i = 1}^k {w(i)(} 2 \times {\mathrm{MSE}}(\phi _{{\text{ir}}}^i,\phi _{\mathrm{f}}^i) + {\mathrm{MSE}}(\phi _{{\text{vis}}}^i,\phi _{\mathrm{f}}^i))$

(6)

其中，$ k $为多尺度特征的数量，$ k $的值设为4。$ \phi _{{\text{ir}}}^i $和$ \phi _{{\text{vis}}}^i $分别表示红外和可见光图像的深度特征图，$ \phi _{\mathrm{f}}^i $表示融合后的特征图。$ w(i) $为不同尺度特征在损失函数中的权重。由于随着网络层数的加深，得到特征图的尺度越来越小。根据一些已有的经验^[14,15]和实验数据分析，不同尺度所对应的权重值被设为(1,10,100,1 000)。由于特征损失函数主要作用是保留红外特征信息，对红外图像的特征损失值部分乘以权重2来保留更多的红外特征信息。

4. 实验结果与分析

4.1 实验设置

为了全面客观评价所提PDNet网络模型的性能，本文在VOT2020-RGBT^[16]和MSRS^[3]两个基准测试集合上进行了大量的定性和定量实验，选用梯度度转移融合方法(Gradient Transfer Fusion, GTF)^[17]、基于卷积稀疏表示的图像融合算法(Convolutional Sparse Representation, ConvSR)^[18]、基于离散余弦谐波变换的融合方法( Discrete Cosine Harmonic Wavelet Transform, DCHWT)^[19]、DenseFuse^[6]、基于显著目标检测的图像融合网络(an infrared and visible image Fusion Network based on Salient Target Detection, STDFusionNet)^[20]、一种统一的无监督图像融合模型(Unified Unsupervised image Fusion Network, U2Fusion)^[11]、TarDAL(Target-aware Dual Adversarial Learning)^[21]、ReCoNet(Recurrent Correction Network)^[22]、YDTR(Y-shape Dynamic TRansformer)^[23]和DATFuse (Dual Attention TRansFormer)^[24]共10种融合模型(算法)作为对比对象。测试结果采用的客观评价指标分别为熵(Entorpy, En)^[21]、标准差(Standard Deviation, SD)^[25]、相关系数(Correlation Coefficient, CC)^[11]、视觉信息保真度(VIsual quality Fidelity, VIF)^[26]、差异相关和(Sum of the Correlations of Differences, SCD)^[27]、峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)^[11]和多尺度结构相似度测量(Multi Scale Structural Similarity Index Measure, MS-SSIM)^[23]。参与比较的所有方法都在相同硬件平台(英特尔(R)酷睿(TM)i7-11700 CPU@2.5 GHz,32 GB RAM和NVIDIA Geforce RTX 3090 GPU)和软件环境(Window10操作系统)上运行。

4.2 消融实验

首先，为了更好地保留可见光图像的纹理信息和红外图像的显著性信息，对损失函数${L_{{\text{total}}}}$中超参数$\lambda $的设置范围(0～200)进行实验分析，实验数据列在表1中，黑体加粗表示最优值。由表1可以看出：当$\lambda $的值较小时($\lambda $=0,25,50,75)，在各项评价指标上均未获取最优。当$\lambda $=100时，共取得4次最优值，所以最终将参数值$\lambda $设为100。

表 1 损失函数${L_{{\text{un}}}}$中超参数$\lambda $取值对融合结果评价指标的影响

评价指标					$\lambda $
评价指标	0	25	50	75	100	125	150	175	200
En	6.766 9	6.949 8	6.932 3	6.937 4	6.953 3	7.085 1	7.155 7	7.127 6	7.144 1
SD	77.730 8	81.681 1	80.013 2	80.885 2	81.097 8	99.554 7	98.155 5	99.972 5	98.011 0
CC	0.454 8	0.509 2	0.509 6	0.509 3	0.510 4	0.416 6	0.450 4	0.426 3	0.451 5
VIF	0.901 0	0.848 8	0.837 0	0.844 2	0.841 4	0.985 1	0.936 1	0.841 4	0.947 1
SCD	1.595 4	1.766 9	1.746 6	1.745 8	1.767 7	1.572 6	1.698 7	1.626 3	1.690 6
PSNR	61.293 9	62.337 4	62.234 9	62.190 9	62.392 3	61.482 8	61.798 7	61.544 5	61.834 7
MS-SSIM	0.794 7	0.920 8	0.898 8	0.892 1	0.923 6	0.858 3	0.893 6	0.878 5	0.895 0

下载: 导出CSV

| 显示表格

其次，为了验证特征融合模块中Transformer结构个数多少对融合效果的影响，用卷积层来替换Transformer模块来观察图像融合效果、将Transformer模块的个数依次设为1个、2个和3个来观察图像融合效果。如表2所示，0表示特征融合模块中只使用卷积层(Conv)而不使用Transformer模块，黑体数字表示最优值。由表2可知：使用Conv时在各项评价指标中只取得1次最优值，仅使用1个Transformer结构时的融合效果也不理想，而当使用Transformer结构的个数为2时取得4次最优值。考虑到Transformer结构个数增加将显著导致模型的计算复杂度增加，最终选择采用2个Transformer模块。

表 2 特征融合部分中Transformer模块对融合效果的影响

评价指标	Transformer个数
评价指标	0	1	2	3
En	7.120 9	7.080 6	6.953 3	7.115 2
SD	112.593 5	100.349 8	81.097 8	113.844 2
CC	0.360 0	0.402 2	0.510 4	0.353 6
VIF	1.131 6	0.986 3	0.841 4	1.162 6
SCD	1.131 1	1.393 1	1.767 7	1.016 1
PSNR	60.665 8	61.393 5	62.392 3	60.745 7
MS-SSIM	0.805 0	0.830 1	0.923 6	0.799 4

下载: 导出CSV

| 显示表格

最后，为了验证所提出两阶段训练策略的有效性，将其与1阶段训练策略作为对比，即在训练整个网络时，同时更新编码器(特征提取)、解码器(图像重构)和特征融合模块的网络参数。1阶段策略中的迭代次数和超参数与两阶段训练保持一致，即$\lambda $的值为100，模型训练迭代次数为20。由表3可知，使用两阶段训练策略得到融合图像的CC, SCD, PSNR和MS-SSIM指标值都高于1阶段训练策略。

表 3 采用1阶段和两阶段训练策略在VOT2020-RGBT测试集上的融合效果对比

训练策略	评价指标
训练策略	En	SD	CC	VIF	SCD	PSNR	MS-SSIM
1阶段	7.182 8	109.516 7	0.379 1	1.039 5	1.252 5	60.989 0	0.832 6
2阶段	6.953 3	81.097 8	0.510 4	0.841 4	1.767 7	62.392 3	0.923 6

下载: 导出CSV

| 显示表格

4.3 客观评价

为了全面客观地比较改进网络的融合性能，在MSRS基准测试集合上对各个对比算法进行测试，测试图片集合包括361组红外与可见光图像，各项指标的最优值用黑体表示，次优值用黑体加下划线表示。测试结果如表4所示。PDNet模型在MSRS测试数据集上一共取得4次前2，取得前2名次的次数最多，综合性能是最优的。

表 4 各方法在MSRS数据集上的指标值对比

评价指标	对比算法
评价指标	GTF	STDFusionNet	ConvSR	DCHWT	DenseFuse	U2Fusion	TarDAL	ReCoNet	YDTR	DATFuse	PDNet
En	5.483 5	5.244 1	6.030 8	6.346 6	5.936 8	5.372 2	6.349 5	4.233 7	5.645 1	6.420 3	6.360 5
SD	42.970 8	65.835 1	55.818 2	72.187 0	51.226 4	55.479 9	77.116 0	90.668 6	55.146 1	71.763 9	71.110 0
CC	0.525 4	0.541 0	0.647 5	0.604 2	0.659 8	0.6482	0.626 2	0.555 3	0.631 1	0.590 2	0.629 0
VIF	0.558 0	0.521 2	0.709 5	0.713 0	0.704 1	0.564 1	0.677 3	0.594 0	0.559 3	0.800 8	0.817 3
SCD	0.749 5	0.952 6	1.291 7	1.340 7	1.251 1	1.2439	1.484 6	1.262 0	1.138 1	1.285 1	1.506 4
PSNR	64.723 4	64.815 0	67.117 7	66.147 0	67.237 3	66.358 0	60.899 6	64.507 9	64.107 6	62.598 7	66.271 7
MS-SSIM	0.848 4	0.867 3	0.942 0	0.902 2	0.902 9	0.919 4	0.928 9	0.884 2	0.887 2	0.946 6	0.946 5

下载: 导出CSV

| 显示表格

4.4 主观评价

为了直观地比较各种对比算法的融合效果，对各个融合算法的融合结果进行人工视觉主观评价，视觉对比效果如图4所示。由图4可以看出，相对于各对比算法，在红框、蓝框和绿框所在区域内，仅有所提出的PDNet网络模型能更多地保留可见光的纹理信息和红外图像的显著信息，纹理更加清晰，且低噪声。

图 4 各方法在MSRS数据集上融合效果对比

下载: 全尺寸图片幻灯片

5. 结论

本文提出一种基于预训练固定参数和深度特征调制的红外与可见光图像融合网络(称为PDNet)。在基准测试集上完成的定性、定量评价结果表明：PDNet模型输出的融合图像在主观和客观评价中均有一定优势。这主要得益于PDNet网络所采用的两阶段训练策略。其中，自监督预训练阶段使得UNet骨干网络编码器和解码器能够很好地对任何输入的清晰图像都进行有效表示和重建；而无监督融合训练阶段，则利用特征融合模块将红外和可见光图像的深度融合特征调制到正常清晰图像所属的深度特征流型上来，从而保证了最终融合图像的质量。

References(27)

References

[1]	CHANG Zhihao, FENG Zhixi, YANG Shuyuan, et al. AFT: Adaptive fusion transformer for visible and infrared images[J]. IEEE Transactions on Image Processing, 2023, 32: 2077–2092. doi: 10.1109/TIP.2023.3263113.
[2]	WU Xin, HONG Danfeng, and CHANUSSOT J. UIU-Net: U-Net in U-Net for infrared small object detection[J]. IEEE Transactions on Image Processing, 2023, 32: 364–376. doi: 10.1109/TIP.2022.3228497.
[3]	TANG Linfeng, YUAN Jiteng, ZHANG Hao, et al. PIAFusion: A progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83/84: 79–92. doi: 10.1016/j.inffus.2022.03.007.
[4]	冯鑫, 张建华, 胡开群, 等. 基于变分多尺度的红外与可见光图像融合[J]. 电子学报, 2018, 46(3): 680–687. doi: 10.3969/j.issn.0372-2112.2018.03.025. FENG Xin, ZHANG Jianhua, HU Kaiqun, et al. The infrared and visible image fusion method based on variational multiscale[J]. Acta Electronica Sinica, 2018, 46(3): 680–687. doi: 10.3969/j.issn.0372-2112.2018.03.025.
[5]	RAM PRABHAKAR K, SAI SRIKAR V, and BABU R V. DeepFuse: A deep unsupervised approach for exposure fusion with extreme exposure image pairs[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 4714–4722. doi: 10.1109/ICCV.2017.505.
[6]	LI Hui and WU Xiaojun. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614–2623. doi: 10.1109/TIP.2018.2887342.
[7]	ZHANG Hao, XU Han, XIAO Yang, et al. Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity[C]. The Thirty-Seventh AAAI Conference on Artificial Intelligence, Washington, USA, 2020: 12797–12804. doi: 10.1609/AAAI.V34I07.6975.
[8]	MA Jiayi, YU Wei, LIANG Pengwei, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11–26. doi: 10.1016/j.inffus.2018.09.004.
[9]	MA Jiayi, XU Han, JIANG Junjun, et al. DDcGAN: A dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4980–4995. doi: 10.1109/TIP.2020.2977573.
[10]	LI Jing, HUO Hongtao, LI Chang, et al. AttentionFGAN: Infrared and visible image fusion using attention-based generative adversarial networks[J]. IEEE Transactions on Multimedia, 2021, 23: 1383–1396. doi: 10.1109/TMM.2020.2997127.
[11]	XU Han, MA Jiayi, JIANG Junjun, et al. U2Fusion: A unified unsupervised image fusion network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 502–518. doi: 10.1109/TPAMI.2020.3012548.
[12]	LIANG Jingyun, CAO Jiezhang, SUN Guolei, et al. SwinIR: Image restoration using swin transformer[C]. The 2021 IEEE/CVF International Conference on Computer Vision Workshops, Montreal, Canada, 2021: 1833–1844. doi: 10.1109/ICCVW54120.2021.00210.
[13]	RONNEBERGER O, FISCHER P, and BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]. 18th International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, Germany, 2015: 234–241. doi: 10.1007/978-3-319-24574-4_28.
[14]	WEI Yanyan, ZHANG Zhao, WANG Yang, et al. DerainCycleGAN: Rain attentive cycleGAN for single image deraining and rainmaking[J]. IEEE Transactions on Image Processing, 2021, 30: 4788–4801. doi: 10.1109/TIP.2021.3074804.
[15]	ZHANG Yuyang, XU Shibiao, WU Baoyuan, et al. Unsupervised multi-view constrained convolutional network for accurate depth estimation[J]. IEEE Transactions on Image Processing, 2020, 29: 7019–7031. doi: 10.1109/TIP.2020.2997247.
[16]	KRISTAN M, LEONARDIS A, MATAS J, et al. The eighth visual object tracking VOT2020 challenge results[C]. European Conference on Computer Vision, Glasgow, UK, 2020: 547–601. doi: 10.1007/978-3-030-68238-5_39.
[17]	MA Jiayi, CHEN Chen, LI Chang, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]. Information Fusion, 2016, 31: 100–109. doi: 10.1016/j.inffus.2016.02.001.
[18]	LIU Yu, CHEN Xun, WARD R K, et al. Image fusion with convolutional sparse representation[J]. IEEE Signal Processing Letters, 2016, 23(12): 1882–1886. doi: 10.1109/LSP.2016.2618776.
[19]	KUMAR B K S. Multifocus and multispectral image fusion based on pixel significance using discrete cosine harmonic wavelet transform[J]. Signal, Image and Video Processing, 2013, 7(6): 1125–1143. doi: 10.1007/s11760-012-0361-x.
[20]	MA Jiayi, TANG Linfeng, XU Meilong, et al. STDFusionNet: An infrared and visible image fusion network based on salient target detection[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1–13. doi: 10.1109/TIM.2021.3075747.
[21]	LIU Jinyuan, FAN Xin, HUANG Zhanbo, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 5792–5801. doi: 10.1109/CVPR52688.2022.00571.
[22]	HUANG Zhanbo, LIU Jinyuan, FAN Xin, et al. ReCoNet: Recurrent correction network for fast and efficient multi-modality image fusion[C]. 17th European Conference on Computer Vision, Tel Aviv, Israel, 2022: 539–555. doi: 10.1007/978-3-031-19797-0_31.
[23]	TANG Wei, HE Fazhi, and LIU Yu. YDTR: Infrared and visible image fusion via Y-shape dynamic transformer[J]. IEEE Transactions on Multimedia, 2023, 25: 5413–5428. doi: 10.1109/TMM.2022.3192661.
[24]	TANG Wei, HE Fazhi, LIU Yu, et al. DATFuse: Infrared and visible image fusion via dual attention transformer[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(7): 3159–3172. doi: 10.1109/TCSVT.2023.3234340.
[25]	蔺素珍, 韩泽. 基于深度堆叠卷积神经网络的图像融合[J]. 计算机学报, 2017, 40(11): 2506–2518. doi: 10.11897/SP.J.1016.2017.02506. LIN Suzhen and HAN Ze. Images fusion based on deep stack convolutional neural network[J]. Chinese Journal of Computers, 2017, 40(11): 2506–2518. doi: 10.11897/SP.J.1016.2017.02506.
[26]	SHEIKH H R and BOVIK A C. Image information and visual quality[J]. IEEE Transactions on Image Processing, 2006, 15(2): 430–444. doi: 10.1109/TIP.2005.859378.
[27]	ASLANTAS V and BENDES E. A new image quality metric for image fusion: The sum of the correlations of differences[J]. AEU-International Journal of Electronics and Communications, 2015, 69(12): 1890–1896. doi: 10.1016/j.aeue.2015.09.004.

Relative Articles

Supplements(0)

Cited By

Proportional views

Proportional views

通讯作者: 陈斌, bchen63@163.com

1.
沈阳化工大学材料科学与工程学院沈阳 110142

Figures(4) / Tables(4)

Get Citation

PDF

XML

Article Metrics

Article views (287) PDF downloads(37)

A Fusion Network for Infrared and Visible Images Based on Pre-trained Fixed Parameters and Deep Feature Modulation

doi: 10.11999/JEIT231283 cstr: 32379.14.JEIT231283