改进双路径生成对抗网络的红外与可见光图像融合

杨莘; 田立凡; 梁佳明; 黄泽丰

doi:10.11999/JEIT220819

改进双路径生成对抗网络的红外与可见光图像融合

doi: 10.11999/JEIT220819

武汉科技大学信息科学与工程学院武汉 430081

基金项目: 国家自然科学基金(61702384)，武汉科技大学基金(2017xz008)

详细信息

作者简介:
杨莘：女，副教授，工学博士，研究方向为多媒体通信与信号处理

田立凡：男，工学硕士，研究方向为图像处理与模式识别

梁佳明：男，工学硕士，研究方向为图像处理与模式识别

黄泽丰：男，工学硕士，研究方向为图像处理与模式识别

通讯作者:
田立凡　1811108099@qq.com

中图分类号: TN911.73
计量
- 文章访问数: 992
- HTML全文浏览量: 599
- PDF下载量: 113
- 被引次数: 5
出版历程
- 收稿日期: 2022-06-21
- 修回日期: 2023-01-15
- 网络出版日期: 2023-02-03
- 刊出日期: 2023-08-21

Infrared and Visible Image Fusion Based on Improved Dual Path Generation Adversarial Network

School of Information Science and Engineering, Wuhan University of Science and Technology, Wuhan 430081, China

Funds: The National Natural Science Foundation of China (61702384), The Foundation of Wuhan University of Science and Technology (2017xz008)

摘要

摘要: 为了使融合图像保留更多源图像的信息，该文提出一种端到端的双融合路径生成对抗网络(GAN)。首先，在生成器中采用结构相同、参数独立的双路径密集连接网络，构建红外差值路径和可见光差值路径以提高融合图像的对比度，引入通道注意力机制以使网络更聚焦于红外典型目标和可见光纹理细节；其次，将两幅源图像直接输入到网络的每一层，以提取更多的源图像特征信息；最后，考虑损失函数之间的互补，加入差值强度损失函数、差值梯度损失函数和结构相似性损失函数，以获得更具对比度的融合图像。实验表明，与多分类约束的生成对抗网络(GANMcC)、残差融合网络(RFnest)等相关融合算法相比，该方法得到的融合图像不仅在多个评价指标上均取得了最好的效果，而且具有更好的视觉效果，更符合人类视觉感知。
- 图像融合 /
- 深度学习 /
- 生成对抗网络 /
- 红外图像 /
- 可见光图像
Abstract: An end-to-end dual fusion path Generation Adversarial Network (GAN) is proposed to preserve more information from the source image. Firstly, in the generator, a double path dense connection network with the same structure and independent parameters is used to construct the infrared difference path and the visible difference path to improve the contrast of the fused image, and the channel attention mechanism is introduced to make the network focus more on the typical infrared targets and the visible texture details; Secondly, two source images are directly input into each layer of the network to extract more source image feature information; Finally, considering the complementarity between the loss functions, the difference intensity loss function, the difference gradient loss function and the structural similarity loss function are added to obtain a more contrast fused image. Experiments show that, compared with a Generative Adversarial Network with Multi-classification Constraints (GANMcC), Residual Fusion network for infrared and visible images (RFnest) and other related fusion algorithms, the fusion image obtained by this method not only achieves the best effect in multiple evaluation indicators, but also has better visual effect and is more in line with human visual perception.
- Image fusion /
- Deep learning /
- Generate Adversarial Network(GAN) /
- Infrared image /
- Visible image

HTML全文

1. 引言

图像融合是用特定的算法将两个或两个以上的传感器在同一时间或不同时间获取的关于某个具体场景的图像或图像序列信息加以综合，以生成新的有关此场景解释的信息处理过程^[1]。红外与可见光图像融合是多传感器图像融合研究的重要组成部分，红外图像几乎不受极端环境的影响，并且能够突出热红外目标，但图像背景模糊，分辨率较低；与红外图像相比，可见光图像具有丰富的纹理细节，但在恶劣环境下会严重降低其目标检测能力。因此，为了提高图像理解和识别效率，红外与可见光图像融合在军事、视频监控和消防等领域被广泛应用^[2]。

常用的红外与可见光的图像融合的方法有基于多尺度分解的方法^[3]、基于稀疏表示的方法^[4]、基于显著性检测的方法^[5]、基于子空间的方法^[6]和基于神经网络的方法^[7,8]等等。传统图像融合方法通常以相同的尺度变换将源图像分解以获取多尺度特征信息，人工设计融合规则对每个尺度进行融合，最后通过多尺度反变换重构获得最终融合图像。由于红外图像和可见光图像是两种类型的源图像，前者以像素亮度表征红外热信息，而后者以边缘和梯度表征纹理背景信息。传统融合方法以相同的尺度变换来提取图像特征信息，没有考虑源图像的内在不同特性，降低了融合性能，使得融合视觉效果变差。此外，设计融合规则需要手动进行，计算成本高，限制了图像融合的实际应用。

由于具有较强的特征提取能力和较高的融合精度，基于深度学习的方法在图像融合领域得到了广泛的应用。深度学习的融合方法可以分为基于编码器-解码器^[9]结构的方法和基于生成对抗网络(Generative Adversarial Networks, GAN)^[10]的方法。基于编码器-解码器的方法虽然可以取得良好的融合效果，但是其无法估计源图像的信息分布，因此容易产生信息分布不均衡的融合效果。而基于生成对抗网络的融合方法采用无监督的学习方法，通过对抗训练生成的模型可以有效地平衡源图像的特征分布，取得较好的效果。文献[11]将生成对抗网络引入到红外与可见光图像融合任务，生成器负责融合红外图像的热目标信息和可见光图像的纹理细节信息，判别器负责区分融合图像与可见光图像，使融合图像保留更多的梯度信息；此外，文献[12]采用将源图像拼接的方式作为生成器的输入，将1幅红外图像和两幅可见光图像连接起来以构建梯度路径，而将1幅可见光图像和两幅红外图像连接起来以构建像素强度路径。可以让网络更好地提取特征，改善了融合效果。但是，这两种方法都没能很好地获得源图像的显著信息，前者的融合结果保留了较少的红外背景，后者的融合结果红外显著信息丢失对比度较差。

本文发现，将两幅源图源做差获得的差值图像保留了对比度信息。鉴于此，本文将差值图像和源图像拼接作为生成器的输入以得到高对比度的融合图像。具体来说，由红外图像减去可见光图像得到的红外差值图像可以独立地突出红外强度，而由可见光图像减去红外图像得到的可见光差值图像可以独立地反映纹理细节。差值图像融合可以获得高对比度的融合图像。通常，与融合图像相比，差值图像的互信息(Mutual Information, MI)^[13]和 $\mathop Q\nolimits_{{\text{abf}}}$ ^[14]度量更大，表明差值图像与源信息具有很强的相关性。差值图像的平均梯度(Average Gradient, AG)^[15]和空间频率(Spatial Frequency, SF)^[16]度量通常大于两个源图像，这表明引入差值图像不会降低融合图像的质量。

因此，本文提出一种新的双融合路径生成对抗网络体系结构。网络结构将生成器融合路径分为红外-红外差值路径和可见光-可见光差值路径，可以在两条融合路径上分别获得不同的融合特征分布。此外，把每一层输出的特征保留下来作为后面每一级的输入以构建密集连接，使得网络取得的特征能最大化的被使用，不仅于此，本文还分别在每条路径上构建红外和可见光的跳跃连接，也就是把红外或可见光的源图像直接输入到每一级的网络中以保留更多的源图像信息。最后，将通道注意力机制加入到生成器和判别器中以提高网络获取显著信息的能力。与一些典型方法在公开数据集上进行对比实验，本文方法在对比度和客观指标上面均取得了比较好的效果。

2. 本文算法

2.1 融合框架

为了提高融合图像的对比度，本文将红外图像和红外的差值图像拼接作为红外路径的输入，将可见光图像和可见光的差值图像作为可见光路径的输入。两幅差值图像的定义为

${\boldsymbol{I}}_{{\rm{vis}}} - {\boldsymbol{I}}_{{\rm{ir}}} = {\boldsymbol{D}}_{{\rm{vis}}}$

(1)

${\boldsymbol{I}}_{{\rm{ir}}} - {\boldsymbol{I}}_{{\rm{vis}}} = {\boldsymbol{D}}_{{\rm{ir}}}$

(2)

其中， ${\boldsymbol{I}}_{{\rm{vis}}}$ 和 ${\boldsymbol{I}}_{{\rm{ir}}}$ 分别代表两幅源图像， ${\boldsymbol{D}}_{{\rm{ir}}}$ 和 ${\boldsymbol{D}}_{{\rm{vis}}}$ 分别代表红外和可见光的差值图像。红外的差值图像主要包含红外强度信息，如图1(c)所示；可见光的差值图像主要包含可见光背景细节信息，如图1(d)所示。因此引入两组差值图像可以提高最后融合图像的对比度信息。

图 1 源图像及其差值图像

下载: 全尺寸图片幻灯片

本文的融合框架如所示，它由生成器和判别器组成。生成器包含红外路径和可见光路径，源图像和差值图像通过生成器得到初始融合图像 ${\boldsymbol{I}}_{\rm{f}}$ 。判别器区分红外图像和融合图像，约束融合图像保留更多的热辐射信息。此处去掉了判别器的可见光分支，目的是获得更多的红外显著信息。

图 2 整体融合框架

下载: 全尺寸图片幻灯片

2.2 生成器

考虑到不同源图像所包含的信息不同，生成器采用双支路结构进行特征提取。将红外差值图像和红外图像、可见光差值图像与和可见光图像连接分别作为一个支路的输入，这样可以提高融合图像的对比度。两条支路网络结构相同，参数独立，有效地降低了训练模型的复杂度。生成器的结构如图3所示。

图 3 生成器的网络结构

下载: 全尺寸图片幻灯片

该生成器的两条路径都由4个卷积块组成，每个卷积块包括卷积层、批量归一化层(Batch Normalization layer, BN)、ReLU层和通道注意力层。融合路径中卷积层的内核大小设置为7，在第1和第2卷积块中设置为5，在最后两个卷积块中设置为3。融合路径中卷积层的滤波器数量分别设置为256, 128, 64和32。融合路径中卷积层的步长都设置为1。

本文在以下3个方面对传统的生成器网络进行了改进。首先，本文在批量归一化层和ReLU层之后加入了通道注意力机制，可以加强每个通道的重要特征而削弱非重要特征，提高融合性能。通道注意力机制的结构如图4所示。

图 4 通道注意力模块

下载: 全尺寸图片幻灯片

其原理是，首先通过全局平均池化(Global Average Pooling, GAP)在空间维度对特征进行压缩，在不改变特征通道的前提下将每个输入特征压缩为一个实数，获取全局感受野；接着使用非线性全连接层(Fully Connected layer, FC) 对每个特征通道生成对应的权重，之后使用Sigmoid激活函数归一化处理生成的初始权重；最后，将得到的归一化权重应用于原来的每个特征通道上，输出最后的结果 $\tilde X$ ，完成对重要特征的增强和对非重要特征的削弱。

其次，本文在第2层—第5层构建密集连接层，将每一层的输出都连接到后续层，作为后续层的输入。这样能够尽可能多地使用网络前几层的浅层信息特征。最后，本文将两幅源图像以跳跃连接的方式分别输入到中间层，在网络的每一层直接插入源图像的操作可以使网络更容易学习源图像信息。对于可见光图像，本文希望保留其原始细节；而对于红外图像，本文希望保留其热辐射信息。可见光图像的跳跃连接相当于使用不同深度的网络来提取可见光图像的特征，相同地，红外图像也可以用不同深度的网络来提取其热辐射信息。因此，从多深度的网络中提取可见光图像和红外图像的基本信息，可以获得其语义信息，并尽可能保留其纹理细节和显著目标。

2.3 判别器

判别器的网络结构如图5所示。它由4个卷积块和1个线性层组成，网络的输入图像是红外源图像或生成器生成的融合图像，每一个卷积块包括卷积层、批量归一化层和LReLU层，卷积核的大小为3×3，通道数分别为32, 64, 128, 256，随着通道数的增加，判别器提取出的特征也越来越深。最后通过线性层输出一个标签，表示输入图像是真实图像还是融合图像。

图 5 判别器的网络结构

下载: 全尺寸图片幻灯片

2.4 损失函数

损失函数由生成器的损失函数和判别器的损失函数组成。生成器的损失函数指导生成器网络产生令人满意的融合结果。判别器的损失函数使判别器网络能够区分输入图像是融合图像还是源图像。

本文的融合策略是将两幅源图像及其差值图像输入到生成器得到融合图像，为了增强最后的融合图像的显著信息，本文将红外图像和融合图像输入判别器来区分他们。判别器D为生成器G提供损失，最后使得生成器能够生成对比度较好的融合图像。

2.4.1 生成器的损失函数

生成器的损失函数定义为

$L_{\rm{G}} = L_{{\rm{adv}}} + \lambda L_{{\rm{content}}}$

(3)

其中， $L_{\rm{G}}$ 表示生成器的总损失， $L_{{\rm{adv}}}$ 表示生成器和判别器之间的对抗损失， $L_{{\rm{content}}}$ 表示内容损失， $\lambda$ 用于平衡两种损失。本文将 $\lambda$ 设置为100。

对抗损失定义为

$L_{{\rm{adv}}} = \frac{1}{N}\sum\limits_{n = 1}^N {{(D(G({\boldsymbol{I}}_f^n)) - d)}^2 }$

(4)

其中，d是判别器用于确定融合图像的概率标签，本文将其设为0.7～1.2之间的随机值。N代表融合图像的数量， $D(G({\boldsymbol{I}}_f^n))$ 表示图像分类的结果，在本文中代表融合图像是红外图像的概率。

生成器的内容损失指导其生成包含红外强度和可见光背景细节的融合图像。之前的大多数图像融合算法通常采用强度损失和梯度损失。强度损失用于提取源图像的像素强度信息，梯度损失用于提取源图像的背景细节信息。本文将两幅源图像的差值图像作为辅助输入以提高融合图像的对比度，因此本文引入了差值图像的强度损失和梯度损失作为辅助损失。除此之外，考虑到融合图像和源图像的结构相似性，提出了一种新的结构相似性损失并将其添加到内容损失之中。生成器的内容损失由式(5)给出

$L_{{\rm{content}}} = L_{{\rm{SSIM}}} + L_2 + L_{{\rm{gradient}}}$

(5)

其中， $L_{{\rm{SSIM}}}$ , $L_2$ , $L_{{\rm{gradient}}}$ 分别表示结构相似性损失、强度损失和梯度损失。通过这3种损失函数分别为融合图像添加亮度信息、对比度信息和结构信息。

结构相似性损失定义为

$L_{{\rm{SSIM}}} = \frac{1}{2}(1 - {\rm{SSIM}}( {\boldsymbol{I}}_f , {\boldsymbol{I}}_{{\rm{ir}}} )) + \frac{1}{2}(1 - {\rm{SSIM}}({\boldsymbol{I}}_f , {\boldsymbol{I}}_{{\rm{vis}}} ))$

(6)

其中， $\mathop {{\rm{SSIM}}}\nolimits_{(x,y)}$ 表示融合图像和源图像之间的结构相似性值，定义为

$\mathop {{\rm{SSIM}}}\nolimits_{(x,y)} = \frac{{(2\mathop \mu \nolimits_x \mathop \mu \nolimits_y + \mathop c\nolimits_1 )(2\mathop \sigma \nolimits_{xy} + \mathop c\nolimits_2 )}}{{(\mathop \mu \nolimits_x^2 + \mathop \mu \nolimits_y^2 + \mathop c\nolimits_1 )(\mathop \sigma \nolimits_x^2 + \mathop \sigma \nolimits_y^2 + \mathop c\nolimits_2 )}}$

(7)

其中， $\mathop \mu \nolimits_x$ 是 $x$ 的平均值， $\mathop \mu \nolimits_y$ 是 $y$ 的平均值， $\mathop \sigma \nolimits_x^2$ 是 $x$ 的方差， $\mathop \sigma \nolimits_y^2$ 是 $y$ 的方差， $\mathop \sigma \nolimits_{xy}$ 是 $x$ 和 $y$ 的协方差。 $\mathop c\nolimits_1 = \mathop {(\mathop k\nolimits_1 L)}\nolimits^2$ , $\mathop c\nolimits_2 = \mathop {(\mathop k\nolimits_2 L)}\nolimits^2$ 是用来维持稳定的参数，L是像素值的动态范围， $\mathop k\nolimits_1 = 0.01,\mathop k\nolimits_2 = 0.02$ 。

强度损失和梯度损失分别由式(8)、式(9)给出

$\begin{split} L_2 = & \alpha || {\boldsymbol{I}}_{{\rm{fused}}} - {\boldsymbol{I}}_{{\rm{vis}}} || + \beta || {\boldsymbol{I}}_{{\rm{fused}}} - {\boldsymbol{I}}_{{\rm{ir}}} || \\ & + || {\boldsymbol{I}}_{{\rm{fused}}} - {\boldsymbol{D}}_{{\rm{vis}}} || + || {\boldsymbol{I}}_{{\rm{fused}}} - {\boldsymbol{D}}_{{\rm{ir}}} || \end{split}$

(8)

$\begin{split} L_{{\rm{gradient}}} = &\alpha ||\nabla {\boldsymbol{I}}_{{\rm{fused}}} - \nabla {\boldsymbol{I}}_{{\rm{ir}}} || + \beta ||\nabla {\boldsymbol{I}}_{{\rm{fused}}} - \nabla {\boldsymbol{I}}_{{\rm{vis}}} || \\ &+ ||\nabla {\boldsymbol{I}}_{{\rm{fused}}} - \nabla {\boldsymbol{D}}_{{\rm{ir}}} || + ||\nabla I_{{\rm{fused}}} - \nabla {\boldsymbol{D}}_{{\rm{vis}}} || \end{split}$

(9)

其中， $\alpha ,\beta$ 是用来平衡源图像和差值图像主次要信息的参数。在本文的设置中，认为红外图像的强度信息比可见光图像重要，同样地，可见光图像的梯度信息比红外图像重要，此外源图像的信息又较差值图像重要。鉴于此，本文将 $\alpha ,\beta$ 分别设置为5和10用于平衡主次信息。

2.4.2 判别器的损失函数

判别器是一种多分类器，其任务是有效识别源图像，迫使生成器生成含有更多的源图像信息的融合图像。前人的图像融合算法大多考虑融合图像和可见光图像的相似性，或同时考虑红外图像和可见图像与源图像的相似性。前者由于只考虑可见光图像，融合结果往往削弱了显著目标；后者虽然同时考虑到两种源图像，但从实际结果看来，最后的融合图像往往背景偏暗，显著信息也有所削弱，得到的图像更像是两种源图像的平均加权图。鉴于此，本文另辟蹊径，舍去可见图像作为判别器的损失，而只考虑红外图像的像素强度信息。可见图像的背景细节信息由生成器的内容损失保留。判别器的损失函数为

$L_{{D}} = \frac{1}{N}\sum\limits_{n = 1}^N { {(D( {\boldsymbol{I}}_{{\rm{ir}}}^n ) - a)}^2 } + \frac{1}{N}\sum\limits_{n = 1}^N { {(D( {\boldsymbol{I}}_{\rm{f}}^n ) - b)}^2 }$

(10)

其中，N 代表图像的数目， $D( {\boldsymbol{I}}_{{\rm{ir}}}^n )$ 和 $(D( {\boldsymbol{I}}_{\rm{f}}^n ) - b)$ 表示红外图像和融合图像的分类结果，a,b 分别表示红外图像和融合图像的标签，本文将其分别设置为1和0。

3. 实验结果分析

本文选取TNO和FLIR两个典型的红外与可见光数据集，在GeForce RTX 3090 24 GB显卡使用Tensorflow框架进行实验，选取TNO数据集的40对图像，并将其裁剪为 120×120的图像块，步长设置为14，最后得到57131对图像块。最后用这些图像块进行训练，epoch设置为20，batch size设置为32，学习率为0.0001。

为了定性和定量比较以评估本文方法的性能，我们在TNO和FLIR数据集上测试了本文方法与其他较先进的融合方法，包括离散小波变换(Discrete Wavelet Transform, DWT)^[17]、双分支网络(Dual Branch Network, DBN)^[18]、深度图像分解融合模型(Deep Image Decomposition Fusion model, DIDF)^[19]、生成对抗网络融合模型(Generative Adversarial Network Fusion model, FusionGAN)^[11]、多分类约束的生成对抗网络(Generative Adversarial Network with Multi-classification Constraints, GANMcC)^[12]、多尺度特征集成与边缘注意引导融合模型(Multi-scale Feature Ensemble and edge-attentIon guidance Fusion model, MFEIF)^[20]和RFnest^[21]，所有对比方法均使用作者提供的源代码，参数均设置为文章的最优参数。

3.1 定性对比实验

为了给出一些关于融合性能的直观结果，本文选择了5对典型的图像进行定性评估，如图6所示。本文方法和其他比较方法的融合结果如图7所示。图7用绿色框标出部分红外目标和纹理细节，放大部分细节信息并以红色框在右下角标出以便于直观观察。与其他方法相比，本文方法的融合图像具有更好的层次感，目标突出，细节丰富。本文方法可以很好地保护热目标，即红外目标具有清晰的边缘和显著的对比度。此外，融合后的图像也具有较为丰富的可见光纹理细节。例如，在图7第1行中，传统方法DWT保留了较多的背景细节信息，但是红外热目标信息丢失严重，DIDF, RFnest的效果与DWT类似；DBN, FusionGan, MFEIF这3种方法则与上面那种情况相反，他们很好地突出了红外的热目标信息，但是丢失了大量的背景细节信息，红色框放大的窗框和里面的叶子都已经模糊不清；GANMcC通过构建双通道输入很好地平衡了红外显著信息和可见光背景信息，但是他在左上角的灯和天空的树梢那里产生了光晕，这显然不利于后续的处理，而本文结果在突出热目标和纹理细节的同时还提高了融合图像的对比度，具有最好的主观融合效果。

图 6 5对红外与可见光源图像

下载: 全尺寸图片幻灯片

图 7 定性比较结果图

下载: 全尺寸图片幻灯片

当然，针对不同的源图像，同一方法的融合结果可能会有差别。例如图7第3行，DBN的融合结果与第1幅图相反，基本上丢失了热目标信息而保留了部分可见光细节，有相同情况的还有GANMcC，在这幅图像中丢失了部分热目标信息，使得融合结果更加偏向可见光图像，而本文方法在这5幅图的融合结果都是类似的，说明本文网络的泛化能力更强。为了更好地验证这一点，本文选取FLIR数据集的40幅图像在TNO数据集训练的网络模型下测试，选取其中两个结果如图7第4行和图7第5行所示。

可以看到，DWT, DBN, DIDF, MFEIF, RFnest的融合结果包含更多的可见光图像纹理信息，更接近可见光图像，但是红外目标并不突出，显著信息丢失严重；FusionGAN的融合结果虽然保留了部分显著目标，如绿色框部分，但是左下角两个小人的背景虚化，丢失了这部分显著信息；GANMcC的融合结果较FusionGAN有很大提升，去掉了左下角小人身上的虚化，但是其结果更像是可见光的背景。对比之下，本文的结果能够更好地突出红外目标的同时和保留更多的可见光背景细节，提升了融合图像的对比度，具有最佳的视觉效果。

3.2 定量对比实验

为了综合评估图像融合的效果，本文选择了6种具有不同评估优先级的评估指标，包括熵(ENtropy, EN)^[22]、平均梯度(AG)^[15]、空间频率(SF)^[16]、方差(Variance,Var)^[23]、边缘强度(EI)和视觉信息保真度(Visual Information Fidelity, VIF)^[24]。这些指标可以分为基于图像特征的，例如AG, SF等：基于信息论的，例如EN：基于人类感知的3大类^[25]，例如VIF。

基于信息论的熵(EN)可以测量图像中保留的信息量。平均梯度(AG)，反映图像的梯度信息。基于梯度分布的空间频率(SF)可以揭示图像的细节、边缘和纹理。基于统计概念的方差(Var)反映了图像的分布和对比度。基于人类感知的视觉信息保真度(VIF)可以评估与人类感知评估一致的图像融合性能。边缘强度(EI)是边缘点处的梯度，它可以显示图像的质量和清晰度。对于这6个指标，值越大，性能越好。

本文选取TNO数据集和FLIR数据集来定量评估融合性能，计算各算法的评价指标的平均值，评价结果如表1、表2所示。分别将最优值、次优值和第3值以红色、黑色、绿色加粗标注。

表 1 TNO定量对比实验结果

	SF	AG	EI	EN	VIF	Var
DWT	6.8154	2.6473	26.0032	6.3753	0.2901	24.9950
DBN	6.1192	2.4574	24.8012	6.3375	0.2814	24.3822
DIDF	7.5609	2.9884	29.5566	6.5825	0.3417	30.0428
FusionGAN	6.2395	2.4168	24.1424	6.5761	0.2575	31.1204
GANMcC	6.1391	2.5457	25.8946	6.7474	0.4217	33.6386
MFEIF	7.2104	2.9034	29.3522	6.6568	0.3587	33.0184
RFnest	5.8727	2.6821	28.6441	6.9907	0.5133	37.2477
本文	9.0860	3.5805	35.1696	7.0731	0.4112	33.6727

下载: 导出CSV

| 显示表格

表 2 FLIR定量对比实验结果

	SF	AG	EI	EN	VIF	Var
DWT	9.0511	3.5425	37.0015	6.8426	0.3336	31.4294
DBN	8.3459	3.3623	35.3199	6.7845	0.3306	31.0446
DIDF	9.3434	3.6905	38.6017	6.7863	0.2943	31.5181
FusionGAN	8.1142	3.2045	34.4298	7.0167	0.2892	37.4859
GANMcC	8.6665	3.6744	39.4219	7.2089	0.4269	42.4833
MFEIF	9.4752	3.7719	39.8841	7.0171	0.3807	37.8447
RFnest	7.6279	3.3103	36.2151	7.2968	0.4503	44.1210
本文	9.7488	4.1359	44.1298	7.4163	0.4394	47.7148

下载: 导出CSV

| 显示表格

可以看到，本文算法在两个数据集的空间频率、平均梯度、边缘强度和信息熵这4项指标均取得了最佳结果，表明本文算法的融合结果包含更多源图像的特征信息，这一点与主观评价基本保持一致。这是因为本文引入了差值图像输入和将源图像直接跳跃连接输入到各个通道，使得网络能够提取到更多源图像的语义信息和对比度信息。本文在视觉信息保真度也仅次于GANMcC和RFnest，与主观评价类似，这两种方法在融合结果上更加偏向于可见光图像，可见光图像更加符合人眼的视觉系统，故此项指标这两种方法偏高。最后在方差指标上，本文的算法在FLIR取得了最佳结果，而在TNO数据集上也仅次于RFnest方法。

除此之外，本文还从两个数据集中随机选取了20组图片，基于这6个指标与各方法做定量分析，定量分析结果如图8所示。

图 8 20组图片定量评价指标

下载: 全尺寸图片幻灯片

可以看到，本文的方法在这6种指标上均处于领先地位。定量对比实验结果表明本文的算法能够在保留源图像特征信息的同时，提升融合图像的清晰度，取得高对比度的融合图像。表3给出了8种融合方法在TNO数据集上的计算效率。实验结果表明，本文的算法具有较低的时间复杂度。

表 3 不同融合方法计算效率对比结果(s)

DWT	DBN	DIDF	FusionGAN	GANMcC	MFEIF	RFnest	本文
40.0470	7.6031	10.0652	18.4680	31.8253	15.4883	19.8578	6.0944

下载: 导出CSV

| 显示表格

3.3 消融实验

为了进一步验证本文方法的有效性，将与无差值输入模型(No_dir)、无源图像跳跃连接模型(No_resource)和这两者都没有的模型(No_both)进行比较。实验选取TNO数据集的10组图像和6个评价指标分别做定性和定量的对比实验，定性实验结果由图9给出。从结果可以看出，No_both模型丢失了绝大多数红外的背景细节信息，No_resource模型和No_dir模型相比于前者，保留了更多的源图像的信息，这说明引入差值输入和源图像的跳跃连接模型对于改善融合结果是有效的，但是这对于这两组图像，No_resource模型还是丢失了部分背景细节信息，如图9(e)绿色框标出的地砖部分，No_dir模型的融合结果则背景偏暗，对比度降低。相比之下，本文的模型在保留更多源图像的信息的同时还能够提升融合图像的对比度，具有最平衡的融合结果。

图 9 4组融合模型的定性对比结果

下载: 全尺寸图片幻灯片

表4给出了4组模型的定量评价指标。最优值以红色加粗标注。可以看出，No_dir模型和No_resource模型均优于No_both模型，这表明差值通道输入和源图像的跳跃连接能够提升系统的融合性能，这与定性对比结果一致。本文模型的融合性能则又均显著优于No_dir模型和No_resource模型，这表明将差值通道输入和源图像的跳跃连接结合起来能够平衡融合结果，取得最优的评价指标。

表 4 4组融合模型定量对比结果

	SF	AG	EI	EN	VIF	Var
No_both	4.3894	1.5310	15.7062	6.5230	0.1749	34.9732
No_dir	5.6119	2.2964	23.0950	6.7165	0.3504	41.0505
No_resource	4.9631	1.7396	18.6436	6.6073	0.2943	39.2500
本文	6.9145	2.8615	29.0777	7.1594	0.4093	48.0217

下载: 导出CSV

| 显示表格

4. 结束语

本文提出一种端到端的双路径生成对抗融合网络。考虑到差值图像包含了源图像的对比度信息，将红外差值图像和红外源图像、可见光差值图像和可见光源图像分别拼接起来构建红外路径和可见光路径，以获得高对比度的融合图像；其次，本文创新性地在每一层输入源图像以保留更多的源图像信息，并构建密集连接层以提升融合性能；再次，本文在生成器中引入通道注意力模块，增强不同通道特征之间的依赖性，提高了网络的特征提取能力：最后，在损失函数方面，相比于之前的融合算法，本文添加了差值图像的梯度损失和强度损失以提取对比度信息，并引入了结构相似性损失以使融合图像保留更多的源图像细节，使判别器仅对红外图像进行分类，以突出红外显著信息。在TNO和FLIR两组数据集上的实验结果表明，与其他7种相关融合方法相比，本文方法不仅具有更加均衡的主观融合效果，而且在客观指标上也基本取得了最优值，只有VIF和Var仅次于RFnest方法，获得了最优的融合性能，且具有较高的计算效率和较强的鲁棒性。最近扩散模型(diffusion model)比较热门，是一个代表性的图像生成模型。考虑到GAN网络也具有图像生成的能力，未来将着力于研究扩散模型和GAN网络的异同点，将其引入到图像融合方向上来。

图 1 源图像及其差值图像

下载: 全尺寸图片幻灯片

图 2 整体融合框架

下载: 全尺寸图片幻灯片

图 3 生成器的网络结构

下载: 全尺寸图片幻灯片

图 4 通道注意力模块

下载: 全尺寸图片幻灯片

图 5 判别器的网络结构

下载: 全尺寸图片幻灯片

图 6 5对红外与可见光源图像

下载: 全尺寸图片幻灯片

图 7 定性比较结果图

下载: 全尺寸图片幻灯片

图 8 20组图片定量评价指标

下载: 全尺寸图片幻灯片

图 9 4组融合模型的定性对比结果

下载: 全尺寸图片幻灯片

表 1 TNO定量对比实验结果

	SF	AG	EI	EN	VIF	Var
DWT	6.8154	2.6473	26.0032	6.3753	0.2901	24.9950
DBN	6.1192	2.4574	24.8012	6.3375	0.2814	24.3822
DIDF	7.5609	2.9884	29.5566	6.5825	0.3417	30.0428
FusionGAN	6.2395	2.4168	24.1424	6.5761	0.2575	31.1204
GANMcC	6.1391	2.5457	25.8946	6.7474	0.4217	33.6386
MFEIF	7.2104	2.9034	29.3522	6.6568	0.3587	33.0184
RFnest	5.8727	2.6821	28.6441	6.9907	0.5133	37.2477
本文	9.0860	3.5805	35.1696	7.0731	0.4112	33.6727

下载: 导出CSV

表 2 FLIR定量对比实验结果

	SF	AG	EI	EN	VIF	Var
DWT	9.0511	3.5425	37.0015	6.8426	0.3336	31.4294
DBN	8.3459	3.3623	35.3199	6.7845	0.3306	31.0446
DIDF	9.3434	3.6905	38.6017	6.7863	0.2943	31.5181
FusionGAN	8.1142	3.2045	34.4298	7.0167	0.2892	37.4859
GANMcC	8.6665	3.6744	39.4219	7.2089	0.4269	42.4833
MFEIF	9.4752	3.7719	39.8841	7.0171	0.3807	37.8447
RFnest	7.6279	3.3103	36.2151	7.2968	0.4503	44.1210
本文	9.7488	4.1359	44.1298	7.4163	0.4394	47.7148

下载: 导出CSV

表 3 不同融合方法计算效率对比结果(s)

DWT	DBN	DIDF	FusionGAN	GANMcC	MFEIF	RFnest	本文
40.0470	7.6031	10.0652	18.4680	31.8253	15.4883	19.8578	6.0944

下载: 导出CSV

表 4 4组融合模型定量对比结果

	SF	AG	EI	EN	VIF	Var
No_both	4.3894	1.5310	15.7062	6.5230	0.1749	34.9732
No_dir	5.6119	2.2964	23.0950	6.7165	0.3504	41.0505
No_resource	4.9631	1.7396	18.6436	6.6073	0.2943	39.2500
本文	6.9145	2.8615	29.0777	7.1594	0.4093	48.0217

下载: 导出CSV

参考文献(25)

[1]	GOSHTASBY A A and NIKOLOV S. Image fusion: Advances in the state of the art[J]. Information Fusion, 2007, 8(2): 114–118. doi: 10.1016/j.inffus.2006.04.001
[2]	TOET A, HOGERVORST M A, NIKOLOV S G, et al. Towards cognitive image fusion[J]. Information Fusion, 2010, 11(2): 95–113. doi: 10.1016/j.inffus.2009.06.008
[3]	朱浩然, 刘云清, 张文颖. 基于对比度增强与多尺度边缘保持分解的红外与可见光图像融合[J]. 电子与信息学报, 2018, 40(6): 1294–1300. doi: 10.11999/JEIT170956 ZHU Haoran, LIU Yunqing, and ZHANG Wenying. Infrared and visible image fusion based on contrast enhancement and multi-scale edge-preserving decomposition[J]. Journal of Electronics &Information Technology, 2018, 40(6): 1294–1300. doi: 10.11999/JEIT170956
[4]	GAO Yuan, MA Jiayi, and YUILLE A L. Semi-supervised sparse representation based classification for face recognition with insufficient labeled samples[J]. IEEE Transactions on Image Processing, 2017, 26(5): 2545–2560. doi: 10.1109/TIP.2017.2675341
[5]	LIU C H, QI Y, and DING W R. Infrared and visible image fusion method based on saliency detection in sparse domain[J]. Infrared Physics & Technology, 2017, 83: 94–102. doi: 10.1016/j.infrared.2017.04.018
[6]	HE Changtao, LIU Quanxi, LI Hongliang, et al. Multimodal medical image fusion based on IHS and PCA[J]. Procedia Engineering, 2010, 7: 280–285. doi: 10.1016/j.proeng.2010.11.045
[7]	张介嵩, 黄影平, 张瑞. 基于CNN的点云图像融合目标检测[J]. 光电工程, 2021, 48(5): 200418. doi: 10.12086/oee.2021.200418 ZHANG Jiesong, HUANG Yingping, and ZHANG Rui. Fusing point cloud with image for object detection using convolutional neural networks[J]. Opto-electronic Engineering, 2021, 48(5): 200418. doi: 10.12086/oee.2021.200418
[8]	陈永, 张娇娇, 王镇. 多尺度密集连接注意力的红外与可见光图像融合[J]. 光学精密工程, 2022, 30(18): 2253–2266. doi: 10.37188/OPE.20223018.2253 CHEN Yong, ZHANG Jiaojiao, and WANG Zhen. Infrared and visible image fusion based on multi-scale dense attention connection network[J]. Optics and Precision Engineering, 2022, 30(18): 2253–2266. doi: 10.37188/OPE.20223018.2253
[9]	AN Wenbo and WANG Hongmei. Infrared and visible image fusion with supervised convolutional neural network[J]. Optik, 2020, 219: 165120. doi: 10.1016/j.ijleo.2020.165120
[10]	LI Jing, HUO Hongtao, LIU Kejian, et al. Infrared and visible image fusion using dual discriminators generative adversarial networks with Wasserstein distance[J]. Information Sciences, 2020, 529: 28–41. doi: 10.1016/j.ins.2020.04.035
[11]	MA Jiayi, YU Wei, LIANG Pengwei, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11–26. doi: 10.1016/j.inffus.2018.09.004
[12]	MA Jiayi, ZHANG Hao, SHAO Zhenfeng, et al. GANMcC: A generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 5005014. doi: 10.1109/TIM.2020.3038013
[13]	QU Guihong, ZHANG Dali, and YAN Pingfan. Information measure for performance of image fusion[J]. Electronics Letters, 2002, 38(7): 313–315. doi: 10.1049/el:20020212
[14]	XYDEAS C S and PETROVIĆ V. Objective image fusion performance measure[J]. Electronics Letters, 2000, 36(4): 308–309. doi: 10.1049/el:20000267
[15]	CUI Guangmang, FENG Huajun, XU Zhihai, et al. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition[J]. Optics Communications, 2015, 341: 199–209. doi: 10.1016/j.optcom.2014.12.032
[16]	ESKICIOGLU A M and FISHER P S. Image quality measures and their performance[J]. IEEE Transactions on Communications, 1995, 43(12): 2959–2965. doi: 10.1109/26.477498
[17]	LI H, MANJUNATH B S, and MITRA S K. Multisensor image fusion using the wavelet transform[J]. Graphical Models and Image Processing, 1995, 57(3): 235–245. doi: 10.1006/gmip.1995.1022
[18]	FU Yu and WU Xiaojun. A dual-branch network for infrared and visible image fusion[C]. 2020 25th International Conference on Pattern Recognition (ICPR), Milan, Italy, 2021: 10675–10680.
[19]	ZHAO Zixiang, XU Shuang, ZHANG Chunxia, et al. DIDFuse: Deep image decomposition for infrared and visible image fusion[C]. Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence, Yokohama, Japan, 2020: 970–976.
[20]	LIU Jinyuan, FAN Xin, JIANG Ji, et al. Learning a deep multi-scale feature ensemble and an edge-attention guidance for image fusion[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(1): 105–119. doi: 10.1109/TCSVT.2021.3056725
[21]	LI Hui, WU Xiaojun, and KITTLER J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72–86. doi: 10.1016/j.inffus.2021.02.023
[22]	ROBERTS J W, AARDT J A V, and AHMED F B. Assessment of image fusion procedures using entropy, image quality, and multispectral classification[J]. Journal of Applied Remote Sensing, 2008, 2(1): 023522. doi: 10.1117/1.2945910
[23]	RAO Yunjiang. In-fibre Bragg grating sensors[J]. Measurement Science and Technology, 1997, 8(4): 355–375. doi: 10.1088/0957-0233/8/4/002
[24]	HAN Yu, CAI Yunze, CAO Yin, et al. A new image fusion performance metric based on visual information fidelity[J]. Information Fusion, 2013, 14(2): 127–135. doi: 10.1016/j.inffus.2011.08.002
[25]	ZHANG Xingchen, YE Ping, and XIAO Gang. VIFB: A visible and infrared image fusion benchmark[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Seattle, USA, 2020: 468–478.

施引文献

期刊类型引用(4)

1.	许光宇，陈浩宇，张杰. 多路径生成对抗网络的红外与可见光图像融合. 国外电子测量技术. 2024(03): 18-27 . 百度学术
2.	刘世章，赵丹，林伟. 基于灰度值补偿的视频监测图像模糊细节增强方法. 激光杂志. 2024(05): 115-120 . 百度学术
3.	李晓玲，陈后金，李艳凤，孙嘉，王敏鋆，陈卢一夫. 多重关系感知的红外与可见光图像融合网络. 电子与信息学报. 2024(05): 2217-2227 . 本站查看
4.	杨艳春，闫岩，王可. 基于注意力机制与光照感知网络的红外与可见光图像融合. 西南交通大学学报. 2024(05): 1204-1214 . 百度学术

其他类型引用(1)

资源附件(0)

访问统计

图(9) / 表(4)

计量

文章访问数: 992
HTML全文浏览量: 599
PDF下载量: 113
被引次数: 5

1. 引言
2. 本文算法
2.1 融合框架
2.2 生成器
2.3 判别器
2.4 损失函数
3. 实验结果分析
3.1 定性对比实验
3.2 定量对比实验
3.3 消融实验
4. 结束语

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

改进双路径生成对抗网络的红外与可见光图像融合

doi: 10.11999/JEIT220819

通讯作者:
田立凡　1811108099@qq.com

计量

Infrared and Visible Image Fusion Based on Improved Dual Path Generation Adversarial Network

1. 引言

2. 本文算法

2.1 融合框架

2.2 生成器

2.3 判别器

2.4 损失函数

2.4.1 生成器的损失函数

2.4.2 判别器的损失函数

3. 实验结果分析

3.1 定性对比实验

3.2 定量对比实验

3.3 消融实验

4. 结束语

期刊类型引用(4)

其他类型引用(1)

计量

目录

1. 引言

2. 本文算法

2.1 融合框架

2.2 生成器

2.3 判别器

2.4 损失函数

3. 实验结果分析

3.1 定性对比实验

3.2 定量对比实验

3.3 消融实验

4. 结束语

留言板

改进双路径生成对抗网络的红外与可见光图像融合

doi: 10.11999/JEIT220819

通讯作者: 田立凡 1811108099@qq.com

计量

出版历程

Infrared and Visible Image Fusion Based on Improved Dual Path Generation Adversarial Network

1. 引言

2. 本文算法

2.1 融合框架

2.2 生成器

2.3 判别器

2.4 损失函数

2.4.1 生成器的损失函数

2.4.2 判别器的损失函数

3. 实验结果分析

3.1 定性对比实验

3.2 定量对比实验

3.3 消融实验

4. 结束语

期刊类型引用(4)

其他类型引用(1)

计量

出版历程

目录

1. 引言

2. 本文算法

2.1 融合框架

2.2 生成器

2.3 判别器

2.4 损失函数

3. 实验结果分析

3.1 定性对比实验

3.2 定量对比实验

3.3 消融实验

4. 结束语

通讯作者:
田立凡　1811108099@qq.com