Infrared and Visible Image Fusion Based on Improved Dual Path Generation Adversarial Network
-
摘要: 为了使融合图像保留更多源图像的信息,该文提出一种端到端的双融合路径生成对抗网络(GAN)。首先,在生成器中采用结构相同、参数独立的双路径密集连接网络,构建红外差值路径和可见光差值路径以提高融合图像的对比度,引入通道注意力机制以使网络更聚焦于红外典型目标和可见光纹理细节;其次,将两幅源图像直接输入到网络的每一层,以提取更多的源图像特征信息;最后,考虑损失函数之间的互补,加入差值强度损失函数、差值梯度损失函数和结构相似性损失函数,以获得更具对比度的融合图像。实验表明,与多分类约束的生成对抗网络(GANMcC)、残差融合网络(RFnest)等相关融合算法相比,该方法得到的融合图像不仅在多个评价指标上均取得了最好的效果,而且具有更好的视觉效果,更符合人类视觉感知。Abstract: An end-to-end dual fusion path Generation Adversarial Network (GAN) is proposed to preserve more information from the source image. Firstly, in the generator, a double path dense connection network with the same structure and independent parameters is used to construct the infrared difference path and the visible difference path to improve the contrast of the fused image, and the channel attention mechanism is introduced to make the network focus more on the typical infrared targets and the visible texture details; Secondly, two source images are directly input into each layer of the network to extract more source image feature information; Finally, considering the complementarity between the loss functions, the difference intensity loss function, the difference gradient loss function and the structural similarity loss function are added to obtain a more contrast fused image. Experiments show that, compared with a Generative Adversarial Network with Multi-classification Constraints (GANMcC), Residual Fusion network for infrared and visible images (RFnest) and other related fusion algorithms, the fusion image obtained by this method not only achieves the best effect in multiple evaluation indicators, but also has better visual effect and is more in line with human visual perception.
-
Key words:
- Image fusion /
- Deep learning /
- Generate Adversarial Network(GAN) /
- Infrared image /
- Visible image
-
1. 引言
图像融合是用特定的算法将两个或两个以上的传感器在同一时间或不同时间获取的关于某个具体场景的图像或图像序列信息加以综合,以生成新的有关此场景解释的信息处理过程[1]。红外与可见光图像融合是多传感器图像融合研究的重要组成部分,红外图像几乎不受极端环境的影响,并且能够突出热红外目标,但图像背景模糊,分辨率较低;与红外图像相比,可见光图像具有丰富的纹理细节,但在恶劣环境下会严重降低其目标检测能力。 因此,为了提高图像理解和识别效率,红外与可见光图像融合在军事、视频监控和消防等领域被广泛应用[2]。
常用的红外与可见光的图像融合的方法有基于多尺度分解的方法[3]、基于稀疏表示的方法[4]、基于显著性检测的方法[5]、基于子空间的方法[6]和基于神经网络的方法[7,8]等等。传统图像融合方法通常以相同的尺度变换将源图像分解以获取多尺度特征信息,人工设计融合规则对每个尺度进行融合,最后通过多尺度反变换重构获得最终融合图像。由于红外图像和可见光图像是两种类型的源图像,前者以像素亮度表征红外热信息,而后者以边缘和梯度表征纹理背景信息。传统融合方法以相同的尺度变换来提取图像特征信息,没有考虑源图像的内在不同特性,降低了融合性能,使得融合视觉效果变差。此外,设计融合规则需要手动进行,计算成本高,限制了图像融合的实际应用。
由于具有较强的特征提取能力和较高的融合精度,基于深度学习的方法在图像融合领域得到了广泛的应用。深度学习的融合方法可以分为基于编码器-解码器[9]结构的方法和基于生成对抗网络(Generative Adversarial Networks, GAN)[10]的方法。基于编码器-解码器的方法虽然可以取得良好的融合效果,但是其无法估计源图像的信息分布,因此容易产生信息分布不均衡的融合效果。而基于生成对抗网络的融合方法采用无监督的学习方法,通过对抗训练生成的模型可以有效地平衡源图像的特征分布,取得较好的效果。文献[11]将生成对抗网络引入到红外与可见光图像融合任务,生成器负责融合红外图像的热目标信息和可见光图像的纹理细节信息,判别器负责区分融合图像与可见光图像,使融合图像保留更多的梯度信息;此外,文献[12]采用将源图像拼接的方式作为生成器的输入,将1幅红外图像和两幅可见光图像连接起来以构建梯度路径,而将1幅可见光图像和两幅红外图像连接起来以构建像素强度路径。可以让网络更好地提取特征,改善了融合效果。但是,这两种方法都没能很好地获得源图像的显著信息,前者的融合结果保留了较少的红外背景,后者的融合结果红外显著信息丢失对比度较差。
本文发现,将两幅源图源做差获得的差值图像保留了对比度信息。鉴于此,本文将差值图像和源图像拼接作为生成器的输入以得到高对比度的融合图像。具体来说,由红外图像减去可见光图像得到的红外差值图像可以独立地突出红外强度,而由可见光图像减去红外图像得到的可见光差值图像可以独立地反映纹理细节。差值图像融合可以获得高对比度的融合图像。通常,与融合图像相比,差值图像的互信息(Mutual Information, MI)[13]和 Qabf[14]度量更大,表明差值图像与源信息具有很强的相关性。差值图像的平均梯度(Average Gradient, AG)[15]和空间频率(Spatial Frequency, SF)[16]度量通常大于两个源图像,这表明引入差值图像不会降低融合图像的质量。
因此,本文提出一种新的双融合路径生成对抗网络体系结构。网络结构将生成器融合路径分为红外-红外差值路径和可见光-可见光差值路径,可以在两条融合路径上分别获得不同的融合特征分布。此外,把每一层输出的特征保留下来作为后面每一级的输入以构建密集连接,使得网络取得的特征能最大化的被使用,不仅于此,本文还分别在每条路径上构建红外和可见光的跳跃连接,也就是把红外或可见光的源图像直接输入到每一级的网络中以保留更多的源图像信息。最后,将通道注意力机制加入到生成器和判别器中以提高网络获取显著信息的能力。与一些典型方法在公开数据集上进行对比实验,本文方法在对比度和客观指标上面均取得了比较好的效果。
2. 本文算法
2.1 融合框架
为了提高融合图像的对比度,本文将红外图像和红外的差值图像拼接作为红外路径的输入,将可见光图像和可见光的差值图像作为可见光路径的输入。两幅差值图像的定义为
Ivis−Iir=Dvis (1) Iir−Ivis=Dir (2) 其中, Ivis和 Iir分别代表两幅源图像, Dir和Dvis 分别代表红外和可见光的差值图像。红外的差值图像主要包含红外强度信息,如图1(c)所示;可见光的差值图像主要包含可见光背景细节信息,如图1(d)所示。因此引入两组差值图像可以提高最后融合图像的对比度信息。
本文的融合框架如图2所示,它由生成器和判别器组成。生成器包含红外路径和可见光路径,源图像和差值图像通过生成器得到初始融合图像If 。判别器区分红外图像和融合图像,约束融合图像保留更多的热辐射信息。此处去掉了判别器的可见光分支,目的是获得更多的红外显著信息。
2.2 生成器
考虑到不同源图像所包含的信息不同,生成器采用双支路结构进行特征提取。将红外差值图像和红外图像、可见光差值图像与和可见光图像连接分别作为一个支路的输入,这样可以提高融合图像的对比度。两条支路网络结构相同,参数独立,有效地降低了训练模型的复杂度。生成器的结构如图3所示。
该生成器的两条路径都由4个卷积块组成,每个卷积块包括卷积层、批量归一化层(Batch Normalization layer, BN)、ReLU层和通道注意力层。融合路径中卷积层的内核大小设置为7,在第1和第2卷积块中设置为5,在最后两个卷积块中设置为3。融合路径中卷积层的滤波器数量分别设置为256, 128, 64和32。融合路径中卷积层的步长都设置为1。
本文在以下3个方面对传统的生成器网络进行了改进。首先,本文在批量归一化层和ReLU层之后加入了通道注意力机制,可以加强每个通道的重要特征而削弱非重要特征,提高融合性能。通道注意力机制的结构如图4所示。
其原理是,首先通过全局平均池化(Global Average Pooling, GAP)在空间维度对特征进行压缩,在不改变特征通道的前提下将每个输入特征压缩为一个实数,获取全局感受野; 接着使用非线性全连接层(Fully Connected layer, FC) 对每个特征通道生成对应的权重,之后使用Sigmoid激活函数归一化处理生成的初始权重;最后,将得到的归一化权重应用于原来的每个特征通道上,输出最后的结果˜X,完成对重要特征的增强和对非重要特征的削弱。
其次,本文在第2层—第5层构建密集连接层,将每一层的输出都连接到后续层,作为后续层的输入。这样能够尽可能多地使用网络前几层的浅层信息特征。最后,本文将两幅源图像以跳跃连接的方式分别输入到中间层,在网络的每一层直接插入源图像的操作可以使网络更容易学习源图像信息。对于可见光图像,本文希望保留其原始细节;而对于红外图像,本文希望保留其热辐射信息。可见光图像的跳跃连接相当于使用不同深度的网络来提取可见光图像的特征,相同地,红外图像也可以用不同深度的网络来提取其热辐射信息。因此,从多深度的网络中提取可见光图像和红外图像的基本信息,可以获得其语义信息,并尽可能保留其纹理细节和显著目标。
2.3 判别器
判别器的网络结构如图5所示。它由4个卷积块和1个线性层组成,网络的输入图像是红外源图像或生成器生成的融合图像,每一个卷积块包括卷积层、批量归一化层和LReLU层,卷积核的大小为3×3,通道数分别为32, 64, 128, 256,随着通道数的增加,判别器提取出的特征也越来越深。最后通过线性层输出一个标签,表示输入图像是真实图像还是融合图像。
2.4 损失函数
损失函数由生成器的损失函数和判别器的损失函数组成。生成器的损失函数指导生成器网络产生令人满意的融合结果。判别器的损失函数使判别器网络能够区分输入图像是融合图像还是源图像。
本文的融合策略是将两幅源图像及其差值图像输入到生成器得到融合图像,为了增强最后的融合图像的显著信息,本文将红外图像和融合图像输入判别器来区分他们。判别器D为生成器G提供损失,最后使得生成器能够生成对比度较好的融合图像。
2.4.1 生成器的损失函数
生成器的损失函数定义为
LG=Ladv+λLcontent (3) 其中, LG表示生成器的总损失,Ladv表示生成器和判别器之间的对抗损失,Lcontent表示内容损失,λ用于平衡两种损失。本文将λ设置为100。
对抗损失定义为
Ladv=1NN∑n=1(D(G(Inf))−d)2 (4) 其中,d是判别器用于确定融合图像的概率标签,本文将其设为0.7~1.2之间的随机值。N代表融合图像的数量,D(G(Inf)) 表示图像分类的结果,在本文中代表融合图像是红外图像的概率。
生成器的内容损失指导其生成包含红外强度和可见光背景细节的融合图像。之前的大多数图像融合算法通常采用强度损失和梯度损失。强度损失用于提取源图像的像素强度信息,梯度损失用于提取源图像的背景细节信息。本文将两幅源图像的差值图像作为辅助输入以提高融合图像的对比度,因此本文引入了差值图像的强度损失和梯度损失作为辅助损失。除此之外,考虑到融合图像和源图像的结构相似性,提出了一种新的结构相似性损失并将其添加到内容损失之中。生成器的内容损失由式(5)给出
Lcontent=LSSIM+L2+Lgradient (5) 其中,LSSIM , L2, Lgradient 分别表示结构相似性损失、强度损失和梯度损失。通过这3种损失函数分别为融合图像添加亮度信息、对比度信息和结构信息。
结构相似性损失定义为
LSSIM=12(1−SSIM(If,Iir))+12(1−SSIM(If,Ivis)) (6) 其中,SSIM(x,y)表示融合图像和源图像之间的结构相似性值,定义为
SSIM(x,y)=(2μxμy+c1)(2σxy+c2)(μ2x+μ2y+c1)(σ2x+σ2y+c2) (7) 其中,μx是x的平均值,μy是y的平均值,σ2x是x的方差,σ2y是y的方差,σxy是x和y的协方差。c1=(k1L)2, c2=(k2L)2是用来维持稳定的参数,L是像素值的动态范围,k1=0.01,k2=0.02。
强度损失和梯度损失分别由式(8)、式(9)给出
L2=α||Ifused−Ivis||+β||Ifused−Iir||+||Ifused−Dvis||+||Ifused−Dir|| (8) Lgradient=α||∇Ifused−∇Iir||+β||∇Ifused−∇Ivis||+||∇Ifused−∇Dir||+||∇Ifused−∇Dvis|| (9) 其中,α,β是用来平衡源图像和差值图像主次要信息的参数。在本文的设置中,认为红外图像的强度信息比可见光图像重要,同样地,可见光图像的梯度信息比红外图像重要,此外源图像的信息又较差值图像重要。鉴于此,本文将α,β分别设置为5和10用于平衡主次信息。
2.4.2 判别器的损失函数
判别器是一种多分类器,其任务是有效识别源图像,迫使生成器生成含有更多的源图像信息的融合图像。前人的图像融合算法大多考虑融合图像和可见光图像的相似性,或同时考虑红外图像和可见图像与源图像的相似性。前者由于只考虑可见光图像,融合结果往往削弱了显著目标;后者虽然同时考虑到两种源图像,但从实际结果看来,最后的融合图像往往背景偏暗,显著信息也有所削弱,得到的图像更像是两种源图像的平均加权图。鉴于此,本文另辟蹊径,舍去可见图像作为判别器的损失,而只考虑红外图像的像素强度信息。可见图像的背景细节信息由生成器的内容损失保留。判别器的损失函数为
LD=1NN∑n=1(D(Inir)−a)2+1NN∑n=1(D(Inf)−b)2 (10) 其中,N 代表图像的数目, D(Inir)和 (D(Inf)−b)表示红外图像和融合图像的分类结果,a,b 分别表示红外图像和融合图像的标签,本文将其分别设置为1和0。
3. 实验结果分析
本文选取TNO和FLIR两个典型的红外与可见光数据集,在GeForce RTX 3090 24 GB显卡使用Tensorflow框架进行实验,选取TNO数据集的40对图像,并将其裁剪为 120×120的图像块,步长设置为14,最后得到57131对图像块。最后用这些图像块进行训练,epoch设置为20,batch size设置为32,学习率为0.0001。
为了定性和定量比较以评估本文方法的性能,我们在TNO和FLIR数据集上测试了本文方法与其他较先进的融合方法,包括离散小波变换(Discrete Wavelet Transform, DWT)[17]、双分支网络(Dual Branch Network, DBN)[18]、深度图像分解融合模型(Deep Image Decomposition Fusion model, DIDF)[19]、生成对抗网络融合模型(Generative Adversarial Network Fusion model, FusionGAN)[11]、多分类约束的生成对抗网络(Generative Adversarial Network with Multi-classification Constraints, GANMcC)[12]、多尺度特征集成与边缘注意引导融合模型(Multi-scale Feature Ensemble and edge-attentIon guidance Fusion model, MFEIF)[20]和RFnest[21],所有对比方法均使用作者提供的源代码,参数均设置为文章的最优参数。
3.1 定性对比实验
为了给出一些关于融合性能的直观结果,本文选择了5对典型的图像进行定性评估,如图6所示。本文方法和其他比较方法的融合结果如图7所示。图7用绿色框标出部分红外目标和纹理细节,放大部分细节信息并以红色框在右下角标出以便于直观观察。与其他方法相比,本文方法的融合图像具有更好的层次感,目标突出,细节丰富。本文方法可以很好地保护热目标,即红外目标具有清晰的边缘和显著的对比度。此外,融合后的图像也具有较为丰富的可见光纹理细节。例如,在图7第1行中,传统方法DWT保留了较多的背景细节信息,但是红外热目标信息丢失严重,DIDF, RFnest的效果与DWT类似;DBN, FusionGan, MFEIF这3种方法则与上面那种情况相反,他们很好地突出了红外的热目标信息,但是丢失了大量的背景细节信息,红色框放大的窗框和里面的叶子都已经模糊不清;GANMcC通过构建双通道输入很好地平衡了红外显著信息和可见光背景信息,但是他在左上角的灯和天空的树梢那里产生了光晕,这显然不利于后续的处理,而本文结果在突出热目标和纹理细节的同时还提高了融合图像的对比度,具有最好的主观融合效果。
当然,针对不同的源图像,同一方法的融合结果可能会有差别。例如图7第3行,DBN的融合结果与第1幅图相反,基本上丢失了热目标信息而保留了部分可见光细节,有相同情况的还有GANMcC,在这幅图像中丢失了部分热目标信息,使得融合结果更加偏向可见光图像,而本文方法在这5幅图的融合结果都是类似的,说明本文网络的泛化能力更强。为了更好地验证这一点,本文选取FLIR数据集的40幅图像在TNO数据集训练的网络模型下测试,选取其中两个结果如图7第4行和图7第5行所示。
可以看到,DWT, DBN, DIDF, MFEIF, RFnest的融合结果包含更多的可见光图像纹理信息,更接近可见光图像,但是红外目标并不突出,显著信息丢失严重;FusionGAN的融合结果虽然保留了部分显著目标,如绿色框部分,但是左下角两个小人的背景虚化,丢失了这部分显著信息;GANMcC的融合结果较FusionGAN有很大提升,去掉了左下角小人身上的虚化,但是其结果更像是可见光的背景。对比之下,本文的结果能够更好地突出红外目标的同时和保留更多的可见光背景细节,提升了融合图像的对比度,具有最佳的视觉效果。
3.2 定量对比实验
为了综合评估图像融合的效果,本文选择了6种具有不同评估优先级的评估指标,包括熵(ENtropy, EN)[22]、平均梯度(AG)[15]、空间频率(SF)[16]、方差(Variance,Var)[23]、边缘强度(EI)和视觉信息保真度(Visual Information Fidelity, VIF)[24]。这些指标可以分为基于图像特征的,例如AG, SF等:基于信息论的,例如EN:基于人类感知的3大类[25],例如VIF。
基于信息论的熵(EN)可以测量图像中保留的信息量。平均梯度(AG),反映图像的梯度信息。基于梯度分布的空间频率(SF)可以揭示图像的细节、边缘和纹理。基于统计概念的方差(Var)反映了图像的分布和对比度。基于人类感知的视觉信息保真度(VIF)可以评估与人类感知评估一致的图像融合性能。边缘强度(EI)是边缘点处的梯度,它可以显示图像的质量和清晰度。对于这6个指标,值越大,性能越好。
本文选取TNO数据集和FLIR数据集来定量评估融合性能,计算各算法的评价指标的平均值,评价结果如表1、表2所示。分别将最优值、次优值和第3值以红色、黑色、绿色加粗标注。
表 1 TNO定量对比实验结果SF AG EI EN VIF Var DWT 6.8154 2.6473 26.0032 6.3753 0.2901 24.9950 DBN 6.1192 2.4574 24.8012 6.3375 0.2814 24.3822 DIDF 7.5609 2.9884 29.5566 6.5825 0.3417 30.0428 FusionGAN 6.2395 2.4168 24.1424 6.5761 0.2575 31.1204 GANMcC 6.1391 2.5457 25.8946 6.7474 0.4217 33.6386 MFEIF 7.2104 2.9034 29.3522 6.6568 0.3587 33.0184 RFnest 5.8727 2.6821 28.6441 6.9907 0.5133 37.2477 本文 9.0860 3.5805 35.1696 7.0731 0.4112 33.6727 表 2 FLIR定量对比实验结果SF AG EI EN VIF Var DWT 9.0511 3.5425 37.0015 6.8426 0.3336 31.4294 DBN 8.3459 3.3623 35.3199 6.7845 0.3306 31.0446 DIDF 9.3434 3.6905 38.6017 6.7863 0.2943 31.5181 FusionGAN 8.1142 3.2045 34.4298 7.0167 0.2892 37.4859 GANMcC 8.6665 3.6744 39.4219 7.2089 0.4269 42.4833 MFEIF 9.4752 3.7719 39.8841 7.0171 0.3807 37.8447 RFnest 7.6279 3.3103 36.2151 7.2968 0.4503 44.1210 本文 9.7488 4.1359 44.1298 7.4163 0.4394 47.7148 可以看到,本文算法在两个数据集的空间频率、平均梯度、边缘强度和信息熵这4项指标均取得了最佳结果,表明本文算法的融合结果包含更多源图像的特征信息,这一点与主观评价基本保持一致。这是因为本文引入了差值图像输入和将源图像直接跳跃连接输入到各个通道,使得网络能够提取到更多源图像的语义信息和对比度信息。本文在视觉信息保真度也仅次于GANMcC和RFnest,与主观评价类似,这两种方法在融合结果上更加偏向于可见光图像,可见光图像更加符合人眼的视觉系统,故此项指标这两种方法偏高。最后在方差指标上,本文的算法在FLIR取得了最佳结果,而在TNO数据集上也仅次于RFnest方法。
除此之外,本文还从两个数据集中随机选取了20组图片,基于这6个指标与各方法做定量分析,定量分析结果如图8所示。
可以看到,本文的方法在这6种指标上均处于领先地位。定量对比实验结果表明本文的算法能够在保留源图像特征信息的同时,提升融合图像的清晰度,取得高对比度的融合图像。表3给出了8种融合方法在TNO数据集上的计算效率。实验结果表明,本文的算法具有较低的时间复杂度。
表 3 不同融合方法计算效率对比结果(s)DWT DBN DIDF FusionGAN GANMcC MFEIF RFnest 本文 40.0470 7.6031 10.0652 18.4680 31.8253 15.4883 19.8578 6.0944 3.3 消融实验
为了进一步验证本文方法的有效性,将与无差值输入模型(No_dir)、无源图像跳跃连接模型(No_resource)和这两者都没有的模型(No_both)进行比较。实验选取TNO数据集的10组图像和6个评价指标分别做定性和定量的对比实验,定性实验结果由图9给出。从结果可以看出,No_both模型丢失了绝大多数红外的背景细节信息,No_resource模型和No_dir模型相比于前者,保留了更多的源图像的信息,这说明引入差值输入和源图像的跳跃连接模型对于改善融合结果是有效的,但是这对于这两组图像,No_resource模型还是丢失了部分背景细节信息,如图9(e)绿色框标出的地砖部分,No_dir模型的融合结果则背景偏暗,对比度降低。相比之下,本文的模型在保留更多源图像的信息的同时还能够提升融合图像的对比度,具有最平衡的融合结果。
表4给出了4组模型的定量评价指标。最优值以红色加粗标注。可以看出,No_dir模型和No_resource模型均优于No_both模型,这表明差值通道输入和源图像的跳跃连接能够提升系统的融合性能,这与定性对比结果一致。本文模型的融合性能则又均显著优于No_dir模型和No_resource模型,这表明将差值通道输入和源图像的跳跃连接结合起来能够平衡融合结果,取得最优的评价指标。
表 4 4组融合模型定量对比结果SF AG EI EN VIF Var No_both 4.3894 1.5310 15.7062 6.5230 0.1749 34.9732 No_dir 5.6119 2.2964 23.0950 6.7165 0.3504 41.0505 No_resource 4.9631 1.7396 18.6436 6.6073 0.2943 39.2500 本文 6.9145 2.8615 29.0777 7.1594 0.4093 48.0217 4. 结束语
本文提出一种端到端的双路径生成对抗融合网络。考虑到差值图像包含了源图像的对比度信息,将红外差值图像和红外源图像、可见光差值图像和可见光源图像分别拼接起来构建红外路径和可见光路径,以获得高对比度的融合图像;其次,本文创新性地在每一层输入源图像以保留更多的源图像信息,并构建密集连接层以提升融合性能;再次,本文在生成器中引入通道注意力模块,增强不同通道特征之间的依赖性,提高了网络的特征提取能力:最后,在损失函数方面,相比于之前的融合算法,本文添加了差值图像的梯度损失和强度损失以提取对比度信息,并引入了结构相似性损失以使融合图像保留更多的源图像细节,使判别器仅对红外图像进行分类,以突出红外显著信息。在TNO和FLIR两组数据集上的实验结果表明,与其他7种相关融合方法相比,本文方法不仅具有更加均衡的主观融合效果,而且在客观指标上也基本取得了最优值,只有VIF和Var仅次于RFnest方法,获得了最优的融合性能,且具有较高的计算效率和较强的鲁棒性。最近扩散模型(diffusion model)比较热门,是一个代表性的图像生成模型。考虑到GAN网络也具有图像生成的能力,未来将着力于研究扩散模型和GAN网络的异同点,将其引入到图像融合方向上来。
-
表 1 TNO定量对比实验结果
SF AG EI EN VIF Var DWT 6.8154 2.6473 26.0032 6.3753 0.2901 24.9950 DBN 6.1192 2.4574 24.8012 6.3375 0.2814 24.3822 DIDF 7.5609 2.9884 29.5566 6.5825 0.3417 30.0428 FusionGAN 6.2395 2.4168 24.1424 6.5761 0.2575 31.1204 GANMcC 6.1391 2.5457 25.8946 6.7474 0.4217 33.6386 MFEIF 7.2104 2.9034 29.3522 6.6568 0.3587 33.0184 RFnest 5.8727 2.6821 28.6441 6.9907 0.5133 37.2477 本文 9.0860 3.5805 35.1696 7.0731 0.4112 33.6727 表 2 FLIR定量对比实验结果
SF AG EI EN VIF Var DWT 9.0511 3.5425 37.0015 6.8426 0.3336 31.4294 DBN 8.3459 3.3623 35.3199 6.7845 0.3306 31.0446 DIDF 9.3434 3.6905 38.6017 6.7863 0.2943 31.5181 FusionGAN 8.1142 3.2045 34.4298 7.0167 0.2892 37.4859 GANMcC 8.6665 3.6744 39.4219 7.2089 0.4269 42.4833 MFEIF 9.4752 3.7719 39.8841 7.0171 0.3807 37.8447 RFnest 7.6279 3.3103 36.2151 7.2968 0.4503 44.1210 本文 9.7488 4.1359 44.1298 7.4163 0.4394 47.7148 表 3 不同融合方法计算效率对比结果(s)
DWT DBN DIDF FusionGAN GANMcC MFEIF RFnest 本文 40.0470 7.6031 10.0652 18.4680 31.8253 15.4883 19.8578 6.0944 表 4 4组融合模型定量对比结果
SF AG EI EN VIF Var No_both 4.3894 1.5310 15.7062 6.5230 0.1749 34.9732 No_dir 5.6119 2.2964 23.0950 6.7165 0.3504 41.0505 No_resource 4.9631 1.7396 18.6436 6.6073 0.2943 39.2500 本文 6.9145 2.8615 29.0777 7.1594 0.4093 48.0217 -
[1] GOSHTASBY A A and NIKOLOV S. Image fusion: Advances in the state of the art[J]. Information Fusion, 2007, 8(2): 114–118. doi: 10.1016/j.inffus.2006.04.001 [2] TOET A, HOGERVORST M A, NIKOLOV S G, et al. Towards cognitive image fusion[J]. Information Fusion, 2010, 11(2): 95–113. doi: 10.1016/j.inffus.2009.06.008 [3] 朱浩然, 刘云清, 张文颖. 基于对比度增强与多尺度边缘保持分解的红外与可见光图像融合[J]. 电子与信息学报, 2018, 40(6): 1294–1300. doi: 10.11999/JEIT170956ZHU Haoran, LIU Yunqing, and ZHANG Wenying. Infrared and visible image fusion based on contrast enhancement and multi-scale edge-preserving decomposition[J]. Journal of Electronics &Information Technology, 2018, 40(6): 1294–1300. doi: 10.11999/JEIT170956 [4] GAO Yuan, MA Jiayi, and YUILLE A L. Semi-supervised sparse representation based classification for face recognition with insufficient labeled samples[J]. IEEE Transactions on Image Processing, 2017, 26(5): 2545–2560. doi: 10.1109/TIP.2017.2675341 [5] LIU C H, QI Y, and DING W R. Infrared and visible image fusion method based on saliency detection in sparse domain[J]. Infrared Physics & Technology, 2017, 83: 94–102. doi: 10.1016/j.infrared.2017.04.018 [6] HE Changtao, LIU Quanxi, LI Hongliang, et al. Multimodal medical image fusion based on IHS and PCA[J]. Procedia Engineering, 2010, 7: 280–285. doi: 10.1016/j.proeng.2010.11.045 [7] 张介嵩, 黄影平, 张瑞. 基于CNN的点云图像融合目标检测[J]. 光电工程, 2021, 48(5): 200418. doi: 10.12086/oee.2021.200418ZHANG Jiesong, HUANG Yingping, and ZHANG Rui. Fusing point cloud with image for object detection using convolutional neural networks[J]. Opto-electronic Engineering, 2021, 48(5): 200418. doi: 10.12086/oee.2021.200418 [8] 陈永, 张娇娇, 王镇. 多尺度密集连接注意力的红外与可见光图像融合[J]. 光学 精密工程, 2022, 30(18): 2253–2266. doi: 10.37188/OPE.20223018.2253CHEN Yong, ZHANG Jiaojiao, and WANG Zhen. Infrared and visible image fusion based on multi-scale dense attention connection network[J]. Optics and Precision Engineering, 2022, 30(18): 2253–2266. doi: 10.37188/OPE.20223018.2253 [9] AN Wenbo and WANG Hongmei. Infrared and visible image fusion with supervised convolutional neural network[J]. Optik, 2020, 219: 165120. doi: 10.1016/j.ijleo.2020.165120 [10] LI Jing, HUO Hongtao, LIU Kejian, et al. Infrared and visible image fusion using dual discriminators generative adversarial networks with Wasserstein distance[J]. Information Sciences, 2020, 529: 28–41. doi: 10.1016/j.ins.2020.04.035 [11] MA Jiayi, YU Wei, LIANG Pengwei, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11–26. doi: 10.1016/j.inffus.2018.09.004 [12] MA Jiayi, ZHANG Hao, SHAO Zhenfeng, et al. GANMcC: A generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 5005014. doi: 10.1109/TIM.2020.3038013 [13] QU Guihong, ZHANG Dali, and YAN Pingfan. Information measure for performance of image fusion[J]. Electronics Letters, 2002, 38(7): 313–315. doi: 10.1049/el:20020212 [14] XYDEAS C S and PETROVIĆ V. Objective image fusion performance measure[J]. Electronics Letters, 2000, 36(4): 308–309. doi: 10.1049/el:20000267 [15] CUI Guangmang, FENG Huajun, XU Zhihai, et al. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition[J]. Optics Communications, 2015, 341: 199–209. doi: 10.1016/j.optcom.2014.12.032 [16] ESKICIOGLU A M and FISHER P S. Image quality measures and their performance[J]. IEEE Transactions on Communications, 1995, 43(12): 2959–2965. doi: 10.1109/26.477498 [17] LI H, MANJUNATH B S, and MITRA S K. Multisensor image fusion using the wavelet transform[J]. Graphical Models and Image Processing, 1995, 57(3): 235–245. doi: 10.1006/gmip.1995.1022 [18] FU Yu and WU Xiaojun. A dual-branch network for infrared and visible image fusion[C]. 2020 25th International Conference on Pattern Recognition (ICPR), Milan, Italy, 2021: 10675–10680. [19] ZHAO Zixiang, XU Shuang, ZHANG Chunxia, et al. DIDFuse: Deep image decomposition for infrared and visible image fusion[C]. Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence, Yokohama, Japan, 2020: 970–976. [20] LIU Jinyuan, FAN Xin, JIANG Ji, et al. Learning a deep multi-scale feature ensemble and an edge-attention guidance for image fusion[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(1): 105–119. doi: 10.1109/TCSVT.2021.3056725 [21] LI Hui, WU Xiaojun, and KITTLER J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72–86. doi: 10.1016/j.inffus.2021.02.023 [22] ROBERTS J W, AARDT J A V, and AHMED F B. Assessment of image fusion procedures using entropy, image quality, and multispectral classification[J]. Journal of Applied Remote Sensing, 2008, 2(1): 023522. doi: 10.1117/1.2945910 [23] RAO Yunjiang. In-fibre Bragg grating sensors[J]. Measurement Science and Technology, 1997, 8(4): 355–375. doi: 10.1088/0957-0233/8/4/002 [24] HAN Yu, CAI Yunze, CAO Yin, et al. A new image fusion performance metric based on visual information fidelity[J]. Information Fusion, 2013, 14(2): 127–135. doi: 10.1016/j.inffus.2011.08.002 [25] ZHANG Xingchen, YE Ping, and XIAO Gang. VIFB: A visible and infrared image fusion benchmark[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Seattle, USA, 2020: 468–478. 期刊类型引用(4)
1. 许光宇,陈浩宇,张杰. 多路径生成对抗网络的红外与可见光图像融合. 国外电子测量技术. 2024(03): 18-27 . 百度学术
2. 刘世章,赵丹,林伟. 基于灰度值补偿的视频监测图像模糊细节增强方法. 激光杂志. 2024(05): 115-120 . 百度学术
3. 李晓玲,陈后金,李艳凤,孙嘉,王敏鋆,陈卢一夫. 多重关系感知的红外与可见光图像融合网络. 电子与信息学报. 2024(05): 2217-2227 . 本站查看
4. 杨艳春,闫岩,王可. 基于注意力机制与光照感知网络的红外与可见光图像融合. 西南交通大学学报. 2024(05): 1204-1214 . 百度学术
其他类型引用(1)
-