Multi-Scenario Aware Infrared and Visible Image Fusion Framework Based on Visual Multi-Pathway Mechanism
-
摘要: 现有的红外与可见光图像融合算法往往将日间场景与夜间场景下的图像融合视为同一个问题,这种方式忽略了在日间场景与夜间场景下进行图像融合的差异性,使得算法融合性能受限。生物视觉系统强大的自适应特性能够在不同场景下最大限度地捕获输入视觉刺激中的有效信息,实现自适应的视觉信息处理,有可能为实现性能更为优异的红外与可见光图像融合算法带来新的思路启发。针对上述问题,该文提出一种视觉多通路机制启发的多场景感知红外与可见光图像融合框架。其中,受生物视觉多通路特性启发,该文框架中设计了分别感知日间场景信息与夜间场景信息的两条信息处理通路,源图像首先分别输入感知日间场景信息与感知夜间场景信息的融合网络得到两幅中间结果图像,而后再通过可学习的加权网络生成最终的融合图像。此外,该文设计了模拟生物视觉中广泛存在的中心-外周感受野结构的中心-外周卷积模块,并将其应用于所提出框架中。定性与定量实验结果表明,该文所提方法在主观上能够显著提升融合图像的图像质量,同时在客观评估指标上优于现有融合算法。
-
关键词:
- 红外与可见光图像融合 /
- 类脑计算 /
- 多场景感知框架
Abstract: Most existing infrared and visible image fusion methods neglect the disparities between daytime and nighttime scenarios and consider them similar, leading to low accuracy. However, the adaptive properties of the biological vision system allow for the capture of helpful information from source images and adaptive visual information processing. This concept provides a new direction for improving the accuracy of the deep-learning-based infrared and visible image fusion methods. Inspired by the visual multi-pathway mechanism, this study proposes a multi-scenario aware infrared and visible image fusion framework to incorporate two distinct visual pathways capable of perceiving daytime and nighttime scenarios. Specifically, daytime- and nighttime-scenario-aware fusion networks process the source images to generate two intermediate fusion results. Finally, a learnable weighting network obtains the final result. Additionally, the proposed framework utilizes a novel center-surround convolution module that simulates the widely distributed center-surround receptive field in biological vision. Qualitative and quantitative experiments demonstrate that the proposed framework improves significantly the quality of the fused image and outperforms existing methods in objective evaluation metrics. -
1. 引言
受当前硬件设备的技术限制,仅使用单一模态的传感器进行拍摄时往往无法有效地捕获完整的场景信息。为了克服这一局限性,如何采集并融合多模态传感器数据以实现有效的场景感知目前被广泛关注和研究,其中红外与可见光图像融合即为该研究方向的具体问题之一。红外与可见光图像融合旨在对输入的多模态图像提取并融合各幅图像的有效信息,以获得信息丰富的单张融合图像。可见光传感器在提供高分辨率图像的同时能够捕获较为丰富的细节纹理信息,而红外图像通过捕获物体的热辐射信号,在环境恶劣时仍能提供显著的目标信息。将可见光图像的高分辨率与细节丰富的优势与红外图像的抗干扰优势有效结合,可广泛应用至场景监测、军事勘察和目标跟踪等领域[1, 2]。
传统的红外与可见光图像融合算法基本可分为:基于多尺度变换的算法[3]、基于稀疏表示的算法[4]、基于子空间的算法[5]和基于显著性的算法[6]。尽管传统的红外与可见光图像融合算法已经过数十年的发展,但这部分研究越来越偏向于人工设计更为复杂的手工特征与融合规则,使得传统算法在性能提升有限的同时还面临着计算开销过大的问题。
随着深度学习与卷积神经网络的高速发展,其被广泛应用在各种计算机视觉任务中。越来越多的研究工作将神经网络框架引入到红外与可见光图像融合领域中,提出了一系列基于深度学习的红外与可见光图像融合算法。该类算法主要分为3类:基于卷积神经网络(Convolution Neural Network, CNN)的方法,基于自编码器(Auto Encoder, AE)的方法和基于对抗生成网络(Generative Adversarial Network, GAN)的方法。基于CNN的算法的研究方向之一是充分发挥CNN出色的特征提取能力,使用CNN替换传统融合算法中手工设计的特征提取与图像重建部分。Li等人[7]使用预训练的VGG网络对源图像进行特征提取,而后基于L1范数手工设计融合策略实现图像融合。基于CNN的算法的另一研究方向则是通过设计端到端的神经网络实现源图像的特征提取、特征融合、图像重建过程。Zhang等人[8]采用稠密连接结构设计端到端融合网络,同时将融合问题转化为强度信息与梯度信息保持这两个子问题,并设计相应的损失函数实现图像融合。基于AE的方法通过自编码器获得源图像有效的特征表示,而后通过手工设计的融合策略实现中间特征的融合。Li等人[9]在MS-COCO数据集[10]上预训练自编码器网络,而后基于手工设计的两种融合策略实现源图像中间特征的融合,并在文献[11]中改进解码器结构的同时提出可学习的融合模块,进一步提升融合性能。基于GAN的方法通过对抗学习的范式隐式地使输出图像具有期望的数据分布信息。Ma等人[12]首次将对抗学习引入红外与可见光图像融合领域,利用判别器使得融合图像隐式学习可见光图像的纹理信息,并在文献[13]中利用多分类判别器改善先前工作中存在的信息保持不平衡问题。
尽管基于深度学习的红外与可见光融合算法研究取得了一定的进展,然而在许多方面上仍可以改进:(1) 受限于缺少大规模的红外与可见光图像数据集,先前工作往往将日间场景与夜间场景下的图像融合视为同一个问题,这忽略了在日间场景与夜间场景下进行图像融合的差异性,使得所提出的算法因忽略这一差异而导致性能受限,本文将在第2节进一步验证这一现象的存在。(2) 人类视觉系统作为目前已知的最为优异的图像处理系统,其强大的自适应特性能够最大限度地捕获输入图像中的有效信息。然而在红外与可见光图像融合领域,仍尚未有研究工作使用人类视觉系统的工作机制指导神经网络的设计与构建。尽管部分工作尝试模拟生物视觉系统机制实现红外与可见光图像融合[14, 15],然而这些工作均为传统的图像融合方法,其同样面临着性能受限、计算代价高等问题。(3) 当前许多红外与可见光图像融合研究工作在测试时存在着一定的局限性,即往往只在数据集子集中测试若干性能指标,这个过程阻碍了图像融合领域内对算法性能的公平评估。
针对上述问题,本文提出一种视觉多通路机制启发的多场景感知红外与可见光图像融合框架,受生物视觉的多通路特性[16]启发,算法通过两个独立的融合网络分别从日间场景与夜间场景两个角度对源图像进行场景感知并融合得到中间结果,再通过可学习加权网络对两项中间结果进行加权得到最终的融合图像。同时,受生物视觉中广泛存在的中心-外周感受野[17]的启发,本文算法设计了模拟该生物视觉机制的中心-外周卷积模块,并将其应用于融合网络与加权网络中。本文在红外与可见光图像融合领域的两个公开数据集上进行全面测试与评估,实验结果表明本文算法能够有效提升融合图像质量,在主观定性评估中相较于现有算法显著提升了图像的视觉体验,在客观定量评估中获得了相较于现有算法更为优异的性能指标。
2. 日间和夜间场景图像融合差异性验证实验
日间场景与夜间场景下进行图像融合的差异性主要来自两种场景下的可见光图像的差异。在日间场景下,可见光图像由于光照条件良好,能够提供充足有效的细节和纹理信息,此时仅需要将红外图像中的红外热辐射信息有效提取并保留至融合图像中,即可实现性能优异的图像融合。而在夜间场景下,由于光照条件差,可见光图像中存在大量的低光照区域,导致无法提供有效的细节和纹理信息,此时不仅需要从红外图像中提取红外热辐射目标信息,同时需要从红外图像中提取部分纹理信息用于在低光照区域提供充分的图像细节信息。若忽略了两种场景下进行图像融合的差异,等同于对两种场景以相同的方式进行特征提取,特征融合,以及特征融合后的图像重建,无法针对特定场景自适应地提取相关特征,获得最优的图像融合效果,从而使得融合算法性能受限。
为了进一步证明前人工作中存在忽略日间场景与夜间场景下图像融合差异性这一不足,本节首先基于文献[12]的研究工作进行了验证实验,并通过实验结果进一步阐述本文的研究动机。
2.1 实验过程
本文基于FusionGAN算法[12]与MSRS数据集[18]进行验证实验。首先为了分别获得混合感知日间与夜间场景信息的模型、仅感知日间场景信息的模型和仅感知夜间场景信息的模型,本文从MSRS训练集、日间训练子集、夜间训练子集中各随机抽取50张图像作为训练集训练FusionGAN模型,得到3个结果模型,分别记为混合模型、日间模型与夜间模型。其次,本文分别从MSRS测试集、日间测试子集、夜间测试子集中各随机抽取50张图像作为测试集,记为混合测试集、日间测试集与夜间测试集。对于日间测试集,若日间模型性能指标显著优于混合模型性能指标,则证明忽略日间场景信息感知会损失融合图像性能。对于混合测试集,若日间模型或夜间模型性能指标显著优于混合模型性能指标,则证明忽略场景差异会损失融合图像性能。对于夜间测试集,若夜间模型性能指标显著优于混合模型性能指标,则证明忽略夜间场景信息感知会损失融合图像性能。本文使用红外与可见光图像融合领域常用的熵(Entropy, EN)、空间频率(Spatial Frequency, SF)、标准差(Standard Deviation, SD)、视觉信息保真度(Visual Information Fidelity, VIF)和平均梯度(Average Gradient, AG)指标[1]作为模型性能的评估指标,并使用配对样本T检验判断两个模型性能指标是否存在显著性差异。
2.2 实验结果
混合模型、日间模型与夜间模型在日间场景与夜间场景下的融合结果如图1所示。其中图1(a)为日间模型与混合模型在日间图像上的对比效果图,由该图可以看出,混合模型不能很好地保留梯度信息与亮度信息,从而导致图像中树木区域模糊、整体图像暗淡。而日间模型能够有效保留树木区域的细节信息,整幅图像也更为明亮清晰,因此说明忽略日夜间场景信息差异将会使得融合模型性能受限,同时说明单独仅使用日间图像训练融合模型能够有效地感知日间场景信息。由图1(b)中同样可见,仅使用夜间图像训练的融合模型能够提供更清晰明亮的整体图像与细节信息。综上,从主观定性角度说明,前人工作中将日间图像融合与夜间图像融合视为同一问题进行处理将限制融合模型的性能,通过分别设计感知日间场景与夜间场景的融合模型,能够有效提升融合图像的质量。
为了进一步从定量的角度验证我们的结论,表1归纳了各统计检验实验结果,其中配对样本T检验结论为极显著差异(P值小于0.01)的情况,其P值使用加粗进行突出显示。由表1可知,在EN, SD, VIF和AG指标上均极显著地表明,单独使用日间图像与夜间图像训练融合模型来实现多场景的感知对结果图像的性能提升具有积极作用,混合日间图像与夜间图像进行训练会导致模型性能受限。
表 1 验证实验中各统计检验实验结果条件 EN SF SD VIF AG 对于日间测试集:
日间模型优于混合模型是
(p = 1.36×10−8)是
(p = 2.59×10−16)是
(p = 8.90×10−15)是
(p = 2.24×10−5)是
(p = 5.18×10−11)对于混合测试集:
日间模型或夜间模型优于混合模型是
(p = 2.19×10−30)是
(p = 5.08×10−16)是
(p = 1.34×10−23)是
(p = 6.32×10−17)是
(p = 4.17×10−15)对于夜间测试集:
夜间模型优于混合模型是
(p = 2.57×10−27)是
(p = 1.21×10−2)是
(p = 7.38×10−24)是
(p = 1.81×10−20)是
(p = 1.45×10−10)3. 视觉多通路机制启发的多场景感知红外与可见光图像融合框架
本节将介绍本文所提出的视觉多通路机制启发的多场景感知红外与可见光图像融合框架,首先将介绍整体的模型框架与计算流程,而后将讨论框架中各个模型的具体网络结构,最后介绍模型的训练过程。
3.1 模型框架
本文提出的红外与可见光图像融合框架如图2所示,本文整体框架由两部分组成,受生物视觉的多通路特性[16]启发,在生物视觉系统中,信息通过多条平行通路进行处理与传递,每条通路负责加工不同的信息因此具有不同的功能,通过汇总不同通路信息实现不同的认知功能。例如,灵长类动物的视觉系统在不同光照条件下(昼视、间视、夜视)视网膜上被激活的光感受器的程度和类型,以及相应的信息处理机制不同。具体而言,灵长类动物的视网膜上主要有3种不同类型的神经节细胞,它们的输出分别投射到外侧膝状体核(Lateral Geniculate Nucleus, LGN),形成了LGN上3种不同的平行信息处理通路。视网膜上的大细胞的输出主要投射到LGN上的P细胞层,其视觉信息来源主要来自视网膜上的红绿视锥细胞,主要对高空间频率和低时间频率的颜色信息敏感,而视网膜上的小细胞的输出主要投射到LGN上的M细胞层,其视觉信息来源主要来自视网膜上的视杆细胞,主要对低空间频率和高时间频率的亮度信息敏感,视网膜上非常小的细胞的输出主要投射到LGN上的K细胞层,其视觉信息来源主要来自视网膜上对短波敏感的视锥细胞。
为了模拟灵长类动物系统中功能不同的多通路特性,本文模型的第1部分由两条分别进行日间场景信息感知(对应P细胞通路)和夜间场景信息感知(对应M细胞通路)的通路构成,每条通路的融合模型负责感知其对应场景的信息并进行图像融合,第2部分由用于融合两条通路中间结果的以获得最终融合图像的加权模型构成。
对于输入的两幅源图像I1和I2,首先分别将其输入日间融合模型与夜间融合模型,得到日间场景感知的融合图像与夜间场景感知的融合图像,该过程可由式(1)与式(2)表示
Ifd=Md(I1,I2) (1) Ifn=Mn(I1,I2) (2) 对于两幅中间融合图像,将其分别输入加权模型,加权模型输出对应的权重图Wfd和Wfn,该过程可由式(3)与式(4)表示
Wfd=Mw(Ifd) (3) Wfn=Mw(Ifn) (4) 最后,通过对两幅中间融合图像根据权重图加权求和即可得到最终的融合图像,该过程由式(5)表示
If=multiply(Wfd,Ifd)+multiply(Wfn,Ifn) (5) 3.2 网络模型结构
本文日间融合模型与夜间融合模型的网络结构如图3所示。融合模型由8个卷积块构成,在每个卷积块中,本文使用了受生物视觉启发的中心-外周卷积模块(Center-Surround Convolution, CS Conv)用于模拟生物视觉神经元中常见的中心-外周感受野结构[17]。神经元的中心-外周感受野结构广泛存在于生物视觉系统的早期信息处理通路中,其具体含义为,神经元的感受野分为中心和外周两部分,其中神经元的中心具有一个较小的感受野,而神经元的外周则具有一个相对较大的感受野,神经元的中心和外周感受野同时对输入视觉信号进行响应,产生不同程度的激活。神经元外周感受野的信号会对中心感受野的信号起到调制作用,调制作用可以是抑制作用或者是易化作用[19],并且这种调制作用是动态的,能够根据输入视觉信号统计特征的改变而变化。基于神经元的中心-外周感受野机制构建的相关模型已应用于自动白平衡等底层视觉信息处理问题且取得了非常优异的性能[20]。
受到上述工作的启发,本文设计了新的中心-外周卷积模块并应用于深度卷积神经网络,旨在通过模拟神经元的中心-外周感受野的自适应特性,获得更好的图像局部特征表达能力。具体而言,对于本文设计的中心-外周卷积模块,使用步长为1、填充为1的3×3卷积模拟较小的中心感受野,使用步长为1、填充为2的5×5卷积用于模拟约3倍大于中心感受野的外周感受野,并设计可学习的抑制权重用于模拟外周感受野对中心感受野的非平衡抑制作用,中心-外周卷积模块的最终输出为中心感受野响应与加权外周感受野响应之差。为了避免梯度消失并增强网络中的特征复用,本文使用局部稠密卷积结构,并在每个卷积块中使用批量归一化(Batch Normalization, BatchNorm)层。使用带泄漏的线性修正单元(Leaky Rectified Linear Unit, Leaky ReLU)作为激活函数,并在最后一层使用Sigmoid激活函数用于将输出值约束在[0,1]内。
本文加权模型的网络结构如图4所示。该模型基于U-Net模型[21]架构设计,通过多尺度模型结构充分提取输入图像中的特征信息以生成有效的融合权重图,该模型由4个尺度下的11个卷积块构成,每个卷积块由中心-外周卷积模块、批量归一化模块以及激活函数组成,尺度间变换由最大池化与上采样操作完成。受Vinker等人[22]研究工作的启发,为了获得更为平滑的权重图,在网络的跳跃连接中同时拼接激活值及其平方根值。此处采用线性修正单元(Rectified Linear Unit, ReLU)作为激活函数,并在最后一层使用Sigmoid激活函数约束输出值范围至[0,1]。
3.3 网络训练过程
本文所提出网络的总体训练框架如图5所示。整体框架训练过程主要分为两个阶段,融合模型训练阶段与加权模型训练阶段。第1阶段为融合模型训练阶段,对于日间融合模型,仅使用日间图像对其进行训练,而对于夜间融合模型,仅使用夜间图像对其进行训练。第2阶段为加权模型训练阶段,在该阶段中固定日间融合模型与夜间融合模型的可训练参数值,使用全部图像对加权模型进行训练。
本文采用强度损失与梯度损失作为网络3个部分训练的总损失函数,使用L1范数构建强度损失与梯度损失,并使用Sobel算子计算图像的梯度信息,总损失函数可由式(6)表示。
Loss=‖ (6) 4. 实验与分析
在本节中,首先介绍实验的相关设置,包括数据集、训练设置、评估指标和对比方法。然后将本方法与其他最先进的融合算法在两个公开数据集上的结果图像进行定性与定量分析,从而证明算法的优越性。最后通过消融实验验证所提出框架和模块的有效性。
4.1 实验设置
4.1.1 数据集
在本实验中采用MSRS数据集[18]和TNO数据集[23]进行实验,其中MSRS训练集用于训练过程,MSRS测试集与TNO数据集用于测试过程。MSRS数据集共有1444对已配准的红外与可见光图像,其中1083张为训练图像,361张为测试图像,该数据集中已标注每一对图像为日间图像或夜间图像。需要说明的是,本实验将MSRS数据集中可见光图像转换为可见光灰度图像进行实验。为了增加样本量以充分训练模型,对于MSRS训练集中的每一张图像,使用步长为60像素的滑动窗口获取分辨率为240×240的图像块,最终共获得37905对训练图像,其中日间图像18760对,夜间图像19145对。TNO数据集共有37对已配准的红外图像与可见光灰度图像。
4.1.2 训练设置
训练过程中,学习率设置为1e-4,批量大小设置为16,日间融合模型和夜间融合模型均训练50轮次,加权模型训练30轮次。使用默认参数Adam优化器进行参数更新。本文所有实验均在具有12 GB显存的NVIDIA RTX3080 GPU上进行,模型使用PyTorch 1.11.0框架进行实现。
4.1.3 融合评估指标
本实验采用11种评价指标评估各融合结果图像,以期望能够全面通过多项指标公平评估各算法的性能表现,这些指标包括熵(EN)、空间频率(SF)、标准差(SD)、视觉信息保真度(VIF)、平均梯度(AG)、互信息(Mutual Information, MI)、边缘信息传递度量(QAB/F)、结构相似性度量指标(Structural Similarity Index Measure, SSIM)、多尺度结构相似性度量指标(Multi Scale SSIM, MS-SSIM)、像素域特征互信息(Feature MI in pixel domain, FMIpixel)和小波域特征互信息(Feature MI in wavelet domain, FMIw)。
4.1.4 对比算法
本实验将本文方法与7种融合算法进行定性与定量对比,这些对比方法包括CSR[4], GTF[24], DenseFuse[9], FusionGAN[12], PMGI[8], GANMcC[13]和RFN-Nest[11]。对比方法的结果图像均使用作者所提供的源代码进行生成,并且使用其对应文献中默认的参数设定。
4.2 MSRS数据集实验结果
本文算法与各对比算法在MSRS数据集上测试案例的效果对比图如图6所示。从图6测试结果中可以看出,所有的对比方法均过多地保留红外图像的热辐射信息而忽略了可见光灰度图像中的亮度信息,导致结果图像整体暗淡,许多细节信息无法清晰呈现。而本文算法不仅有效突出了红外图像中的人物目标信息,同时有效保持了可见光灰度图像中的亮度与细节信息,整体图像质量明显优于其他对比方法。
表2进一步给出本文算法与对比算法在MSRS测试数据集上的定量比较结果,所有指标均为值越大代表性能更优秀,最优指标值以加粗突出表示。从表2可以看出,本文算法在绝大多数客观指标上均优于对比方法,由各指标各自度量的信息可说明本文算法得到的结果图像在信息丰富程度、图像对比度、图像真实度、源图像信息保留程度上均有相当可观的性能表现。
表 2 MSRS数据集定量评估表方法 EN SF SD VIF AG MI QAB/F SSIM MS-SSIM FMIpixel FMIw CSR 5.9478 0.0345 7.3181 0.7069 2.7030 2.3414 0.5776 0.9653 0.9433 0.9264 0.3167 GTF 5.4618 0.0314 6.3479 0.5936 2.3857 1.7041 0.3939 0.9085 0.8542 0.9119 0.3543 DenseFuse 6.6146 0.0246 8.4964 0.7482 2.3777 2.6214 0.3006 0.8931 0.9116 0.8881 0.2075 FusionGAN 5.6367 0.0192 6.3723 0.5908 1.7005 1.9360 0.1476 0.7984 0.6711 0.8914 0.2990 PMGI 6.4399 0.0350 8.1380 0.7187 3.2519 2.1371 0.4327 0.9259 0.8657 0.8867 0.3624 GANMcC 6.2789 0.0235 8.6547 0.6760 2.1591 2.5863 0.2825 0.8843 0.8525 0.8966 0.3402 RFN-Nest 6.6113 0.0275 8.4071 0.7692 2.5701 2.5292 0.4351 0.9254 0.9226 0.9048 0.2745 本文算法 7.0326 0.0480 9.2206 1.0310 4.0374 5.1835 0.6625 0.9490 0.9486 0.9202 0.3655 4.3 TNO数据集实验结果
为了进一步测试本文算法的泛化性能,本文进一步在TNO数据集上通过比较本文算法以及对比算法进行泛化实验。在TNO数据集常用测试案例上进行主观定性评估的效果对比图如图7所示。由结果图可以看出,本文模型的优越性能能够有效泛化至该数据集上,相比于其他对比算法,本文算法能够生成对比度高、整体亮度高、细节丰富、目标突出的高质量结果图像。
表3呈现了在TNO数据集上本文算法与对比算法的定量性能表现比较结果。由表3可知,本文算法在SF, VIF, AG, MI, QAB/F指标上仍然较为明显的优于对比方法,尽管在若干指标上呈现了由泛化性能不足导致的性能下降,但在两个测试数据集上的定量融合性能基本是一致的,这证明了本文算法的优越性。
表 3 TNO数据集定量评估表方法 EN SF SD VIF AG MI QAB/F SSIM MS-SSIM FMIpixel FMIw CSR 6.4881 0.0344 8.7811 0.6928 3.2025 2.0349 0.5284 0.9428 0.9037 0.9144 0.3837 GTF 6.8816 0.0354 9.5738 0.6228 3.2516 2.7606 0.4031 0.8766 0.8164 0.9042 0.4408 DenseFuse 6.9883 0.0222 9.4056 0.7895 2.5622 2.0975 0.2745 0.8432 0.8965 0.8928 0.1998 FusionGAN 6.6321 0.0244 0.8378 0.6583 2.3133 2.3870 0.2328 0.8106 0.7474 0.8855 0.3907 PMGI 7.0744 0.0323 9.6515 0.8759 3.3519 2.3885 0.4108 0.9305 0.9030 0.9009 0.3992 GANMcC 6.7865 0.0231 9.1537 0.7147 2.4184 2.3224 0.2795 0.8803 0.8623 0.8983 0.3885 RFN-Nest 7.0418 0.0218 9.4329 0.8349 2.5176 2.1621 0.3326 0.8757 0.9091 0.9021 0.3003 本文算法 6.8975 0.0402 9.3660 0.9146 3.9126 3.6862 0.5627 0.8994 0.8479 0.9110 0.3936 4.4 消融实验
为了分析本文所提出框架中各个部分的有效性,本节将对所提出框架进行消融实验。首先针对加权模型开展消融实验,在消融实验中,分别仅保留日间模型与仅保留夜间模型,将两个不完整模型与本文完整算法进行定量评估对比,对比结果如表4所示。由表可知,在仅感知日间场景信息或仅感知夜间场景信息时,模型可能会在某些指标上具有更优的性能表现,而本文算法不仅是通过二次融合突破了两个子模型的性能瓶颈,同时在没有取得最优性能的几项指标上呈现平衡两个子模型优缺点的作用,一定程度上同样体现了日间融合模型与夜间融合模型的场景信息感知有效性以及加权模型的平衡特性。
表 4 消融实验结果表方法 EN SF SD VIF AG MI QAB/F SSIM MS-SSIM FMIpixel FMIw 无CS Conv 6.6527 0.0414 8.4249 1.0352 3.3969 4.3652 0.6180 0.9409 0.9451 0.9305 0.3542 仅日间模型 7.0237 0.0474 9.2902 1.0369 4.0746 4.9832 0.6624 0.9681 0.9607 0.9193 0.3626 仅夜间模型 6.9472 0.0479 9.0583 0.9733 4.1572 4.7346 0.6895 0.9112 0.9221 0.9173 0.3631 本文算法 7.0326 0.0480 9.2206 1.0310 4.0374 5.1835 0.6625 0.9490 0.9486 0.9202 0.3655 其次,为了分析本文所提出的中心-外周卷积模块的有效性,本文在消融实验中将融合模型与加权模型中的中心-外周卷积模块替换为普通的卷积层,并将该模型与本文完整模型进行性能定量评估对比,对比结果如表4所示。由表可知,在绝大多数的图像融合性能评价指标上,去除本文所提出的中心-外周卷积模块将会导致较大的性能损失,由此可以验证本文所提出的中心-外周卷积模块的有效性。
4.5 权重图分析实验
为了进一步验证本文提出的模型中,对于某种场景类型的图像(例如日间图像或者夜间图像),感知该类型场景信息的通路是否发挥更大作用,本文进一步分析加权模型输出的权重图。对于每幅测试图像,若为夜间测试图像,且夜间通路权重图大于等于日间通路权重图的像素数超过整幅权重图像素数的50%,则说明对于输入的夜间图像,本文模型的夜间通路发挥更大的作用。相反地,若输入图像为日间测试图像,且日间通路权重图大于等于夜间通路权重图的像素数超过整幅权重图像素数的50%,则说明对于输入的日间图像,本文模型的日间通路发挥更大的作用。本文对日间图像测试集与夜间图像测试集分别统计最小单幅图像像素数占比,最大单幅图像像素数占比,平均单幅图像像素数占比,以及像素数占比总体分布与随机水平分布(50%)进行配对样本T检验的统计检验结果,统计结果如表5所示。
表 5 权重图分析实验结果条件 最小单幅占比(%) 最大单幅占比(%) 平均单幅占比(%) 统计检验P值 对于日间测试集图像:
日间结果权重图大于等于夜间结果权重图94.54 98.52 96.07 \text{4.16×}{\text{10}}^{{-101}} 对于夜间测试集图像:
夜间结果权重图大于等于日间结果权重图40.84 84.17 55.37 \text{7.74×}{\text{10}}^{{-8}} 由表5可知,无论日间图像还是夜间图像,证明其对应信息通路发挥更大作用的像素值占比平均值均显著性的大于随机水平50% (P值小于0.01),证明了对于日间输入图像,本文模型的日间场景信息感知通路发挥更大作用;类似地,对于夜间输入图像,本文模型的夜间场景信息感知通路发挥更大作用。
5. 结束语
本文提出了一种视觉多通路机制启发的多场景感知红外与可见光图像融合框架,针对前人工作中存在的忽略特定场景信息感知差异的问题,受生物视觉多通路特性启发,本文设计两条通路分别对日间场景信息与夜间场景信息进行感知并融合得到两幅中间融合图像,并进一步设计加权模型二次融合两幅中间图像生成最终的融合图像。此外,受生物视觉中广泛存在的中心-外周感受野启发,本文利用该思想设计了中心-外周卷积模块,用于模拟生物视觉中可能的感知信息方式,并利用深度学习框架自动学习其中的参数。在两个红外与可见光图像融合数据集上的实验结果表明,本文算法相较于几项对比方法,能够在有效融合红外与可见光有利信息的同时生成视觉质量高、评估指标优异的结果图像。未来将进一步探索生物视觉相关机制,利用更为复杂的视觉机制指导网络的设计与构建,实现性能更为优异的红外与可见光图像融合。
受图像采集设备的限制,采集的红外图像与可见光灰度图像的分辨率往往是不相同的,如何实现红外与可见光灰度图像的配准以及有效融合是红外与可见光灰度图像融合能够实现真正应用的技术难点之一,目前已有部分研究工作探索如何同时实现性能优异的红外与可见光图像配准与融合[25]。本文未来的研究方向之一是如何在未配准的图像上进行自适应的图像融合。
-
表 1 验证实验中各统计检验实验结果
条件 EN SF SD VIF AG 对于日间测试集:
日间模型优于混合模型是
(p = \text{1.36×}{\text{10} }^{{-8} })是
(p = \text{2.59×}{\text{10}}^{{-16}} )是
(p = \text{8.90×}{\text{10}}^{{-15}} )是
(p = \text{2.24×}{\text{10}}^{{-5}} )是
(p = \text{5.18×}{\text{10}}^{{-11}} )对于混合测试集:
日间模型或夜间模型优于混合模型是
(p = \text{2.19×}{\text{10} }^{{-30} })是
(p = \text{5.08×}{\text{10}}^{{-16}} )是
(p = \text{1.34×}{\text{10}}^{{-23}} )是
(p = \text{6.32×}{\text{10}}^{{-17}} )是
(p = \text{4.17×}{\text{10}}^{{-15}} )对于夜间测试集:
夜间模型优于混合模型是
(p = \text{2.57×}{\text{10} }^{{-27} })是
(p = 1.21 \text{×}{\text{10}}^{{-2}} )是
(p = \text{7.38×}{\text{10}}^{{-24}} )是
(p = \text{1.81×}{\text{10}}^{{-20}} )是
(p = \text{1.45×}{\text{10}}^{{-10}} )表 2 MSRS数据集定量评估表
方法 EN SF SD VIF AG MI QAB/F SSIM MS-SSIM FMIpixel FMIw CSR 5.9478 0.0345 7.3181 0.7069 2.7030 2.3414 0.5776 0.9653 0.9433 0.9264 0.3167 GTF 5.4618 0.0314 6.3479 0.5936 2.3857 1.7041 0.3939 0.9085 0.8542 0.9119 0.3543 DenseFuse 6.6146 0.0246 8.4964 0.7482 2.3777 2.6214 0.3006 0.8931 0.9116 0.8881 0.2075 FusionGAN 5.6367 0.0192 6.3723 0.5908 1.7005 1.9360 0.1476 0.7984 0.6711 0.8914 0.2990 PMGI 6.4399 0.0350 8.1380 0.7187 3.2519 2.1371 0.4327 0.9259 0.8657 0.8867 0.3624 GANMcC 6.2789 0.0235 8.6547 0.6760 2.1591 2.5863 0.2825 0.8843 0.8525 0.8966 0.3402 RFN-Nest 6.6113 0.0275 8.4071 0.7692 2.5701 2.5292 0.4351 0.9254 0.9226 0.9048 0.2745 本文算法 7.0326 0.0480 9.2206 1.0310 4.0374 5.1835 0.6625 0.9490 0.9486 0.9202 0.3655 表 3 TNO数据集定量评估表
方法 EN SF SD VIF AG MI QAB/F SSIM MS-SSIM FMIpixel FMIw CSR 6.4881 0.0344 8.7811 0.6928 3.2025 2.0349 0.5284 0.9428 0.9037 0.9144 0.3837 GTF 6.8816 0.0354 9.5738 0.6228 3.2516 2.7606 0.4031 0.8766 0.8164 0.9042 0.4408 DenseFuse 6.9883 0.0222 9.4056 0.7895 2.5622 2.0975 0.2745 0.8432 0.8965 0.8928 0.1998 FusionGAN 6.6321 0.0244 0.8378 0.6583 2.3133 2.3870 0.2328 0.8106 0.7474 0.8855 0.3907 PMGI 7.0744 0.0323 9.6515 0.8759 3.3519 2.3885 0.4108 0.9305 0.9030 0.9009 0.3992 GANMcC 6.7865 0.0231 9.1537 0.7147 2.4184 2.3224 0.2795 0.8803 0.8623 0.8983 0.3885 RFN-Nest 7.0418 0.0218 9.4329 0.8349 2.5176 2.1621 0.3326 0.8757 0.9091 0.9021 0.3003 本文算法 6.8975 0.0402 9.3660 0.9146 3.9126 3.6862 0.5627 0.8994 0.8479 0.9110 0.3936 表 4 消融实验结果表
方法 EN SF SD VIF AG MI QAB/F SSIM MS-SSIM FMIpixel FMIw 无CS Conv 6.6527 0.0414 8.4249 1.0352 3.3969 4.3652 0.6180 0.9409 0.9451 0.9305 0.3542 仅日间模型 7.0237 0.0474 9.2902 1.0369 4.0746 4.9832 0.6624 0.9681 0.9607 0.9193 0.3626 仅夜间模型 6.9472 0.0479 9.0583 0.9733 4.1572 4.7346 0.6895 0.9112 0.9221 0.9173 0.3631 本文算法 7.0326 0.0480 9.2206 1.0310 4.0374 5.1835 0.6625 0.9490 0.9486 0.9202 0.3655 表 5 权重图分析实验结果
条件 最小单幅占比(%) 最大单幅占比(%) 平均单幅占比(%) 统计检验P值 对于日间测试集图像:
日间结果权重图大于等于夜间结果权重图94.54 98.52 96.07 \text{4.16×}{\text{10}}^{{-101}} 对于夜间测试集图像:
夜间结果权重图大于等于日间结果权重图40.84 84.17 55.37 \text{7.74×}{\text{10}}^{{-8}} -
[1] MA Jiayi, MA Yong, and LI Chang. Infrared and visible image fusion methods and applications: A survey[J]. Information Fusion, 2019, 45: 153–178. doi: 10.1016/j.inffus.2018.02.004 [2] ZHANG Hao, XU Han, TIAN Xin, et al. Image fusion meets deep learning: A survey and perspective[J]. Information Fusion, 2021, 76: 323–336. doi: 10.1016/j.inffus.2021.06.008 [3] 朱浩然, 刘云清, 张文颖. 基于对比度增强与多尺度边缘保持分解的红外与可见光图像融合[J]. 电子与信息学报, 2018, 40(6): 1294–1300. doi: 10.11999/JEIT170956ZHU Haoran, LIU Yunqing, and ZHANG Wenying. Infrared and visible image fusion based on contrast enhancement and multi-scale edge-preserving decomposition[J]. Journal of Electronics &Information Technology, 2018, 40(6): 1294–1300. doi: 10.11999/JEIT170956 [4] LIU Yu, CHEN Xun, WARD R K, et al. Image fusion with convolutional sparse representation[J]. IEEE Signal Processing Letters, 2016, 23(12): 1882–1886. doi: 10.1109/LSP.2016.2618776 [5] FU Zhizhong, WANG Xue, XU Jin, et al. Infrared and visible images fusion based on RPCA and NSCT[J]. Infrared Physics & Technology, 2016, 77: 114–123. doi: 10.1016/j.infrared.2016.05.012 [6] MA Jinlei, ZHOU Zhiqiang, WANG Bo, et al. Infrared and visible image fusion based on visual saliency map and weighted least square optimization[J]. Infrared Physics & Technology, 2017, 82: 8–17. doi: 10.1016/j.infrared.2017.02.005 [7] LI Hui, WU Xiaojun, and KITTLER J. Infrared and visible image fusion using a deep learning framework[C]. Proceedings of the 24th International Conference on Pattern Recognition, Beijing, China, 2018: 2705–2710. [8] ZHANG Hao, XU Han, XIAO Yang, et al. Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity[C]. Proceedings of the 34th AAAI Conference on Artificial Intelligence, New York, USA, 2020: 12797–12804. [9] LI Hui and WU Xiaojun. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614–2623. doi: 10.1109/TIP.2018.2887342 [10] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common objects in context[C]. Proceedings of the 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 740–755. [11] LI Hui, WU Xiaojun, and KITTLER J. RFN-Nest: An end-to-end residual fusion network for infrared and visible images[J]. Information Fusion, 2021, 73: 72–86. doi: 10.1016/j.inffus.2021.02.023 [12] MA Jiayi, YU Wei, LIANG Pengwei, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11–26. doi: 10.1016/j.inffus.2018.09.004 [13] MA Jiayi, ZHANG Hao, SHAO Zhenfeng, et al. GANMcC: A generative adversarial network with multiclassification constraints for infrared and visible image fusion[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 70: 5005014. doi: 10.1109/TIM.2020.3038013 [14] TAN Minjie, GAO Shaobing, XU Wenzheng, et al. Visible-infrared image fusion based on early visual information processing mechanisms[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(11): 4357–4369. doi: 10.1109/TCSVT.2020.3047935 [15] WAXMAN A M, GOVE A N, FAY D A, et al. Color night vision: Opponent processing in the fusion of visible and IR imagery[J]. Neural Networks, 1997, 10(1): 1–6. doi: 10.1016/S0893-6080(96)00057-3 [16] GOODALE M A and MILNER D A. Separate visual pathways for perception and action[J]. Trends in Neurosciences, 1992, 15(1): 20–25. doi: 10.1016/0166-2236(92)90344-8 [17] CHEN Ke, SONG Xuemei, and LI Chaoyi. Contrast-dependent variations in the excitatory classical receptive field and suppressive nonclassical receptive field of cat primary visual cortex[J]. Cerebral Cortex, 2013, 23(2): 283–292. doi: 10.1093/cercor/bhs012 [18] TANG Linfeng, YUAN Jiteng, ZHANG Hao, et al. PIAFusion: A progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83/84: 79–92. doi: 10.1016/j.inffus.2022.03.007 [19] ANGELUCCI A and SHUSHRUTH S. Beyond the classical receptive field: Surround modulation in primary visual cortex[M]. WERNER J S and CHALUPA L M. The New Visual Neurosciences. Cambridge: MIT Press, 2013: 425–444. [20] GAO Shaobing, YANG Kaifu, LI Chaoyi, et al. Color constancy using double-opponency[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(10): 1973–1985. doi: 10.1109/TPAMI.2015.2396053 [21] RONNEBERGER O, FISCHER P, and BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]. Proceedings of 18th International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, Germany, 2015: 234–241. [22] VINKER Y, HUBERMAN-SPIEGELGLAS I, and FATTAL R. Unpaired learning for high dynamic range image tone mapping[C]. Proceedings of 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 14637–14646. [23] TOET A. The TNO multiband image data collection[J]. Data in Brief, 2017, 15: 249–251. doi: 10.1016/j.dib.2017.09.038 [24] MA Jiayi, CHEN Chen, LI Chang, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]. Information Fusion, 2016, 31: 100–109. doi: 10.1016/j.inffus.2016.02.001 [25] WANG Di, LIU Jinyuan, FAN Xin, et al. Unsupervised misaligned infrared and visible image fusion via cross-modality image generation and registration[C]. Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence, Vienna, Austria, 2022: 3508–3515. 期刊类型引用(0)
其他类型引用(2)
-