Deep Network for Joint Multi-exposure Fusion and Image Deblur
-
摘要: 多曝光图像融合可提高图像的动态范围,从而获取高质量的图像。对于在像自动驾驶等快速运动场景中获得的模糊的长曝光图像,利用通用的图像融合方法将其直接与低曝光图像融合得到的图像质量并不高。目前暂缺乏对带有运动模糊的长曝光和短曝光图像的端到端融合方法。基于此,该文提出一种联合多曝光融合和图像去模糊的深度网络(DF-Net)端到端地解决带有运动模糊的长短曝光图像融合问题。该方法提出一种结合小波变换的残差模块用于构建编码器和解码器,其中设计单个编码器对短曝光图像进行特征提取,构建基于编码器和解码器的多级结构对带有模糊的长曝光图像进行特征提取,设计残差均值激励融合模块进行长短曝光特征的融合,最后通过解码器重建图像。由于缺少基准数据集,创建了基于数据集 SICE 的带有运动模糊的多曝光融合数据集,用于模型的训练与测试。最后,从定性和定量的角度将所设计的模型和方法和其他先进的图像去模糊和多曝光融合的分步优化方法进行了实验对比,验证了该文的模型和方法对带有运动模糊的多曝光图像融合的优越性。并在移动车辆上采集到的多曝光数据组上进行验证,结果显示了所提方法解决实际问题的有效性。Abstract: Multi-exposure image fusion is used to enhance the dynamic range of images, resulting in higher-quality outputs. However, for blurred long-exposure images captured in fast-motion scenes, such as autonomous driving, the image quality achieved by directly fusing them with low-exposure images using generalized fusion methods is often suboptimal. Currently, end-to-end fusion methods for combining long and short exposure images with motion blur are lacking. To address this issue, a Deblur Fusion Network (DF-Net) is proposed to solve the problem of fusing long and short exposure images with motion blur in an end-to-end manner. A residual module combined with wavelet transform is proposed for constructing the encoder and decoder, where a single encoder is designed for the feature extraction of short exposure images, a multilevel structure based on encoder and decoder is built for feature extraction of long exposure images with blurring, a residual mean excitation fusion module is designed for the fusion of the long and short exposure features, and finally the image is reconstructed by the decoder. Due to the lack of a benchmark dataset, a multi-exposure fusion dataset with motion blur based on the dataset SICE is created for model training and testing. Finally, the designed model and method are experimentally compared with other state-of-the-art step-by-step optimization methods for image deblurring and multi-exposure fusion from both qualitative and quantitative perspectives to verify the superiority of the model and method in this paper for multi-exposure image fusion with motion blur. The validation is also conducted on a multi-exposure dataset acquired from a moving vehicle, and the effectiveness of the proposed method in solving practical problems is demonstrated by the results.
-
Key words:
- Multi-exposure image fusion /
- Image deblurring /
- Wavelet transform /
- Feature fusion
-
1. 引言
多曝光图像融合可提高图像的动态范围,从而获取高质量的图像,在越来越多的领域得到了广泛的应用。在自动驾驶等快速运动场景下应用该技术去提升图像动态范围会因长时间曝光下捕获的图像变得模糊而出现新的问题。具体而言,短时间曝光下图像传感器能够捕捉到清晰且暗的低动态范围图像,长时间曝光下图像传感器能够捕捉到模糊且亮的低动态范围图像。因而需要同时处理模糊与低动态范围两个问题。多曝光融合与图像去模糊是解决这两种问题的常用方法。
多曝光图像融合的目的是融合多个不同曝光水平的低动态范围图像,生成具有高动态范围的图像。传统的多曝光融合算法可以分为基于空间域算法和基于变换域算法。基于空间域方法直接在空间域中进行融合,通过图像特征设计权重图以实现源图像的映射关系。Li等人[1]基于图像的局部对比度、亮度和颜色相似性3个特征构造权值图。变换域算法首先将图像变换到另一个域,然后在变换域中进行信息融合。最后通过逆变换得到融合图像。Mertens等人[2]提出了使用拉普拉斯金字塔分解法,将源图像进行多层分解,在每层中以对比度、曝光量和颜色饱和度计算权重图。由于卷积神经网络(Convolutional Neural Network, CNN)强大的建模能力,许多深度学习多曝光融合方法已经被提出。Zhang等人[3]提出了基于一种基于固有图像分解的多曝光融合网络,用于无监督生成类高动态范围图像。Li等人[4]提出一种端到端的协调网络,先将图像进行融合生成粗略的融合图像,再通过原始图像对生成图像的细节与颜色进行细化处理。
图像去模糊是指从一张运动模糊失真的图像中恢复出清晰图像。传统去模糊方法先估计点扩散函数,然后对模糊图像进行去卷积得到清晰图像。Kim等人[5]联合实现图像分割核图像去模糊任务,提出一种对非均匀模糊图像进行分割和去模糊的动态场景去模糊方法。近年来,端到端的深度神经网络开始逐步应用于动态场景图像的去模糊问题[6]。Tsai等人[7]提出一种高效的基于Transformer的图像去模糊算法。Chen等人[8]提出这篇文章提出了一个用于图像恢复的简单基线方法。
然而,现有的方法只能单独实现多曝光融合或图像去模糊。实验证明简单级联这两个任务会导致令人不满意的结果。因此为了联合实现多曝光融合和图像去模糊,在本文中设计了联合去模糊和多曝光融合的深度网络(Deblur Fusion Network, DF-Net)旨在充分利用多曝光融合和图像去模糊之间的交互和协作,通过融合带有模糊的长曝光图像和短曝光图像生成高质量图像。
2. 联合去模糊和多曝光融合深度网络(DF-Net)
DF-Net网络结构如图1所示。本网络是一个基于编码器-解码器架构的双分支网络,由编码器、解码器、残差均值激励融合模块(Residual Mean Excite Fusion Block, RMEFB)组成。编码器与解码器由小波残差模块、卷积模块、上采样模块堆叠形成,结构见2.1节。特征融合模块RMEFB是基于通道注意力和均值融合构建,结构见2.3节。网络运行中,短曝光图像输入L1通过编码器直接进行特征提取,带有模糊的长曝光图像输入H1通过3级结构边去模糊边提取特征,其中3级结构的第1级包含1个编码器、第2, 3级由编码器-解码器构成,每级输入都是通过将带有模糊的长曝光图像进行不重叠分割得到。1-2-4表示从第1级到第3级的输入图像块的数量,既第2级水平分割,第3级2×2分割。为了描述DF-Net网络运行过程,令Hi,j是第i级的第j个输入图像块。Fi和Gi是第i级的编码器和解码器,Ci,j是Hi,j的Fi的输出特征,Si是Gi的输出图像块。
DF-Net网络的执行过程分为两部分,首先,通过单个编码器对短曝光图像进行特征提取,将L1输入到编码器F0得到C0。其次,通过3级结构对带有运动模糊的长曝光图像进行特征提取,3级结构从第3级(H3所在级)开始执行。H1被分割成4个不重叠的补丁H3,j,j∈{1,2,3,4}并将其输入到编码器F3中,生成C3,j,j∈{1,2,3,4}。然后,连接相邻的特征,以获得一个新特征C∗3,j。它与第2级中的特征具有相同尺寸
C∗3,j=C3,2j−1\copyrightC3,2j,j∈{1,2} (1) 其中\copyright代表Concat操作。Concat后得到的特征C∗3,j输入到解码器G3得到图像块S3,j,j∈{1,2}。
接下来的运算将移至第2级(H2所在级)。编码器F2的输入是通过将S3,j与图像块H2,j相加形成的。然后将其与C∗3,j进行相加得到第2级的特征
C2,j=F2(H2,j+S3,j)+C∗3,j,j∈{1,2} (2) 将第2级的特征C2,j,j∈{1,2}进行Concat得到C∗2,然后通过解码器G2进行解码得到图像块S2。
在第1级(H1所在级)中,与第2级进行相似处理,得到带有运动模糊的长曝光图像特征C1
C1=F1(H1+S2)+C∗2 (3) 将短曝光图像特征C0和带有运动模糊的长曝光图像特征C1,输入到残差均值激励融合模块(RMEFB)中进行特征融合,进一步输入到解码器G1得到重建图像S
S=G1(RMEFB(C0,C1)) (4) 在训练过程中,DF-Net损失函数为
Tloss=losschar+0.01lossfft+0.05lossedge (5) 其中多个损失函数的系数选择,参考多阶段渐进式图像恢复架构(Multi-stage Progressive image Restoration architecture, MPRNet)[9]中的设计,各个函数的展开形式为
losschar=‖ (6) {\mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}}_{\mathrm{f}\mathrm{f}\mathrm{t}}={\parallel \mathcal{F}\mathcal{T}\left(\boldsymbol{R}\right)-\mathcal{F}\mathcal{T}\left(\boldsymbol{S}\right)\parallel }_{1} (7) {\text{loss}}_{\text{edge}}=\sqrt{\parallel {\Delta }\left(\boldsymbol{R}\right)-{\Delta }\left(\boldsymbol{S}\right){\parallel }^{2}+{\varepsilon }^{2}} (8) 其中, \mathcal{F}\mathcal{T} 为傅里叶变换, {\Delta } 为拉普拉斯变换,R为GT图、S为重建图像, \varepsilon 的取值为经验值0.001。3个损失函数分别从像素、频域、边缘细节角度去对生成图像进行有效的评估。
2.1 编码器与解码器
编码器与解码器如图2所示。其中编码器由6个小波残差模块、2个用于下采样的卷积和1个普通卷积所构成。解码器与编码器类似,只是将编码器中的2个下采样卷积换成2个上采样模块。解码器中上采样模块采取1×1卷积与像素重组(pixel shuttle)相结合实现。
2.2 小波残差模块
小波残差模块如图3所示。在基础的残差模块添加小波变换学习流提高残差模块对高频、低频信息的特征提取能力。在小波变换学习流中将输入特征 {\boldsymbol{F}}_{\mathrm{i}\mathrm{n}\mathrm{p}\mathrm{u}\mathrm{t}} 分为LL, LH, HL和HH 4个不同频带
\{{\boldsymbol{F}}_{\mathrm{L}\mathrm{L}},{\boldsymbol{F}}_{\mathrm{L}\mathrm{H}},{\boldsymbol{F}}_{\mathrm{H}\mathrm{L}},{\boldsymbol{F}}_{\mathrm{H}\mathrm{H}}\}=\mathrm{D}\mathrm{W}\mathrm{T}\left({\boldsymbol{F}}_{\mathrm{i}\mathrm{n}\mathrm{p}\mathrm{u}\mathrm{t}}\right) (9) 其中, \mathrm{D}\mathrm{W}\mathrm{T}(\cdot) 为离散小波变换。 {\boldsymbol{F}}_{\mathrm{L}\mathrm{L}},\,{\boldsymbol{F}}_{\mathrm{L}\mathrm{H}}, \, {\boldsymbol{F}}_{\mathrm{H}\mathrm{L}}, {\boldsymbol{F}}_{\mathrm{H}\mathrm{H}} 分别表示4个频率子带的特征。将每个频带的特征分别输入到一个1×1卷积层、ReLU层和1×1卷积层组成的简易网络中提取特征 {\boldsymbol{F}}_{\mathrm{L}\mathrm{L},\,\mathrm{r}},\,{\boldsymbol{F}}_{\mathrm{L}\mathrm{H},\mathrm{r}},\,{\boldsymbol{F}}_{\mathrm{H}\mathrm{L},\mathrm{r}}, {\boldsymbol{F}}_{\mathrm{H}\mathrm{H},\mathrm{r}} 。最终进行离散小波逆变换,并输入到一个3×3卷积中进行信息聚合
\begin{split} {\boldsymbol{F}}_{\text{out, wavelet}}= \;& {\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{3\times 3}\left(\mathrm{IDWT}\left({\boldsymbol{F}}_{\mathrm{L}\mathrm{L},\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{ }\mathrm{r}},{\boldsymbol{F}}_{\mathrm{L}\mathrm{H},\mathrm{r}},{\boldsymbol{F}}_{\mathrm{H}\mathrm{L},\mathrm{r}},\right.\right.\\ & \left.\left.{\boldsymbol{F}}_{\mathrm{H}\mathrm{H},\mathrm{r}}\right)\right) \end{split} (10) 其中, \mathrm{I}\mathrm{D}\mathrm{W}\mathrm{T}(\cdot) 表示离散小波逆变换, {\mathrm{C}\mathrm{o}\mathrm{n}\mathrm{v}}_{3\times 3} 代表3×3卷积。 {\boldsymbol{F}}_{\text{out, wavelet}\text{}} 表示在小波域下提取到的特征信息。在空间域中,将输入特征 {\boldsymbol{F}}_{\mathrm{i}\mathrm{n}\mathrm{p}\mathrm{u}\mathrm{t}} 送到一个3×3卷积层、ReLU层和3×3卷积层的网络中进行特征提取获得空间域特征 {\boldsymbol{F}}_{\text{out,space}} 。小波残差卷积模块中3×3卷积是由DO-Conv卷积实现。小波残差模块的输出
{\boldsymbol{F}}_{\mathrm{o}\mathrm{u}\mathrm{t}}={\boldsymbol{F}}_{\text{out, wavelet}}+{\boldsymbol{F}}_{\text{out, space}}+{\boldsymbol{F}}_{\text{input}} (11) 2.3 残差均值激励融合模块
残差均值激励融合模块如图4所示。受压缩和激励网络(Squeeue-and-Excitation Networks, SENet)[10]、文献[11]等基于注意力机制的特征融合方法的启发,提出了一种残差均值激励融合模块。该模块首先将长短曝光图像特征进行均值融合得到均值融合特征,然后将均值融合特征和低曝光图像特征分别输入到激励模块(Excitation)中进行特征提取,为每个分支分配一个调制权值 \lambda ,并应用于特征映射。最终与均值融合特征中进行融合。相较于均值融合,该模块在运行过程中更加重视短曝光图像特征,进一步降低了融合图像的模糊程度。具体操作如式(12)、式(13)所示
{\boldsymbol{X}}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}}=0.5\times ({\boldsymbol{X}}_{\mathrm{s}\mathrm{h}\mathrm{o}\mathrm{r}\mathrm{t}}+{\boldsymbol{X}}_{\mathrm{l}\mathrm{o}\mathrm{n}\mathrm{g}}) (12) {\boldsymbol{X}}_{\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}} = {\boldsymbol{X}}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}} + \lambda ({\boldsymbol{X}}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}}{E}({\boldsymbol{X}}_{\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n}}) + {\boldsymbol{X}}_{\mathrm{s}\mathrm{h}\mathrm{o}\mathrm{r}\mathrm{t}}{E}({\boldsymbol{X}}_{\mathrm{s}\mathrm{h}\mathrm{o}\mathrm{r}\mathrm{t}})) (13) 其中 ,{{\boldsymbol{X}}_{i}\in \mathbb{R}}^{C\times H\times W},i\in \{\mathrm{l}\mathrm{o}\mathrm{n}\mathrm{g},\mathrm{s}\mathrm{h}\mathrm{o}\mathrm{r}\mathrm{t},\mathrm{m}\mathrm{e}\mathrm{a}\mathrm{n},\mathrm{f}\mathrm{u}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}\} 是输入、中间态和输出的特征, {E}({\boldsymbol{X}}_{i}){\in \mathbb{R}}^{\mathrm{C}\times \mathrm{H}\times \mathrm{W}} 是激励模块,由一个由1×1卷积和sigmoid激活函数组成。λ是一个(未经训练)的参数,用于权衡激励模块的权值。
3. 实验
3.1 带有运动模糊的多曝光数据集
通在快速移动的物体中固定摄影设备去采集长短曝光图像并进行频域变换(长曝光快门速度为10、短曝光快门速度为3 000),如图5所示。带有运动模糊的长曝光图像的频域图上呈现近似均匀分布的波状条纹,因此在构造带有运动模糊的多曝光数据集时可通过对图像添加线性运动模糊,点扩散函数为
\mathrm{h}\mathrm{z}(x,y)=\left\{\begin{aligned} & 1/L,\sqrt{{x}^{2}+{y}^{2}}\le L\text{}\text{且}\text{}y/x=\mathrm{t}\mathrm{a}\mathrm{n}\theta \\ & 0,\quad \text{}\text{其他}\text{} \end{aligned}\right. (14) 其中,L为模糊尺度, \theta 为运动方向与x轴的正向夹角,x和y分别代表在x轴和y轴方向的模糊尺度。
如图6所示,可采用在原有清晰图像上加入线性运动模糊来拟合真实快速运动下的长曝光图像。带有运动模糊的多曝光数据集构造步骤如下:
步骤1 选择单张图像对比度增强(Single Image Contrast Enhancement, SICE)数据集作为原始数据集,其中训练集250对,测试集50对。
步骤2 对原始数据进行下采样并通过裁剪并调节成1 200×800的尺寸。
步骤3 模糊的生成。对高曝光图像添加角度 \mathrm{\theta } 为0~360°、模糊尺寸 L 均值为20。
生成的数据样本如图7所示。其中每个子图从左到右分别为带有运动模糊的长曝光图像、短曝光图像、真值(Ground True, GT)图。
3.2 实验设置
为了训练DF-Net网络,随机裁剪大小为256×256的图像块作为训练样本。在优化器上使用Adam优化器去训练DF-Net,其中epoch=1 000, batchsize=6、初始学习率为1×10–5,使用余弦退火策略,学习速率稳步降低到1×10–7。在图像块上随机应用水平和垂直翻转以进行数据增强。在测试中,选择了原始尺寸的图像进行测试。本方法的框架在 PyTorch 中实现。模型的训练和测试都是在 NVIDIA GeForce RTX 2080Ti GPU上进行的。模型的训练时间约为13 h。其中测试一对数据集所需时间为0.112 s。
所提方法是第1次尝试同时解决多曝光图像融合和图像去模糊的问题,因此很难找到一种直接方法与DF-Net进行比较。在本文中通过找到一些多曝光图像融合(Mulit-Exposure Fusion, MEF)和图像去模糊(Deblur)的最优方法,将其结合在一起,形成一种同时实现Deblur和MEF的方法。其中,Deblur方法包括深度多补丁分层网络(Deep stacked Hierarchical Multi-Patch Network, DMPHN)[12]、多输入多输出U型网络(Multi-Input Multi-Output U-Net, MIMO-UNet)[13]和深度残差傅里叶变换(Deep Residual Fourier Transformation, DeepRFT)[14],MEF方法包括深度感知增强网络(Deep Perceptual Enhancement network, DPE-MEF)[15]、通用图像融合框架(general Image Fusion framework, IFCNN)[16]、快速多曝光融合(fast Multi-Exposure image Fusion, MEFNet)[17]和统一的无监督网络(Unified Unsupervised image fusion network, U2fusion)[18]。比较的方法是通过将3种Deblur方法与4种MEF方法随机结合构建获得,通过执行Deblur+MEF和MEF+Deblur来调整Deblur和MEF的顺序。总共可以得到24种比较方法。由于这两个任务是串联的,在所提数据集上首先训练第1个任务,然后训练第2个任务。测试的部分图像如图8所示。
3.3 定量比较结果
本文使用两个指标来衡量DF-Net的有效性,包括峰值信噪比(Peak Signal-to-Noise Ratio, PSNR),结构相似性(Structure Similarity Index Measure, SSIM)。PSNR和SSIM是MEF和Deblur领域最为常用的两个指标。指标值越大、图像融合质量越高,越接近真实图像。表1和表2分别将DF-Net与其他先进的方法在带有模糊的多曝光数据集上进行比较。表1中其他先进的方法是先执行MEF后执行Deblur的结果,表2中其他先进的方法是先执行Deblur后执行MEF的结果。其中最好的结果用粗体显示,第2个最佳结果用下划线表示。在全部指标上,DF-Net都显著优于其他方法。在表1中,与次优的结果相比,DF在PSNR上提高了1.195 2,在SSIM上提高了0.011 8。在表2中,与次优的结果相比,DF-Net在PSNR上提高了1.524 7,在SSIM上提高了0.038 7。
表 1 DF-Net与Deblur+MEF策略下最优方法在PSNR和SSIM上的比较方法组合 DPE-MEF [15] IFCNN [16] MEFNet[17] U2fusion[18] PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM DMPHN [12] 18.012 0 0.822 6 19.470 0 0.813 5 16.630 0 0.746 0 18.075 9 0.700 9 MIMO-UNet [13] 18.138 9 0.835 7 19.803 2 0.835 5 17.026 8 0.774 8 18.269 2 0.716 1 DeepRFT [14] 19.052 9 0.912 8 20.517 4 0.906 0 18.154 6 0.870 8 18.760 7 0.752 9 DF-Net PSNR = 21.712 6 SSIM = 0.924 6 表 2 DF-Net与MEF+Deblur策略下最优方法在PSNR和SSIM上的比较方法组合 DPE-MEF [15] IFCNN[16] MEFNet[17] U2fusion[18] PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM DMPHN [12] 18.273 4 0.799 8 19.701 4 0.856 4 18.415 5 0.778 1 17.449 2 0.605 0 MIMO-UNet [13] 20.089 6 0.873 1 20.187 9 0.876 1 18.601 4 0.797 1 19.563 0 0.815 0 DeepRFT[14] 19.913 3 0.871 6 19.704 0 0.885 9 18.779 3 0.819 1 19.918 2 0.809 6 DF-Net PSNR = 21.712 6 SSIM = 0.924 6 通过对表1和表2的分析,这些组合方法都不能同时实现高PSNR, SSIM。可能的原因是分布优化过程影响了信息共享。此外,先图像去模糊策略相比于先多曝光融合策略取得了更好的结果。可能的原因是先进行多曝光融合会对带有运动模糊的长曝光图像信息进行筛选,忽略了一部分可以恢复的信息。相反,DF-Net将这两个任务作为一个整体来对待,并鼓励它们在网络中的交互和协作,从而可以同时提高图像去模糊和多曝光融合性能。
在算法复杂度方面的比较见表3。分别采取FLOPs和Params两个参数衡量时间复杂度与空间复杂度,单位分别为G和MB。其中,计算FLOPs时,所有模型的输入尺寸为256×256。DF-Net在两个数值上都取得较优的效果。
表 3 DF-Net在256p下与其他方法在FLOPs和Params上的比较3.4 定性比较结果
图9和图10分别展示了不同策略下带有模糊的多曝光融合图像的结果。从图9可以看出,DF-Net能够保持整体色彩,并去除塔尖、云彩等细节处的模糊。然而,比较的方法要么存在颜色失真、要么存在模糊细节。从图10也可以看到DF-Net可以很好地重建树叶表皮纹理和天空整体色调,不存在颜色和细节失真,然而其他方法不能够很好地重建图像。
3.5 真实数据验证
为了能够验证模型所具备的真实有效性与泛化性,通过onsemi AR0821 HDR sensor相机模组去捕捉真实的带有模糊的长短曝光图像。图11展示了真实带有模糊的多曝光数据及其融合图像。从图11可以看出,DF-Net能够保持长曝光图像的亮度以及实现车辆、树叶细节等细节处模糊的去除。
3.6 消融实验
本节设计了3个实验来研究所提小波残差模块、残差均值激励融合模块(RMEFB)对DF-Net网络性能的影响。分别设计实验1:将普通残差模块代替小波残差模块、均值融合代替残差均值激励融合模块;实验2:普通残差模块代替小波残差模块;实验3:均值融合代替残差均值激励融合模块。表4显示了各个模块对DF-Net性能的影响。从PSNR和SSIM性能指标可以看出DF-Net取得了最佳效果(粗体表示)。图12展示了多曝光图像融合的可视化比较结果,从图中的灯牌处理结果可以看出DF-Net模型效果最好,与GT图更为接近。
表 4 模块消融实验比较小波残差模块 RMEFB PSNR SSIM 实验1 × × 21.216 1 0.912 4 实验2 × √ 21.352 1 0.917 2 实验3 √ × 21.602 4 0.919 6 DF-Net √ √ 21.712 6 0.924 6 4. 结束语
本文基于对快速运动下多曝光图像成像分析,在SICE数据集的基础上创建了带有运动模糊的多曝光数据集。提出了一种联合多曝光融合和图像去模糊的深度网络(DF-Net)实现通过多曝光融合提高图像动态范围和图像去模糊提高图像质量。DF-Net采取单个编码器结构对短曝光图像进行特征提取,通过编码器和解码器构成的多级结构对带有模糊的长曝光图像进行特征提取,基于残差均值激励融合模块进行长短曝光特征的融合,通过解码器重建图像。实验证明了所提出的网络优于现有的去模糊与多曝光融合模型的组合,能够在去模糊的同时,提升图像质量。并在移动车辆上真实采集到的多曝光数据组上进行验证,结果显示了方法的有效性。
本文仅在静态MEF数据集对快速运动下长短曝光问题进行了探讨。实际的长短曝光融合过程中包含更多更复杂的现实情况,例如低曝光图像的噪声问题、长短曝光图像不对齐现象、曝光融合过程后的鬼影等更为复杂的情景。本文中提出的快速运动下长短曝光融合是一个值得探究的深度综合性问题。
-
表 1 DF-Net与Deblur+MEF策略下最优方法在PSNR和SSIM上的比较
方法组合 DPE-MEF [15] IFCNN [16] MEFNet[17] U2fusion[18] PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM DMPHN [12] 18.012 0 0.822 6 19.470 0 0.813 5 16.630 0 0.746 0 18.075 9 0.700 9 MIMO-UNet [13] 18.138 9 0.835 7 19.803 2 0.835 5 17.026 8 0.774 8 18.269 2 0.716 1 DeepRFT [14] 19.052 9 0.912 8 20.517 4 0.906 0 18.154 6 0.870 8 18.760 7 0.752 9 DF-Net PSNR = 21.712 6 SSIM = 0.924 6 表 2 DF-Net与MEF+Deblur策略下最优方法在PSNR和SSIM上的比较
方法组合 DPE-MEF [15] IFCNN[16] MEFNet[17] U2fusion[18] PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM DMPHN [12] 18.273 4 0.799 8 19.701 4 0.856 4 18.415 5 0.778 1 17.449 2 0.605 0 MIMO-UNet [13] 20.089 6 0.873 1 20.187 9 0.876 1 18.601 4 0.797 1 19.563 0 0.815 0 DeepRFT[14] 19.913 3 0.871 6 19.704 0 0.885 9 18.779 3 0.819 1 19.918 2 0.809 6 DF-Net PSNR = 21.712 6 SSIM = 0.924 6 表 3 DF-Net在256p下与其他方法在FLOPs和Params上的比较
表 4 模块消融实验比较
小波残差模块 RMEFB PSNR SSIM 实验1 × × 21.216 1 0.912 4 实验2 × √ 21.352 1 0.917 2 实验3 √ × 21.602 4 0.919 6 DF-Net √ √ 21.712 6 0.924 6 -
[1] LI Shutao and KANG Xudong. Fast multi-exposure image fusion with median filter and recursive filter[J]. IEEE Transactions on Consumer Electronics, 2012, 58(2): 626–632. doi: 10.1109/TCE.2012.6227469. [2] MERTENS T, KAUTZ J, and VAN REETH F. Exposure fusion[C]. The 15th Pacific Conference on Computer Graphics and Applications, Maui, USA, 2007: 382–390. doi: 10.1109/PG.2007.17. [3] ZHANG Hao and MA Jiayi. IID-MEF: A multi-exposure fusion network based on intrinsic image decomposition[J]. Information Fusion, 2023, 95: 326–340. doi: 10.1016/j.inffus.2023.02.031. [4] LI Jiawei, LIU Jinyuan, ZHOU Shihua, et al. Learning a coordinated network for detail-refinement multiexposure image fusion[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(2): 713–727. doi: 10.1109/TCSVT.2022.3202692. [5] KIM T H, AHN B, and LEE K M. Dynamic scene deblurring[C]. 2013 IEEE International Conference on Computer Vision, Sydney, Australia, 2013: 3160–3167. doi: 10.1109/ICCV.2013.392. [6] 杨爱萍, 李磊磊, 张兵, 等. 基于轻量化渐进式残差网络的图像快速去模糊[J]. 电子与信息学报, 2022, 44(5): 1674–1682. doi: 10.11999/JEIT210298.YANG Aiping, LI Leilei, ZHANG Bing, et al. Fast image deblurring based on the lightweight progressive residual network[J]. Journal of Electronics & Information Technology, 2022, 44(5): 1674–1682. doi: 10.11999/JEIT210298. [7] TSAI F J, PENG Y T, LIN Y Y, et al. Stripformer: Strip transformer for fast image deblurring[C]. The 17th European Conference on Computer Vision, Tel Aviv, Israel, 2022: 146–162. doi: 10.1007/978-3-031-19800-7_9. [8] CHEN Liangyu, CHU Xiaojie, ZHANG Xiangyu, et al. Simple baselines for image restoration[C]. The 17th European Conference on Computer Vision, Tel Aviv, Israel, 2022: 17–33. doi: 10.1007/978-3-031-20071-7_2. [9] ZAMIR S W, ARORA A, KHAN S, et al. Multi-stage progressive image restoration[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 14821–14831. doi: 10.1109/CVPR46437.2021.01458. [10] HU Jie, SHEN Li, and SUN Gang. Squeeze-and-excitation networks[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 7132–7141. doi: 10.1109/CVPR.2018.00745. [11] SODANO M, MAGISTRI F, GUADAGNINO T, et al. Robust double-encoder network for RGB-D panoptic segmentation[C]. 2023 IEEE International Conference on Robotics and Automation, London, UK, 2023: 4953–4959. doi: 10.1109/ICRA48891.2023.10160315. [12] ZHANG Hongguang, DAI Yuchao, LI Hongdong, et al. Deep stacked hierarchical multi-patch network for image deblurring[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 5978–5986. doi: 10.1109/CVPR.2019.00613. [13] CHO S J, JI S W, HONG J P, et al. Rethinking coarse-to-fine approach in single image deblurring[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 4641–4650. doi: 10.1109/ICCV48922.2021.00460. [14] MAO Xintian, LIU Yiming, LIU Fengze, et al. Intriguing findings of frequency selection for image deblurring[C]. Proceedings of the 37th AAAI Conference on Artificial Intelligence, Washington, USA, 2023: 1905–1913. doi: 10.1609/aaai.v37i2.25281. [15] HAN Dong, LI Liang, GUO Xiaojie, et al. Multi-exposure image fusion via deep perceptual enhancement[J]. Information Fusion, 2022, 79: 248–262. doi: 10.1016/j.inffus.2021.10.006. [16] ZHANG Yu, LIU Yu, SUN Peng, et al. IFCNN: A general image fusion framework based on convolutional neural network[J]. Information Fusion, 2020, 54: 99–118. doi: 10.1016/j.inffus.2019.07.011. [17] MA Kede, DUANMU Zhengfang, ZHU Hanwei, et al. Deep guided learning for fast multi-exposure image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 2808–2819. doi: 10.1109/TIP.2019.2952716. [18] XU Han, MA Jiayi, JIANG Junjun, et al. U2Fusion: A unified unsupervised image fusion network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 502–518. doi: 10.1109/TPAMI.2020.3012548. -