Semi-supervised Image Dehazing Algorithm Based on Multi-prior Constraint and Consistency Regularization
-
摘要: 针对合成雾霾图像训练的去雾模型在真实场景中去雾效果不佳、对高层视觉任务性能提升不明显等问题,该文提出一种基于多先验约束和一致性正则的半监督图像去雾算法。该方法采用编码器-解码器网络结构,同时在合成雾霾图像与真实雾霾图像上学习去雾映射,并利用多种统计先验去雾结果作为真实雾霾图像参考真值进行半监督学习,同时通过多张真实雾霾图像的随机混合进行一致性正则约束,以消除多种先验去雾结果差异以及噪声干扰,提高图像去雾结果的视觉质量。实验对比结果表明,所提算法可比现有方法获得更好的真实场景去雾结果,并且能够显著提升高层视觉任务性能。Abstract: Previous dehazing models trained on synthetic hazy images can not generalize well on real hazy scenes and improve the performance of high-level vision tasks significantly. To resolve this issue, a semi-supervised image dehazing based on multi-priors constrain and output consistency regularization is proposed. The algorithm adopts the encoder and decoder network to train on the synthetic and real hazy images by sharing the parameters. Multi prior-based dehazed images are adopted as pseudo labels to constrain the real scene hazy images. Furthermore, to reduce the divergence of different prior-based methods, the dehazing results of the random mix-up real hazy images are regularized to be consistent with the corresponding mix-up of the prior-based dehazed images. Finally, the experiment results demonstrate the performance of the proposed algorithm compared with the state-of-the-art methods.
-
Key words:
- Image dehazing /
- Semi-supervised learning /
- Multi-priors /
- Consistency regulation
-
1. 引言
在雾、霾等恶劣天气条件下,视觉传感器产生的图像将出现模糊、对比度下降等明显退化现象,进而导致目标检测、语义分割等高层视觉任务性能严重下降[1]。因此,在智能交通、无人驾驶等诸多应用领域,图像去雾不仅要提高去雾图像的视觉质量,同时还需保证高层视觉任务模型在雾霾等恶劣环境中的性能[2]。
由于雾霾图像成像过程非常复杂,研究中常采用文献[3]提出的简化物理模型对雾霾图像形成进行描述。为估计该模型参数(大气透射率和全局光照)进而得到复原图像,许多研究提出利用统计先验如暗通道、颜色衰减以及颜色线等对模型中的透射率参数进行估计[4-6]。然而由于这些先验并不适用于所有场景,因而其去雾结果容易出现过度增强、伪影、颜色偏差等现象。近年来,大量基于深度学习的去雾算法被提出。文献[7]和文献[8]分别利用边缘约束的多尺度网络和结合先验设计的网络估计大气散射模型的透射率参数,取得了较好的去雾效果。但上述方法均采用传统方法估计场景光照信息,容易出现颜色漂移等问题。Zhang等人[9]同时利用两个神经网络分别估计透射率与大气光照参数,进而获得清晰图像。由于简化模型并不能完全描述复杂雾霾场景,因此该方法容易受参数估计噪声干扰,对真实雾霾场景适应性不高。
为解决上述问题,研究人员提出直接通过端到端网络学习将雾霾图像映射为清晰图像[10]。文献[11]和文献[12]分别提出基于多尺度boosting机制和基于注意力机制融合多尺度特征的去雾模型,可直接恢复清晰结果。然而,由于没有图像退化机理模型约束,上述方法不仅需要大量合成样本进行训练,并且容易出现过拟合现象,在真实雾霾场景中性能下降明显。Su等人[13]提出利用传统先验去雾结果引导条件生成对抗网络的去雾方法,进而提升合成样本训练模型在真实场景中的去雾效果。Li等人[14]提出了同时在合成与真实雾霾图像上训练的半监督去雾算法,结果表明该方法在真实场景具有较好的去雾性能。Shao等人[15]将真实雾霾与合成雾霾图像视作不同的域进行相互转化,提出了基于领域自适应的图像去雾算法。Chen等人[16]利用多种先验知识作为约束条件,对合成样本上训练的去雾模型进行迁移学习,有效提高了真实场景去雾结果的视觉质量以及高层视觉任务性能。
受上述方法启发,本文提出基于多先验约束和一致性正则的半监督图像去雾算法。与文献[14]不同,本文采用多种局部正确的先验去雾结果作为监督约束,能够更好地恢复出场景结构信息;与文献[15]不同,本文无需针对不同雾霾场景进行领域适应,并且取得更好的结果;与文献[16]不同,本文进一步利用多雾霾图像及多先验去雾随机增强对局部正确去雾结果进行一致性约束,较好地克服了先验去雾结果差异以及所含噪声的干扰,并且同样可以适应多种已有端到端的去雾网络结构。
2. 本文算法
2.1 算法原理
本文提出的基于多先验约束和一致性正则的半监督图像去雾算法,其总体框架如图1所示。
算法通过由编码器-残差变换块-解码器构成的去雾网络
${f_\theta }( \cdot )$ ,以参数共享的方式分别对合成雾霾图像$ \{ I_S^i,J_S^i\} _{i = 1}^{{N_S}} $ 以及真实场景雾霾图像样本$ \{ I_R^i,P_j^i\} _{i = 1,j = 1}^{{N_R},M} $ 进行训练,其中$ {N_S} $ ,$ {N_R} $ 分别表示合成雾霾图像与真实雾霾图像样本数量,$ M $ 表示先验去雾结果的数量。对于合成雾霾图像
$ I_S^i $ 利用参考真值图像$ J_S^i $ 进行监督学习得到清晰结果,即$ {f_\theta }(I_S^i) \to J_S^i $ ;而对于真实场景雾霾图像,本文采用多种先验去雾结果$ P_j^i $ 对网络的输出结果进行监督,使去雾网络能够适应真实雾霾场景并学习不同先验去雾结果的共性特点,以正确恢复其场景结构,即$ {f_\theta }(I_R^i) \to P_j^i $ 。为减少不同先验去雾结果的差异,本文通过多张雾霾图像随机剪裁混合,并利用对应的多先验去雾混合结果进行监督,确保网络能够对多种真实雾霾场景图像和多种先验去雾结果保持一致性输出,起到对先验去雾结果的正则化作用,即$ {f_\theta }(I_R^m) \to P_R^m $ 。在推理阶段,将雾霾图像输入去雾网络即可得到去雾清晰图像。2.2 去雾网络结构
在许多图像增强与复原研究中,编码器-解码器网络是最为常见的一种形式[17,18]。受文献[19]启发,本文在去雾网络结构设计上采用基本的编码器-残差-解码器结构,具体设计如表1所示。在编码器部分,有雾图像首先通过由一个卷积核大小为7,步长为1的卷积模块进行初始特征提取,然后再利用3个连续下采样卷积块(卷积核大小为4,步长为2)将图像特征分辨率减小为原来的1/8。为增强去雾网络的特征表征能力,本文采用连续16个残差块作为特征变换模块以学习雾霾特征与清晰图像特征之间的变换关系。解码器与编码器在结构上保持对称,在对解码器特征进行2倍上采样(除去最后一个卷积层)后通过跳连接与编码器特征相连,然后再通过两个3×3卷积对叠加特征进行处理,进而逐步恢复出清晰图像。
表 1 本文图像去雾网络结构详细设计表(数字表示图像序号)Conv1 Conv2 Conv3 Conv4 Res1-Res15 UpConv1 UpConv2 UpConv3 Conv5 输入 3 32 64 128 256 256 256 128 64 输出 32 64 128 256 256 128 64 32 3 卷积核大小 7 4 4 4 3 3 3 3 3 卷积步长 1 2 2 2 1 1 1 1 1 边界填充 3 1 1 1 1 1 1 1 1 2.3 合成雾霾图像去雾
通过合成雾霾图像能够学习雾霾图像与清晰图像之间的映射函数。以
$ {J_S} $ 表示真实场景清晰图像,$ {I_S} $ 表示合成雾霾图像,$ {f_\theta }( \cdot ) $ 表示去雾网络,则利用合成雾霾图像对$ {f_\theta }( \cdot ) $ 进行训练,可将输出结果与真实图像之间的偏差表示为$$ {\varDelta _S} = \varphi ({f_\theta }({I_S}),{J_S}) $$ (1) 其中,
$\varphi ( \cdot )$ 表示损失函数。常用的图像处理损失函数包括L1, L2损失,但这两种类型损失将每个像素视为独立变量,并没有充分考虑图像的局部相似性。因此,本文采用负结构相似性函数(Structural SIMilarity, SSIM)[20]作为损失函数,$ \varphi ( \cdot ) $ 可表示为式(2):$$ \varphi (p) = - \frac{1}{N}\sum\limits_{p \in P} {{\text{SSIM}}(\tilde P)} $$ (2) 其中,
$ N $ 表示图像总像素,$ {\text{SSIM}}(\tilde P) $ 表示区域$ P $ 的结构相似性指标,$ \tilde P $ 表示该区域的中心点。通过计算损失函数值,并将梯度反传进而对${f_\theta }( \cdot )$ 的参数$ \theta $ 进行更新。2.4 真实雾霾图像去雾
由于合成雾霾图像与真实雾霾图像之间存在较大差异,且真实雾霾图像缺乏像素级对应的参考真值,难以直接进行监督学习。为此本文引入多种先验去雾结果对真实场景进行监督,并通过多张真实雾霾图像随机混合与多先验混合输出的一致性对多种先验知识的差异与缺陷进行正则,以提高真实场景去雾效果。
2.4.1 多先验去雾结果监督
传统去雾方法虽然不适用于所有场景,但具有较好的泛化应用能力。如图2所示,传统先验去雾结果在一定程度上已经能够恢复出真实雾霾场景的结构信息,但不同先验知识的侧重点不同,其恢复结果也存在明显差异。
针对传统先验去雾结果的上述特点,本文提出利用多种先验知识去雾结果作为伪标签,进而对真实场景雾霾图像进行监督学习。由于利用先验去雾结果作为监督与视觉表征学习中的自训练过程类似,并且同时利用多种先验去雾结果对多个真实雾霾场景进行约束,可使去雾网络学习不同先验去雾方法的共性优势,提高对多种雾霾程度的场景适应性[23]。因此,本文首先利用上述方法对真实雾霾场景进行处理得到多种先验去雾结果,然后同时取两张真实场景雾霾图像及其对应的先验去雾结果,分别以
$ I_R^1 $ ,$ I_R^2 $ ,$ P_R^1 $ ,$ P_R^2 $ 表示进行训练,则去雾网络的输出结果与$ P_R^1 $ ,$ P_R^2 $ 的偏差可表示为$$ {\Delta _R} = \varphi ({f_\theta }(I_R^1),P_R^1) + \varphi ({f_\theta }(I_R^2),P_R^2) $$ (3) 由于传统先验去雾结果与真实雾霾图像是像素级对齐的,因此对于真实雾霾图像其损失函数
$ \varphi ( \cdot ) $ 仍然采用式(2)进行计算。2.4.2 混合雾霾图像一致性正则
对同一个雾霾场景,由于不同先验去雾方法对相同区域的处理效果存在明显差异(如图2中红色矩形框所示)。因此,为进一步增强网络的泛化能力,克服不同先验去雾方法存在的差异与共性不足,受文献[24]启发,本文将两张真实雾霾图像
$ I_R^1 $ ,$ I_R^2 $ 在空间尺度上按照式(4)进行随机拼接混合,其对应的先验去雾结果$ I_P^1 $ ,$ I_P^2 $ 按照相同的方式混合。$$ \left. \begin{gathered} I_R^m = I_R^1[:w,:h,:] + I_R^2[w:,h:,:] \\ P_R^m = P_R^1[:w,:h,:] + P_R^2[w:,h:,:] \\ w = {\text{uniform}}({w_1},{w_2}) \\ h = {{\rm{uniform}}} ({h_1},{h_2}) \\ \end{gathered} \right\} $$ (4) 式中,
$ {\text{uniform(}} \cdot {\text{)}} $ 表示均匀分布随机数生成函数,$ {w_1} $ ,$ {w_2} $ ,$ {h_1} $ ,$ {h_2} $ 分别表示图像剪裁的上下限值,$ I_R^m $ 和$ P_R^m $ 分别表示拼接混合后的真实雾霾图像及先验去雾结果。利用式(4)可在水平或垂直方向上对雾霾图像及其先验去雾结果进行融合。经过拼接之后的混合图像$ I_R^m $ 被送入到去雾网络中进行训练,而同样利用混合的先验去雾结果$ P_R^m $ 则作为监督图像。由于拼接图像存在明显的场景结构变化,因此训练过程中采用平滑L1损失[25]进行监督训练,如式(5)所示:$$ \varphi ({f}_{\theta }({I}_{R}^{m}),{P}_{R}^{m})=\left\{\begin{aligned} & 0.5\cdot {\left({f}_{\theta }({I}_{R}^{m})-{P}_{R}^{m}\right)^2},\\ &\quad \left|{f}_{\theta }({I}_{R}^{m})-{P}_{R}^{m}\right| < 1\\ & \left|{f}_{\theta }({I}_{R}^{m})-{P}_{R}^{m}\right|-0.5,\\ & \quad\left|{f}_{\theta }({I}_{R}^{m})-{P}_{R}^{m}\right| < -1或者\\ & \quad\left|{f}_{\theta }({I}_{R}^{m})-{P}_{R}^{m}\right| > 1 \end{aligned}\right. $$ (5) 2.5 总体损失函数
由于本文方法通过参数共享的方式,同时对合成样本与真实雾霾图像进行训练,因此网络训练时其总体损失函数包括合成样本的监督损失、真实雾霾图像的半监督损失以及一致性损失3部分,具体如式(6)所示。
$$ L = {\lambda _1}{L_S} + {\lambda _2}{L_R} + {\lambda _3}{L_C} $$ (6) 式中,
$ {\lambda _1} $ ,$ {\lambda _2} $ ,$ {\lambda _3} $ 分别表示损失权重,$ {L_S} $ ,$ {L_R} $ ,$ {L_C} $ 分别代表监督损失、半监督损失以及一致性损失。其中$ {L_S} $ ,$ {L_R} $ 采用式(2)计算损失值,而$ {L_C} $ 按照式(5)计算相应的损失值。3. 实验结果与分析
3.1 实验设置
为有效验证所提方法,本文从广泛使用的图像去雾训练数据集RESIDE[26]中随机抽取合成雾霾图像以及真实场景的雾霾图像对去雾网络进行训练。RESIDE数据集中包括了室内与室外的合成数据集(ITS和OTS)以及真实雾霾图像数据集(URHI),具体训练时本文分别从ITS和OTS中各抽取1000对合成样本,从URHI中抽取2000张真实雾霾图像。同时,对于真实雾霾图像以文献[21](简写为BDCP)和文献[22](简写为NLD)的两种先验去雾方法为例,对其进行去雾,从而得到4000对真实雾霾图像训练样本。
网络训练时采用Adam优化器进行优化,初始学习率为0.0002,每隔5轮训练进行线性衰减,总计训练30轮。每次训练时输入合成样本、真实样本以及混合真实样本,相当于样本批量大小为4。总体损失函数中的权重超参数
$ {\lambda _1} $ ,$ {\lambda _2} $ ,$ {\lambda _3} $ 根据经验分别设置为1, 0.4, 0.4。算法测试时,本文分别选取RESIDE中的SOTS、合成数据集HAZERD[27]、真实场景的IHAZE[28], OHAZE[29], BeDDE数据集[30]以及部分传统真实雾霾场景对图像去雾效果进行验证,并与现有代表性算法BDCP[21],NLD[22], MSBDN[12], SED[14], DAAD[15], PSD[16]进行对比分析。此外,为进一步验证图像去雾对高层视觉任务性能提升能力,本文还在RESIDE的RTTS数据集上进行目标检测任务性能测试。实验对比分析时,对图像去雾结果评价采用常见的SSIM, PSNR(Peak Signal to Noise Ratio)以及文献[30]提出的VI(Visibility Index),RI(Realness Index)指标进行分析,而目标检测任务则采用平均准确率(Average Precision, AP)和总体平均准确率(mean of Average Precision, mAP)指标进行结果对比。最后,在HAZERD和RTTS数据集上对算法的不同关键部件设计进行消融实验验证。
3.2 实验结果
3.2.1 图像去雾实验
(1)定性实验结果
图3和图4分别显示了本文算法在合成数据集及真实场景中与现有代表性算法的定性实验对比结果。
从图3可以看到传统先验去雾方法存在过度增强或去雾不充分的问题,如图3(a)中BDCP方法结果在地面出现明显的颜色偏差,而图3(b)中传统方法在柜子以及墙体等位置均出现了明显的颜色失真。基于深度学习的方法在大量数据驱动下能够较好地恢复室内图像如图3(a)和图3(b)中MSBDN和DAAD的处理结果。相比较于侧重解决真实雾霾场景的SED, PSD等方法,本文方法能够得到视觉质量更好的去雾图像。在室外场景的去雾结果中,传统方法能够更好地处理场景中远处雾霾比较严重的区域,但其去雾结果在色调和亮度等方面出现了明显偏差(如图3(c)和图3(d)所示)。MSBDN方法对场景中雾比较浓的区域复原效果不佳,存在明显的雾霾残留。引入真实雾霾图像作为训练样本SED, DAAD以及PSD方法具有一定的远景区域去雾能力,但其去雾结果仍然存在较多雾霾残留(如图3(d)所示)。相比之下,本文方法能够有效去除参考图像中存在的部分雾霾(如图3(c)所示),并且在亮度、色调等方面没有明显偏差。图3(e)和图3(f)展示了7种去雾方法在合成数据集HazeRD中的去雾结果。从结果中可以发现,传统方法能够适应多种雾霾场景,但其突出问题仍然是容易过度增强,如图3(f)中NLD去雾结果。如图3(e)所示,除了PSD方法外,本文方法与MSBDN, SED, DAAD方法均取得了较好的去雾效果(如场景中的草地部分,色差相对较小)。图3(f)中测试图像的雾霾程度比较严重,导致SED算法去雾结果存在明显的雾霾残留和伪影区域,本文方法与DAAD方法对高楼附近的雾霾区域具有一定的复原能力,能够提升其清晰度。综合对比分析,本文方法能够减少传统方法过度去雾的影响,并且能够泛化到不同合成场景。
图4为不同方法在真实场景中的图像去雾结果对比示意。从图中可以发现传统方法BDCP和NLD虽然能够恢复场景结构信息,但其去雾图像呈现明显的过度增强。如图4(a)—图4(f)所示,BDCP方法其去雾图像整体偏亮,而NLD方法的去雾结果则相对较暗。相比之下,MSBDN方法在真实场景中其去雾图像存在明显残留,如图4(b)中树林区域和图4(f)中远景区。SED方法利用了先验知识与真实场景数据进行训练,其去雾结果明显好于MSBDN。但如图4(a)、图4(b)所示,由于暗通道先验的约束会导致图像整体偏暗,在树林局部区域以及火车头附近其亮度存在明显区别,此外在图中还可以发现较多的雾霾残留。DAAD方法和PSD方法的去雾结果相对比较自然。与PSD方法相比,DAAD方法去雾相对比较彻底,但面对不同真实场景时,部分结果(如图4(c)和图4(d)所示)也出现了明显的颜色漂移。不同于上述方法,本文方法的去雾结果在视觉效果上更贴近于真实场景,去雾效果明显优于其他方法,说明本文方法能够较好克服局部正确先验去雾结果存在的不足与多种先验知识之间差异,并且能够较好地泛化到不同的真实雾霾场景。
(2)定量实验结果
为了进一步对所提算法性能进行验证,本文分别在合成数据集与真实场景雾霾图像数据集上进行了定量实验对比分析。表2为不同方法在合成与真实图像数据上的定量对比结果,其中所选择的评价指标值越大,说明去雾图像质量越好。
表 2 图像去雾定量实验结果对比(红色表示第1,绿色表示第2,蓝色表示第3)方法 数据集 SOTS(indoor) SOTS (outdoor) HAZERD IHAZE OHAZE BeDDE PSNR (dB) SSIM PSNR (dB) SSIM PSNR (dB) SSIM PSNR (dB) SSIM PSNR (dB) SSIM VI RI BDCP 14.871 0.7425 17.459 0.8186 13.018 0.7802 15.893 0.8064 15.475 0.7288 0.8970 0.9650 NLD 17.328 0.805 18.115 0.870 14.571 0.8001 12.630 0.628 16.080 0.722 0.8592 0.9583 MSBDN 31.569 0.9825 30.255 0.9630 14.758 0.7956 16.547 0.8062 18.353 0.6999 0.8401 0.9655 SED 22.234 0.9200 25.295 0.9420 16.132 0.8389 15.854 0.7542 18.522 0.7414 0.8814 0.9674 DAAD 25.685 0.9529 25.38 0.9109 17.016 0.8165 17.369 0.8256 18.887 0.7781 0.8835 0.9652 PSD 12.496 0.7177 15.578 0.8049 14.212 0.7712 12.545 0.7364 12.513 0.7090 0.8392 0.9640 本文方法 25.239 0.9584 24.841 0.9394 16.459 0.8456 16.818 0.8130 17.603 0.7999 0.8972 0.9659 从表2可以看到,在合成数据集SOTS上,总体性能最好的是深度学习算法MSBDN,本文方法排在第3位,与基于领域适应的DAAD方法和半监督方法SED基本相当。其主要原因在于MSBDN方法采用了大量成对合成样本进行训练,并且对网络结构进行精心设计,而本文方法只使用了2000对合成样本与4000对真实场景雾霾图像对常规的编码器与解码器网络进行优化训练。但在合成数据集HAZERD上,本文方法的SSIM指标最优,PSNR指标排名第2。与MSBDN, PSD, BDCP, NLD等方法相比,本文方法具有更好的泛化能力。对于IHAZE, OHAZE以及BeDDE等真实场景雾霾测试数据,本文方法同样在VI, SSIM等指标上优于MSBDN, PSD以及SED方法,与典型代表算法DAAD基本相当,但本文方法在VI以及SSIM指标上略微优于DAAD。上述定量分析结果进一步验证了本文方法对真实雾霾场景的有效性。
3.2.2 雾霾图像目标检测实验
本文在图像去雾视觉质量实验对比的基础上,进一步分析对比了7种去雾方法对雾霾图像目标检测任务性能的提升能力。参照文献[16]和文献[14],本文采用YOLO V3[31]作为目标检测器,在RTTS数据集上将7种去雾方法处理之后的图像送入目标检测器,并对人(person)、自行车(bicycle)、摩托车(motorbike)、小汽车(car)以及公交车(bus)5类目标的检测精度进行对比,其结果如表3所示。
表 3 雾霾图像目标检测实验结果对比(红色表示第1,绿色表示第2,蓝色表示第3)方法 目标类别 Person bicycle car motorbike bus All Gain AP AP AP AP AP mAP Hazy Image 81.76 65.76 75.06 63.13 37.59 64.46 – BDCP 82.23 63.92 72.99 58.41 43.38 64.19 –0.27 NLD 80.48 63.44 73.87 59.19 35.93 62.58 –1.88 MSBDN 83.00 65.47 75.66 61.55 38.48 64.83 +0.27 SED 82.43 65.59 75.81 61.92 38.99 64.94 +0.48 DAAD 81.45 64.27 76.34 61.87 40.74 64.93 +0.47 PSD 82.78 65.82 74.81 60.16 42.18 65.15 +0.69 本文方法 82.89 65.69 75.66 62.37 42.09 65.74 +1.28 从表3结果可以看到,传统方法对图像进行去雾之后,其目标检测结果准确率反而低于未进行去雾的检测结果,其可能原因是传统方法通常会过度增强雾霾图像,在提升视觉质量的同时也放大了噪声,甚至破坏了图像的局部空间结构。基于深度学习的去雾方法通常能够提升目标检测准确率,但从表3可以看到提升的比例并不高,单纯基于数据驱动的MSBDN方法仅能提升0.27%。在所有方法中,本文方法对目标检测准确率的提升最为明显,达到1.28%,PSD方法排名第2,能够提升0.69%。综合前文结果可以发现,虽然PSD方法的视觉质量定量指标不高,但对于目标检测任务却有较好提升,超过了DAAD与SED方法,说明对于高层视觉任务图像的视觉质量不一定是影响其性能的关键。
3.2.3 消融实验
为了充分说明设计提出方法的有效性,本文在BeDDE和RTTS两个真实数据集上分别对不同的变体方法进行图像增强以及雾霾场景目标检测消融实验分析。实验对比包括一个基准去雾网络和4类变体:(1)基准方法:利用表1的去雾网络作为基准进行监督学习,即不利用真实场景雾霾图像进行训练;(2)变体1:在基准方法基础上结合真实雾霾图像进行半监督学习,但不引入先验去雾结果,只是通过真实图像去雾随机拼接进行一致性约束;(3)变体2:在变体1的基础上,引入一种先验去雾结果(如文献[21])进行监督,同时保留一致性约束;(4)变体3:变体2的基础上将先验去雾方法替换为文献[22]的方法;(5)变体4:在变体3的基础上进一步引入两种先验去雾结果进行监督,不采用一致性正则;(6)按照本文所提方法进行训练。消融实验结果如表4所示。从表中结果可以看到,变体1能够提升去雾网络的泛化性能以及目标检测任务性能,表明加入真实场景雾霾图像进行一致性正则训练对去雾有益。变体2和变体3的实验结果表明,引入先验去雾图像作为监督标签后,对比原始先验去雾结果不论在图像视觉质量还是对于高层视觉任务提升上均有提高,说明结合数据学习与先验知识进行去雾能够取得更好的去雾效果。在此基础上,变体4的结果表明通过结合两种先验去雾方法能够进一步增强图像去雾性能,说明通过数据驱动能够自动从多种先验去雾结果学习其共性特征,从而更好地适应真实去雾场景。本文方法在变体4的基础上进一步利用一致性约束方式对两种先验之间的差异进行正则,增强了去雾模型训练的稳定性,并能够微弱提升去雾网络的性能。
表 4 消融实验结果对比数据集 指标名称 基准方法 变体1 变体2 变体3 变体4 本文方法 BeDDE VI 0.8788 0.8812 0.8854 0.8903 0.8935 0.8972 RI 0.9552 0.9589 0.9603 0.9615 0.9632 0.9659 RTTS mAP (%) 64.7 64.6 63.9 65.2 65.4 65.7 3.2.4 其他场景去雾霾测试
本文方法虽然在城市场景中进行训练,但对于其他图像退化场景如水下雾霾图像以及沙尘天气不加微调也能进行增强,得到视觉效果较好的清晰图像,其结果如图5所示[32]。从图5可以看到,本文方法能够较好地克服水下以及沙尘天气的退化图像导致的模糊、对比度下降等问题,但从结果中也可以看出,对于水下以及沙尘天气导致的颜色偏差,本文方法无法有效恢复出对应的清晰颜色。因此对于特殊的退化场景还需要针对性建模和训练,从而消除恶劣环境导致的颜色差异。
3.2.5 算法运行时间分析
本文通过统一的测试环境对5种基于深度学习的去雾方法的运行时间进行验证分析。测试采用SOTS 500张室内图像去雾,以其平均时间作为每种去雾方法的运行时间。测试对比结果如表5所示,从表中可以看到本文算法运行时间低于MSBDN, PSD以及DAAD 3种代表性算法,对于620×460大小的图片处理时间约为0.028 s,且本文所提算法性能与上述方法基本相当,因而从整体上看本文所提方法在实际应用中具有一定优势。
表 5 5种去雾方法运行时间对比(s)MSBDN SED DAAD PSD 本文方法 运行时间 0.075 0.012 0.049 0.043 0.028 4. 结论
本文以提升真实雾霾场景中的图像去雾及高层视觉任务性能为目标,提出了一种基于多先验约束和一致性正则的半监督图像去雾算法。本文方法的主要贡献如下:(1)提出利用去雾网络参数共享的方式分别对合成图像与真实雾霾图像进行训练,并通过多种先验去雾结果与一致性正则增强了网络对真实雾霾图像的去雾效果;(2)提出一种利用局部正确的多先验去雾结果半监督方法,通过数据驱动的方式自动学习多种先验去雾的共性优点,从而较好地恢复雾霾图像的结构信息,增强去雾模型在真实场景中的泛化能力;(3)提出一种基于随机混合增强的一致性正则方法,能够消除多种先验去雾结果的偏差以及去雾噪声的影响,提升图像去雾质量。实验结果表明,本文方法能够有效提高真实场景图像去雾视觉效果以及高层视觉任务性能,具有较强的泛化能力。后续还将进一步研究将图像去雾作为高层视觉任务的预处理步骤,其增强结果对高层视觉任务提升不明显的问题,以解决恶劣天气条件下通用视觉模型应用瓶颈。
-
表 1 本文图像去雾网络结构详细设计表(数字表示图像序号)
Conv1 Conv2 Conv3 Conv4 Res1-Res15 UpConv1 UpConv2 UpConv3 Conv5 输入 3 32 64 128 256 256 256 128 64 输出 32 64 128 256 256 128 64 32 3 卷积核大小 7 4 4 4 3 3 3 3 3 卷积步长 1 2 2 2 1 1 1 1 1 边界填充 3 1 1 1 1 1 1 1 1 表 2 图像去雾定量实验结果对比(红色表示第1,绿色表示第2,蓝色表示第3)
方法 数据集 SOTS(indoor) SOTS (outdoor) HAZERD IHAZE OHAZE BeDDE PSNR (dB) SSIM PSNR (dB) SSIM PSNR (dB) SSIM PSNR (dB) SSIM PSNR (dB) SSIM VI RI BDCP 14.871 0.7425 17.459 0.8186 13.018 0.7802 15.893 0.8064 15.475 0.7288 0.8970 0.9650 NLD 17.328 0.805 18.115 0.870 14.571 0.8001 12.630 0.628 16.080 0.722 0.8592 0.9583 MSBDN 31.569 0.9825 30.255 0.9630 14.758 0.7956 16.547 0.8062 18.353 0.6999 0.8401 0.9655 SED 22.234 0.9200 25.295 0.9420 16.132 0.8389 15.854 0.7542 18.522 0.7414 0.8814 0.9674 DAAD 25.685 0.9529 25.38 0.9109 17.016 0.8165 17.369 0.8256 18.887 0.7781 0.8835 0.9652 PSD 12.496 0.7177 15.578 0.8049 14.212 0.7712 12.545 0.7364 12.513 0.7090 0.8392 0.9640 本文方法 25.239 0.9584 24.841 0.9394 16.459 0.8456 16.818 0.8130 17.603 0.7999 0.8972 0.9659 表 3 雾霾图像目标检测实验结果对比(红色表示第1,绿色表示第2,蓝色表示第3)
方法 目标类别 Person bicycle car motorbike bus All Gain AP AP AP AP AP mAP Hazy Image 81.76 65.76 75.06 63.13 37.59 64.46 – BDCP 82.23 63.92 72.99 58.41 43.38 64.19 –0.27 NLD 80.48 63.44 73.87 59.19 35.93 62.58 –1.88 MSBDN 83.00 65.47 75.66 61.55 38.48 64.83 +0.27 SED 82.43 65.59 75.81 61.92 38.99 64.94 +0.48 DAAD 81.45 64.27 76.34 61.87 40.74 64.93 +0.47 PSD 82.78 65.82 74.81 60.16 42.18 65.15 +0.69 本文方法 82.89 65.69 75.66 62.37 42.09 65.74 +1.28 表 4 消融实验结果对比
数据集 指标名称 基准方法 变体1 变体2 变体3 变体4 本文方法 BeDDE VI 0.8788 0.8812 0.8854 0.8903 0.8935 0.8972 RI 0.9552 0.9589 0.9603 0.9615 0.9632 0.9659 RTTS mAP (%) 64.7 64.6 63.9 65.2 65.4 65.7 表 5 5种去雾方法运行时间对比(s)
MSBDN SED DAAD PSD 本文方法 运行时间 0.075 0.012 0.049 0.043 0.028 -
[1] 李红云, 施云, 高银. 基于显著性权重的多曝光融合的单幅雾天图像复原算法[J]. 电子与信息学报, 2022, 44(1): 261–270. doi: 10.11999/JEIT200931LI Hongyun, SHI Yun, and GAO Yin. Single image dehazing via saliency weighted multi-exposure fusion[J]. Journal of Electronics &Information Technology, 2022, 44(1): 261–270. doi: 10.11999/JEIT200931 [2] YANG Wenhan, YUAN Ye, and REN Wenqi, et al. Advancing image understanding in poor visibility environments: A collective benchmark study[J]. IEEE Transactions on Image Processing, 2020, 29: 5737–5752. doi: 10.1109/TIP.2020.2981922 [3] NAYAR S K and NARASIMHAN S G. Vision in bad weather[C]. Proceedings of the Seventh IEEE International Conference on Computer Vision, Kerkyra, Greece, 1999: 820–827. [4] HE Kaiming, SUN Jian, and TANG Xiaoou. Single image haze removal using dark channel prior[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(12): 2341–2353. doi: 10.1109/TPAMI.2010.168 [5] ZHU Qingsong, MAI Jiaming, and SHAO Ling. A fast single image haze removal algorithm using color attenuation prior[J]. IEEE Transactions on Image Processing, 2015, 24(11): 3522–3533. doi: 10.1109/TIP.2015.2446191 [6] FATTAL R. Dehazing using color-lines[J]. ACM Transactions on Graphics, 2014, 34(1): 13. doi: 10.1145/2651362 [7] REN Wenqi, PAN Jinshan, ZHANG Hua, et al. Single image dehazing via multi-scale convolutional neural networks with holistic edges[J]. International Journal of Computer Vision, 2020, 128(1): 240–259. doi: 10.1007/s11263-019-01235-8 [8] CAI Bolun, XU Xiangmin, JIA Kui, et al. DehazeNet: An end-to-end system for single image haze removal[J]. IEEE Transactions on Image Processing, 2016, 25(11): 5187–5198. doi: 10.1109/TIP.2016.2598681 [9] ZHANG He and PATEL V M. Densely connected pyramid dehazing network[C]. The 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 3194–3203. [10] LIU Xiaohong, MA Yongrui, SHI Zhihao, et al. GridDehazeNet: Attention-based multi-scale network for image dehazing[C]. IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 7313–7322. [11] QIN Xu, WANG Zhilin, BAI Yuanchao, et al. FFA-Net: Feature fusion attention network for single image dehazing[C]. 34th AAAI Conference on Artificial Intelligence, New York, USA, 2020: 11908–11915. [12] DONG Hang, PAN Jinshan, XIANG Lei, et al. Multi-scale boosted dehazing network with dense feature fusion[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, 2020: 2154–2164. [13] SU Yanzhao, CUI Zhigao, HE Chuan, et al. Prior guided conditional generative adversarial network for single image dehazing[J]. Neurocomputing, 2021, 423: 620–638. doi: 10.1016/j.neucom.2020.10.061 [14] LI Lerenhan, DONG Yunlong, REN Wenqi, et al. Semi-supervised image dehazing[J]. IEEE Transactions on Image Processing, 2020, 29: 2766–2779. doi: 10.1109/TIP.2019.2952690 [15] SHAO Yuanjie, LI Lerenhan, REN Wenqi, et al. Domain adaptation for image dehazing[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, 2020: 2805–2814. [16] CHEN Zeyuan, WANG Yangchao, YANG Yang, et al. PSD: Principled synthetic-to-real dehazing guided by physical priors[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 7176–7185. [17] 张世辉, 路佳琪, 宋丹丹, 等. 基于多尺度特征结合细节恢复的单幅图像去雾方法[J]. 电子与信息学报, 待发表.ZHANG Shihui, LU Jiaqi, SONG Dandan, et al. Single image dehazing method based on multi-scale features combined with detail recovery[J]. Journal of Electronics & Information Technology. To be published, [18] WANG Nian, CUI Zhigao, SU Yanzhao, et al. Multiscale supervision-guided context aggregation network for single image dehazing[J]. IEEE Signal Processing Letters, 2022, 29: 70–74. doi: 10.1109/LSP.2021.3125272 [19] MEI Kangfu, JIANG Aiwen, LI Juncheng, et al. Progressive feature fusion network for realistic image dehazing[C]. 14th Asian Conference on Computer Vision, Perth, Australia, 2019: 203–215. DOI: 10.1007/978-3-030-20887-5_13. [20] ZHAO Hang, GALLO O, FROSIO I, et al. Loss functions for image restoration with neural networks[J]. IEEE Transactions on Computational Imaging, 2017, 3(1): 47–57. doi: 10.1109/TCI.2016.2644865 [21] 卢辉斌, 赵燕芳, 赵永杰, 等. 基于亮通道和暗通道结合的图像去雾[J]. 光学学报, 2018, 38(11): 1115004. doi: 10.3788/AOS201838.111500LU Huibin, ZHAO Yanfang, ZHAO Yongjie, et al. Image defogging based on combination of image bright and dark channels[J]. Acta Optica Sinica, 2018, 38(11): 1115004. doi: 10.3788/AOS201838.111500 [22] BERMAN D, TREIBITZ T, and AVIDAN S. Non-local image dehazing[C]. The 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 1674–1682. [23] GHIASI G, ZOPH B, CUBUK E D, et al. Multi-task self-training for learning general representations[C]. IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 8836–8845. [24] YUN S, HAN D, CHUN S, et al. CutMix: Regularization strategy to train strong classifiers with localizable features[C]. IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 6022–6031. [25] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. doi: 10.1109/tpami.2016.2577031 [26] LI Boyi, REN Wenqi, FU Dengpan, et al. Benchmarking single-image dehazing and beyond[J]. IEEE Transactions on Image Processing, 2019, 28(1): 492–505. doi: 10.1109/TIP.2018.2867951 [27] ZHANG Yanfu, DING Li, and SHARMA G. HazeRD: An outdoor scene dataset and benchmark for single image dehazing[C]. 2017 IEEE International Conference on Image Processing (ICIP), Beijing, China, 2017: 3205–3209. [28] ANCUTI C, ANCUTI C O, TIMOFTE R, et al. I-HAZE: A dehazing benchmark with real hazy and haze-free indoor images[C]. The 19th International Conference on Advanced Concepts for Intelligent Vision Systems, Poitiers, France, 2018: 620–631. [29] ANCUTI C O, ANCUTI C, TIMOFTE R, et al. O-HAZE: A dehazing benchmark with real hazy and haze-free outdoor images[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Salt Lake City, USA, 2018: 867–875. [30] ZHAO Shiyu, ZHANG Lin, HUANG Shuaiyi, et al. Dehazing evaluation: Real-world benchmark datasets, criteria, and baselines[J]. IEEE Transactions on Image Processing, 2020, 29: 6947–6962. doi: 10.1109/TIP.2020.2995264 [31] REDMON J and FARHADI A. YOLOv3: An incremental improvement[EB/OL].https://doi.org/10.48550/arXiv.1804.02767, 2018. [32] LI Chongyi, GUO Chunle, REN Wenqi, et al. An underwater image enhancement benchmark dataset and beyond[J]. IEEE Transactions on Image Processing, 2020, 29: 4376–4389. doi: 10.1109/TIP.2019.2955241 期刊类型引用(0)
其他类型引用(5)
-