
Citation: | Yongmei REN, Jie YANG, Zhiqiang GUO, Hui CAO. Self-adaptive Entropy Weighted Decision Fusion Method for Ship Image Classification Based on Multi-scale Convolutional Neural Network[J]. Journal of Electronics & Information Technology, 2021, 43(5): 1424-1431. doi: 10.11999/JEIT200102 |
拍摄图像时,相机与物体的相对运动往往会造成图像模糊,严重影响图像在实际生活中的应用效果。图像去模糊作为一种改善图像质量的方式,广泛应用于医学图像、交通监控等领域。图像去模糊是图像处理中典型的病态反问题,旨在从模糊图像中恢复出相应的清晰图像。近年来,这项技术受到广泛的关注和研究,但由于现实场景中模糊核的复杂多变性,从真实模糊图像中恢复清晰图像仍具有挑战性。
图像去模糊过程可看作从解空间中寻找最优解的过程,传统方法利用不同的自然图像先验(如L0-范数梯度先验[1])约束解空间,通过最大后验估计模型的迭代寻找最优解。然而传统方法中采用的迭代优化方式计算繁琐,实时性差;且过于简单的模糊模型假设会导致模糊核的不准确估计,降低算法性能。近年来,随着深度学习的发展,卷积神经网络(Convolutional Neural Networks, CNN)广泛地应用于图像去模糊领域。根据图像块信息,Sun等人[2]利用CNN预测图像的局部模糊核,通过非盲解卷积去除非均匀运动模糊。Gong等人[3]利用全卷积网络估计模糊图像的运动场,从估计的运动场中恢复清晰图像。Nah等人[4]提出一种端到端(无核估计)的图像处理方法,该方法遵循由粗到精的思想,逐步恢复清晰图像。Kupyn等人[5]采用带有梯度惩罚和感知损失的Wasserstein GAN(Wasserstein Generative Adversarial Networks)去除运动模糊,恢复更多的纹理信息。Kupyn等人[6]进一步改进网络,将特征金字塔网络作为DeblurGAN-v2(Deblurring Generative Adversarial Networks Version 2)的核心构建块,此网络可与各种骨干网络配合使用,在性能和效率之间取得平衡。Tao等人[7]提出尺度递归的思想,利用不同尺度的图像共同训练网络,实现网络参数共享,运动去模糊效果显著。梁晓萍等人[8]利用头脑风暴优化算法自动搜寻BP(Back Propagation)神经网络更佳的初始权值和阈值,提升网络性能。
近期的研究主要从改进网络结构、引入多尺度和增大感受野等角度改善图像重建算法的性能。Tao等人[7]引入网络参数共享机制,在减少参数的同时获得更好的效果。Ronneberger等人[9]提出一种编-解码结构的网络(Unet网络),充分利用上下文信息,在图像语义分割中获得较好的性能。Nah等人[4]将多尺度应用到去模糊网络中,逐渐去除不同程度的模糊。Chen等人[10]将平滑的扩张卷积嵌入到网络中,在保持参数量不变的情况下,通过增大感受野提高区域性能,但随着网络深度的增加,扩张卷积仅考虑使用棋盘格模式对位置进行稀疏采样,从而导致部分信息丢失[11]。Jin等人[12]采用重采样卷积操作确保网络的第1层就具有大的感受野,但是随着图像尺寸的增加,网络的效率大幅降低,且没有增加图像特征的稀疏性。
受上述研究的启发,本文提出一种基于深度多级小波变换的图像盲去模糊算法,在小波域下学习模糊图像和清晰图像4个子带之间的映射关系,以端到端的方式实现动态场景去模糊。本文的工作如下:(1) 将小波变换嵌入到编码阶段以减少特征图的尺寸,确保网络具有大的感受野。在解码阶段采用小波逆变换,将低分辨率特征图上采样为高分辨率特征图,可有效地避免池化层造成的图像信息损失[11]。此外,图像在小波域中具有稀疏性,网络学习稀疏特征到稀疏特征的映射[13],可有效地提高网络的学习效率。(2) 利用多尺度扩张稠密块(Multi-scale Dilated Dense Block, MDDB),在保证参数不变的前提下提取图像的多尺度深层特征,同时通过稠密连接消除扩张卷积引起的网格伪影。引入的多尺度结构提高了网络对模糊程度的鲁棒性,使恢复的图像更加清晰。(3) 编-解码结构之间的跳跃连接通过增加信息流的传递来融合网络浅层和深层的特征。本文提出的特征融合块(Feature Fusion Block, FFB)引入了动态选择机制[14],允许每个神经元根据输入信息自适应地调整浅层特征与深层特征之间的比重,提高特征融合的有效性。(4) 图像在小波域与空间域具有不同的表示方式,与小波域相比,图像在空间域内含有更加精细的图像细节信息。为补充小波域忽略的图像细节信息,本文提出空间域重建模块(Spatial Domain Reconstruction Module, SDRM),在空间域内学习模糊图像与清晰图像之间的映射关系,进一步提高重构图像的质量。
本文的网络结构如图1所示,在该网络中,首先利用模块A在小波域中去除模糊图像中的模糊,小波系数的稀疏性可简化去模糊过程,同时通过增大感受野来提高大模糊核导致的运动模糊的鲁棒性;然后利用模块B在空间域重建图像,得到去模糊图像。
y=GB(GA(x;δA);δB) |
(1) |
其中,
本文采用MDDB提取图像的多尺度特征,同时进一步增大网络的感受野,提升网络性能。如图2所示,MDDB由一个卷积层和3个多尺度扩张块组成。卷积层减少特征图的通道数,多尺度扩张块提取图像的多尺度特征。每个多尺度扩张块利用4个大小不同的滤波器提取不同尺度的特征,采用级联操作融合多尺度信息,并使用大小为1×1的滤波器以解决特征级联引起的参数过多的问题。为减少网络的计算量,本文采用扩张率(
hn=f1×1(C(hn,1,hn,2,hn,3,hn,4);ξn),n=1,2,3 |
(2) |
其中,
fms=C(h0,h1,h2,h3) |
(3) |
其中,
编-解码结构中存在丰富的上下文信息,有效地融合这些信息可使网络产生更清晰的结果。若简单地采用特征图相加或级联操作融合编-解码的图像特征,会造成大量的信息冗余。最近的方法利用图像通道间[17]/空间[18]的相互依赖性自适应地校正通道/空间的特征响应,或引入动态选择机制提高网络的表征能力[14]。本文使用FFB在通道上动态选择编-解码的特征进行融合,减少信息冗余的同时提升网络性能。如图3所示,FFB分为融合和选择两个阶段。融合阶段采用特征图相加的方式简单地融合编码阶段的浅层特征和解码阶段的深层特征,然后利用平均池化获取融合特征的全局信息,并经过大小为1×1的卷积层在低维空间进行进一步的转换;选择阶段分别采用两个大小为1×1的卷积层学习编-解码阶段对应通道的权重
模块A是具有对称编-解码结构的小波域重建模块,编码阶段包括3个编码模块(Encoder Module, EM),每个EM均由卷积层和3个残差块[19]堆叠而成。EM中引入的小波变换将图像尺寸降为原来的1/4,利用卷积层改变特征图的通道数,通过残差块提取丰富且稀疏的图像特征。
Ei(xi;θi)=fres3(fres2(fres1(fc(DWT(xi);θ0,i);θ1,i);θ2,i);θ3,i),i=1,2,3 |
(4) |
其中,
fLL=[1111]fLH=[−11−11]fHL=[−1−111]fHH=[1−1−11]} |
(5) |
解码阶段包括3个解码模块(Decoder Module, DM), DM的结构与EM的完全对称。利用小波变换的可逆性,在增加图像分辨率的同时保留了图像的细节信息。
Dm(xm;ηm)=IDWT(fc(fres3(fres2(fres1(xm;η0,m);η1,m);η2,m);η3,m)),m=1,2,3 |
(6) |
其中,
e1=E1(x;θ1)e2=E2(e1;θ2)e3=E3(e2;θ3)fms=MDDB(e3;r)fd=D1(FFB1(e1,D2(FFB2(e2,D3(fms;η3);φ2);η2);φ1);η1)yA=fd+x} |
(7) |
其中,
模块B是一个空间域重建模块,在空间域学习图像特征,获取小波域忽略的更精细的图像细节信息。模块B由卷积层和残差块堆叠而成,首先通过卷积层提取图像的浅层特征,然后利用残差块提取更丰富的特征,最后通过卷积层在空间域重建去模糊图像。
y=fc(fres(fc(yA;δ1);δ2);δ3)+yA |
(8) |
其中,
本文采用的训练集是GoPro训练集[3],从GoPro训练集中随机选取图像,并随机裁剪成
值得注意的是,本文采用模块化训练方法获取网络模型,在保证其他模块参数不变的前提下,逐一训练网络的各个模块。首先在不添加多尺度扩张稠密块(MDDB),特征融合模块(FFB)和空间域重建模块(Spatial Domain Reconstruction Module, SDRM)的情况下训练网络其他模块,初始学习率为1e–4,当网络训练趋于稳定时调整学习率为5e–5,再次趋于稳定时调整学习率为5e–6;然后分别将MDDB, FFB和SDRM添加到网络中进行单独训练,训练周期为1300 epochs,初始学习率设置为1e–4,分别在400 epochs和900 epochs调整学习率为5e–5和5e–6;最后统一训练网络中的所有模块,微调网络参数,训练周期和学习率调整策略与多尺度模块的相同。
为说明算法的性能,本文与近年来提出的去模糊算法进行比较,如DeblurGAN-v2[6]、SRN[7]等,分别在GoPro测试集、DVD测试集进行测试,采用峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)和结构相似度(Structural SIMilarity index, SSIM)作为评价指标。GoPro测试集包含1111个模糊-清晰图像对,主要由相机的抖动和物体的运动造成,可以有效地模拟动态场景下真实的运动模糊。DVD测试集由多种设备(如iPhone6s, GoPro)收集,包括1496对模糊-清晰图像,所涉及的动态场景与GoPro测试集的不同。GoPro, DVD测试集上的实验对比结果分别如表1,表2,表3所示,GoPro测试集、DVD测试集、真实模糊图像上的视觉对比结果分别如图4,图5所示。
由表1,表2可以看出,与Tao等人[7]得到的结果相比,本文的PSNR提高1.13 dB, SSIM提高0.018,运行时间减少0.41 s。在重构图像的质量方面,本文算法明显优于其他算法;在算法的重构效率方面,本文算法同样优于其他算法(除Kupyn等人[6]提出的DeblurGAN-v2外)。由表3可以看出,本文算法在不同场景下具有更强的鲁棒性。
本文还在GoPro测试集、DVD测试集和真实的模糊图像上与各个算法进行视觉比较。在GoPro测试集上的视觉对比结果如图4所示,在大的非均匀运动模糊的情况下,本文算法在GoPro测试集上恢复出结果具有更加清晰的条纹和边缘,如在第2行和第6行的红色框中重建了清晰的脸部轮廓和数字形状,没有严重的颜色伪迹和图像失真。在DVD测试集和真实的模糊图像上的视觉对比结果如图5所示,相比于Tao等人[7]得到的去模糊图像,本文算法恢复的图像的局部模糊更少,颜色更加逼真,结构更加清晰。
为评价各个模块的有效性,本文在GoPro测试集上进行对比试验,采用W-MS, W-FF, W-SDR, W-C3和W-B这5个基准模型说明多尺度扩张稠密块(MDDB),特征融合模块(FFB)和空间域重建模块(SDRM)对网络性能的影响。W-MS, W-FF和W-SDR分别表示只包含MDDB, FFB和SDRM的网络模型,W-C3表示用3个卷积层代替MDDB的网络模型,其网络深度与W-MS的相同,W-B表示不引入3种模块的网络模型。各模块的对比结果如表4所示。
模型 | W-B | W-C3 | W-MS | W-FF | W-SDR | 本文 |
多尺度 | × | × | √ | × | × | √ |
特征融合 | × | × | × | √ | × | √ |
空间域图像重构 | × | × | × | × | √ | √ |
嵌入卷积 | × | √ | × | × | × | × |
PSNR | 30.98 | 31.02 | 31.10 | 31.09 | 31.13 | 31.39 |
SSIM | 0.949 | 0.949 | 0.950 | 0.950 | 0.950 | 0.952 |
由表4可得,在不引入MDDB, FFB和SDRM的情况下,PSNR可达到30.98 dB,这说明将小波变换嵌入到编-解码结构中可有效地提升网络的性能。其原因主要包括以下3个方面:⑴将小波变换嵌入到编-解码结构中会增大网络的感受野,可有效地利用图像的上下文信息产生边缘更加清晰的结果,同时小波变换的可逆性避免了图像信息的丢失。⑵图像在小波域具有稀疏性,利用小波变换进行下采样增强了图像特征的稀疏性,提高网络的学习能力。⑶小波变换在小波子带中提供的垂直、水平和对角线边缘信息,可用于学习图像的轮廓和细节特征。MDDB, FFB和SDRM的引入使平均PSNR分别提高0.12 dB, 0.11 dB和0.15 dB,平均SSIM均提高0.001,使网络获得高质量的重构图像。
本文分别采用整体训练和模块化训练的方式训练网络,对比了这两种训练方法对网络性能的影响。GoPro测试集上的定量结果如表5所示,相比于整体训练的网络,模块化训练的网络的PSNR提高0.34 dB, SSIM提高0.003。对于本文算法来说,模块化训练可以使网络各个模块分别达到最优以确保网络整体产生更好的结果,对网络的性能起到积极的推动作用。
训练方法 | 整体训练 | 模块化训练 |
PSNR | 31.05 | 31.39 |
SSIM | 0.949 | 0.952 |
本文提出一种基于深度多级小波变换的图像盲去模糊算法,通过正/逆小波变换实现上采样/下采样操作,在增大网络感受野的同时利用图像在小波域中的稀疏性,降低了映射的复杂程度。为了在小波域重建高质量图像,本文通过多尺度扩张稠密块引入多尺度结构,实现了多尺度深层特征的提取与重用。同时,本文还利用特征融合块自适应地选择编-解码的特征进行有效的特征融合。由于图像在小波域和空间域的表示方式存在差异,本文采用空间域重建模块融合这两种不同的特征表示以进一步提高重构图像的质量。在训练时,采用模块化训练的方式进一步提高网络的性能。GoPro测试集和DVD测试集上的实验结果表明,本文方法恢复的图像具有更好的视觉效果,并且在不同场景下具有更强的鲁棒性。
[1] |
ZHANG Erhu, WANG Kelu, and LIN Guangfeng. Classification of marine vessels with multi-feature structure fusion[J]. Applied Sciences, 2019, 9(10): 2153. doi: 10.3390/app9102153
|
[2] |
DONG Chao, LIU Jinghong, and XU Fang. Ship detection in optical remote sensing images based on saliency and a rotation-invariant descriptor[J]. Remote Sensing, 2018, 10(3): 400. doi: 10.3390/rs10030400
|
[3] |
吴映铮, 杨柳涛. 基于HOG和SVM的船舶图像分类算法[J]. 上海船舶运输科学研究所学报, 2019, 42(1): 58–64.
WU Yingzheng and YANG Liutao. Ship image classification by combined use of HOG and SVM[J]. Journal of Shanghai Ship and Shipping Research Institute, 2019, 42(1): 58–64.
|
[4] |
PARAMESWARAN S and RAINEY K. Vessel classification in overhead satellite imagery using weighted “bag of visual words”[C]. SPIE 9476, Automatic Target Recognition XXV, Baltimore, USA, 2015: 947609. doi: 10.1117/12.2177779.
|
[5] |
ARGUEDAS V F. Texture-based vessel classifier for electro-optical satellite imagery[C]. 2015 IEEE International Conference on Image Processing, Quebec City, Canada, 2015: 3866–3870. doi: 10.1109/ICIP.2015.7351529.
|
[6] |
王鑫, 李可, 宁晨, 等. 基于深度卷积神经网络和多核学习的遥感图像分类方法[J]. 电子与信息学报, 2019, 41(5): 1098–1105. doi: 10.11999/JEIT180628
WANG Xin, LI Ke, NING Chen, et al. Remote sensing image classification method based on deep convolution neural network and multi-kernel learning[J]. Journal of Electronics &Information Technology, 2019, 41(5): 1098–1105. doi: 10.11999/JEIT180628
|
[7] |
李健伟, 曲长文, 彭书娟, 等. 基于生成对抗网络和线上难例挖掘的SAR图像舰船目标检测[J]. 电子与信息学报, 2019, 41(1): 143–149. doi: 10.11999/JEIT180050
LI Jianwei, QU Changwen, PENG Shujuan, et al. Ship detection in SAR images based on generative adversarial network and online hard examples mining[J]. Journal of Electronics &Information Technology, 2019, 41(1): 143–149. doi: 10.11999/JEIT180050
|
[8] |
CHEN Yunfan, XIE Han, and SHIN H. Multi-layer fusion techniques using a CNN for multispectral pedestrian detection[J]. IET Computer Vision, 2018, 12(8): 1179–1187. doi: 10.1049/iet-cvi.2018.5315
|
[9] |
闫河, 王鹏, 董莺艳, 等. 一种CNN与ELM相结合的船舶分类识别方法[J]. 重庆理工大学学报: 自然科学, 2019, 33(1): 53–57. doi: 10.3969/j.issn.1674-8425(z).2019.01.008
YAN He, WANG Peng, DONG Yingyan, et al. A classification identification method of ships combining CNN and ELM[J]. Journal of Chongqing Institute of Technology:Natural Science, 2019, 33(1): 53–57. doi: 10.3969/j.issn.1674-8425(z).2019.01.008
|
[10] |
陈兴伟. 深度学习船舶分类技术研究[J]. 舰船科学技术, 2019, 41(7A): 142–144. doi: 10.3404/j.issn.1672-7649.2019.7A.048
CHEN Xingwei. Research on ship classification technology based on deep learning[J]. Ship Science and Technology, 2019, 41(7A): 142–144. doi: 10.3404/j.issn.1672-7649.2019.7A.048
|
[11] |
SHI Qiaoqiao, LI Wei, TAO Ran, et al. Ship classification based on multifeature ensemble with convolutional neural network[J]. Remote Sensing, 2019, 11(4): 419. doi: 10.3390/rs11040419
|
[12] |
BENTES C, VELOTTO D, and TINGS B. Ship classification in TerraSAR-X images with convolutional neural networks[J]. IEEE Journal of Oceanic Engineering, 2018, 43(1): 258–266. doi: 10.1109/JOE.2017.2767106
|
[13] |
杨亚东, 王晓峰, 潘静静. 改进CNN及其在船舶识别中的应用[J]. 计算机工程与设计, 2018, 39(10): 3228–3233. doi: 10.16208/j.issn1000-7024.2018.10.039
YANG Yadong, WANG Xiaofeng, and PAN Jingjing. Improved CNN and its application in ship identification[J]. Computer Engineering and Design, 2018, 39(10): 3228–3233. doi: 10.16208/j.issn1000-7024.2018.10.039
|
[14] |
LI Xiaobin, JIANG Bitao, SUN Tong, et al. Remote sensing scene classification based on decision-level fusion[C]. 2018 IEEE 4th Information Technology and Mechatronics Engineering Conference, Chongqing, China, 2018: 393–397. doi: 10.1109/ITOEC.2018.8740526.
|
[15] |
GENG Jie, JIANG Wen, and DENG Xinyang. Multi-scale deep feature learning network with bilateral filtering for SAR image classification[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 167: 201–213. doi: 10.1016/j.isprsjprs.2020.07.007
|
[16] |
李凯, 韩冰, 张景滔. 基于条件随机场与多尺度卷积神经网络的交通标志检测与识别[J]. 计算机应用, 2018, 38(S2): 270–275.
LI Kai, HAN Bing, and ZHANG Jingtao. Traffic sign detection and recognition based on conditional random field and multi-scale convolutional neural network[J]. Journal of Computer Applications, 2018, 38(S2): 270–275.
|
[17] |
REN Yongmei, YANG Jie, ZHANG Qingnian, et al. Multi-feature fusion with convolutional neural network for ship classification in optical images[J]. Applied Sciences, 2019, 9(20): 4209. doi: 10.3390/app9204209
|
[18] |
CHEN Wangcai, LIU Wenbo and LI Kaiyu. Rail crack recognition based on adaptive weighting multi-classifier fusion decision[J]. Measurement, 2018, 123: 102–114. doi: 10.1016/j.measurement.2018.03.059
|
[19] |
ZHANG M M, CHOI J, DANIILIDIS K, et al. VAIS: A dataset for recognizing maritime imagery in the visible and infrared spectrums[C]. The 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Boston, USA, 2015: 10–16. doi: 10.1109/CVPRW.2015.7301291.
|
[20] |
DING Jun, CHEN Bo, LIU Hongwei, et al. Convolutional neural network with data augmentation for SAR target recognition[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(3): 364–368. doi: 10.1109/LGRS.2015.2513754
|
[21] |
RAINEY K, REEDER J D, and CORELLI A G. Convolution neural networks for ship type recognition[C]. SPIE 9844, Automatic Target Recognition XXVI, Baltimore, USA, 2016: 984409. doi: 10.1117/12.2229366.
|
[22] |
LI Zhenzhen, ZHAO Baojun, TANG Linbo, et al. Ship classification based on convolutional neural networks[J]. The Journal of Engineering, 2019, 2019(21): 7343–7346. doi: 10.1049/joe.2019.0422
|
1. | 吴健华,张晓锋,陈亮. OVMD-MF算法用于漏电流光纤传感. 国防科技大学学报. 2025(01): 181-189 . ![]() | |
2. | 吴健华,张晓锋,陈亮. OVMD-ICA算法用于光纤电流传感器降噪. 光学学报. 2023(02): 43-52 . ![]() |
模型 | W-B | W-C3 | W-MS | W-FF | W-SDR | 本文 |
多尺度 | × | × | √ | × | × | √ |
特征融合 | × | × | × | √ | × | √ |
空间域图像重构 | × | × | × | × | √ | √ |
嵌入卷积 | × | √ | × | × | × | × |
PSNR | 30.98 | 31.02 | 31.10 | 31.09 | 31.13 | 31.39 |
SSIM | 0.949 | 0.949 | 0.950 | 0.950 | 0.950 | 0.952 |
训练方法 | 整体训练 | 模块化训练 |
PSNR | 31.05 | 31.39 |
SSIM | 0.949 | 0.952 |