
Citation: | Mengxiao YIN, Zhenfeng LIN, Feng YANG. Adaptive Multi-scale Information Fusion Based on Dynamic Receptive Field for Image-to-image Translation[J]. Journal of Electronics & Information Technology, 2021, 43(8): 2386-2394. doi: 10.11999/JEIT200675 |
图像转换[1]的本质是条件图像生成,目标是将源图像转换成目标图像,如草图生成真实图[2]。由于源图像和目标图像之间存在很大差异,因此需要复杂的变化来完成转换。本文提出一种有效地完成不同类型图像之间转换的方法。
深度神经网络为图像生成提供了有效方法[3-5],其中深度卷积生成式对抗网络(Deep Convolutional Generative Adversarial Networks, DCGAN)[5]自动学习上下采样以避免信息丢失,提高生成图像质量。在图像转换方面,Pix2pix[1]基于DCGAN,增加编码器实现不同域图像的转换,同时以跳跃连接使编码器的特征绕过瓶颈层直接传至生成器,这些方式提高了Pix2pix对不同转换任务的兼容性以及生成图像质量。后续的研究工作更多关注损失函数的设计[6]、修改生成机制[7]和拓展生成目标[8-10]等,对生成器的研究较少,而生成器作为直接生成图像的部分有较大的探索空间。本文通过改进生成器结构提出选择性(卷积)核的生成式对抗网络(Selective Kernel Generative Adversarial Network, SK-GAN),避免引入额外的损失函数和超参数,获得高质量的生成图像。
Sun等人[11]提出空间金字塔注意力池(Spatial Pyramid Attentive Pooling, SPAP)模块,利用多级不同的感受野和像素级自适应特征选择从某一个上采样的特征中获取图像由粗到细的变化信息。SPAP在DCGAN[5]和循环生成式对抗网络(Cycle Generative Adversarial Networks, CycleGAN)[12]中发挥了良好性能,一定程度上提高了生成图像质量。本文针对上采样过程每层上采样特征,利用选择性(卷积)核模块(Selective Kernel Block, SKBlock)[13]中的动态感受野机制融合该特征的多尺度信息,这样不仅适应了特征尺度的变化,同时改善了传统生成器以固定感受野解码特征的形式。本文将SKBlock引入生成器,并尝试了不同的结合方式。
在诸如草图转换至真实图像等转换任务中,由引导图像指导的图像生成更具现实意义,该任务根据引导图像的信息生成指定的图像。如何有效利用引导图像的信息是处理此类任务的关键[10],文献[10]定义参数生成器(Parameter Generator, PG)和特征转换层(Feature Transformation, FT),通过两个编码器之间的双向特征传递实现源图像和引导图像的信息融合。该方式以特征的局部信息生成传递参数,避免全局一致的变化,然后通过仿射变换融合图像信息。本文结合PG和FT,基于SK-GAN在草图合成真实图像任务提出带引导图像的选择性(卷积)核的生成式对抗网络(Guided SK-GAN, GSK-GAN),该模型将引导图像信息传至生成器并由动态感受野获取对应的多尺度信息。此外,本文还提出双分支引导图像编码器,用于实现不同引导图像对应生成图像之间的插值。同时还以变分推断[3]学习引导图像的隐变量分布,使GSK-GAN在预测时能采样更多指导信息,实现多样化生成。实验表明,GSK-GAN不仅能够根据引导图像生成指定的图像,还能生成连续变化和引导图像信息之外的图像,同时保证图像质量。
本文主要贡献如下:
(1) 提出动态感受野的自适应多尺度信息融合的生成器结构,使用SKBlock根据上采样特征大小自适应调整感受野,获取特征多尺度信息,改进了传统生成器对特征多尺度信息的忽略和感受野的固定形式。基于此生成器提出图像转换模型SK-GAN。
(2) 基于SK-GAN在草图合成真实图像任务提出GSK-GAN,该模型将引导图像信息直接传至生成器,借助SKBlock获取对应多尺度信息,避免影响源图像编码,保证了图像质量,更利于模型的拓展。
(3) 在GSK-GAN中提出双分支引导图像编码器,通过权重控制每个分支信息的转换程度,实现不同引导图像对应生成图像之间的插值。同时使用额外的生成器,用于生成引导图像信息之外的图像。双分支引导图像编码器学习引导图像的隐变量分布,生成器从该分布中采样隐变量以获得更多指导信息。
本节简要介绍本文转换模型所密切相关的图像转换(image-to-image translation)、多分支卷积结构和多模态图像转换等工作。
图像生成模型主要包括变分自动编码器 [3](Variational AutoEncoder, VAE)和生成式对抗网络 [4](Generative Adversarial Networks, GAN)两种类型,其中GAN的对抗学习方式使生成图像更清晰且应用更广泛。图像转换模型以源图像为条件,利用编码器将源图像映射成潜在编码,生成器将潜在编码转换成对应目标图像。Isola等人[1]最早提出同时兼容图像着色、草图合成真实图像和图像补全等多种转换任务的图像转换模型。后续工作分别从增加损失函数[6]、修改生成机制[7]和拓展生成目标[8-10]等方面提升转换模型的处理能力,其中文献[9,10]以引导图像控制目标图像的生成,实现多模态图像转换。现有通用图像转换模型的改进缺少对生成器的关注,而生成器对图像质量的影响更直接。本文从生成器入手,改进图像转换模型,提高图像生成质量。
InceptionNets[14]将多分支卷积用于图像分类,以获取特征的多尺度信息。柳长源等人[15]使用类似的结构取得了较好的实验结果。在超分辨率方面,Li等人[16]提出基于残差块的多尺度残差模块 (Multi-Scale Residual Block, MSRB),该结构融合特征的多尺度信息,提高了重建图像的质量。选择性(卷积)核网络(Selective Kernel Network, SKNet)[13]利用两个不同感受野的分支,让网络自适应地从某一个分支中获取信息,增强了网络对目标的适应性。本文将SKNet中的SKBlock引入生成器,增强转换模型自适应调节和提取特征的能力。
传统转换模型仅以源图像为输入,只能产生确定的输出,但实际应用中常存在一对多的转换情况。Zhu等人[8]针对上述问题提出双向循环生成式对抗网络(Bidirectional cycle Generative Adversarial Networks, BicycleGAN),通过成对图像中目标图像的隐变量改变生成图像的样式,但预测时从正态分布中采样的隐变量无法获取指定样式,只能生成随机样式的图像。纹理生成式对抗网络(Texture Generative Adversarial Networks, TextureGAN)[9]以引导图像提供额外信息,通过风格迁移中常用的内容和样式损失函数将引导图像信息迁移至生成图像。文献[10]提出参数生成器和特征转换层,将引导图像信息的迁移过程加入转换模型,避免过多的损失函数使转换模型的训练变得复杂。以引导图像指导源图像的转换只能生成与引导图像相关的图像,限制了多样性生成。本文将使用隐变量和引导图像提供额外信息的方式结合,不仅能够获得指定的生成图像,还能通过隐变量产生更多不同的结果。此外,本文还提出双分支引导图像编码器,实现在已有的引导图像中编辑生成图像,进一步增强了转换模型的处理能力。
本文目标是将源图像
本文使用Pix2pix[1]结构实现SK-GAN,如图1所示,该模型主要包括编码器
生成器上采样阶段由多个转置卷积组成,如图2中模式1。本文在生成器中引入SKBlock,使生成器获得动态感受野机制。SKBlock的结构如图3(a)所示,提取和融合多尺度信息的步骤包括:(1)使用文献[13]中SKBlock感受野的设置,以
图2模式2和模式3分别展示不同的SKBlock与生成器的结合方式。模式2简单地将SKBlock加入每个上采样层之间,而模式3以残差模式将SKBlock与生成器结合。本文主要基于模式3进行实验,并在4.4.1节讨论每个模式的生成效果。
GSK-GAN基于SK-GAN并增加双分支引导图像编码器和额外的生成器,如图4所示,GSK-GAN包括源图像编码器
图4还展示了双分支引导图像编码器的结构,分支编码器
在引导图像信息融合方面,GSK-GAN基于SK-GAN中生成器的结构进行多级信息融合,如图5(b)所示,参数生成器利用引导图像编码器输出的特征生成转换参数,生成器中每个SKBlock前包含特征转换层,用于转换引导图像的信息,然后由SKBlock获取多尺度信息。相比文献[10]中编码器之间双向信息传递的方式(图5(a)),GSK-GAN将引导图像信息直接传递至生成器,避免了对源图像编码的影响,不仅有利于模型的拓展还减少了1/2参数生成器的使用,同时也保证了生成图像的质量。
本文沿用Pix2pix中的对抗损失函数和L1损失函数,其中对抗损失函数使用LSGAN[17]。优化的转换模型包括SK-GAN和GSK-GAN, GSK-GAN中还使用KL散度学习引导图像的隐变量分布。
SK-GAN的优化目标包括转换模型
L(TSK)=λ1LLSGAN(TSK)+λ2LL1(TSK) |
(1) |
L(DSK)=LLSGAN(DSK)=0.5(DSK(x,y)−1)2+0.5(DSK(x,TSK(x)))2 |
(2) |
其中,
GSK-GAN的优化目标包括转换模型
LLSGAN(GC,EC,EX)=0.5(DX(x,GX(EX(x),EC(c1,c2,ω)))−1)2 |
(3) |
LL1(GX)=‖GX(EX(x),EC(c1,c2,ω))−y‖1 |
(4) |
LKL(EC)=−DKL(qϕ(z|x)||p(z)) |
(5) |
其中,
LGSK(EC,EX,GC,GX)=λ1(LLSGAN(GX,EX,EC)+LLSGAN(GC,EX,EC))+λ2(LL1(GX)+LL1(GC))+λ3LKL(EC) |
(6) |
其中,
GSK-GAN中判别器
LLSGAN(DX)=0.5(DX(x,y)−1)2+0.5(DX(x,TGSK(x,c1,c1,ω)))2 |
(7) |
本节详细介绍实验使用的设备参数、生成图像的评价指标、与现有方法的对比结果和实验分析。
所有实验在NVIDIA Tesla V100 GPU上运行,训练过程中转换模型和判别器的学习率均为0.0002并使用beta1为0.5的Adam优化器。超参数
本文采用文献[7]所使用的结构相似性(Structural SIMilarity, SSIM)和峰值信噪比(Peak Signal to Noise Ratio, PSNR)来评价目标图像和生成图像的相似性,两者越相似,SSIM和PSNR的评分越高。此外,利用深度神经网络来评价生成图像质量也是常用的评价方法,该类评分包括弗雷歇Inception距离(Fréchet Inception Distance, FID)[18],学习的感知图像块相似性(Learned Perceptual Image Patch Similarity, LPIPS)[19]和全卷积网络评分(FCN Score, FCNS)[1]等。FID和LPIPS评分越低表示生成图像质量越高。FCNS以语义分割模型分割cityscapes[20]数据集的生成结果并计算相应的分割精确度,其值越高表明生成图像越接近目标图像。
实验内容包括模型SK-GAN和模型GSK-GAN的实验结果与分析,通过定性和定量的对比展示了SK-GAN和GSK-GAN的优势。
SK-GAN在草图合成真实图像和语义图像合成真实图像任务中进行实验对比,使用的数据集分别为Edges2handbags[1]和Edges2shoes[1], Facades[21]和Cityscapes[20]。图6和图7分别展示了SK-GAN在草图合成真实图像任务中与Pix2pix和判别区域对抗网络(Discriminative Region Proposal Adversarial Networks, DRPAN)定性对比结果、在语义图像合成真实图像任务中与Pix2pix定性对比结果,这些结果表明SK-GAN生成的图像伪影较少,细节较丰富。两种任务的定量对比分别如表1和表2,其中表2引用文献[7]的对比结果,包含级联优化网络(Cascaded Refinement Network, CRN)[22]的实验对比。本文方法对生成器的改善增强了图像特征的提取,在小样本数据中也能获得更多细节,保持较完整的图像结构,如图7中Facades数据集。此外,本文在Cityscapes数据集中获得更高的FCNS评分(表2),这表明SK-GAN的生成结构优于CRN和DPRAN。
本文使用TextureGAN[9]中的采样方式从目标图像中采样纹理来替换对应源图像中的信息作为引导图像,实验数据集为包含对象掩码的Edges2shoes[9]和Edges2handbags[9]。本文通过文献[10]提供的模型获取统一的纹理图像并随机计算10次生成结果,GSK-GAN中双分支引导图像编码器采用同一输入且
GSK-GAN中还包含双分支引导图像编码器和以隐变量获得多样性生成效果的生成器,本文在Edges2shoes数据集中展示这两部分生成图像的效果,分别如图9和图10所示,GSK-GAN能够利用已有的引导图像
此外,本文在融合源图像和纹理图像的过程中对纹理图像进行随机翻转,增强了模型对纹理图像的泛化。如图11,当引导图像纹理和目标图像不匹配时,GSK-GAN仍能够产生较为合理的生成图像。
本节分析SK-GAN的模型结构,包括SKBlock与生成器结合的方式、不同对抗损失函数和上采样过程不同感受野对转换模型的影响,以及GSK-GAN中引导图像信息融合方式对多样性生成的影响。
图2展示生成器的3种模式,其中模式1为常用结构,模式2和模式3为SKBlock和生成器结合的方式。每种模式在Facades数据集上的结果对比如表4所示,其中模式2和模式3相对模式1都有一定程度的提升,这表明SKBlock的加入有助于改善转换模型的生成器,从而提高图像的生成质量(模式2),而模式3的结合方式进一步提升了生成器的性能。模式1、模式2和模式3均使用LSGAN。在模式3中对比原始GAN和LSGAN对转换模型的影响,如表4所示,LSGAN在SSIM, PSNR和FID评分中都有一定程度提升,相比原始GAN, LSGAN对转换模型的优化使生成图像更接近真实图像。
SSIM | PSNR | FID | LPIPS | |
模式1 | 0.267 | 12.821 | 102.771 | 0.415 |
模式2 | 0.267 | 12.853 | 92.608 | 0.404 |
模式3 | 0.284 | 12.981 | 89.718 | 0.405 |
模式3 (GAN) | 0.262 | 12.568 | 97.828 | 0.399 |
在感受野分析方面,对卷积核为
SSIM | PSNR | FID | LPIPS | |
K13 | 0.276 | 12.961 | 100.532 | 0.398 |
K35 | 0.284 | 12.981 | 89.718 | 0.405 |
K57 | 0.268 | 13.007 | 98.132 | 0.400 |
为验证引导图像信息的融合方式对多样性生成的影响,本文的GSK-GAN使用单一输入的引导图像编码器,简化模型训练。编码器之间双向传递信息使源图像编码器包含引导图像信息,这相对隐变量对生成器
本文通过实验验证了SK-GAN以动态感受野获取生成器上采样过程中特征的多尺度信息有助于提高生成器的性能,从而获得高质量的生成图像。在GSK-GAN中,本文提出了双分支引导图像编码器和新的引导图像信息融合的方式,同时以隐变量提高转换模型的多样性生成能力。实验表明,GSK-GAN不仅实现了可控的图像生成,还能获得更多引导图像信息之外的多样性生成结果,且保证了图像质量。
[1] |
ISOLA P, ZHU Junyan, ZHOU Tinghui, et al. Image-to-image translation with conditional adversarial networks[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, USA, 2017: 5967–5976. doi: 10.1109/CVPR.2017.632.
|
[2] |
CHEN Wengling and HAYS J. SketchyGAN: Towards diverse and realistic sketch to image synthesis[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 9416–9425. doi: 10.1109/CVPR.2018.00981.
|
[3] |
KINGMA D P and WELLING M. Auto-encoding variational Bayes[EB/OL]. https://arxiv.org/abs/1312.6114, 2013.
|
[4] |
GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]. The 27th International Conference on Neural Information Processing Systems, Montreal, Canada, 2014: 2672–2680.
|
[5] |
RADFORD A, METZ L, and CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. https://arxiv.org/abs/1511.06434, 2015.
|
[6] |
SUNG T L and LEE H J. Image-to-image translation using identical-pair adversarial networks[J]. Applied Sciences, 2019, 9(13): 2668. doi: 10.3390/app9132668
|
[7] |
WANG Chao, ZHENG Haiyong, YU Zhibin, et al. Discriminative region proposal adversarial networks for high-quality image-to-image translation[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 796–812. doi: 10.1007/978-3-030-01246-5_47.
|
[8] |
ZHU Junyan, ZHANG R, PATHAK D, et al. Toward multimodal image-to-image translation[C]. The 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 465–476.
|
[9] |
XIAN Wenqi, SANGKLOY P, AGRAWAL V, et al. TextureGAN: Controlling deep image synthesis with texture patches[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 8456–8465. doi: 10.1109/CVPR.2018.00882.
|
[10] |
ALBAHAR B and HUANG Jiabin. Guided image-to-image translation with bi-directional feature transformation[C]. The 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 2019: 9015–9024. doi: 10.1109/ICCV.2019.00911.
|
[11] |
SUN Wei and WU Tianfu. Learning spatial pyramid attentive pooling in image synthesis and image-to-image translation[EB/OL]. https://arxiv.org/abs/1901.06322, 2019.
|
[12] |
ZHU Junyan, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017: 2242–2251. doi: 10.1109/ICCV.2017.244.
|
[13] |
LI Xiang, WANG Wenhai, HU Xiaolin, et al. Selective kernel networks[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, USA, 2019: 510–519. doi: 10.1109/CVPR.2019.00060.
|
[14] |
SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[EB/OL]. https://arxiv.org/abs/1602.07261, 2016.
|
[15] |
柳长源, 王琪, 毕晓君. 基于多通道多尺度卷积神经网络的单幅图像去雨方法[J]. 电子与信息学报, 2020, 42(9): 2285–2292. doi: 10.11999/JEIT190755
LIU Changyuan, WANG Qi, and BI Xiaojun. Research on Rain Removal Method for Single Image Based on Multi-channel and Multi-scale CNN[J]. Journal of Electronics &Information Technology, 2020, 42(9): 2285–2292. doi: 10.11999/JEIT190755
|
[16] |
LI Juncheng, FANG Faming, MEI Kangfu, et al. Multi-scale residual network for image super-resolution[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 527–542. doi: 10.1007/978-3-030-01237-3_32.
|
[17] |
MAO Xudong, LI Qing, XIE Haoran, et al. Least squares generative adversarial networks[C]. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017: 2813–2821. doi: 10.1109/ICCV.2017.304.
|
[18] |
HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. Gans trained by a two time-scale update rule converge to a local nash equilibrium[C]. The 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 6629–6640.
|
[19] |
ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 586–595. doi: 10.1109/CVPR.2018.00068.
|
[20] |
CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, USA, 2016: 3213–3223. doi: 10.1109/CVPR.2016.350.
|
[21] |
TYLEČEK R and ŠÁRA R. Spatial pattern templates for recognition of objects with regular structure[C]. The 35th German Conference on Pattern Recognition, Saarbrücken, Germany, 2013: 364–374. doi: 10.1007/978-3-642-40602-7_39.
|
[22] |
CHEN Qifeng and KOLTUN V. Photographic image synthesis with cascaded refinement networks[C]. 2017 IEEE International Conference on Computer Vision (ICCV), Venice, Italy, 2017: 1520–1529. doi: 10.1109/ICCV.2017.168.
|
1. | 裴丽,丁保钦,白冰,白博文,隋娟,王建帅,宁提纲. 基于集成光子储备池的时间序列任务预测(特邀). 红外与激光工程. 2024(10): 40-49 . ![]() | |
2. | 李锵,王旭,关欣. 一种结合三重注意力机制的双路径网络胸片疾病分类方法. 电子与信息学报. 2023(04): 1412-1425 . ![]() | |
3. | 杨洁. 一种轻量级阴影检测方法. 网络安全技术与应用. 2022(02): 43-44 . ![]() | |
4. | 高陈强 ,谢承娟 ,杨烽 ,赵悦 ,李鹏程 . 基于多尺度特征校准的图像协调化方法. 电子与信息学报. 2022(04): 1495-1502 . ![]() | |
5. | 李玮,高林,赵杰. 基于改进Cascade RCNN算法的电路板缺焊检测. 电子测量技术. 2022(06): 112-118 . ![]() | |
6. | 眭海刚,刘畅,干哲,江政杰,徐川. 多模态遥感图像匹配方法综述. 测绘学报. 2022(09): 1848-1861 . ![]() | |
7. | 刘泽西,张楠,连婷,郑江勇,张双帆. 基于数据融合的变电站电气设备安全运行一体化检测技术. 能源与环保. 2022(10): 51-55 . ![]() |
SSIM | PSNR | FID | LPIPS | |
模式1 | 0.267 | 12.821 | 102.771 | 0.415 |
模式2 | 0.267 | 12.853 | 92.608 | 0.404 |
模式3 | 0.284 | 12.981 | 89.718 | 0.405 |
模式3 (GAN) | 0.262 | 12.568 | 97.828 | 0.399 |
SSIM | PSNR | FID | LPIPS | |
K13 | 0.276 | 12.961 | 100.532 | 0.398 |
K35 | 0.284 | 12.981 | 89.718 | 0.405 |
K57 | 0.268 | 13.007 | 98.132 | 0.400 |