基于密集残差和质量评估引导的频率分离生成对抗超分辨率重构网络

韩玉兰; 崔玉杰; 罗轶宏; 兰朝凤

doi:10.11999/JEIT240388

基于密集残差和质量评估引导的频率分离生成对抗超分辨率重构网络

doi: 10.11999/JEIT240388

1.
哈尔滨理工大学测控技术与通信工程学院哈尔滨 150080
2.
哈尔滨理工大学模式识别与信息感知黑龙江省重点实验室哈尔滨 150080

基金项目: 国家自然科学基金(11804068)，黑龙江省省属高等学校基本科研业务(2020-KYYWF-0342)

详细信息

作者简介:
韩玉兰：女，讲师，研究方向为人工智能与计算机视觉、大数据分析与预测等

崔玉杰：女，硕士，研究方向为图像重构

罗轶宏：女，硕士，研究方向为图像重构

兰朝凤：女，副教授，研究方向为语音信号处理与分析、水下信号分析与处理等

通讯作者:
韩玉兰　hanyulan@hrbust.edu.cn

中图分类号: TN911.73; TP391
计量
- 文章访问数: 172
- HTML全文浏览量: 74
- PDF下载量: 31
- 被引次数: 0
出版历程
- 收稿日期: 2024-05-16
- 修回日期: 2024-11-09
- 网络出版日期: 2024-11-18
- 刊出日期: 2025-12-01

Frequency Separation Generative Adversarial Super-resolution Reconstruction Network Based on Dense Residual and Quality Assessment

1.
School of Measurement and Control Technology and Communication Engineering, Harbin University of Science and Technology, Harbin 150080, China
2.
Heilongjiang Province Key Laboratory of Pattern Recognition and Information Perception, Harbin University of Science and Technology, Harbin 150080, China

Funds: The National Natural Science Foundation of China (11804068), The Fundamental Research Funds for the Provincial Universities (2020-KYYWF-0342)

摘要

摘要: 生成对抗网络因其为盲超分辨率重构提供了新的思路而备受关注。针对现有方法未充分考虑图像退化过程中的低频保留特性而对高低频成分采用相同的处理方式，缺乏对频率细节有效利用，难以获得较好重构效果的问题，该文提出一种基于密集残差和质量评估引导的频率分离生成对抗超分辨率重构网络。该网络采用频率分离思想，对图像的高频和低频信息分开处理，从而提高高频信息捕捉能力，简化低频特征处理。该文对生成器中的基础块进行设计，将空间特征变换层融入密集宽激活残差中，增强深层特征表征能力的同时对局部信息差异化处理。此外，利用视觉几何组网络(VGG)设计了专门针对超分辨率重构图像的无参考质量评估网络，为重构网络提供全新的质量评估损失，进一步提高重构图像的视觉效果。实验结果表明，同当前先进的同类方法比，该方法在多个数据集上具有更佳的重构效果。由此表明，采用频率分离思想的生成对抗网络进行超分辨率重构，可以有效利用图像频率成分，提高重构效果。
- 超分辨率 /
- 生成对抗网络 /
- 频率分离 /
- 质量评估 /
- 密集残差
Abstract: With generative adversarial networks have attracted much attention because they provide new ideas for blind super-resolution reconstruction. Considering the problem that the existing methods do not fully consider the low-frequency retention characteristics during image degradation, but use the same processing method for high and low-frequency components, which lacks the effective use of frequency details and is difficult to obtain better reconstruction result, a frequency separation generative adversarial super-resolution reconstruction network based on dense residual and quality assessment is proposed. The idea of frequency separation is adopted by the network to process the high-frequency and low-frequency information of the image separately, so as to improve the ability of capturing high-frequency information and simplify the processing of low-frequency features. The base block in the generator is designed to integrate the spatial feature transformation layer into the dense wide activation residuals, which enhances the ability of deep feature representation while differentiating the local information. In addition, no-reference quality assessment network is designed specifically for super-resolution reconstructed images using Visual Geometry Group (VGG), which provides a new quality assessment loss for the reconstruction network and further improves the visual effect of reconstructed images. The experimental results show that the method has better reconstruction effect on multiple datasets than the current state-of-the-art similar methods. It is thus shown that super-resolution reconstruction using generative adversarial networks with the idea of frequency separation can effectively utilize the image frequency components and improve the reconstruction effect.
- Super-resolution /
- Generative adversarial network /
- Frequency separation /
- Quality assessment /
- Dense residual

HTML全文

1. 引言

高质量的道路场景深度图像对道路目标检测、车辆自主定位和建图等应用都是至关重要的^[1-3]。比如，Yang等人^[4]提出的3维道路车辆检测算法中就需要借助稠密且精确的深度图像来更好地确定车辆的3维边界。近年来，随着无人驾驶等研究和应用的快速发展，如何获取高质量的道路场景深度图像已经成为一个重要的研究课题。

目前深度图像的主要获取方式有飞行时间相机(Time Of Flight, TOF)、双目立体视觉和激光雷达(Light Detection And Ranging, LiDAR)。室外环境的光照变化与室内环境相比更加强烈，场景深度的变化范围更大，综合情况更加复杂，大多数深度传感器在室外场景中无法有效工作。比如， TOF深度传感器测量范围小，对光照敏感，在强光照的环境下会失去作用出现大量黑区，因此不合适道路场景的应用。双目立体视觉方法获得的视差图在无特征区域会有较多的信息缺失，且整个计算过程非常复杂耗时，在存在大量无纹理区域的道路场景中存在很大的局限性。激光雷达可以获得高精度深度图像，适合道路场景的应用，但是激光雷达得到的深度图像非常稀疏，缺失的深度信息带来了极大的不确定性，仍难以满足后续实际应用的需求。如何发掘场景稠密彩色图像和稀疏深度图像的内在约束关系，完成稀疏深度图像的高质量补全是目前的研究热点。

近年来，国内外研究人员利用卷积神经网络对稀疏深度图像补全进行了研究^[5-8]。Shivakumar等人^[9]提出了一种双支编解码结构的深度补全网络DFuseNet，通过设计两个编码网络分别学习彩色图像与稀疏深度图像的特征，但该方法只是将编码网络提取到的两种特征简单地进行相加输入到解码网络中，并没有考虑两个编码网络提取特征过程之间的联系，彩色图像的中间过程特征没有很好地利用到重建过程中。针对多模态特征融合的问题，Lee等人^[10]还提出了一种交叉引导的深度卷积神经网络结构CrossGuide，该方法使用两个编码网络分别提取稀疏深度图像和彩色图像的特征，将两个编码端的输出相加之后输入一个解码网络，CrossGuide在编码网络的不同阶段中加入了感知机制模块，用于多模态特征融合，该模块可以使网络通过学习两个分支中不同模态特征之间的权重来优化特征，起到了不同模态特征之间信息交互的作用。CrossGuide的交叉感知模块为多模态特征融合提供了一种思路，但仍存在一定的局限性：深度信息在编码的起始阶段由于过度稀疏，其自身并不能提供有效的感知信息，因此分配到高权重的特征可能并不是对当前任务有用的特征，导致CrossGuide的补全结果并不理想。Qiu等人^[11]将表面法向量作为深度信息与彩色图像的中间媒介，研究了激光雷达稀疏深度信息的补全，提出了一种端到端的深度补全网络DeepLiDAR，表面法向量为深度信息与彩色图像之间建立了一定的联系，然而计算的复杂度与特征分辨率有关，由于表面法向量的引入，在训练前首先需要额外准备作为输入的掩模图像和作为监督信号之一的表面法向量，其次在训练过程中网络需要额外预测表面法向量等特征图像，势必会导致网络整体的参数量非常巨大，造成训练的难度极高。根据实验的结果，DeepLiDAR的网络参数量为144 M，远超没有引入表面法向量的网络，庞大的参数量使得该算法在实际使用中受到一定的限制。

针对上述问题，本文设计了带有通道感知机制的多尺度多阶段引导策略来更好地建立彩色和深度两个不同模态特征之间的联系；提出了一种轻量化的带有通道随机混合功能的多尺度卷积模块，提升网络表征能力的同时控制网络的参数量；并构造了多阶段损失来约束网络学习映射关系。本文提出的算法参数量仅约为4 M，在保持轻量化的同时补全重建高质量的深度图像。本文主要的创新与贡献如下：

(1) 针对彩色图像与深度图像多模态特征的融合问题，本文设计了一种带有通道感知机制的多阶段多尺度引导融合策略，可以有效地利用彩色特征指导深度图像的补全。

(2) 针对深度补全算法网络复杂度较高的问题，本文提出了一种轻量化的带有通道随机混合功能的多尺度卷积模块，提升网络表征能力的同时控制网络的参数量。

(3) 在训练过程中，本文提出了一种分阶段多权重的训练策略，通过设置带权重的多阶段损失函数，完成对网络更好的优化，实现更高质量的深度图像补全重建。

2. 本文方法

2.1 多阶段多尺度引导结构

如图1所示，本文设计了一种新颖的多阶段多尺度引导的轻量化编解码网络，该补全网络由彩色图像引导重建分支和深度图像精细化补全分支构成。首先，将彩色图像作为先验信息与稀疏深度图像一起作为4通道图像输入彩色图像引导重建分支中，引导深度图像的稠密特征重建(第1阶段)；然后将彩色图像引导重建分支解码端中的4种分辨率特征分别拼接至深度图像精细化补全分支编码端对应分辨率的特征图像中，4种分辨率的稠密深度特征图像可作为引导特征，充分在精细化重建阶段中发挥引导作用(第2阶段)，达到多模态特征融合引导的作用。同时，为了提升网络的表征能力，在两个分支的编码端都使用了本文提出的带有通道随机混合的轻量化多尺度卷积模块，使用多个尺度的并行结构提升网络的表征能力，并使用1维卷积替代2维卷积来控制网络的参数量，达到轻量化的目的。并且，在两个分支的解码端中都加入本文提出的通道感知机制，可以在多个阶段多个尺度上聚焦到重要的引导特征上，提升深度图像精细化重建效果。在训练过程中，本文采用多损失函数的策略完成由粗到细的深度图像补全过程。本文设计的深度补全网络可以构造稀疏深度图像、稠密彩色图像和稠密深度图像3者之间的端到端映射关系，实现高质量的稠密道路深度图像补全。

图 1 本文深度图像补全网络框架

下载: 全尺寸图片幻灯片

2.2 带通道随机混合的多尺度卷积模块

本文设计的通道随机混合多尺度卷积模块如图2所示。首先将输入多尺度卷积模块的通道数拆分为大小相同的两个部分，分别输入两个不同尺度的分支中

图 2 本文设计的带通道随机混合模块的多尺度卷积模块结构

下载: 全尺寸图片幻灯片

${{\boldsymbol{F}}_3},{{\boldsymbol{F}}_5} = {\text{Spl}}({{\boldsymbol{X}}_{m - 1}})$

(1)

其中， ${{\boldsymbol{X}}_{m - 1}} \in {R^{B \times 2C \times H \times W}}$ ， ${{\boldsymbol{F}}_3} \in {R^{B \times C \times H \times W}}$ ， ${{\boldsymbol{F}}_5} \in {R^{B \times C \times H \times W}}$ 。在两个分支中，采用两个1维卷积去替代2维卷积来减少网络的参数量。

本文双分支多尺度卷积的流程为

$\left. \begin{gathered} {\boldsymbol{R}}_1{\text{ = }}\sigma (\omega _{3 \times 1}^1*{{\boldsymbol{F}}_3}) \\ {\boldsymbol{R}}_2{\text{ = }}\sigma (bn(\omega _{1 \times 3}^1*{\boldsymbol{R}}_1)) \\ {\boldsymbol{R}}_3{\text{ = }}\sigma (\omega _{3 \times 1}^2*{\boldsymbol{R}}_2){\text{ }} \\ {\boldsymbol{R}}_4{\text{ = dr}}(bn(\omega _{1 \times 3}^2*{\boldsymbol{R}}_3))) \\ \end{gathered} \right\}$

(2)

$\left. \begin{gathered} {\boldsymbol{P}}_1{\text{ = }}\sigma (\omega _{5 \times 1}^1*{{\boldsymbol{F}}_5}) \\ {\boldsymbol{P}}_2{\text{ = }}\sigma (bn(\omega _{1 \times 5}^1*{\boldsymbol{P}}_1)) \\ {\boldsymbol{P}}_3{\text{ = }}\sigma (\omega _{5 \times 1}^2*{\boldsymbol{P}}_2){\text{ }} \\ {\boldsymbol{P}}_4{\text{ = dr}}(bn(\omega _{1 \times 5}^2*{\boldsymbol{P}}_3))) \\ \end{gathered} \right\}$

(3)

${{\boldsymbol{F}}_{{\text{concat}}}}{\text{ = }}\sigma (\langle {\boldsymbol{R}}_{\text{4, }}{\boldsymbol{P}}_{\text{4}}\rangle )$

(4)

其中， $*$ 表示卷积运算， $\sigma ( \cdot )$ 表示ReLU激活函数， $\langle \cdot \rangle$ 表示特征拼接，dr表示dropout。在各自分支的终点，本文使用Dropout技术随机舍弃一部分神经元防止网络过拟合现象的发生，提升网络的泛化能力。最后将两个分支输出的特征图像沿通道的维度进行拼接。

将数据一分为二输入并行的两条支路，虽然通过不同尺度的卷积核可以得到更加多样性的特征，但是两个支路之间互不通信，容易产生边界效应，并导致部分特征信息的丢失。为了解决这个问题，本文增加了通道随机混合模块来增加各个通道间的相关性。通道随机混合过程如图2所示，将 ${{\boldsymbol{F}}_{{\text{con}}}} \in {R^{B \times 2C \times H \times W}}$ 输入通道随机混合模块之后，首先进行通道拆分，将4维特征升维变为5维特征 ${{\boldsymbol{F}}_{{\text{reg}}}} \in {R^{B \times G \times C//G \times H \times W}}$ ，之后将第2维与第3维交换位置，打乱特征得到 ${{\boldsymbol{F}}_{{\text{tr}}}} \in {R^{B \times C//G \times C \times H \times W}}$ ，最后将第2维与第3维随机合并得到输出 ${{\boldsymbol{X}}_m} \in {R^{B \times 2C \times H \times W}}$ 。经过通道随机混合模块之后，各个通道间的特征重新排列，可以有更多的关联性，防止边界效应发生的同时尽可能保留特征信息。

2.3 通道感知模块

注意力机制^[12-14]在目标识别等高级语义计算机视觉任务中大显身手，通过分辨不同通道的重要性，缩小兴趣范围，使网络可以专注于更重要的特征。但是图像增强、图像恢复等低级语义计算机视觉任务中，研究人员多数认为所有通道信息的重要性是平等的。在RCAN (Residual Channel Attention Network)^[15]中，作者认为不同通道的特征图像对最终超分辨率重建结果的贡献程度是不一样的，首次将通道感知的机制引入图像超分辨问题^[16]中，让网络不断地聚焦于重要的特征，提升了超分辨率重建的效果。受RCAN^[15]的启发，本文在低级语义的深度补全任务中引入通道感知机制的思想，提出了一种通道感知模块，如图3所示。

图 3 本文通道感知模块

下载: 全尺寸图片幻灯片

对于任意给定的特征图像 ${\boldsymbol{F}} \in {R^{B \times C \times H \times W}}$ ，首先经过两层带有归一化层的3×3卷积层，统一输入数据的分布

${{\boldsymbol{R}}_{\text{d}}}{\text{ = }}bn(\omega _{3 \times 3}^2 * (bn(\omega _{3 \times 3}^1 * {\boldsymbol{F}})))$

(5)

然后，沿着特征图像的长和宽维度分别进行最大值池化和平均值池化得到 ${\boldsymbol{F}}_{{\text{max}}}^{{\text{ch}}} \in {R^{B \times C \times 1 \times 1}}$ 和 ${\boldsymbol{F}}_{{\text{avg}}}^{{\text{ch}}} \in {R^{B \times C \times 1 \times 1}}$ ，并沿着通道维度拼接池化操作后的特征图像，得到空间压缩后的特征 ${\boldsymbol{F}}_{{\text{co}}}^{{\text{ch}}} \in {R^{B \times 2C \times 1 \times 1}}$

$\left. \begin{gathered} {\boldsymbol{F}}_{{\text{max}}}^{{\text{ch}}}{\text{ = MaxPool}}({{\boldsymbol{R}}_{\text{d}}}) \\ {\boldsymbol{F}}_{{\text{avg}}}^{{\text{ch}}}{\text{ = AvgPool}}({{\boldsymbol{R}}_{\text{d}}}) \\ {\boldsymbol{F}}_{{\text{co}}}^{{\text{ch}}}{\text{ = }}\langle {\boldsymbol{F}}_{{\text{max}}}^{{\text{ch}}},{\boldsymbol{F}}_{{\text{avg}}}^{{\text{ch}}}\rangle \\ \end{gathered} \right\}$

(6)

利用1×1卷积将 ${\boldsymbol{F}}_{{\text{co}}}^{{\text{ch}}} \in {R^{B \times 2C \times 1 \times 1}}$ 进行降维得到特征 ${\boldsymbol{F}}_{{\text{do}}}^{{\text{ch}}} \in {R^{B \times C \times 1 \times 1}}$ ，使通道维度的尺度与输入的特征保持一致

${\boldsymbol{F}}_{{\text{do}}}^{{\text{ch}}}{\text{ = }}\omega _{1 \times 1}^2*(\sigma (\omega _{1 \times 1}^1*{\boldsymbol{F}}_{{\text{co}}}^{{\text{ch}}})))$

(7)

最后，使用Sigmod激活函数对特征 ${\boldsymbol{F}}_{{\text{do}}}^{{\text{ch}}} \in {R^{B \times C \times 1 \times 1}}$ 进行非线性映射，得到最终的通道感知模块权重 ${{\boldsymbol{M}}_{{\text{ch}}}} \in {R^{B \times C \times 1 \times 1}}$ ， ${{\boldsymbol{M}}_{{\text{ch}}}}$ 是网络通过无监督的方式学习到的特征图像各个通道的重要性分布。将 ${{\boldsymbol{M}}_{{\text{ch}}}}$ 与最初的输入特征图 ${\boldsymbol{F}} \in {R^{B \times C \times H \times W}}$ 进行元素乘，即可赋予不同通道不同的权重。

${{\boldsymbol{M}}_{{\text{ch}}}}{\text{ = Sigmod}}({\boldsymbol{F}}_{{\text{do }}}^{{\text{ch}}})$

(8)

在训练过程中，通道感知模块可以无监督地筛选出对深度补全任务有用的特征图像，抑制相对不重要的特征图像，经过多次筛选之后可以提升有用特征的纯度。

编解码网络在解码端通过多次上采样解码得到目标结构。在基于编解码结构的深度补全网络中，编码端负责提取特征，补全的工作主要在解码端进行。因此在深度图像补全网络中本文的通道感知模块可以起到多阶段聚焦的作用：一是在彩色图像引导重建分支的解码端帮助网络筛选有用的特征融合进行深度图像精细化补全分支；二是在深度图像精细化补全分支中的解码端帮助网络挑选最终的有用特征进行精细化补全重建。

2.4 损失函数

为了充分发挥本文设计的多阶段补全结构的性能，本文利用真实的深度图像对两个阶段的网络分别进行监督训练，本算法鼓励每个阶段都输出各自的预测稠密深度图像，本文损失函数定义为

$\begin{split} L = & {\lambda _1}\frac{1}{N}\sum\limits_{i = 1}^N {{\text{||}}1_{\{ d = = 0\} }^{(s)} \cdot ({{\boldsymbol{D}}_i} - {{\tilde {\boldsymbol{D}}}}_i^{\text{c}})|{|^2}} \\ & + {\lambda _2}\frac{1}{N}\sum\limits_{i = 1}^N {{\text{||}}1_{\{ d = = 0\} }^{(s)} \cdot ({{\boldsymbol{D}}_i} - {{\tilde {\boldsymbol{D}}}}_i^{\text{d}})|{|^2}} {\text{ + }}\sum\limits_{j = 1}^T {\beta ||{\omega ^j}|{|^2}} \end{split}$

(9)

其中， ${{\tilde {\boldsymbol{D}}}}_i^{\text{c}}$ 和 ${{\tilde {\boldsymbol{D}}}}_i^{\text{d}}$ 分别为彩色图像引导重建分支和深度图像精细化补全分支输出的预测稠密深度图， ${\lambda _1}$ 和 ${\lambda _2}$ 为两分支损失函数的权重， $T$ 为训练的迭代次数，本算法使用 $L_2$ 正则化来约束模型参数，有效降低网络过拟合的风险，并将权重衰减超参数 $\beta$ 设为0.0001。由于在训练过程中，训练标签也并非稠密，只有标签中的有效值可以提供有效的监督误差，因此在计算误差的过程中仅计算预测的稠密深度图像与标签中的有效值的像素之间的误差，忽略标签中的缺失部分。

3. 实验结果分析

3.1 模型训练细节

本文采用了分阶段多权重的训练策略，使网络能够更好地收敛。在训练的前20个周期，本文将损失函数中的 ${\lambda _1}$ 和 ${\lambda _2}$ 分别设置为0.4和0.6；在21～50个训练周期，将 ${\lambda _1}$ 和 ${\lambda _2}$ 分别设置为0.1和0.9；在51个周期之后，将 ${\lambda _1}$ 和 ${\lambda _2}$ 分别设置为0和1。因为在训练的起始阶段，由于稀疏深度图像缺少稠密特征的引导需要充分发挥彩色图像的先验引导作用，因此利用彩色图像引导重建分支的损失函数来辅助训练；当学习到彩色图像的引导特征后，在训练的后期将训练重心移向深度图像精细化补全分支的损失函数。

本文选择的训练优化器为Adam，学习率的初始值设置为0.001，学习率的调整策略为每50个训练周期下降10倍，网络的整个训练周期为150个epoch。所有实验均在Nvidia GTX 1080Ti GPU上使用深度学习框架PyTorch实现。

3.2 数据集和评价标准

本文实验中使用的数据集是KITTI Depth Completion^[17]深度补全评估数据集。本文共使用了86898帧训练图像，1000帧验证图像，1000帧测试图像。数据集中的每一帧都包含了同场景下的稀疏深度图像和彩色图像，稀疏深度图像是使用Velodyne HDL-64E激光雷达采集得到。同时该数据集利用位姿关系融合了前后11个相邻帧的激光雷达稀疏深度信息生成半稠密深度图像，并将此作为训练集、验证集和测试集的标签。KITTI提供的原始稀疏深度图像分辨率为352×1216，有效深度像素为18400个点，约占总体的4.3%，半稠密深度的深度图像的平均有效深度像素约为13%。

本文使用均方根误差(Root Mean Square Error, RMSE)、平均绝对误差(Mean Absolute Error, MAE)、逆深度均方根误差(Inverse depth Root Mean Square Error, iRMSE)、逆深度均方误差(Inverse depth Mean Square Error, iMAE)和参数量(Params)作为评估指标。其中RMSE与MAE的单位均为毫米(mm)，iRMSE与iMAE的单位均为1/km，参数量的单位为兆(M)。

3.3 结果分析

在KITTI测试集上的定量实验结果如表1所示(粗体表示最优结果，下划线表示次优结果)，参与比较的方法有基于表面法向量约束的DeepLiDAR^[11]和PwP^[18]、基于感知机制的CrossGuide^[10]、基于置信图约束的NConv-CNN-L2^[19]和Conf-Net^[20]、基于编解码结构的CSPN^[21], DFine-Net^[22], SSGP^[23]和DFuse-Net^[9]以及基于无监督的Sparse-to-Dense(gd)^[8]。其中，基于表面法向量、置信图等信息辅助深度图像补全的方法取得了较好的效果，但是让网络去学习这些额外的信息大大增加网络复杂度。基于表面法向量约束的DeepLiDAR方法由于需要预测额外的表面法向量，因此整体网络相当复杂，在模型的参数量上是本文方法的近40倍。本文多阶段多尺度引导的深度补全网络在训练和推理的所有过程中，均不需要额外辅助信息，通过端到端的方式以轻量化的形式高效构建稀疏深度图像与稠密深度图像之间的映射关系，由表1可以看出本文方法在保证模型轻量化的同时在多项指标上均达到了最优。

表 1 基于KITTI 测试集的实验结果比较

方法	RMSE	MAE	iRMSE	iMAE	Params(M)
DFuse-Net	1206.66	429.93	3.62	1.79	4.66
CSPN	1019.64	279.46	2.93	1.15	256.08
Conf-Net	962.28	257.54	3.10	1.09	/
DFine-Net	943.89	304.17	3.21	1.39	/
Sparse-to-Dense(gd)	814.73	249.95	2.80	1.21	26.1
NConv-CNN-L2	829.98	233.26	2.60	1.03	/
SSGP	838.22	244.70	2.51	1.09	/
CrossGuide	807.42	253.98	2.73	1.33	30
PwP	777.05	235.17	2.23	1.13	/
DeepLiDAR	758.38	226.50	2.56	1.15	144
本文	767.29	225.94	2.18	1.00	4.05

下载: 导出CSV

| 显示表格

为了进一步展示本文多阶段多尺度引导深度补全算法的效果，图4给出了不同算法的视觉定性比较结果，可以看出本文算法相较于其他方法能更好地恢复出物体细节得到清晰可辨的物体结构，更好地区分前景与后景的边缘区域。比如，车辆轮廓的补全结果可以看到Sparse-to-Dense的补全结果呈现不连续的状态，颗粒状明显，CSPN的补全结果中只有车辆的大致轮廓，车辆的车窗和车门细节并没有恢复出来，本文的补全方法可以得到精细的物体细节，可以非常清楚地分辨车辆的轮廓和车窗。

图 4 KITTI数据集定性结果比较图例

下载: 全尺寸图片幻灯片

3.4 消融实验结果分析

为了分析本文网络中设计的各个模块对深度补全结果的影响，通过控制变量法开展消融实验来验证各模块的合理性，实验结果如表2所示。

表 2 基于KITTI验证集的消融实验结果比较

Case	彩色引导分支	精细补全分支	单损失函数	双损失函数	通道感知模块	多尺度卷积模块	RMSE	MAE
1	√		√				836.10	247.90
2		√	√				845.20	255.70
3	√	√	√				830.50	243.40
4	√	√		√			809.90	231.50
5	√	√	√		√		816.20	240.20
6	√	√		√	√		783.37	217.60
7	√	√		√	√	√	775.43	209.80

下载: 导出CSV

| 显示表格

3.4.1 多阶段多尺度引导结构

首先为了说明双分支引导结构的合理性，如表2的case1, case2和case3所示，本文进行了如下3个消融实验：case1为仅使用彩色引导分支；case2为仅使用精细化补全分支；case3为本文双分支结构(仅监督精细化补全分支的损失函数)。在实验结果中可以看出，case3的双支结构在RMSE和MAE指标上均好于case1和case2的单支结构，说明了本文设计的双支结构的有效性。同时case1的彩色引导4通道输入的补全结果好于case2的单通道稀疏深度输入的补全结果，也验证了稠密彩色图像可以为稀疏深度图像的补全提供先验引导信息。

3.4.2 双损失函数

本文双损失函数的设计是为了鼓励每个分支都输出各自的预测稠密深度图像，配合3.1节所述的分阶段多权重的训练策略，双支协同学习网络的深度补全映射关系。如表2的case3和case4所示，双损失函数的设计大大提升了深度补全网络的性能，在RMSE指标上下降了20.6 mm，MAE指标上下降了11.9 mm，表明了双损失函数确实可以约束网络更好地学习到深度补全的映射关系。

3.4.3 通道感知模块

本文设计的通道感知模块在网络中无监督地学习权重去衡量和评估特征的重要性，辅助特征融合来提高深度补全的效果。如表2所示，在case3和case5中，控制双分支网络+单损失函数的结构为不变量，通道感知模块为变量，加入通道感知模块后，RMSE和MAE指标下降了约1.7%和1.3%；在case4和case6中，控制双支网络+双损失函数的结构为不变量，通道感知模块为变量，在加入通道感知模块后RMSE和MAE指标下降了约3.2%和6.0%。

因此，通道感知模块可以有效地提升深度补全任务的效果。并且值得注意的是，通道感知机制在双损失函数的网络结构中，有着更大的提升效果，这是因为双损失函数可以有效地约束彩色引导分支生成更具引导作用的多尺度特征图像，感知机制也因此可以更好地发挥特征筛选的功能，从而实现高质量的深度补全。

3.4.4 多尺度卷积模块

为了验证本文多尺度卷积模块的合理性，设计了case6和case7消融实验，其中case7是加入多尺度卷积模块后本文网络的最终设计方案(注意，除case7之外所有消融实验中均使用等深度的3×3卷积层来替代本文的多尺度卷积模块)。本文设计的多尺度卷积模块可以提取更加多样性且兼顾多尺度需求的特征信息，同时本文多尺度卷积模块使用随机通道混合的机制增加了不同尺度的特征之间的关联性。如表2所示，在网络结构中加入了多尺度卷积模块，进一步提升了本文网络的深度图像补全效果。

3.5 运行时间

为了验证本文网络轻量化设计的效果，表3给出了不同深度补全网络在KITTI测试集上的推理时间比较，均采用Nvidia GTX 1080Ti GPU进行测试。对于各端到端的深度补全网络来说，网络的推理时间即深度图像补全所需的时间，如表3所示本文算法的补全时间仅为0.09 s，说明本文网络在保证高质量补全效果的同时实现了轻量化的设计，可以很好地满足实际应用的需求。

表 3 不同算法运行时间比较(s)

	CSPN	SSGP	CrossGuidence	PwP	本文
时间	1.0	0.14	0.2	0.1	0.09

下载: 导出CSV

| 显示表格

4. 结束语

本文设计了带有通道感知机制的多尺度多阶段引导策略来更好地建立彩色和深度两个不同模态特征之间的联系，充分发掘了彩色图像和深度图像的内在约束关系。本文设计了一种轻量化的带有通道随机混合功能的多尺度卷积模块，提升网络表征能力的同时控制网络的参数量，本文网络参数量仅约为4 M。同时本文构造了分阶段多权重损失的训练策略来约束网络学习映射关系，充分发挥本文设计的多阶段补全结构的性能，提升了深度图像的补全重建效果。

图 1 DR-QA-FSGAN网络总体结构

下载: 全尺寸图片幻灯片

图 2 生成器

下载: 全尺寸图片幻灯片

图 3 带SFT层的密集宽激活残差块DWRB

下载: 全尺寸图片幻灯片

图 4 质量评估网络

下载: 全尺寸图片幻灯片

图 5 不同方法在BSDS100数据集“69015”图像4倍超分辨率重构比较

下载: 全尺寸图片幻灯片

图 6 不同方法在自制数据集“02”图像4倍超分辨率重构比较

下载: 全尺寸图片幻灯片

图 7 不同滤波器在Set5数据集“baby”图像4倍超分辨率重构比较

下载: 全尺寸图片幻灯片

图 8 不同模块在Set5数据集“butterfly”图像4倍超分辨率重构比较

下载: 全尺寸图片幻灯片

图 9 不同损失函数在Set5数据集“bird”图像4倍超分辨率重构比较

下载: 全尺寸图片幻灯片

表 1 不同方法各数据集的PSNR (dB)和SSIM均值比较(×4)

算法	Set5		Set14		BSDS100		Manga109
算法	PSNR↑	SSIM↑	PSNR↑	SSIM↑	PSNR↑	SSIM↑	PSNR↑	SSIM↑
SRGAN^[11]	28.574	0.818	25.674	0.692	25.156	0.654	26.488	0.828
ESRGAN^[12]	30.438	0.852	26.278	0.699	25.323	0.651	28.245	0.859
SFTGAN^[14]	27.578	0.809	26.968	0.729	25.501	0.653	28.182	0.858
DSGAN^[17]	30.392	0.854	26.644	0.714	25.447	0.655	27.965	0.853
SRCGAN^[13]	28.068	0.789	26.071	0.696	25.659	0.657	25.295	0.796
FxSR^[15]	30.637	0.849	26.708	0.719	26.144	0.684	27.647	0.844
SROOE^[16]	30.862	0.866	27.231	0.731	26.195	0.687	27.852	0.849
WGSR^[19]	30.373	0.851	27.023	0.727	26.372	0.684	28.287	0.861
本文	30.904	0.872	27.715	0.749	26.838	0.701	28.312	0.867

下载: 导出CSV

表 2 自制数据集不同方法NIQE和FVSD平均值比较(×4)

算法	NIQE↓	FVSD↑
SRGAN^[11]	12.84	3.84
ESRGAN^[12]	8.62	6.46
SFTGAN^[14]	8.46	6.35
DSGAN^[17]	8.41	6.51
SRCGAN^[13]	10.21	4.25
FxSR^[15]	8.37	6.48
SROOE^[16]	8.19	6.49
WGSR^[19]	8.14	6.52
本文	8.11	6.54

下载: 导出CSV

表 3 不同滤波器重构效果的影响

滤波器	PSNR(dB)↑	SSIM↑
无	28.831	0.835
邻域平均	28.941	0.833
高斯差分	29.015	0.837

下载: 导出CSV

表 4 含有不同模块对应的PSNR (dB)和SSIM均值

分支结构	SFT层	质量评估网络	PSNR (dB)↑	SSIM↑
$\surd$	$\times$	$\times$	28.772	0.828
$\times$	$\surd$	$\times$	28.402	0.821
$\times$	$\times$	$\surd$	28.642	0.823
$\surd$	$\surd$	$\surd$	29.015	0.837

下载: 导出CSV

表 5 不同损失函数的影响

损失组合	颜色损失		多层感知损失	对抗损失		FVSD损失	PSNR (dB)↑	SSIM↑
损失组合	Lcol	Lcol-1	多层感知损失	Ladv	Ladv-1	FVSD损失	PSNR (dB)↑	SSIM↑
组合1	$\times$	$\surd$	$\surd$	$\times$	$\surd$	$\times$	28.352	0.818
组合2	$\times$	$\surd$	$\surd$	$\times$	$\surd$	$\surd$	28.831	0.835
组合3	$\surd$	$\times$	$\surd$	$\surd$	$\times$	$\times$	28.437	0.821
本文	$\surd$	$\times$	$\surd$	$\surd$	$\times$	$\surd$	29.015	0.837

下载: 导出CSV

表 6 重构时间与参数量的比较

算法	重构时间(ms)	参数量(MB)
SRGAN^[11]	0.0401	1.51
ESRGAN^[12]	0.1603	16.69
SFTGAN^[14]	0.0664	1.83
DSGAN^[17]	0.1723	16.69
SRCGAN^[13]	0.0096	0.38
FxSR^[15]	0.3541	18.30
SROOE^[16]	0.3880	70.20
WGSR^[19]	0.1806	16.69
本文	0.1568	9.62

下载: 导出CSV

参考文献(28)

[1]	蔡文郁, 张美燕, 吴岩, 等. 基于循环生成对抗网络的超分辨率重建算法研究[J]. 电子与信息学报, 2022, 44(1): 178–186. doi: 10.11999/JEIT201046. CAI Wenyu, ZHANG Meiyan, WU Yan, et al. Research on cyclic generation countermeasure network based super-resolution image reconstruction algorithm[J]. Journal of Electronics & Information Technology, 2022, 44(1): 178–186. doi: 10.11999/JEIT201046.
[2]	ZHOU Chaowei and XIONG Aimin. Fast image super-resolution using particle swarm optimization-based convolutional neural networks[J]. Sensors, 2023, 23(4): 1923. doi: 10.3390/s23041923.
[3]	WU Zhijian, LIU Wenhui, LI Jun, et al. SFHN: Spatial-frequency domain hybrid network for image super-resolution[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(11): 6459–6473. doi: 10.1109/TCSVT.2023.3271131.
[4]	程德强, 袁航, 钱建生, 等. 基于深层特征差异性网络的图像超分辨率算法[J]. 电子与信息学报, 2024, 46(3): 1033–1042. doi: 10.11999/JEIT230179. CHENG Deqiang, YUAN Hang, QIAN Jiansheng, et al. Image super-resolution algorithms based on deep feature differentiation network[J]. Journal of Electronics & Information Technology, 2024, 46(3): 1033–1042. doi: 10.11999/JEIT230179.
[5]	SAHARIA C, HO J, CHAN W, et al. Image super-resolution via iterative refinement[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(4): 4713–4726. doi: 10.1109/TPAMI.2022.3204461.
[6]	DONG Chao, LOY C C, HE Kaiming, et al. Learning a deep convolutional network for image super-resolution[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 184–199. doi: 10.1007/978-3-319-10593-2_13.
[7]	KIM J, LEE J K, and LEE K M. Accurate image super-resolution using very deep convolutional networks[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016. doi: 10.1109/CVPR.2016.182.
[8]	TONG Tong, LI Gen, LIU Xiejie, et al. Image super-resolution using dense skip connections[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 4809–4817. doi: 10.1109/ICCV.2017.514.
[9]	LAN Rushi, SUN Long, LIU Zhenbing, et al. MADNet: A fast and lightweight network for single-image super resolution[J]. IEEE Transactions on Cybernetics, 2021, 51(3): 1443–1453. doi: 10.1109/TCYB.2020.2970104.
[10]	WEI Pengxu, XIE Ziwei, LU Hannan, et al. Component divide-and-conquer for real-world image super-resolution[C]. The 16th Europe Conference on Computer Vision, Glasgow, UK, 2020: 101–117. doi: 10.1007/978-3-030-58598-3_7.
[11]	LEDIG C, THEIS L, HUSZÁR F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 105–114. doi: 10.1109/CVPR.2017.19.
[12]	WANG Xintao, YU Ke, WU Shixiang, et al. ESRGAN: Enhanced super-resolution generative adversarial networks[C]. The European Conference on Computer Vision, Munich, Germany, 2019: 63–79. doi: 10.1007/978-3-030-11021-5_5.
[13]	UMER R M, FORESTI G L, and MICHELONI C. Deep generative adversarial residual convolutional networks for real-world super-resolution[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Seattle, USA, 2020: 1769–1777. doi: 10.1109/CVPRW50498.2020.00227.
[14]	WANG Xintao, YU Ke, DONG Chao, et al. Recovering realistic texture in image super-resolution by deep spatial feature transform[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 606–615. doi: 10.1109/CVPR.2018.00070.
[15]	PARK S H, MOON Y S, and CHO N I. Flexible style image super-resolution using conditional objective[J]. IEEE Access, 2022, 10: 9774–9792. doi: 10.1109/ACCESS.2022.3144406.
[16]	PARK S H, MOON Y S, and CHO N I. Perception-oriented single image super-resolution using optimal objective estimation[C]. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 1725–1735. doi: 10.1109/CVPR52729.2023.00172.
[17]	FRITSCHE M, GU Shuhang, and TIMOFTE R. Frequency separation for real-world super-resolution[C]. 2019 IEEE/CVF International Conference on Computer Vision Workshop, Seoul, Korea (South), 2019: 3599–3608. doi: 10.1109/ICCVW.2019.00445.
[18]	PRAJAPATI K, CHUDASAMA V, PATEL H, et al. Direct unsupervised super-resolution using generative adversarial network (DUS-GAN) for real-world data[J]. IEEE Transactions on Image Processing, 2021, 30: 8251–8264. doi: 10.1109/TIP.2021.3113783.
[19]	KORKMAZ C, TEKALP A M, and DOGAN Z. Training generative image super-resolution models by wavelet-domain losses enables better control of artifacts[C]. 2014 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2024: 5926–5936. doi: 10.1109/CVPR52733.2024.00566.
[20]	MA Chao, YANG C Y, YANG Xiaokang, et al. Learning a no-reference quality metric for single-image super-resolution[J]. Computer Vision and Image Understanding, 2017, 158: 1–16. doi: 10.1016/j.cviu.2016.12.009.
[21]	RONNEBERGER O, FISCHER P, and BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]. The 18th International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, Germany, 2015: 234–241. doi: 10.1007/978-3-319-24574-4_28.
[22]	YANG Jianchao, WRIGHT J, HUANG T S, et al. Image super-resolution via sparse representation[J]. IEEE Transactions on Image Processing, 2010, 19(11): 2861–2873. doi: 10.1109/TIP.2010.2050625.
[23]	ZHANG Kai, ZUO Wangmeng, and ZHANG Lei. Deep plug-and-play super-resolution for arbitrary blur kernels[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019. doi: 10.1109/CVPR.2019.00177.
[24]	TIMOFTE R, AGUSTSSON E, VAN GOOL L, et al. NTIRE 2017 challenge on single image super-resolution: Methods and results[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops, Honolulu, USA, 2017: 114–125. doi: 10.1109/CVPRW.2017.149.
[25]	BEVILACQUA M, ROUMY A, GUILLEMOT C, et al. Low-complexity single image super-resolution based on nonnegative neighbor embedding[C]. The British Machine Vision Conference, 2012. doi: 10.5244/C.26.135.
[26]	ZEYDE R, ELAD M, and PROTTER M. On single image scale-up using sparse-representations[C]. The 7th International Conference on Curves and Surfaces, Avignon, France, 2012: 711–730. doi: 10.1007/978-3-642-27413-8_47.
[27]	ARBELÁEZ P, MAIRE M, FOWLKES C, et al. Contour detection and hierarchical image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 898–916. doi: 10.1109/tpami.2010.161.
[28]	MATSUI Y, ITO K, ARAMAKI Y, et al. Sketch-based manga retrieval using manga109 dataset[J]. Multimedia Tools and Applications, 2017, 76(20): 21811–21838. doi: 10.1007/s11042-016-4020-z.

施引文献

资源附件(0)

访问统计

图(9) / 表(6)

计量

文章访问数: 172
HTML全文浏览量: 74
PDF下载量: 31
被引次数: 0

1. 引言
2. 本文方法
2.1 多阶段多尺度引导结构
2.2 带通道随机混合的多尺度卷积模块
2.3 通道感知模块
2.4 损失函数
3. 实验结果分析
3.1 模型训练细节
3.2 数据集和评价标准
3.3 结果分析
3.4 消融实验结果分析
3.5 运行时间
4. 结束语

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于密集残差和质量评估引导的频率分离生成对抗超分辨率重构网络

doi: 10.11999/JEIT240388

通讯作者:
韩玉兰　hanyulan@hrbust.edu.cn

计量

Frequency Separation Generative Adversarial Super-resolution Reconstruction Network Based on Dense Residual and Quality Assessment

1. 引言

2. 本文方法

2.1 多阶段多尺度引导结构

2.2 带通道随机混合的多尺度卷积模块

2.3 通道感知模块

2.4 损失函数

3. 实验结果分析

3.1 模型训练细节

3.2 数据集和评价标准

3.3 结果分析

3.4 消融实验结果分析

3.4.1 多阶段多尺度引导结构

3.4.2 双损失函数

3.4.3 通道感知模块

3.4.4 多尺度卷积模块

3.5 运行时间

4. 结束语

计量

目录

1. 引言

2. 本文方法

2.1 多阶段多尺度引导结构

2.2 带通道随机混合的多尺度卷积模块

2.3 通道感知模块

2.4 损失函数

3. 实验结果分析

3.1 模型训练细节

3.2 数据集和评价标准

3.3 结果分析

3.4 消融实验结果分析

3.5 运行时间

4. 结束语

留言板

基于密集残差和质量评估引导的频率分离生成对抗超分辨率重构网络

doi: 10.11999/JEIT240388

通讯作者: 韩玉兰 hanyulan@hrbust.edu.cn

计量

出版历程

Frequency Separation Generative Adversarial Super-resolution Reconstruction Network Based on Dense Residual and Quality Assessment

1. 引言

2. 本文方法

2.1 多阶段多尺度引导结构

2.2 带通道随机混合的多尺度卷积模块

2.3 通道感知模块

2.4 损失函数

3. 实验结果分析

3.1 模型训练细节

3.2 数据集和评价标准

3.3 结果分析

3.4 消融实验结果分析

3.4.1 多阶段多尺度引导结构

3.4.2 双损失函数

3.4.3 通道感知模块

3.4.4 多尺度卷积模块

3.5 运行时间

4. 结束语

计量

出版历程

目录

1. 引言

2. 本文方法

2.1 多阶段多尺度引导结构

2.2 带通道随机混合的多尺度卷积模块

2.3 通道感知模块

2.4 损失函数

3. 实验结果分析

3.1 模型训练细节

3.2 数据集和评价标准

3.3 结果分析

3.4 消融实验结果分析

3.5 运行时间

4. 结束语

通讯作者:
韩玉兰　hanyulan@hrbust.edu.cn