基于多阶段多尺度彩色图像引导的道路场景深度图像补全

杨宇翔; 曹旗; 高明煜; 董哲康

doi:10.11999/JEIT210967

基于多阶段多尺度彩色图像引导的道路场景深度图像补全

doi: 10.11999/JEIT210967

1.
杭州电子科技大学电子信息学院杭州 310018
2.
浙江省装备电子研究重点实验室杭州 310018

基金项目: 国家自然科学基金(61873077)，浙江省重点研发计划(2022C01062)

详细信息

作者简介:
杨宇翔：男，副教授，研究方向为机器视觉、深度学习、人工智能

曹旗：男，硕士，研究方向为深度图像补全、深度图像超分辨率重建

高明煜：男，教授，研究方向为工业电子、智能汽车

董哲康：男，副教授，研究方向为机器视觉、神经形态系统

通讯作者:
董哲康　englishp@126.com

中图分类号: TP183
计量
- 文章访问数: 532
- HTML全文浏览量: 517
- PDF下载量: 91
- 被引次数: 0
出版历程
- 收稿日期: 2021-09-10
- 修回日期: 2022-02-25
- 录用日期: 2022-03-10
- 网络出版日期: 2022-03-20
- 刊出日期: 2022-11-14

Multi-stage Multi-scale Color Guided Depth Image Completion for Road Scenes

1.
School of Electronic and Information, Hangzhou Dianzi University, Hangzhou 310018, China
2.
Zhejiang Provincial Key Laboratory of Equipment Electronics, Hangzhou 310018, China

Funds: The National Natural Science Foundation of China (61873077), Zhejiang Provincial Major Research and Development Project of China (2022C01062)

摘要

摘要: 道路场景深度图像对于道路目标检测、智能驾驶汽车、场景3维重建等研究和应用都是至关重要的，但是由于硬件条件的限制，激光雷达获取的场景深度图像非常稀疏，道路场景深度补全旨在利用稠密的场景彩色图像指导稀疏雷达深度图像的补全重建，是目前的研究热点。该文设计了一种新型的多阶段多尺度引导的轻量化编解码网络来实现道路深度图像的高质量补全。该文网络由“彩色引导”和“精细化补全”两个阶段构成。在两个阶段的编码端，提出带有通道随机混合的轻量化多尺度卷积模块，更好地提取图像特征的同时控制网络的参数量。在两个阶段的解码端，采用通道感知机制来实现对重要特征的聚焦。同时将“彩色引导”阶段解码端的多尺度特征融合到“精细化补全”阶段的编码端中，实现多阶段多尺度的特征引导。在训练过程中，该文设计了多损失函数策略来完成由粗到细的深度图像补全。实验表明所提算法能实现高质量的深度图像补全并且具有轻量化的网络结构。
- 道路场景 /
- 深度图像补全 /
- 彩色图像引导 /
- 感知机制
Abstract: Depth completion is a task of estimating dense depth maps from sparse measurements under the guidance of dense RGB images. Dense depth map is critical for object detection, autonomous driving and scene reconstruction. Hence, depth completion of road scenes is a hot research topic at present. In this paper, a novel multi-stage multi-scale lightweight encoder-decoder network for depth completion is proposed. Specifically, the network consists of two sub-encoder-decoder branches named color-guided branch and fine-completion branch. At the encoders, a lightweight multiscale convolution module with channel random mixing is proposed to extract better image features while controlling the parameter amount. At the decoders, a channel-aware mechanism is devised to focus on the important features. Moreover, multi-scale features from the decoder of color-guided branch are fused into the encoder of fine-completion branch to achieve multi-stage multi-scale guidance. Furthermore, an efficient multi-loss strategy is developed for depth completion from coarse to fine in the training process. Experiments demonstrate that the proposed model is relatively lightweight and can achieve superior performance compared with other state-of-the-art methods.
- Road scene /
- Depth image completion /
- Color guided /
- Attention mechanism

HTML全文

1. 引言

高质量的道路场景深度图像对道路目标检测、车辆自主定位和建图等应用都是至关重要的^[1-3]。比如，Yang等人^[4]提出的3维道路车辆检测算法中就需要借助稠密且精确的深度图像来更好地确定车辆的3维边界。近年来，随着无人驾驶等研究和应用的快速发展，如何获取高质量的道路场景深度图像已经成为一个重要的研究课题。

目前深度图像的主要获取方式有飞行时间相机(Time Of Flight, TOF)、双目立体视觉和激光雷达(Light Detection And Ranging, LiDAR)。室外环境的光照变化与室内环境相比更加强烈，场景深度的变化范围更大，综合情况更加复杂，大多数深度传感器在室外场景中无法有效工作。比如， TOF深度传感器测量范围小，对光照敏感，在强光照的环境下会失去作用出现大量黑区，因此不合适道路场景的应用。双目立体视觉方法获得的视差图在无特征区域会有较多的信息缺失，且整个计算过程非常复杂耗时，在存在大量无纹理区域的道路场景中存在很大的局限性。激光雷达可以获得高精度深度图像，适合道路场景的应用，但是激光雷达得到的深度图像非常稀疏，缺失的深度信息带来了极大的不确定性，仍难以满足后续实际应用的需求。如何发掘场景稠密彩色图像和稀疏深度图像的内在约束关系，完成稀疏深度图像的高质量补全是目前的研究热点。

近年来，国内外研究人员利用卷积神经网络对稀疏深度图像补全进行了研究^[5-8]。Shivakumar等人^[9]提出了一种双支编解码结构的深度补全网络DFuseNet，通过设计两个编码网络分别学习彩色图像与稀疏深度图像的特征，但该方法只是将编码网络提取到的两种特征简单地进行相加输入到解码网络中，并没有考虑两个编码网络提取特征过程之间的联系，彩色图像的中间过程特征没有很好地利用到重建过程中。针对多模态特征融合的问题，Lee等人^[10]还提出了一种交叉引导的深度卷积神经网络结构CrossGuide，该方法使用两个编码网络分别提取稀疏深度图像和彩色图像的特征，将两个编码端的输出相加之后输入一个解码网络，CrossGuide在编码网络的不同阶段中加入了感知机制模块，用于多模态特征融合，该模块可以使网络通过学习两个分支中不同模态特征之间的权重来优化特征，起到了不同模态特征之间信息交互的作用。CrossGuide的交叉感知模块为多模态特征融合提供了一种思路，但仍存在一定的局限性：深度信息在编码的起始阶段由于过度稀疏，其自身并不能提供有效的感知信息，因此分配到高权重的特征可能并不是对当前任务有用的特征，导致CrossGuide的补全结果并不理想。Qiu等人^[11]将表面法向量作为深度信息与彩色图像的中间媒介，研究了激光雷达稀疏深度信息的补全，提出了一种端到端的深度补全网络DeepLiDAR，表面法向量为深度信息与彩色图像之间建立了一定的联系，然而计算的复杂度与特征分辨率有关，由于表面法向量的引入，在训练前首先需要额外准备作为输入的掩模图像和作为监督信号之一的表面法向量，其次在训练过程中网络需要额外预测表面法向量等特征图像，势必会导致网络整体的参数量非常巨大，造成训练的难度极高。根据实验的结果，DeepLiDAR的网络参数量为144 M，远超没有引入表面法向量的网络，庞大的参数量使得该算法在实际使用中受到一定的限制。

针对上述问题，本文设计了带有通道感知机制的多尺度多阶段引导策略来更好地建立彩色和深度两个不同模态特征之间的联系；提出了一种轻量化的带有通道随机混合功能的多尺度卷积模块，提升网络表征能力的同时控制网络的参数量；并构造了多阶段损失来约束网络学习映射关系。本文提出的算法参数量仅约为4 M，在保持轻量化的同时补全重建高质量的深度图像。本文主要的创新与贡献如下：

(1) 针对彩色图像与深度图像多模态特征的融合问题，本文设计了一种带有通道感知机制的多阶段多尺度引导融合策略，可以有效地利用彩色特征指导深度图像的补全。

(2) 针对深度补全算法网络复杂度较高的问题，本文提出了一种轻量化的带有通道随机混合功能的多尺度卷积模块，提升网络表征能力的同时控制网络的参数量。

(3) 在训练过程中，本文提出了一种分阶段多权重的训练策略，通过设置带权重的多阶段损失函数，完成对网络更好的优化，实现更高质量的深度图像补全重建。

2. 本文方法

2.1 多阶段多尺度引导结构

如图1所示，本文设计了一种新颖的多阶段多尺度引导的轻量化编解码网络，该补全网络由彩色图像引导重建分支和深度图像精细化补全分支构成。首先，将彩色图像作为先验信息与稀疏深度图像一起作为4通道图像输入彩色图像引导重建分支中，引导深度图像的稠密特征重建(第1阶段)；然后将彩色图像引导重建分支解码端中的4种分辨率特征分别拼接至深度图像精细化补全分支编码端对应分辨率的特征图像中，4种分辨率的稠密深度特征图像可作为引导特征，充分在精细化重建阶段中发挥引导作用(第2阶段)，达到多模态特征融合引导的作用。同时，为了提升网络的表征能力，在两个分支的编码端都使用了本文提出的带有通道随机混合的轻量化多尺度卷积模块，使用多个尺度的并行结构提升网络的表征能力，并使用1维卷积替代2维卷积来控制网络的参数量，达到轻量化的目的。并且，在两个分支的解码端中都加入本文提出的通道感知机制，可以在多个阶段多个尺度上聚焦到重要的引导特征上，提升深度图像精细化重建效果。在训练过程中，本文采用多损失函数的策略完成由粗到细的深度图像补全过程。本文设计的深度补全网络可以构造稀疏深度图像、稠密彩色图像和稠密深度图像3者之间的端到端映射关系，实现高质量的稠密道路深度图像补全。

图 1 本文深度图像补全网络框架

下载: 全尺寸图片幻灯片

2.2 带通道随机混合的多尺度卷积模块

本文设计的通道随机混合多尺度卷积模块如图2所示。首先将输入多尺度卷积模块的通道数拆分为大小相同的两个部分，分别输入两个不同尺度的分支中

图 2 本文设计的带通道随机混合模块的多尺度卷积模块结构

下载: 全尺寸图片幻灯片

${{\boldsymbol{F}}_3},{{\boldsymbol{F}}_5} = {\text{Spl}}({{\boldsymbol{X}}_{m - 1}})$

(1)

其中， ${{\boldsymbol{X}}_{m - 1}} \in {R^{B \times 2C \times H \times W}}$ ， ${{\boldsymbol{F}}_3} \in {R^{B \times C \times H \times W}}$ ， ${{\boldsymbol{F}}_5} \in {R^{B \times C \times H \times W}}$ 。在两个分支中，采用两个1维卷积去替代2维卷积来减少网络的参数量。

本文双分支多尺度卷积的流程为

$\left. \begin{gathered} {\boldsymbol{R}}_1{\text{ = }}\sigma (\omega _{3 \times 1}^1*{{\boldsymbol{F}}_3}) \\ {\boldsymbol{R}}_2{\text{ = }}\sigma (bn(\omega _{1 \times 3}^1*{\boldsymbol{R}}_1)) \\ {\boldsymbol{R}}_3{\text{ = }}\sigma (\omega _{3 \times 1}^2*{\boldsymbol{R}}_2){\text{ }} \\ {\boldsymbol{R}}_4{\text{ = dr}}(bn(\omega _{1 \times 3}^2*{\boldsymbol{R}}_3))) \\ \end{gathered} \right\}$

(2)

$\left. \begin{gathered} {\boldsymbol{P}}_1{\text{ = }}\sigma (\omega _{5 \times 1}^1*{{\boldsymbol{F}}_5}) \\ {\boldsymbol{P}}_2{\text{ = }}\sigma (bn(\omega _{1 \times 5}^1*{\boldsymbol{P}}_1)) \\ {\boldsymbol{P}}_3{\text{ = }}\sigma (\omega _{5 \times 1}^2*{\boldsymbol{P}}_2){\text{ }} \\ {\boldsymbol{P}}_4{\text{ = dr}}(bn(\omega _{1 \times 5}^2*{\boldsymbol{P}}_3))) \\ \end{gathered} \right\}$

(3)

${{\boldsymbol{F}}_{{\text{concat}}}}{\text{ = }}\sigma (\langle {\boldsymbol{R}}_{\text{4, }}{\boldsymbol{P}}_{\text{4}}\rangle )$

(4)

其中， $*$ 表示卷积运算， $\sigma ( \cdot )$ 表示ReLU激活函数， $\langle \cdot \rangle$ 表示特征拼接，dr表示dropout。在各自分支的终点，本文使用Dropout技术随机舍弃一部分神经元防止网络过拟合现象的发生，提升网络的泛化能力。最后将两个分支输出的特征图像沿通道的维度进行拼接。

将数据一分为二输入并行的两条支路，虽然通过不同尺度的卷积核可以得到更加多样性的特征，但是两个支路之间互不通信，容易产生边界效应，并导致部分特征信息的丢失。为了解决这个问题，本文增加了通道随机混合模块来增加各个通道间的相关性。通道随机混合过程如图2所示，将 ${{\boldsymbol{F}}_{{\text{con}}}} \in {R^{B \times 2C \times H \times W}}$ 输入通道随机混合模块之后，首先进行通道拆分，将4维特征升维变为5维特征 ${{\boldsymbol{F}}_{{\text{reg}}}} \in {R^{B \times G \times C//G \times H \times W}}$ ，之后将第2维与第3维交换位置，打乱特征得到 ${{\boldsymbol{F}}_{{\text{tr}}}} \in {R^{B \times C//G \times C \times H \times W}}$ ，最后将第2维与第3维随机合并得到输出 ${{\boldsymbol{X}}_m} \in {R^{B \times 2C \times H \times W}}$ 。经过通道随机混合模块之后，各个通道间的特征重新排列，可以有更多的关联性，防止边界效应发生的同时尽可能保留特征信息。

2.3 通道感知模块

注意力机制^[12-14]在目标识别等高级语义计算机视觉任务中大显身手，通过分辨不同通道的重要性，缩小兴趣范围，使网络可以专注于更重要的特征。但是图像增强、图像恢复等低级语义计算机视觉任务中，研究人员多数认为所有通道信息的重要性是平等的。在RCAN (Residual Channel Attention Network)^[15]中，作者认为不同通道的特征图像对最终超分辨率重建结果的贡献程度是不一样的，首次将通道感知的机制引入图像超分辨问题^[16]中，让网络不断地聚焦于重要的特征，提升了超分辨率重建的效果。受RCAN^[15]的启发，本文在低级语义的深度补全任务中引入通道感知机制的思想，提出了一种通道感知模块，如图3所示。

图 3 本文通道感知模块

下载: 全尺寸图片幻灯片

对于任意给定的特征图像 ${\boldsymbol{F}} \in {R^{B \times C \times H \times W}}$ ，首先经过两层带有归一化层的3×3卷积层，统一输入数据的分布

${{\boldsymbol{R}}_{\text{d}}}{\text{ = }}bn(\omega _{3 \times 3}^2 * (bn(\omega _{3 \times 3}^1 * {\boldsymbol{F}})))$

(5)

然后，沿着特征图像的长和宽维度分别进行最大值池化和平均值池化得到 ${\boldsymbol{F}}_{{\text{max}}}^{{\text{ch}}} \in {R^{B \times C \times 1 \times 1}}$ 和 ${\boldsymbol{F}}_{{\text{avg}}}^{{\text{ch}}} \in {R^{B \times C \times 1 \times 1}}$ ，并沿着通道维度拼接池化操作后的特征图像，得到空间压缩后的特征 ${\boldsymbol{F}}_{{\text{co}}}^{{\text{ch}}} \in {R^{B \times 2C \times 1 \times 1}}$

$\left. \begin{gathered} {\boldsymbol{F}}_{{\text{max}}}^{{\text{ch}}}{\text{ = MaxPool}}({{\boldsymbol{R}}_{\text{d}}}) \\ {\boldsymbol{F}}_{{\text{avg}}}^{{\text{ch}}}{\text{ = AvgPool}}({{\boldsymbol{R}}_{\text{d}}}) \\ {\boldsymbol{F}}_{{\text{co}}}^{{\text{ch}}}{\text{ = }}\langle {\boldsymbol{F}}_{{\text{max}}}^{{\text{ch}}},{\boldsymbol{F}}_{{\text{avg}}}^{{\text{ch}}}\rangle \\ \end{gathered} \right\}$

(6)

利用1×1卷积将 ${\boldsymbol{F}}_{{\text{co}}}^{{\text{ch}}} \in {R^{B \times 2C \times 1 \times 1}}$ 进行降维得到特征 ${\boldsymbol{F}}_{{\text{do}}}^{{\text{ch}}} \in {R^{B \times C \times 1 \times 1}}$ ，使通道维度的尺度与输入的特征保持一致

${\boldsymbol{F}}_{{\text{do}}}^{{\text{ch}}}{\text{ = }}\omega _{1 \times 1}^2*(\sigma (\omega _{1 \times 1}^1*{\boldsymbol{F}}_{{\text{co}}}^{{\text{ch}}})))$

(7)

最后，使用Sigmod激活函数对特征 ${\boldsymbol{F}}_{{\text{do}}}^{{\text{ch}}} \in {R^{B \times C \times 1 \times 1}}$ 进行非线性映射，得到最终的通道感知模块权重 ${{\boldsymbol{M}}_{{\text{ch}}}} \in {R^{B \times C \times 1 \times 1}}$ ， ${{\boldsymbol{M}}_{{\text{ch}}}}$ 是网络通过无监督的方式学习到的特征图像各个通道的重要性分布。将 ${{\boldsymbol{M}}_{{\text{ch}}}}$ 与最初的输入特征图 ${\boldsymbol{F}} \in {R^{B \times C \times H \times W}}$ 进行元素乘，即可赋予不同通道不同的权重。

${{\boldsymbol{M}}_{{\text{ch}}}}{\text{ = Sigmod}}({\boldsymbol{F}}_{{\text{do }}}^{{\text{ch}}})$

(8)

在训练过程中，通道感知模块可以无监督地筛选出对深度补全任务有用的特征图像，抑制相对不重要的特征图像，经过多次筛选之后可以提升有用特征的纯度。

编解码网络在解码端通过多次上采样解码得到目标结构。在基于编解码结构的深度补全网络中，编码端负责提取特征，补全的工作主要在解码端进行。因此在深度图像补全网络中本文的通道感知模块可以起到多阶段聚焦的作用：一是在彩色图像引导重建分支的解码端帮助网络筛选有用的特征融合进行深度图像精细化补全分支；二是在深度图像精细化补全分支中的解码端帮助网络挑选最终的有用特征进行精细化补全重建。

2.4 损失函数

为了充分发挥本文设计的多阶段补全结构的性能，本文利用真实的深度图像对两个阶段的网络分别进行监督训练，本算法鼓励每个阶段都输出各自的预测稠密深度图像，本文损失函数定义为

$\begin{split} L = & {\lambda _1}\frac{1}{N}\sum\limits_{i = 1}^N {{\text{||}}1_{\{ d = = 0\} }^{(s)} \cdot ({{\boldsymbol{D}}_i} - {{\tilde {\boldsymbol{D}}}}_i^{\text{c}})|{|^2}} \\ & + {\lambda _2}\frac{1}{N}\sum\limits_{i = 1}^N {{\text{||}}1_{\{ d = = 0\} }^{(s)} \cdot ({{\boldsymbol{D}}_i} - {{\tilde {\boldsymbol{D}}}}_i^{\text{d}})|{|^2}} {\text{ + }}\sum\limits_{j = 1}^T {\beta ||{\omega ^j}|{|^2}} \end{split}$

(9)

其中， ${{\tilde {\boldsymbol{D}}}}_i^{\text{c}}$ 和 ${{\tilde {\boldsymbol{D}}}}_i^{\text{d}}$ 分别为彩色图像引导重建分支和深度图像精细化补全分支输出的预测稠密深度图， ${\lambda _1}$ 和 ${\lambda _2}$ 为两分支损失函数的权重， $T$ 为训练的迭代次数，本算法使用 $L_2$ 正则化来约束模型参数，有效降低网络过拟合的风险，并将权重衰减超参数 $\beta$ 设为0.0001。由于在训练过程中，训练标签也并非稠密，只有标签中的有效值可以提供有效的监督误差，因此在计算误差的过程中仅计算预测的稠密深度图像与标签中的有效值的像素之间的误差，忽略标签中的缺失部分。

3. 实验结果分析

3.1 模型训练细节

本文采用了分阶段多权重的训练策略，使网络能够更好地收敛。在训练的前20个周期，本文将损失函数中的 ${\lambda _1}$ 和 ${\lambda _2}$ 分别设置为0.4和0.6；在21～50个训练周期，将 ${\lambda _1}$ 和 ${\lambda _2}$ 分别设置为0.1和0.9；在51个周期之后，将 ${\lambda _1}$ 和 ${\lambda _2}$ 分别设置为0和1。因为在训练的起始阶段，由于稀疏深度图像缺少稠密特征的引导需要充分发挥彩色图像的先验引导作用，因此利用彩色图像引导重建分支的损失函数来辅助训练；当学习到彩色图像的引导特征后，在训练的后期将训练重心移向深度图像精细化补全分支的损失函数。

本文选择的训练优化器为Adam，学习率的初始值设置为0.001，学习率的调整策略为每50个训练周期下降10倍，网络的整个训练周期为150个epoch。所有实验均在Nvidia GTX 1080Ti GPU上使用深度学习框架PyTorch实现。

3.2 数据集和评价标准

本文实验中使用的数据集是KITTI Depth Completion^[17]深度补全评估数据集。本文共使用了86898帧训练图像，1000帧验证图像，1000帧测试图像。数据集中的每一帧都包含了同场景下的稀疏深度图像和彩色图像，稀疏深度图像是使用Velodyne HDL-64E激光雷达采集得到。同时该数据集利用位姿关系融合了前后11个相邻帧的激光雷达稀疏深度信息生成半稠密深度图像，并将此作为训练集、验证集和测试集的标签。KITTI提供的原始稀疏深度图像分辨率为352×1216，有效深度像素为18400个点，约占总体的4.3%，半稠密深度的深度图像的平均有效深度像素约为13%。

本文使用均方根误差(Root Mean Square Error, RMSE)、平均绝对误差(Mean Absolute Error, MAE)、逆深度均方根误差(Inverse depth Root Mean Square Error, iRMSE)、逆深度均方误差(Inverse depth Mean Square Error, iMAE)和参数量(Params)作为评估指标。其中RMSE与MAE的单位均为毫米(mm)，iRMSE与iMAE的单位均为1/km，参数量的单位为兆(M)。

3.3 结果分析

在KITTI测试集上的定量实验结果如表1所示(粗体表示最优结果，下划线表示次优结果)，参与比较的方法有基于表面法向量约束的DeepLiDAR^[11]和PwP^[18]、基于感知机制的CrossGuide^[10]、基于置信图约束的NConv-CNN-L2^[19]和Conf-Net^[20]、基于编解码结构的CSPN^[21], DFine-Net^[22], SSGP^[23]和DFuse-Net^[9]以及基于无监督的Sparse-to-Dense(gd)^[8]。其中，基于表面法向量、置信图等信息辅助深度图像补全的方法取得了较好的效果，但是让网络去学习这些额外的信息大大增加网络复杂度。基于表面法向量约束的DeepLiDAR方法由于需要预测额外的表面法向量，因此整体网络相当复杂，在模型的参数量上是本文方法的近40倍。本文多阶段多尺度引导的深度补全网络在训练和推理的所有过程中，均不需要额外辅助信息，通过端到端的方式以轻量化的形式高效构建稀疏深度图像与稠密深度图像之间的映射关系，由表1可以看出本文方法在保证模型轻量化的同时在多项指标上均达到了最优。

表 1 基于KITTI 测试集的实验结果比较

方法	RMSE	MAE	iRMSE	iMAE	Params(M)
DFuse-Net	1206.66	429.93	3.62	1.79	4.66
CSPN	1019.64	279.46	2.93	1.15	256.08
Conf-Net	962.28	257.54	3.10	1.09	/
DFine-Net	943.89	304.17	3.21	1.39	/
Sparse-to-Dense(gd)	814.73	249.95	2.80	1.21	26.1
NConv-CNN-L2	829.98	233.26	2.60	1.03	/
SSGP	838.22	244.70	2.51	1.09	/
CrossGuide	807.42	253.98	2.73	1.33	30
PwP	777.05	235.17	2.23	1.13	/
DeepLiDAR	758.38	226.50	2.56	1.15	144
本文	767.29	225.94	2.18	1.00	4.05

下载: 导出CSV

| 显示表格

为了进一步展示本文多阶段多尺度引导深度补全算法的效果，图4给出了不同算法的视觉定性比较结果，可以看出本文算法相较于其他方法能更好地恢复出物体细节得到清晰可辨的物体结构，更好地区分前景与后景的边缘区域。比如，车辆轮廓的补全结果可以看到Sparse-to-Dense的补全结果呈现不连续的状态，颗粒状明显，CSPN的补全结果中只有车辆的大致轮廓，车辆的车窗和车门细节并没有恢复出来，本文的补全方法可以得到精细的物体细节，可以非常清楚地分辨车辆的轮廓和车窗。

图 4 KITTI数据集定性结果比较图例

下载: 全尺寸图片幻灯片

3.4 消融实验结果分析

为了分析本文网络中设计的各个模块对深度补全结果的影响，通过控制变量法开展消融实验来验证各模块的合理性，实验结果如表2所示。

表 2 基于KITTI验证集的消融实验结果比较

Case	彩色引导分支	精细补全分支	单损失函数	双损失函数	通道感知模块	多尺度卷积模块	RMSE	MAE
1	√		√				836.10	247.90
2		√	√				845.20	255.70
3	√	√	√				830.50	243.40
4	√	√		√			809.90	231.50
5	√	√	√		√		816.20	240.20
6	√	√		√	√		783.37	217.60
7	√	√		√	√	√	775.43	209.80

下载: 导出CSV

| 显示表格

3.4.1 多阶段多尺度引导结构

首先为了说明双分支引导结构的合理性，如表2的case1, case2和case3所示，本文进行了如下3个消融实验：case1为仅使用彩色引导分支；case2为仅使用精细化补全分支；case3为本文双分支结构(仅监督精细化补全分支的损失函数)。在实验结果中可以看出，case3的双支结构在RMSE和MAE指标上均好于case1和case2的单支结构，说明了本文设计的双支结构的有效性。同时case1的彩色引导4通道输入的补全结果好于case2的单通道稀疏深度输入的补全结果，也验证了稠密彩色图像可以为稀疏深度图像的补全提供先验引导信息。

3.4.2 双损失函数

本文双损失函数的设计是为了鼓励每个分支都输出各自的预测稠密深度图像，配合3.1节所述的分阶段多权重的训练策略，双支协同学习网络的深度补全映射关系。如表2的case3和case4所示，双损失函数的设计大大提升了深度补全网络的性能，在RMSE指标上下降了20.6 mm，MAE指标上下降了11.9 mm，表明了双损失函数确实可以约束网络更好地学习到深度补全的映射关系。

3.4.3 通道感知模块

本文设计的通道感知模块在网络中无监督地学习权重去衡量和评估特征的重要性，辅助特征融合来提高深度补全的效果。如表2所示，在case3和case5中，控制双分支网络+单损失函数的结构为不变量，通道感知模块为变量，加入通道感知模块后，RMSE和MAE指标下降了约1.7%和1.3%；在case4和case6中，控制双支网络+双损失函数的结构为不变量，通道感知模块为变量，在加入通道感知模块后RMSE和MAE指标下降了约3.2%和6.0%。

因此，通道感知模块可以有效地提升深度补全任务的效果。并且值得注意的是，通道感知机制在双损失函数的网络结构中，有着更大的提升效果，这是因为双损失函数可以有效地约束彩色引导分支生成更具引导作用的多尺度特征图像，感知机制也因此可以更好地发挥特征筛选的功能，从而实现高质量的深度补全。

3.4.4 多尺度卷积模块

为了验证本文多尺度卷积模块的合理性，设计了case6和case7消融实验，其中case7是加入多尺度卷积模块后本文网络的最终设计方案(注意，除case7之外所有消融实验中均使用等深度的3×3卷积层来替代本文的多尺度卷积模块)。本文设计的多尺度卷积模块可以提取更加多样性且兼顾多尺度需求的特征信息，同时本文多尺度卷积模块使用随机通道混合的机制增加了不同尺度的特征之间的关联性。如表2所示，在网络结构中加入了多尺度卷积模块，进一步提升了本文网络的深度图像补全效果。

3.5 运行时间

为了验证本文网络轻量化设计的效果，表3给出了不同深度补全网络在KITTI测试集上的推理时间比较，均采用Nvidia GTX 1080Ti GPU进行测试。对于各端到端的深度补全网络来说，网络的推理时间即深度图像补全所需的时间，如表3所示本文算法的补全时间仅为0.09 s，说明本文网络在保证高质量补全效果的同时实现了轻量化的设计，可以很好地满足实际应用的需求。

表 3 不同算法运行时间比较(s)

	CSPN	SSGP	CrossGuidence	PwP	本文
时间	1.0	0.14	0.2	0.1	0.09

下载: 导出CSV

| 显示表格

4. 结束语

本文设计了带有通道感知机制的多尺度多阶段引导策略来更好地建立彩色和深度两个不同模态特征之间的联系，充分发掘了彩色图像和深度图像的内在约束关系。本文设计了一种轻量化的带有通道随机混合功能的多尺度卷积模块，提升网络表征能力的同时控制网络的参数量，本文网络参数量仅约为4 M。同时本文构造了分阶段多权重损失的训练策略来约束网络学习映射关系，充分发挥本文设计的多阶段补全结构的性能，提升了深度图像的补全重建效果。

图 1 本文深度图像补全网络框架

下载: 全尺寸图片幻灯片

图 2 本文设计的带通道随机混合模块的多尺度卷积模块结构

下载: 全尺寸图片幻灯片

图 3 本文通道感知模块

下载: 全尺寸图片幻灯片

图 4 KITTI数据集定性结果比较图例

下载: 全尺寸图片幻灯片

表 1 基于KITTI 测试集的实验结果比较

方法	RMSE	MAE	iRMSE	iMAE	Params(M)
DFuse-Net	1206.66	429.93	3.62	1.79	4.66
CSPN	1019.64	279.46	2.93	1.15	256.08
Conf-Net	962.28	257.54	3.10	1.09	/
DFine-Net	943.89	304.17	3.21	1.39	/
Sparse-to-Dense(gd)	814.73	249.95	2.80	1.21	26.1
NConv-CNN-L2	829.98	233.26	2.60	1.03	/
SSGP	838.22	244.70	2.51	1.09	/
CrossGuide	807.42	253.98	2.73	1.33	30
PwP	777.05	235.17	2.23	1.13	/
DeepLiDAR	758.38	226.50	2.56	1.15	144
本文	767.29	225.94	2.18	1.00	4.05

下载: 导出CSV

表 2 基于KITTI验证集的消融实验结果比较

Case	彩色引导分支	精细补全分支	单损失函数	双损失函数	通道感知模块	多尺度卷积模块	RMSE	MAE
1	√		√				836.10	247.90
2		√	√				845.20	255.70
3	√	√	√				830.50	243.40
4	√	√		√			809.90	231.50
5	√	√	√		√		816.20	240.20
6	√	√		√	√		783.37	217.60
7	√	√		√	√	√	775.43	209.80

下载: 导出CSV

表 3 不同算法运行时间比较(s)

	CSPN	SSGP	CrossGuidence	PwP	本文
时间	1.0	0.14	0.2	0.1	0.09

下载: 导出CSV

参考文献(23)

[1]	周武杰, 潘婷, 顾鹏笠, 等. 基于金字塔池化网络的道路场景深度估计方法[J]. 电子与信息学报, 2019, 41(10): 2509–2515. doi: 10.11999/JEIT180957 ZHOU Wujie, PAN Ting, GU Pengli, et al. Depth estimation of monocular road images based on pyramid scene analysis network[J]. Journal of Electronics &Information Technology, 2019, 41(10): 2509–2515. doi: 10.11999/JEIT180957
[2]	王灿, 孔斌, 杨静, 等. 基于三维激光雷达的道路边界提取和障碍物检测算法[J]. 模式识别与人工智能, 2020, 33(4): 353–362. doi: 10.16451/j.cnki.issn1003–6059.202004008 WANG Can, KONG Bin, YANG Jing, et al. An algorithm for road boundary extraction and obstacle detection based on 3D lidar[J]. Pattern Recognition and Artificial Intelligence, 2020, 33(4): 353–362. doi: 10.16451/j.cnki.issn1003–6059.202004008
[3]	PANG Su, MORRIS D, and RADHA H. CLOCs: Camera-LiDAR object candidates fusion for 3D object detection[C]. 2020 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), Las Vegas, USA, 2020: 10386–10393.
[4]	YANG Zetong, SUN Yanan, LIU Shu, et al. 3DSSD: Point-based 3D single stage object detector[C/OL]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, 2020: 11037–11045.
[5]	马浩杰. 基于卷积神经网络的单目深度估计和深度补全研究[D]. [硕士论文], 浙江大学, 2019. MA Haojie. Monocular depth estimation and depth completion based on convolutional neural network[D]. [Master dissertation], Zhejiang University, 2019.
[6]	邱佳雄. 基于深度学习的稀疏深度图补全[D]. [硕士论文], 电子科技大学, 2020. QIU Jiaxiong. Sparse depth completion based on deep learning[D]. [Master dissertation], University of Electronic Science and Technology of China, 2020.
[7]	HUANG Zixuan, FAN Junming, CHENG Shenggan, et al. Hms-net: Hierarchical multi-scale sparsity-invariant network for sparse depth completion[J]. IEEE Transactions on Image Processing, 2020, 29: 3429–3441. doi: 10.1109/TIP.2019.2960589
[8]	MA Fangchang, CAVALHEIRO G V, and KARAMAN S. Self-supervised sparse-to-dense: Self-supervised depth completion from LiDAR and monocular camera[C]. 2019 International Conference on Robotics and Automation (ICRA), Montreal, Canada, 2019: 3288–3295.
[9]	SHIVAKUMAR S S, NGUYEN T, MILLER I D, et al. Dfusenet: Deep fusion of RGB and sparse depth information for image guided dense depth completion[C]. 2019 IEEE Intelligent Transportation Systems Conference (ITSC), Auckland, New Zealand, 2019: 13–20.
[10]	LEE S, LEE J, KIM D, et al. Deep architecture with cross guidance between single image and sparse LiDAR data for depth completion[J]. IEEE Access, 2020, 8: 79801–79810. doi: 10.1109/ACCESS.2020.2990212
[11]	QIU Jiaxiong, CUI Zhaopeng, ZHANG Yinda, et al. DeepLiDAR: Deep surface normal guided depth prediction for outdoor scene from sparse LiDAR data and single color image[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, USA, 2019: 3313–3322.
[12]	徐从安, 吕亚飞, 张筱晗, 等. 基于双重注意力机制的遥感图像场景分类特征表示方法[J]. 电子与信息学报, 2021, 43(3): 683–691. doi: 10.11999/JEIT200568 XU Cong’an, LÜ Yafei, ZHANG Xiaohan, et al. A discriminative feature representation method based on dual attention mechanism for remote sensing image scene classification[J]. Journal of Electronics &Information Technology, 2021, 43(3): 683–691. doi: 10.11999/JEIT200568
[13]	周勇, 王瀚正, 赵佳琦, 等. 基于可解释注意力部件模型的行人重识别方法[J/OL]. 自动化学报, 1–16. https://doi.org/10.16383/j.aas.c200493, 2020. ZHOU Yong, WANG Hanzheng, ZHAO Jiaqi, et al. Interpretable attention part model for person Re-identification[J/OL]. Acta Automatica Sinica, 1–16. https://doi.org/10.16383/j.aas.c200493, 2020.
[14]	MA Benteng, ZHANG Jing, XIA Yong, et al. Auto learning attention[C/OL]. Advances in Neural Information Processing Systems 33, online, 2020.
[15]	ZHANG Yulun, LI Kunpeng, LI Kai, et al. Image super-resolution using very deep residual channel attention networks[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 294–310.
[16]	张帅勇, 刘美琴, 姚超, 等. 分级特征反馈融合的深度图像超分辨率重建[J/OL]. 自动化学报, 1–13. https://doi.org/10.16383/j.aas.c200542, 2020. ZHANG Shuaiyong, LIU Meiqin, YAO Chao, et al. Hierarchical feature feedback network for depth super-resolution reconstruction[J/OL]. Acta Automatica Sinica, 1–13. https://doi.org/10.16383/j.aas.c200542, 2020.
[17]	UHRIG J, SCHNEIDER N, SCHNEIDER L, et al. Sparsity invariant CNNs[C]. 2017 International Conference on 3D Vision (3DV), Qingdao, China, 2017: 11–20.
[18]	XU Yan, ZHU Xinge, SHI Jianping, et al. Depth completion from sparse LiDAR data with depth-normal constraints[C]. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 2019: 2811–2820.
[19]	ELDESOKEY A, FELSBERG M, and KHAN F S. Confidence propagation through CNNs for guided sparse depth regression[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(10): 2423–2436. doi: 10.1109/TPAMI.2019.2929170
[20]	HEKMATIAN H, JIN Jingfu, and AL-STOUHI S. Conf-net: Toward high-confidence dense 3D point-cloud with error-map prediction[J]. arXiv: 1907.10148, 2019.
[21]	CHENG Xinjing, WANG Peng, and YANG Ruigang. Learning depth with convolutional spatial propagation network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(10): 2361–2379. doi: 10.1109/TPAMI.2019.2947374
[22]	ZHANG Yilun, NGUYEN T, MILLER I D, et al. DFineNet: Ego-motion estimation and depth refinement from sparse, noisy depth input with RGB guidance[J]. arXiv: 1903.06397, 2019.
[23]	SCHUSTER R, WASENMÜLlER O, UNGER C, et al. SSGP: Sparse spatial guided propagation for robust and generic interpolation[C]. 2021 IEEE Winter Conference on Applications of Computer Vision, Waikoloa, USA, 2021: 197–206.

施引文献

资源附件(0)

访问统计

图(4) / 表(3)

计量

文章访问数: 532
HTML全文浏览量: 517
PDF下载量: 91
被引次数: 0

1. 引言
2. 本文方法
2.1 多阶段多尺度引导结构
2.2 带通道随机混合的多尺度卷积模块
2.3 通道感知模块
2.4 损失函数
3. 实验结果分析
3.1 模型训练细节
3.2 数据集和评价标准
3.3 结果分析
3.4 消融实验结果分析
3.5 运行时间
4. 结束语

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于多阶段多尺度彩色图像引导的道路场景深度图像补全

doi: 10.11999/JEIT210967

通讯作者:
董哲康　englishp@126.com

计量

Multi-stage Multi-scale Color Guided Depth Image Completion for Road Scenes

1. 引言

2. 本文方法

2.1 多阶段多尺度引导结构

2.2 带通道随机混合的多尺度卷积模块

2.3 通道感知模块

2.4 损失函数

3. 实验结果分析

3.1 模型训练细节

3.2 数据集和评价标准

3.3 结果分析

3.4 消融实验结果分析

3.4.1 多阶段多尺度引导结构

3.4.2 双损失函数

3.4.3 通道感知模块

3.4.4 多尺度卷积模块

3.5 运行时间

4. 结束语

计量

目录

1. 引言

2. 本文方法

2.1 多阶段多尺度引导结构

2.2 带通道随机混合的多尺度卷积模块

2.3 通道感知模块

2.4 损失函数

3. 实验结果分析

3.1 模型训练细节

3.2 数据集和评价标准

3.3 结果分析

3.4 消融实验结果分析

3.5 运行时间

4. 结束语

留言板

基于多阶段多尺度彩色图像引导的道路场景深度图像补全

doi: 10.11999/JEIT210967

通讯作者: 董哲康 englishp@126.com

计量

出版历程

Multi-stage Multi-scale Color Guided Depth Image Completion for Road Scenes

1. 引言

2. 本文方法

2.1 多阶段多尺度引导结构

2.2 带通道随机混合的多尺度卷积模块

2.3 通道感知模块

2.4 损失函数

3. 实验结果分析

3.1 模型训练细节

3.2 数据集和评价标准

3.3 结果分析

3.4 消融实验结果分析

3.4.1 多阶段多尺度引导结构

3.4.2 双损失函数

3.4.3 通道感知模块

3.4.4 多尺度卷积模块

3.5 运行时间

4. 结束语

计量

出版历程

目录

1. 引言

2. 本文方法

2.1 多阶段多尺度引导结构

2.2 带通道随机混合的多尺度卷积模块

2.3 通道感知模块

2.4 损失函数

3. 实验结果分析

3.1 模型训练细节

3.2 数据集和评价标准

3.3 结果分析

3.4 消融实验结果分析

3.5 运行时间

4. 结束语

通讯作者:
董哲康　englishp@126.com