
Citation: | Ding Jianjiang, Zhang Xianda. Studies of modualation characteristics of propeller aircraft returns in the lrr[J]. Journal of Electronics & Information Technology, 2003, 25(4): 460-466. |
高质量的道路场景深度图像对道路目标检测、车辆自主定位和建图等应用都是至关重要的[1-3]。比如,Yang等人[4]提出的3维道路车辆检测算法中就需要借助稠密且精确的深度图像来更好地确定车辆的3维边界。近年来,随着无人驾驶等研究和应用的快速发展,如何获取高质量的道路场景深度图像已经成为一个重要的研究课题。
目前深度图像的主要获取方式有飞行时间相机(Time Of Flight, TOF)、双目立体视觉和激光雷达(Light Detection And Ranging, LiDAR)。室外环境的光照变化与室内环境相比更加强烈,场景深度的变化范围更大,综合情况更加复杂,大多数深度传感器在室外场景中无法有效工作。比如, TOF深度传感器测量范围小,对光照敏感,在强光照的环境下会失去作用出现大量黑区,因此不合适道路场景的应用。双目立体视觉方法获得的视差图在无特征区域会有较多的信息缺失,且整个计算过程非常复杂耗时,在存在大量无纹理区域的道路场景中存在很大的局限性。激光雷达可以获得高精度深度图像,适合道路场景的应用,但是激光雷达得到的深度图像非常稀疏,缺失的深度信息带来了极大的不确定性,仍难以满足后续实际应用的需求。如何发掘场景稠密彩色图像和稀疏深度图像的内在约束关系,完成稀疏深度图像的高质量补全是目前的研究热点。
近年来,国内外研究人员利用卷积神经网络对稀疏深度图像补全进行了研究 [5-8]。Shivakumar等人[9]提出了一种双支编解码结构的深度补全网络DFuseNet,通过设计两个编码网络分别学习彩色图像与稀疏深度图像的特征,但该方法只是将编码网络提取到的两种特征简单地进行相加输入到解码网络中,并没有考虑两个编码网络提取特征过程之间的联系,彩色图像的中间过程特征没有很好地利用到重建过程中。针对多模态特征融合的问题,Lee等人[10]还提出了一种交叉引导的深度卷积神经网络结构CrossGuide,该方法使用两个编码网络分别提取稀疏深度图像和彩色图像的特征,将两个编码端的输出相加之后输入一个解码网络,CrossGuide在编码网络的不同阶段中加入了感知机制模块,用于多模态特征融合,该模块可以使网络通过学习两个分支中不同模态特征之间的权重来优化特征,起到了不同模态特征之间信息交互的作用。CrossGuide的交叉感知模块为多模态特征融合提供了一种思路,但仍存在一定的局限性:深度信息在编码的起始阶段由于过度稀疏,其自身并不能提供有效的感知信息,因此分配到高权重的特征可能并不是对当前任务有用的特征,导致CrossGuide的补全结果并不理想。Qiu等人[11]将表面法向量作为深度信息与彩色图像的中间媒介,研究了激光雷达稀疏深度信息的补全,提出了一种端到端的深度补全网络DeepLiDAR,表面法向量为深度信息与彩色图像之间建立了一定的联系,然而计算的复杂度与特征分辨率有关,由于表面法向量的引入,在训练前首先需要额外准备作为输入的掩模图像和作为监督信号之一的表面法向量,其次在训练过程中网络需要额外预测表面法向量等特征图像,势必会导致网络整体的参数量非常巨大,造成训练的难度极高。根据实验的结果,DeepLiDAR的网络参数量为144 M,远超没有引入表面法向量的网络,庞大的参数量使得该算法在实际使用中受到一定的限制。
针对上述问题,本文设计了带有通道感知机制的多尺度多阶段引导策略来更好地建立彩色和深度两个不同模态特征之间的联系;提出了一种轻量化的带有通道随机混合功能的多尺度卷积模块,提升网络表征能力的同时控制网络的参数量;并构造了多阶段损失来约束网络学习映射关系。本文提出的算法参数量仅约为4 M,在保持轻量化的同时补全重建高质量的深度图像。本文主要的创新与贡献如下:
(1) 针对彩色图像与深度图像多模态特征的融合问题,本文设计了一种带有通道感知机制的多阶段多尺度引导融合策略,可以有效地利用彩色特征指导深度图像的补全。
(2) 针对深度补全算法网络复杂度较高的问题,本文提出了一种轻量化的带有通道随机混合功能的多尺度卷积模块,提升网络表征能力的同时控制网络的参数量。
(3) 在训练过程中,本文提出了一种分阶段多权重的训练策略,通过设置带权重的多阶段损失函数,完成对网络更好的优化,实现更高质量的深度图像补全重建。
如图1所示,本文设计了一种新颖的多阶段多尺度引导的轻量化编解码网络,该补全网络由彩色图像引导重建分支和深度图像精细化补全分支构成。首先,将彩色图像作为先验信息与稀疏深度图像一起作为4通道图像输入彩色图像引导重建分支中,引导深度图像的稠密特征重建(第1阶段);然后将彩色图像引导重建分支解码端中的4种分辨率特征分别拼接至深度图像精细化补全分支编码端对应分辨率的特征图像中,4种分辨率的稠密深度特征图像可作为引导特征,充分在精细化重建阶段中发挥引导作用(第2阶段),达到多模态特征融合引导的作用。同时,为了提升网络的表征能力,在两个分支的编码端都使用了本文提出的带有通道随机混合的轻量化多尺度卷积模块,使用多个尺度的并行结构提升网络的表征能力,并使用1维卷积替代2维卷积来控制网络的参数量,达到轻量化的目的。并且,在两个分支的解码端中都加入本文提出的通道感知机制,可以在多个阶段多个尺度上聚焦到重要的引导特征上,提升深度图像精细化重建效果。在训练过程中,本文采用多损失函数的策略完成由粗到细的深度图像补全过程。本文设计的深度补全网络可以构造稀疏深度图像、稠密彩色图像和稠密深度图像3者之间的端到端映射关系,实现高质量的稠密道路深度图像补全。
本文设计的通道随机混合多尺度卷积模块如图2所示。首先将输入多尺度卷积模块的通道数拆分为大小相同的两个部分,分别输入两个不同尺度的分支中
F3,F5=Spl(Xm−1) | (1) |
其中,
本文双分支多尺度卷积的流程为
R1 = σ(ω13×1∗F3)R2 = σ(bn(ω11×3∗R1))R3 = σ(ω23×1∗R2) R4 = dr(bn(ω21×3∗R3)))} | (2) |
P1 = σ(ω15×1∗F5)P2 = σ(bn(ω11×5∗P1))P3 = σ(ω25×1∗P2) P4 = dr(bn(ω21×5∗P3)))} | (3) |
Fconcat = σ(⟨R4, P4⟩) | (4) |
其中,
将数据一分为二输入并行的两条支路,虽然通过不同尺度的卷积核可以得到更加多样性的特征,但是两个支路之间互不通信,容易产生边界效应,并导致部分特征信息的丢失。为了解决这个问题,本文增加了通道随机混合模块来增加各个通道间的相关性。通道随机混合过程如图2所示,将
注意力机制[12-14]在目标识别等高级语义计算机视觉任务中大显身手,通过分辨不同通道的重要性,缩小兴趣范围,使网络可以专注于更重要的特征。但是图像增强、图像恢复等低级语义计算机视觉任务中,研究人员多数认为所有通道信息的重要性是平等的。在RCAN (Residual Channel Attention Network)[15]中,作者认为不同通道的特征图像对最终超分辨率重建结果的贡献程度是不一样的,首次将通道感知的机制引入图像超分辨问题[16]中,让网络不断地聚焦于重要的特征,提升了超分辨率重建的效果。受RCAN[15]的启发,本文在低级语义的深度补全任务中引入通道感知机制的思想,提出了一种通道感知模块,如图3所示。
对于任意给定的特征图像
Rd = bn(ω23×3∗(bn(ω13×3∗F))) | (5) |
然后,沿着特征图像的长和宽维度分别进行最大值池化和平均值池化得到
Fchmax = MaxPool(Rd)Fchavg = AvgPool(Rd)Fchco = ⟨Fchmax,Fchavg⟩} | (6) |
利用1×1卷积将
Fchdo = ω21×1∗(σ(ω11×1∗Fchco))) | (7) |
最后,使用Sigmod激活函数对特征
Mch = Sigmod(Fchdo ) | (8) |
在训练过程中,通道感知模块可以无监督地筛选出对深度补全任务有用的特征图像,抑制相对不重要的特征图像,经过多次筛选之后可以提升有用特征的纯度。
编解码网络在解码端通过多次上采样解码得到目标结构。在基于编解码结构的深度补全网络中,编码端负责提取特征,补全的工作主要在解码端进行。因此在深度图像补全网络中本文的通道感知模块可以起到多阶段聚焦的作用:一是在彩色图像引导重建分支的解码端帮助网络筛选有用的特征融合进行深度图像精细化补全分支;二是在深度图像精细化补全分支中的解码端帮助网络挑选最终的有用特征进行精细化补全重建。
为了充分发挥本文设计的多阶段补全结构的性能,本文利用真实的深度图像对两个阶段的网络分别进行监督训练,本算法鼓励每个阶段都输出各自的预测稠密深度图像,本文损失函数定义为
L=λ11NN∑i=1||1(s){d==0}⋅(Di−˜Dci)||2+λ21NN∑i=1||1(s){d==0}⋅(Di−˜Ddi)||2 + T∑j=1β||ωj||2 | (9) |
其中,
本文采用了分阶段多权重的训练策略,使网络能够更好地收敛。在训练的前20个周期,本文将损失函数中的
本文选择的训练优化器为Adam,学习率的初始值设置为0.001,学习率的调整策略为每50个训练周期下降10倍,网络的整个训练周期为150个epoch。所有实验均在Nvidia GTX 1080Ti GPU上使用深度学习框架PyTorch实现。
本文实验中使用的数据集是KITTI Depth Completion[17]深度补全评估数据集。本文共使用了86898帧训练图像,1000帧验证图像,1000帧测试图像。数据集中的每一帧都包含了同场景下的稀疏深度图像和彩色图像,稀疏深度图像是使用Velodyne HDL-64E激光雷达采集得到。同时该数据集利用位姿关系融合了前后11个相邻帧的激光雷达稀疏深度信息生成半稠密深度图像,并将此作为训练集、验证集和测试集的标签。KITTI提供的原始稀疏深度图像分辨率为352×1216,有效深度像素为18400个点,约占总体的4.3%,半稠密深度的深度图像的平均有效深度像素约为13%。
本文使用均方根误差(Root Mean Square Error, RMSE)、平均绝对误差(Mean Absolute Error, MAE)、逆深度均方根误差(Inverse depth Root Mean Square Error, iRMSE)、逆深度均方误差(Inverse depth Mean Square Error, iMAE)和参数量(Params)作为评估指标。其中RMSE与MAE的单位均为毫米(mm),iRMSE与iMAE的单位均为1/km,参数量的单位为兆(M)。
在KITTI测试集上的定量实验结果如表1所示(粗体表示最优结果,下划线表示次优结果),参与比较的方法有基于表面法向量约束的DeepLiDAR[11]和PwP[18]、基于感知机制的CrossGuide[10]、基于置信图约束的NConv-CNN-L2[19]和Conf-Net[20]、基于编解码结构的CSPN[21], DFine-Net[22], SSGP[23]和DFuse-Net[9]以及基于无监督的Sparse-to-Dense(gd)[8]。其中,基于表面法向量、置信图等信息辅助深度图像补全的方法取得了较好的效果,但是让网络去学习这些额外的信息大大增加网络复杂度。基于表面法向量约束的DeepLiDAR方法由于需要预测额外的表面法向量,因此整体网络相当复杂,在模型的参数量上是本文方法的近40倍。本文多阶段多尺度引导的深度补全网络在训练和推理的所有过程中,均不需要额外辅助信息,通过端到端的方式以轻量化的形式高效构建稀疏深度图像与稠密深度图像之间的映射关系,由表1可以看出本文方法在保证模型轻量化的同时在多项指标上均达到了最优。
方法 | RMSE | MAE | iRMSE | iMAE | Params(M) |
DFuse-Net | 1206.66 | 429.93 | 3.62 | 1.79 | 4.66 |
CSPN | 1019.64 | 279.46 | 2.93 | 1.15 | 256.08 |
Conf-Net | 962.28 | 257.54 | 3.10 | 1.09 | / |
DFine-Net | 943.89 | 304.17 | 3.21 | 1.39 | / |
Sparse-to-Dense(gd) | 814.73 | 249.95 | 2.80 | 1.21 | 26.1 |
NConv-CNN-L2 | 829.98 | 233.26 | 2.60 | 1.03 | / |
SSGP | 838.22 | 244.70 | 2.51 | 1.09 | / |
CrossGuide | 807.42 | 253.98 | 2.73 | 1.33 | 30 |
PwP | 777.05 | 235.17 | 2.23 | 1.13 | / |
DeepLiDAR | 758.38 | 226.50 | 2.56 | 1.15 | 144 |
本文 | 767.29 | 225.94 | 2.18 | 1.00 | 4.05 |
为了进一步展示本文多阶段多尺度引导深度补全算法的效果,图4给出了不同算法的视觉定性比较结果,可以看出本文算法相较于其他方法能更好地恢复出物体细节得到清晰可辨的物体结构,更好地区分前景与后景的边缘区域。比如,车辆轮廓的补全结果可以看到Sparse-to-Dense的补全结果呈现不连续的状态,颗粒状明显,CSPN的补全结果中只有车辆的大致轮廓,车辆的车窗和车门细节并没有恢复出来,本文的补全方法可以得到精细的物体细节,可以非常清楚地分辨车辆的轮廓和车窗。
为了分析本文网络中设计的各个模块对深度补全结果的影响,通过控制变量法开展消融实验来验证各模块的合理性,实验结果如表2所示。
Case | 彩色引导分支 | 精细补全分支 | 单损失函数 | 双损失函数 | 通道感知模块 | 多尺度卷积模块 | RMSE | MAE |
1 | √ | √ | 836.10 | 247.90 | ||||
2 | √ | √ | 845.20 | 255.70 | ||||
3 | √ | √ | √ | 830.50 | 243.40 | |||
4 | √ | √ | √ | 809.90 | 231.50 | |||
5 | √ | √ | √ | √ | 816.20 | 240.20 | ||
6 | √ | √ | √ | √ | 783.37 | 217.60 | ||
7 | √ | √ | √ | √ | √ | 775.43 | 209.80 |
首先为了说明双分支引导结构的合理性,如表2的case1, case2和case3所示,本文进行了如下3个消融实验:case1为仅使用彩色引导分支;case2为仅使用精细化补全分支;case3为本文双分支结构(仅监督精细化补全分支的损失函数)。在实验结果中可以看出,case3的双支结构在RMSE和MAE指标上均好于case1和case2的单支结构,说明了本文设计的双支结构的有效性。同时case1的彩色引导4通道输入的补全结果好于case2的单通道稀疏深度输入的补全结果,也验证了稠密彩色图像可以为稀疏深度图像的补全提供先验引导信息。
本文双损失函数的设计是为了鼓励每个分支都输出各自的预测稠密深度图像,配合3.1节所述的分阶段多权重的训练策略,双支协同学习网络的深度补全映射关系。如表2的case3和case4所示,双损失函数的设计大大提升了深度补全网络的性能,在RMSE指标上下降了20.6 mm,MAE指标上下降了11.9 mm,表明了双损失函数确实可以约束网络更好地学习到深度补全的映射关系。
本文设计的通道感知模块在网络中无监督地学习权重去衡量和评估特征的重要性,辅助特征融合来提高深度补全的效果。如表2所示,在case3和case5中,控制双分支网络+单损失函数的结构为不变量,通道感知模块为变量,加入通道感知模块后,RMSE和MAE指标下降了约1.7%和1.3%;在case4和case6中,控制双支网络+双损失函数的结构为不变量,通道感知模块为变量,在加入通道感知模块后RMSE和MAE指标下降了约3.2%和6.0%。
因此,通道感知模块可以有效地提升深度补全任务的效果。并且值得注意的是,通道感知机制在双损失函数的网络结构中,有着更大的提升效果,这是因为双损失函数可以有效地约束彩色引导分支生成更具引导作用的多尺度特征图像,感知机制也因此可以更好地发挥特征筛选的功能,从而实现高质量的深度补全。
为了验证本文多尺度卷积模块的合理性,设计了case6和case7消融实验,其中case7是加入多尺度卷积模块后本文网络的最终设计方案(注意,除case7之外所有消融实验中均使用等深度的3×3卷积层来替代本文的多尺度卷积模块)。本文设计的多尺度卷积模块可以提取更加多样性且兼顾多尺度需求的特征信息,同时本文多尺度卷积模块使用随机通道混合的机制增加了不同尺度的特征之间的关联性。如表2所示,在网络结构中加入了多尺度卷积模块,进一步提升了本文网络的深度图像补全效果。
为了验证本文网络轻量化设计的效果,表3给出了不同深度补全网络在KITTI测试集上的推理时间比较,均采用Nvidia GTX 1080Ti GPU进行测试。对于各端到端的深度补全网络来说,网络的推理时间即深度图像补全所需的时间,如表3所示本文算法的补全时间仅为0.09 s,说明本文网络在保证高质量补全效果的同时实现了轻量化的设计,可以很好地满足实际应用的需求。
CSPN | SSGP | CrossGuidence | PwP | 本文 | |
时间 | 1.0 | 0.14 | 0.2 | 0.1 | 0.09 |
本文设计了带有通道感知机制的多尺度多阶段引导策略来更好地建立彩色和深度两个不同模态特征之间的联系,充分发掘了彩色图像和深度图像的内在约束关系。本文设计了一种轻量化的带有通道随机混合功能的多尺度卷积模块,提升网络表征能力的同时控制网络的参数量,本文网络参数量仅约为4 M。同时本文构造了分阶段多权重损失的训练策略来约束网络学习映射关系,充分发挥本文设计的多阶段补全结构的性能,提升了深度图像的补全重建效果。
C.R. Smith, P. M. Goggans, Radar target identification, IEEE Trans. on AP Magazine, 1993,35(2), 27-38.[2]I.J. Lahaie, D. L. Sengupta, Scattering of electromagnetic wave by a slowly rotating rectangular metal plate, IEEE Trans. on AP., 1979, AP-27(1), 40-46.[3]I. Tardy, G. P. Piau, P. Chabrat, J. Rouch, Computational and experimental analysis of the scattering by rotating fans, IEEE Trans. on AP., 1996, AP-44(10), 1414-1421.[4]S.Y. Yang, S. M. Yeh, Electromagnetic backscattering from aircraft propeller blades, IEEE Trans.on Magnetics, 1997, 33(3), MAG-1432-1435.[5]M.R. Bell, R. A. Grubbs, JEM modeling and measurement for radar target identification, IEEE Trans. on AES., 1993, AES-29(1), 73-87.[6]J. Martin, B. Mulgrew, Analysis of the theoretical return signal from aircraft blades, The record of the IEEE International Conference Radar-90, New York, 1990, 569-572.[7]C.C. Vitor, Radar signatures of rotor blades.[J]. Proceedings of SPIE.2001,Vol.4391:63-[8]J. Martin, B. Mulgrew, Analysis of the effects of blade pitch on the radar return signal from rotating aircraft blades, 1992 IEE International Radar Conference, London (UK), IEE Conference Publication 365, 1992, 446-449.[9]周盛,等著,航空螺旋桨与桨扇,北京,国防工业出版业,1994,第一章.[10]张贤达,著,现代信号处理,北京,清华大学出版社,1995,68-122.
|
1. | 王俊帆,陈毅,高明煜,何志伟,董哲康,缪其恒. 智能交通感知新范式:面向元宇宙的交通标志检测架构. 电子与信息学报. 2024(03): 777-789 . ![]() | |
2. | 任瀚实,周志宇,孙树森. 基于通道注意力机制的室内场景深度图补全. 浙江理工大学学报(自然科学). 2023(03): 344-352 . ![]() | |
3. | 王鸽,杨睿华,惠维,赵季中. 基于多源数据关联融合的交通图像深度补全技术. 电子科技. 2023(10): 95-102 . ![]() |
方法 | RMSE | MAE | iRMSE | iMAE | Params(M) |
DFuse-Net | 1206.66 | 429.93 | 3.62 | 1.79 | 4.66 |
CSPN | 1019.64 | 279.46 | 2.93 | 1.15 | 256.08 |
Conf-Net | 962.28 | 257.54 | 3.10 | 1.09 | / |
DFine-Net | 943.89 | 304.17 | 3.21 | 1.39 | / |
Sparse-to-Dense(gd) | 814.73 | 249.95 | 2.80 | 1.21 | 26.1 |
NConv-CNN-L2 | 829.98 | 233.26 | 2.60 | 1.03 | / |
SSGP | 838.22 | 244.70 | 2.51 | 1.09 | / |
CrossGuide | 807.42 | 253.98 | 2.73 | 1.33 | 30 |
PwP | 777.05 | 235.17 | 2.23 | 1.13 | / |
DeepLiDAR | 758.38 | 226.50 | 2.56 | 1.15 | 144 |
本文 | 767.29 | 225.94 | 2.18 | 1.00 | 4.05 |
Case | 彩色引导分支 | 精细补全分支 | 单损失函数 | 双损失函数 | 通道感知模块 | 多尺度卷积模块 | RMSE | MAE |
1 | √ | √ | 836.10 | 247.90 | ||||
2 | √ | √ | 845.20 | 255.70 | ||||
3 | √ | √ | √ | 830.50 | 243.40 | |||
4 | √ | √ | √ | 809.90 | 231.50 | |||
5 | √ | √ | √ | √ | 816.20 | 240.20 | ||
6 | √ | √ | √ | √ | 783.37 | 217.60 | ||
7 | √ | √ | √ | √ | √ | 775.43 | 209.80 |
CSPN | SSGP | CrossGuidence | PwP | 本文 | |
时间 | 1.0 | 0.14 | 0.2 | 0.1 | 0.09 |
方法 | RMSE | MAE | iRMSE | iMAE | Params(M) |
DFuse-Net | 1206.66 | 429.93 | 3.62 | 1.79 | 4.66 |
CSPN | 1019.64 | 279.46 | 2.93 | 1.15 | 256.08 |
Conf-Net | 962.28 | 257.54 | 3.10 | 1.09 | / |
DFine-Net | 943.89 | 304.17 | 3.21 | 1.39 | / |
Sparse-to-Dense(gd) | 814.73 | 249.95 | 2.80 | 1.21 | 26.1 |
NConv-CNN-L2 | 829.98 | 233.26 | 2.60 | 1.03 | / |
SSGP | 838.22 | 244.70 | 2.51 | 1.09 | / |
CrossGuide | 807.42 | 253.98 | 2.73 | 1.33 | 30 |
PwP | 777.05 | 235.17 | 2.23 | 1.13 | / |
DeepLiDAR | 758.38 | 226.50 | 2.56 | 1.15 | 144 |
本文 | 767.29 | 225.94 | 2.18 | 1.00 | 4.05 |
Case | 彩色引导分支 | 精细补全分支 | 单损失函数 | 双损失函数 | 通道感知模块 | 多尺度卷积模块 | RMSE | MAE |
1 | √ | √ | 836.10 | 247.90 | ||||
2 | √ | √ | 845.20 | 255.70 | ||||
3 | √ | √ | √ | 830.50 | 243.40 | |||
4 | √ | √ | √ | 809.90 | 231.50 | |||
5 | √ | √ | √ | √ | 816.20 | 240.20 | ||
6 | √ | √ | √ | √ | 783.37 | 217.60 | ||
7 | √ | √ | √ | √ | √ | 775.43 | 209.80 |
CSPN | SSGP | CrossGuidence | PwP | 本文 | |
时间 | 1.0 | 0.14 | 0.2 | 0.1 | 0.09 |