高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种目标区域特征增强的SAR图像飞机目标检测与识别网络

韩萍 赵涵 廖大钰 彭彦文 程争

韩萍, 赵涵, 廖大钰, 彭彦文, 程争. 一种目标区域特征增强的SAR图像飞机目标检测与识别网络[J]. 电子与信息学报, 2024, 46(12): 4459-4470. doi: 10.11999/JEIT240491
引用本文: 韩萍, 赵涵, 廖大钰, 彭彦文, 程争. 一种目标区域特征增强的SAR图像飞机目标检测与识别网络[J]. 电子与信息学报, 2024, 46(12): 4459-4470. doi: 10.11999/JEIT240491
Wang Hui, Yu Neng-Hai, Liu Zheng-Kai. A Novel Multi-path Packet Scheduler Algorithm for Video Traffic in the Wireless Ad hoc Network[J]. Journal of Electronics & Information Technology, 2008, 30(2): 468-471. doi: 10.3724/SP.J.1146.2006.01034
Citation: HAN Ping, ZHAO Han, LIAO Dayu, PENG Yanwen, CHENG Zheng. A SAR Image Aircraft Target Detection and Recognition Network with Target Region Feature Enhancement[J]. Journal of Electronics & Information Technology, 2024, 46(12): 4459-4470. doi: 10.11999/JEIT240491

一种目标区域特征增强的SAR图像飞机目标检测与识别网络

doi: 10.11999/JEIT240491
基金项目: 中央高校基金(3122020043)
详细信息
    作者简介:

    韩萍:女,教授,研究方向为SAR图像处理与目标检测

    赵涵:男,硕士生,研究方向为SAR图像飞目标检测

    廖大钰:男,硕士生,研究方向为SAR图像飞机目标检测

    彭彦文:男,硕士生,研究方向为PoLSAR图像飞机场跑道检测

    程争:男,实验师,研究方向为极化SAR图像处理与目标检测

    通讯作者:

    韩萍 hanpingcauc@163.com

  • 中图分类号: TN958

A SAR Image Aircraft Target Detection and Recognition Network with Target Region Feature Enhancement

Funds: The Central University Fund (3122020043)
  • 摘要: 在合成孔径雷达(SAR)图像飞机目标检测识别中,飞机目标图像呈现离散特性以及结构之间的相似性会降低飞机检测与识别的准确率。为此该文设计了一种目标区域特征增强的SAR图像飞机目标检测与识别网络。网络由3部分组成:保护飞机特征的跨阶段部分网络(FP-CSPDarnet)、自适应特征融合的特征金字塔(FPN-A)以及目标区域散射特征提取与增强的检测头(D-Head)。FP-CSPDarnet在提取特征的同时可以有效保护SAR图像飞机特征;FPN-A采用多层次特征自适应融合、细化,来增强飞机特征;D-Head在检测前有效增强飞机可辨别特征,提升飞机检测与识别精度。利用SAR-ADRD数据集的实验结果证明了该文所提方法有效性,其平均精度相对与基线网络YOLOv5s提升了2.0%。
  • 合成孔径雷达(Synthetic Aperture Radar, SAR)具有全天时、全天候的成像能力,并且对地表具有一定的穿透能力,在军事侦察、自然灾害检测、海洋监测、地质勘探等方面被广泛应用[1,2]。随着SAR遥感成像技术的不断发展,大量高分辨率地物数据被获得,这为SAR图像智能解译提供了数据基础。飞机作为重要的军事和民用交通运输工具,开展基于SAR图像的飞机目标检测与识别可以为军事侦察、机场管理等领域提供有价值的信息,具有重要的研究意义[3]

    SAR图像飞机目标检测与识别相对于单一检测更具挑战性,具体表现在需要获得飞机更详细的特征进行飞机识别。在早期检测与识别方法中,通常是采用恒虚警率算法对SAR图像背景杂波建模选取感兴趣的目标,然后根据飞机目标具体的结构特性人工设计特征来完成检测与识别[47]。但其依赖人工设计特征和一定的先验信息,缺乏对多种场景的泛化能力。卷积神经网络(Convolutional Neural Network, CNN)可以自动从图像中挖掘高层次特征,具有较强的特征提取能力。在SAR图像飞机目标检测与识别领域得到了较好应用。如文献[8]提出了一种SAR飞机散射点信息提取网络,该网络采用自注意力机制提取了飞机离散点之间的信息,然后采用特征自适应融合金字塔结构聚合了不同层次和尺度的特征,最后通过背景注意增强模块提高了复杂背景下的飞机定位精度。文献[9]提出了一种由粗到细的检测与识别算法,首先基于YOLOv5s设计了一种注意力机制特征融合网络对飞机目标进行粗检测与识别,随后采用基于SAR灰度特征提取的机场掩膜进行精细化的飞机目标检测与识别。文献[10]提出了一种语义条件约束引导特征感知网络,设计局部全局特征感知模块与形态语义特征感知模块提取飞机特征,然后构建特征融合金字塔融合多种特征信息类型并抑制背景信息干扰,最后采用全局坐标注意机制来突出飞机显著性。文献[11]提出了一种结合散射感知的检测与识别方法,该网络设计了特征金字塔模块增强全局信息,减弱复杂场景中杂波干扰,其次设计散射感知检测模块来增强目标定位精度。尽管目前已取得一些成果,SAR图像中的飞机目标检测与识别仍然是一项充满挑战性的任务,具体而言,SAR图像中的飞机目标具有离散特性,其结构由一系列不规则的亮斑组成,导致飞机结构特征不完整,如图1(a)所示,其中绿框中为飞机、黄框中飞机强散射点。此外,一些不同型号的客机在结构上高度相似,导致识别难度增加,如图1(b)中所示。

    图 1  SAR图像中飞机的结构展示

    YOLOv5s[12]是YOLOv5的一种轻量化模型,其网络结构简单、检测性能强大,在SAR飞机小规模数据集上具有良好的检测与识别精度[10]。本文基于YOLOv5s设计了一种目标区域特征增强的网络用于SAR图像飞机目标检测与识别。首先,改进了骨干网络结构以及下采样层以保护飞机特征。其次,设计了包含飞机目标区域特征增强模块(Aircraft target area Feature enhancement module, AF)的解耦合结构检测头,以增强飞机的可判别特征。最后,通过飞机特征增强与细化模块(Aircraft feature enhancement and Refinement module, AR)融合不同层次的特征图,提升了特征融合效果。实验结果表明,该网络的平均精度(mean Average Precision, mAP)达到了95.7%,比YOLOv5s提升了2%,优于其他对比网络。

    YOLOv5是一种高效的基于CNN的目标检测网络,其检测性能强、稳定性高、结构简单,被广泛用于目标检测领域。其网络结构如图2所示,总体框架由骨干网络跨阶段局部网络(Cross Stage Partial Darknet, CSPDarknet)、颈部路径聚合网络(Path Aggregation Network, PANet)、检测头YOLO-Head 3部分构成。骨干网络CSPDarknet包含Stem, Block2, Block3, Block4, Block5 5个特征提取阶段,每个阶段都会对特征图进行一次下采样,完成特征提取后输出最后3个阶段的特征图C3, C4, C5。颈部PANnet通过自上而下、自下而上的双路径对骨干网络输入的3种特征图进行融合,最后将融合后的3层特征图分别送入检测头YOLO-Head完成检测。YOLOv5s的检测头是基于锚框的耦合头,一共有3个,每个检测头都预设3个锚框来预测真值框分别用于检测大、中、小物体。损失函数由3部分组成,分别是采用2元交叉熵损失(Binary Cross Entropy Loss, BCE Loss)的分类损失(classification loss)和置信度损失(objectness loss),采用完全交并比损失(Complete Intersection over Union Loss, CIoU Loss)的回归损失(regression loss),具体公式如式(1)所示

    图 2  YOLOv5网络架构图
    Loss=λ1Lcls+λ2Lobj+λ3Lreg
    (1)

    其中,λ1, λ2, λ3是平衡系数;Lcls, Lobj, Lreg分别为分类损失、置信度损失、回归损失。

    特征金字塔网络[13](Feature Pyramid Network, FPN)通过自上而下的方式融合骨干网络输出的多层次特征图,并采用多尺度输出进行多尺度检测。具体而言,FPN将低分辨率特征图上采样后与高分辨率特征图融合,生成多个尺度的特征图进行预测,如图3所示。

    图 3  FPN架构图

    一些研究对FPN进行了改进,例如在FPN自上而下的传播路径后增加一条自下而上的新路径,构建了PANet,从而实现更好的特征交互。只看一层特征(You Only Look One-level Feature, YOLOF)[14]指出在合适的特征尺度上,进行多输入单输出也可以达到与多输入多输出相当的检测性能。

    目标检测任务包括分类和定位两个子任务,一般的目标检测框架通常采用权重共享的检测头来完成这两个任务。然而,Song等人[15]通过热力图的可视化分析,发现分类任务和定位任务在特征空间上存在差异性,即分类任务更依赖于目标显著区域高级语义信息,而定位任务更需要目标边界框周围的低级纹理信息。基于此,他们提出了一种解耦合的检测头,将分类和定位任务分别用不同的网络分支来学习,从而提升了模型的性能。在此研究基础上,Zhuang等人[16]进一步发现,低分辨率的特征图更适合分类任务,而高分辨率的特征图更适合定位任务。因此他们在分类分支和定位分支选择不同的特征作为输入,进一步解除了两个任务的空间耦合性。目前,很多主流的检测算法也开始采用解耦合的检测头结构来提升模型的上限,例如:YOLOX[17], TOOD[18], YOLOv6[19], YOLOv8[20]等。

    本文设计了一种目标区域特征增强的SAR图像飞机目标检测与识别网络,本网络基于YOLOv5s框架进行优化设计,核心改进包括骨干网络FP-CSPDarnet、颈部网络FPN-A、检测头D-Head,其网络架构如图4所示。在检测阶段,FP-CSPDarnet骨干网络完成对SAR图像特征提取,并输出3个层级不同的特征图。FPN-A颈部网络对FP-CSPDarnet输出的不同尺度特征图进行整合,并传递至检测头。D-Head检测头对来自颈部网络的特征图进行进一步的精细化和增强处理,以实现对飞机目标的精确检测与识别。

    图 4  本文网络架构图

    在训练阶段,采用BCE Loss作为分类损失函数与置信度损失函数,使用CIoU Loss作为回归损失函数。测试阶段,网络直接预测飞机目标的类别、位置和置信度信息,然后利用非极大值抑制(Non Maximum Suppression, NMS)进行后处理,消除飞机目标中的冗余预测框。

    在SAR图像中,飞机的表现形式呈现离散状态,结构和几何特征非常不明显[21]。然而,骨干网络的下采样过程会导致这些飞机特征不必要的损失,从而影响模型的检测与识别精度。同时,考虑到SAR图像中飞机特征主要为底层语义信息的特点[22],本文设计的骨干网络由5个阶段组成,第1阶段为Stem模块,第2阶段为Block2模块,第3阶段为2个Block3模块堆叠而成,第4个阶段为3个Block4模块堆叠而成,第5个阶段为Block5模块。Stem阶段由Focus模块和CBS层构成,用于提取底层特征并对输入图像进行2倍下采样。Block2–Block5在Stem阶段的低级语义信息基础上进一步提取特征,它们由空间到深度层(SPace to Depth, SPD)、CBS层和C2f模块构成。SPD是下采样层,CBS是卷积层,C2f模块是特征提取模块。

    SAR图像飞机中主要为底层纹理特征,需要高分辨率的特征图达到飞机更准确的检测与识别。针对此,FP-CSPDarnet在Block5阶段取消了下采样层。这样可以增加Block5输出特征图的分辨率。图5展示了FP-CSPDarnet与YOLOv5s骨干网络CSPDarknet的结构对比,其中2×表示2倍下采样。本文骨干网络如图(b)所示,可以看出,本文骨干网络在网络深处时,其特征图具有更高的空间分辨率,更有利于学习飞机目标的细节信息,为后续提高飞机目标的检测与识别准确度打好基础。

    图 5  CSPDarknet骨干网络与FP-CSPDarnet结构对比图

    CNN在使用跨步卷积或池化层进行下采样时,目标的像素信息会大量损失。这种损失在目标特征足够时不明显,在SAR图像飞机目标检测任务中,由于飞机图像的离散性,冗余信息的假设不再成立,网络就会受到飞机特征丢失与特征学习不足的影响。因此,FP-CSPDarnet采用SPD-Conv替代卷积核大小为3、步幅为2的卷积层作为下采样层,减少下采样过程中飞机目标重要特征的损失。

    SPD-Conv由SPD层和卷积核大小为3、步幅为1的CBS层构成,SPD层对特征图进行下采样,可以保留特征图通道上的所有信息,Conv层细化特征同时调整通道数。具体结构如图6所示,其中两个S分别为特征图的空间长度、空间宽度,C1, C2表特征图的通道数。

    图 6  SPD-Conv结构图

    SPD层可以将特征图X切为一系列子特征图,然后将子特征图在通道维度进行拼接,以达到下采样的目的,这样可以保留特征图上飞机所有的特征信息。具体而言,本文在空间维度对尺寸为S×S×C1的特征图X进行降采样,得到4个子特征图,每个子映射的尺寸为S/2×S/2×C1,相当于特征X的2倍下采样,然后,从通道维度将这些子特征图拼接,得到新的特征映射X0,它的尺寸为S/2×S/2×4C1。SPD层将原特征映射X转换为中间特征映射之后X0,CBS层调整中间特征映射X0的通道数,最终输出完成下采样后的特征图X1

    一些先进的算法在颈部采用了PANet进行特征融合,增强目标特征,它是一种自上而下与自下而上的双路径的特征融合方法。这种设计在一些光学图像检测与识别领域已经显示出优异的性能,例如在ImageNet和MS-COCO等数据集上。SAR图像为遥感图像,具有覆盖面积大、飞机目标在图像中呈现的尺寸相对偏小、停放稀疏等特点。在SAR图像飞机目标检测与识别任务中,PANet复杂的特征融合会导致大量的冗余信息,并且其在融合时未考虑到各层特征图输出贡献,这些都会影响特征融合的效率。基于上述分析,本文参考YOLOF[14]网络思想,设计了一个特征融合过程简单并且能自适应融合多层次特征的颈部FPN-A。它不需要复杂的特征融合,采用多输入单输出的方式,在一个合适的尺度上的特征图上高效地聚合飞机特征,用于后续的检测任务。

    FPN-A整体结构如图7所示,C3, C4, C5是骨干网络Block3, Block4, Block5输出的特征图,P3为C3下采样得到的特征图,AR表示飞机特征增强与细化模块。具体而言,FPN-A首先将C3层特征图进行下采样得到P3,然后将P3, C4, C5特征图送入AR模块完成自适应特征融合。通过这样简单的设计可以进一步处理骨干网络提取的特征,并将其更好地传递给头部进行最终的定位和分类任务。

    图 7  FPN-A结构图

    AR模块的结构如图8(a)所示。该模块包括通道注意力模块(Channel Attention)、卷积层(CBS)、通道分流层(Split)、特征提取层(Bottleneck)、通道拼接层(Concat)。P3,C4,C5层特征图送入Channel Attention模块进行自适应特征融合,随后通过CBS层进行通道数的调整。Split层将整合后的特征图分为两个梯度流。其中一个梯度流串联多个Bottleneck模块,每个模块输出一个独立的梯度流。这种多梯度流的处理方式能够提取SAR图像更具代表性的差异特征,进而实现特征的细化。之后,一个梯度流中的每个Bottleneck模块的输出与另一个梯度流的输出进行Concat操作。最终,通过一个卷积核大小为1、步幅为1的CBS层来调整通道数,以完成特征细化。

    图 8  AR模块

    Channel Attention模块的结构如图8(b)所示,首先将3层输出特征图(P3, C4, C5)通过通道进行拼接,然后对拼接后的特征图执行最大池化和平均池化操作,分别得到两个特征映射。这两种池化操作能够在特征图中聚合不同的信息,从而捕获更加丰富的特征。随后,这两个特征映射通过全连接层处理并进行元素级相加,该全连接层有助于学习不同通道之间的相互关系。接着,相加后的特征图通过Sigmoid函数进行归一化,以便进行自适应加权。最终,归一化后的特征映射与原始的3层特征图进行元素级的通道乘法操作,得到最终的输出结果。这一过程实现了对不同通道的自适应加权,使得网络能够突出重要特征并抑制次要特征,从而提升了模型对关键信息的敏感度。

    本文在骨干网络中有效地提取了飞机的特征,并通过在颈部采用多层特征融合技术,进一步强化了飞机特征的表达。在SAR图像中,各型号飞机的结构相似,缺乏可辨别各型号飞机的特征。并且,卷积核依赖于边缘和亮度的变化来提取特征,而这些特征由于飞机的离散性,在SAR图像中不够明显或者不稳定,因此,普通卷积特征提取效果不佳。在上述研究基础上,基于先前相关工作指出的高层次语义信息在物体类别判别中的重要性,可以知道增强飞机的高层次特征能够提升模型对飞机的判别效能。因此,本文设计了一个专门针对飞机目标区域散射特征提取与增强的检测头,如图9所示。

    图 9  D-Head结构图

    检测头采用解耦合设计,主体由分类分支和定位分支组成。两个分支将颈部的输出作为输入,最终生成用于分类、边界框回归和置信度估计的特征映射。在分类分支中,利用AF模块从SAR图像中提取飞机的离散信息和高级别的多层次语义信息,以增强模型对飞机的辨识能力。随后,通过一个卷积层将通道数调整至7倍锚框数,生成用于分类的特征映射。定位分支首先通过一个卷积层细化为边界框分支和置信度分支,然后通过两个并行卷积层分别将输出通道数调整至4倍锚框数和1倍锚框数,用于边界框回归和置信度估计。这种设计策略有效地分隔了分类与定位任务的梯度流,使分类特征和定位特征得到精细化处理,从而提高模型性能的上限。

    图9中的AF模块结构如图10所示,其首先利用卷积层来调整通道数生成特征映射X。随后,特征映射X通过一层可变形卷积层生成特征映射Y,再连续经过3层最大池化层分别生成特征映射Y1, Y2, Y3。然后,将特征映射X, Y, Y1, Y2, Y3在通道维度进行拼接(Concat),并将拼接后的特征映射送入卷积层以调整通道数,获得最终输出。SAR图像中飞机结构特征主要表现在飞机离散的散射点上,不同类型的飞机在结构特征上存在较大相似性。因此,AF模块内部首先采用可变形卷积更精确地捕捉飞机的离散特征。具体而言,可变形卷积通过增加可学习的偏移量来调整卷积核的形状和位置,从而更好地适应目标的实际形态和位置变化。在处理SAR图像飞机目标时,使得卷积核能够适应飞机结构的离散性,提取出飞机更细致的特征。然后,通过3层连续的池化层,逐步扩展特征图的感受野,从而提取多种感受野下的不同高层次语义信息。这些高层次语义信息涵盖了丰富的飞机目标结构特征以及上下文信息,有助于增强各类别飞机的可区分特征,以缓解不同型号飞机结构高度相似的问题,提升网络对飞机检测与识别的性能。

    图 10  AF模块

    本文实验采用的数据集为SAR-ADRD[23],来源于高分三号采集的各个民用机场图像数据,分辨率为1 m,包含2 000个图像切片,图片像素在600×600~2 048×2 048之间。数据集内有6286架飞机目标共分为7类,分别是ARJ21, A220, Boeing787, Boeing737-800, A330, A320/321, other。图11展示了数据集中各类别飞机的数量。

    图 11  数据集中飞机的类别与数量

    为了定量分析所提方法的性能,本文采用常用评估指标,包括准确率(Precision)、召回率(Recall)、平均精度(mAP)、参数量(Parameters)、帧率(fps),IOU=0.5作为划分正负样本的阈值。

    实验数据集按照6:2:2的比例划分为训练集、验证集、测试集,训练时输入图片的大小为640×640。为了提高训练集中数据的多样性,增强模型泛化能力,训练前使用翻转、平移、缩放、裁剪等数据增强方式随机扩展训练样本数量。模型的优化器为SGD,动量因子0.937,学习率0.01,权重衰减0.0005,batch size大小8,每次实验都对网络权重随机初始化并且均进行300 epochs。部分对比实验基于mmdetection框架实现。运行环境为Pytorch1.12.1, CUDA11.3和Ubuntu 18.04.6 LTS,采用的GPU为一个NVIDIA GeForce RTX 3090 (24GB)GPU。本文采用K-means++的方法对数据集中飞机目标的边界框聚类得到4组预设锚框,长宽分别是(18,17), (37,35), (57,54), (82,75)。另外,基线网络YOLOv5s的9组锚框如YOLOv5-7.0官方文件所示(https://github.com/ultralytics/yolov5-7.0)。

    为了验证本文网络的有效性,本文进行了一系列消融实验。这些实验包括YOLOv5网络深度消融实验、网络各模块消融实验、骨干网络P-CSPDarknet中各模块消融实验。为了公平比较,所有消融实验都保持相同的超参数设置。

    4.4.1   YOLOv5网络深度消融实验

    本文分别使用YOLOv5 7.0 版本提供的 5 种模型大小进行实验,这里大小指的是每种模型规格拥有通道数和特征提取块堆叠的相应比例不同。如表1所示,YOLOv5s在精度和速度方面权衡的最好,因此,本文选择其为设计基线(Baseline)。

    表 1  YOLOv5网络深度消融实验
    模型 P(%) R(%) mAP(%) Parameters(M) fps
    YOLOv5n 90.6 89.1 92.0 1.8 93.6
    YOLOv5s 93.0 90.6 93.7 7.0 93.5
    YOLOv5m 92.2 90.2 93.3 20.9 68.5
    YOLOv5l 93.1 91.2 93.0 46.1 47.6
    YOLOv5x 94.0 91.0 94.4 86.2 41.9
    下载: 导出CSV 
    | 显示表格
    4.4.2   网络各个模块消融实验

    实验中分别采用本文设计的FPN-A, FP-CSPDarnet以及D-Head对应基线网络相应模块替换,各模块消融实验结果如表2所示。

    表 2  网络各个模块消融实验
    FPN-A FP-CSPDarnet D-Head P(%) R(%) mAP(%) Parameters(M) fps
    Baseline 93.0 90.6 93.7 7.0 93.6
    90.2 86.5 92.4 8.5 129.9
    92.3 92.5 94.8 10.3 129.9
    本文方法 92.5 92.3 95.7 12.2 108.7
    下载: 导出CSV 
    | 显示表格

    从表中实验结果可见,引入FPN-A后,网络的准确率、召回率和平均精度分别降低了2.8%, 4.1%和1.3%。同时,网络的参数量和帧数分别增加了1.5M和36.3。FPN-A采用多输入单输出的结构,替换FPN-A后,网络仅使用1个检测头。然而,FPN-A在输出特征图上未获得足够的飞机特征,网络性能有所下降,但模型的推理速度显著提升。

    而采用FP-CSPDarnet后,网络在准确率、召回率、平均精度、参数量分别提高了2.1%, 6.0%, 2.4%, 1.8M。为进一步验证骨干网络的有效性,本文分别展示了YOLOv5s骨干网络和新设计骨干网络的特征图可视化结果,如图12所示。在YOLOv5s骨干网络输出特征图的各个通道中,飞机特征几乎不可见。相对比下,本文设计骨干的特征图中,飞机特征在一些通道中清晰可辨、轮廓明显(见黑色箭头),这证明了新骨干网络能有效保护SAR图像中的飞机特征。

    图 12  骨干网络输出特征图通道可视化结果图

    最后,采用本文设计的检测头D-Head替换基线网络中的检测头。网络在准确率、平均精度上分别提高了0.2%,0.9%,能更准确地提取SAR图像中的飞机的特征。为进一步验证检测头的有效性,本文展示了优化检测头前后的混淆矩阵,如图13所示。优化后,飞机类间误检率减少了3%,进一步证明了本文设计检测头的优势,即能更好地提取出飞机的可辨别特征,从而获得更佳的检测与识别结果。

    图 13  优化检测头前后的混淆矩阵
    4.4.3   骨干网络P-CSPDarknet中各模块消融实验

    本文首先采用设计颈部PFN-A替换基线网络中的PAnet,随后进行了骨干网络的消融实验。本文骨干网络的独特之处主要在于其结构设计和下采样层的优化。为了验证本文骨干网络结构设计与下采样层优化的有效性,本文进一步进行了针对这些设计的消融实验,实验结果如表3所示。研究结果表明,这两个方面的设计均进一步提高了飞机检测的平均精度,从而证明了其设计的有效性。

    表 3  骨干网络P-CSPDarknet中各模块消融实验(%)
    FPN-A FP-CSPDarnet (骨干结构) FP-CSPDarnet (骨干结构+SPD-Conv) P (%) R (%) mAP
    90.2 86.5 92.4
    91.8 90.2 93.9
    92.3 92.5 94.8
    下载: 导出CSV 
    | 显示表格

    为了进一步验证本文网络的有效性,本文选取5种具有代表性的基于CNN的检测网络进行比较,包括Faster R-CNN[23], TOOD[18], YOLOX-s[17], YOLOv5s[12]和YOLOv7s[24]表4展示了各网络的检测结果。其中mAP为95.7%,与对比网络相比,mAP最高可高出10.7%,最低也高出了2.0%。另外,精准率、召回率和帧率都具有明显优势,只有参数量不完全占优,但总体上本文网络在检测性能及效率上由于对比网络。

    表 4  不同检测网络对比实验
    P(%) R(%) mAP(%) Parameters(M) fps
    YOLOv5s 92.6 89.9 93.7 7.0 93.5
    Faster R-CNN 82.0 85.6 87.8 41.2 11.2
    TOOD 84.9 81.7 85.0 31.8 12.9
    YOLOX-s 80.7 83.4 89.7 8.9 41.2
    YOLOv7s 91.1 87.6 93.5 9.2 75.8
    本文方法 92.5 92.3 95.7 12.3 108.7
    下载: 导出CSV 
    | 显示表格

    表5展示出了不同飞机类别的检测精度,本文网络对各种机型飞机的检测精度均高于其他网络。特别是对A320/321的检测,本文方法达到了95.4%的精度,而TOOD和Faster R-CNN分别为67.8%和74.7%。实验表明,本文网络在实际场景中具有更好的飞机检测与识别能力。图14图15展示了各检测网络的结果,其中绿框代表网络检测结果、橙框代表虚警、红框代表漏检、黄框代表错误检测,每张图的右侧为该场景的局部放大图。可以显示出其他网络存在漏警和虚警问题,而本文网络的检测效果更佳,进一步证实了其有效性。

    表 5  数据集内不同飞机类别在不同检测网络的精度(%)
    网络模型/飞机类别 Boeing787 A220 ARJ21 Boeing737-800 A320/321 A330 Others mAP(%)
    YOLOv5s 98.0 96.6 93.6 87.2 88.1 95.1 96.9 93.7
    Yolov7s 96.8 95.5 92.2 93.0 85.8 96.2 94.2 93.5
    TOOD 90.7 94.3 85.3 81.1 67.8 91.0 84.4 84.9
    YOLOX-s 89.2 86.4 86.3 94.5 95.4 86.7 89.5 89.7
    Faster R-CNN 91.8 94.8 87.9 85.6 74.7 91.1 89.0 87.8
    本文方法 98.7 98.7 97.7 95.1 95.4 94.8 97.1 95.7
    下载: 导出CSV 
    | 显示表格
    图 14  各个网络检测结果图1
    图 15  各个网络检测结果图2

    本文针对SAR图像飞机目标结构呈现的离散特性以及结构相似性,导致检测与识别精度不高的问题,以综合性能较强的YOLOv5s为基线对这些问题进行分析及网络优化,提出一种目标区域特征增强的SAR图像飞机目标检测与识别网络。该网络总框架由骨干网络FP-CSPDarnet、颈部FPN-A和头部D-Head构成。FP-CSPDarnet保护飞机的重要特征,FPN-A通过简单结构和自适应特征融合增强性能,D-Head增强飞机的可辨别特征,从而提高检测与识别效果。在SAR-ADRD数据集上的实验表明,本文方法的检测精度比YOLOv5s提高了2.0%。与Faster R-CNN, TOOD, YOLOX-s, YOLOv7s等典型检测网络进行了对比实验,结果显示本文方法具有更高的检测与识别精度,进一步证明了其有效性。

  • 图  1  SAR图像中飞机的结构展示

    图  2  YOLOv5网络架构图

    图  3  FPN架构图

    图  4  本文网络架构图

    图  5  CSPDarknet骨干网络与FP-CSPDarnet结构对比图

    图  6  SPD-Conv结构图

    图  7  FPN-A结构图

    图  8  AR模块

    图  9  D-Head结构图

    图  10  AF模块

    图  11  数据集中飞机的类别与数量

    图  12  骨干网络输出特征图通道可视化结果图

    图  13  优化检测头前后的混淆矩阵

    图  14  各个网络检测结果图1

    图  15  各个网络检测结果图2

    表  1  YOLOv5网络深度消融实验

    模型 P(%) R(%) mAP(%) Parameters(M) fps
    YOLOv5n 90.6 89.1 92.0 1.8 93.6
    YOLOv5s 93.0 90.6 93.7 7.0 93.5
    YOLOv5m 92.2 90.2 93.3 20.9 68.5
    YOLOv5l 93.1 91.2 93.0 46.1 47.6
    YOLOv5x 94.0 91.0 94.4 86.2 41.9
    下载: 导出CSV

    表  2  网络各个模块消融实验

    FPN-A FP-CSPDarnet D-Head P(%) R(%) mAP(%) Parameters(M) fps
    Baseline 93.0 90.6 93.7 7.0 93.6
    90.2 86.5 92.4 8.5 129.9
    92.3 92.5 94.8 10.3 129.9
    本文方法 92.5 92.3 95.7 12.2 108.7
    下载: 导出CSV

    表  3  骨干网络P-CSPDarknet中各模块消融实验(%)

    FPN-A FP-CSPDarnet (骨干结构) FP-CSPDarnet (骨干结构+SPD-Conv) P (%) R (%) mAP
    90.2 86.5 92.4
    91.8 90.2 93.9
    92.3 92.5 94.8
    下载: 导出CSV

    表  4  不同检测网络对比实验

    P(%) R(%) mAP(%) Parameters(M) fps
    YOLOv5s 92.6 89.9 93.7 7.0 93.5
    Faster R-CNN 82.0 85.6 87.8 41.2 11.2
    TOOD 84.9 81.7 85.0 31.8 12.9
    YOLOX-s 80.7 83.4 89.7 8.9 41.2
    YOLOv7s 91.1 87.6 93.5 9.2 75.8
    本文方法 92.5 92.3 95.7 12.3 108.7
    下载: 导出CSV

    表  5  数据集内不同飞机类别在不同检测网络的精度(%)

    网络模型/飞机类别 Boeing787 A220 ARJ21 Boeing737-800 A320/321 A330 Others mAP(%)
    YOLOv5s 98.0 96.6 93.6 87.2 88.1 95.1 96.9 93.7
    Yolov7s 96.8 95.5 92.2 93.0 85.8 96.2 94.2 93.5
    TOOD 90.7 94.3 85.3 81.1 67.8 91.0 84.4 84.9
    YOLOX-s 89.2 86.4 86.3 94.5 95.4 86.7 89.5 89.7
    Faster R-CNN 91.8 94.8 87.9 85.6 74.7 91.1 89.0 87.8
    本文方法 98.7 98.7 97.7 95.1 95.4 94.8 97.1 95.7
    下载: 导出CSV
  • [1] 高贵, 周蝶飞, 蒋咏梅, 等. SAR图像目标检测研究综述[J]. 信号处理, 2008, 24(6): 971–981. doi: 10.3969/j.issn.1003-0530.2008.06.018.

    GAO Gui, ZHOU Diefei, JIANG Yongmei, et al. Study on target detection in SAR Image: A survey[J]. Signal Processing, 2008, 24(6): 971–981. doi: 10.3969/j.issn.1003-0530.2008.06.018.
    [2] 李永祯, 黄大通, 邢世其, 等. 合成孔径雷达干扰技术研究综述[J]. 雷达学报, 2020, 9(5): 753–764. doi: 10.12000/JR20087.

    LI Yongzhen, HUANG Datong, XING Shiqi, et al. A review of synthetic aperture radar jamming technique[J]. Journal of Radars, 2020, 9(5): 753–764. doi: 10.12000/JR20087.
    [3] FU Kun, DOU Fangzheng, LI Hengchao, et al. Aircraft recognition in SAR images based on scattering structure feature and template matching[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11(11): 4206–4217. doi: 10.1109/JSTARS.2018.2872018.
    [4] HU Hao, HUANG Lanqing, and YU Wenxian. Aircraft detection for HR SAR Images in non-homogeneous background using GGMD-based modeling[J]. Chinese Journal of Electronics, 2019, 28(6): 1271–1280. doi: 10.1049/cje.2019.08.010.
    [5] CHEN Jiehong, ZHANG Bo, and WANG Chao. Backscattering feature analysis and recognition of civilian aircraft in TerraSAR-X images[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(4): 796–800. doi: 10.1109/LGRS.2014.2362845.
    [6] HE Chu, TU Mingxia, LIU Xinlong, et al. Mixture statistical distribution based multiple component model for target detection in high resolution SAR imagery[J]. ISPRS International Journal of Geo-Information, 2017, 6(11): 336. doi: 10.3390/ijgi6110336.
    [7] 高君, 高鑫, 孙显. 基于几何特征的高分辨率SAR图像飞机目标解译方法[J]. 国外电子测量技术, 2015, 34(8): 21–28. doi: 10.3969/j.issn.1002-8978.2015.08.008.

    GAO Jun, GAO Xin, and SUN Xian. Geometrical features-based method for aircraft target interpretation in high-resolution SAR images[J]. Foreign Electronic Measurement Technology, 2015, 34(8): 21–28. doi: 10.3969/j.issn.1002-8978.2015.08.008.
    [8] ZHANG Peng, XU Hao, TIAN Tian, et al. SFRE-net: Scattering feature relation enhancement network for aircraft detection in SAR images[J]. Remote Sensing, 2022, 14(9): 2076. doi: 10.3390/rs14092076.
    [9] 赵琰. 基于深度学习的SAR图像飞机目标检测与识别[D]. [硕士论文], 国防科技大学, 2020. doi: 10.27052/d.cnki.gzjgu.2020.001038.

    ZHAO Yan. Deep learning based aircraft detection and recognition in SAR images[D]. [Master dissertation], National University of Defense Technology, 2020. doi: 10.27052/d.cnki.gzjgu.2020.001038.
    [10] WANG Zhen, XU Nan, GUO Jianxin, et al. SCFNet: Semantic condition constraint guided feature aware network for aircraft detection in SAR Images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5239420. doi: 10.1109/TGRS.2022.3224599.
    [11] 王智睿, 康玉卓, 曾璇, 等. SAR-AIRcraft-1.0: 高分辨率SAR飞机检测识别数据集[J]. 雷达学报, 2023, 12(4): 906–922. doi: 10.12000/JR23043.

    WANG Zhirui, KANG Yuzhuo, ZENG Xuan, et al. SAR-AIRcraft-1.0: High-resolution SAR aircraft detection and recognition dataset[J]. Journal of Radars, 2023, 12(4): 906–922. doi: 10.12000/JR23043.
    [12] WU Wentong, LIU Han, LI Lingling, et al. Application of local fully convolutional neural network combined with YOLO v5 algorithm in small target detection of remote sensing image[J]. PLoS One, 2021, 16(10): e0259283. doi: 10.1371/journal.pone.0259283.
    [13] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Hawaii, American, 2017: 2117–2125. doi: 10.1109/CVPR.2017.106.
    [14] CHEN Qiang, WANG Yingming, YANG Tong, et al. You only look one-level feature[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 13039–13048. doi: 10.1109/CVPR46437.2021.01284.
    [15] SONG Guanglu, LIU Yu, and WANG Xiaogang. Revisiting the sibling head in object detector[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, American, 2020: 11563–11572. doi: 10.1109/CVPR42600.2020.01158.
    [16] ZHUANG Jiayuan, QIN Zheng, YU Hao, et al. Task-specific context decoupling for object detection[J]. arXiv preprint arXiv: 2303.01047, 2023.
    [17] GE Zhang, LIU Songtao, WANG Feng, et al. YOLOX: Exceeding YOLO series in 2021[J]. arXiv preprint arXiv: 2107.08430, 2021.
    [18] FENG Chengjian, ZHONG Yujie, GAO Yu, et al. TOOD: Task-aligned one-stage object detection[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 3490–3499. doi: 10.1109/ICCV48922.2021.00349.
    [19] LI Chuyi, LI Lulu, JIANG Hongliang, et al. YOLOv6: A single-stage object detection framework for industrial applications[J]. arXiv preprint arXiv: 2209.02976, 2022.
    [20] WANG Gang, CHEN Yanfei, AN Pei, et al. UAV-YOLOv8: A small-object-detection model based on improved YOLOv8 for UAV aerial photography scenarios[J]. Sensors, 2023, 23(16): 7190. doi: 10.3390/s23167190.
    [21] ZHAO Yan, ZHAO Lingjun, LIU Zhong, et al. Attentional feature refinement and alignment network for aircraft detection in SAR imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5220616. doi: 10.1109/TGRS.2021.3139994.
    [22] HAN Ping, LIAO Dayu, HAN Binbin, et al. SEAN: A simple and efficient attention network for aircraft detection in SAR images[J]. Remote Sensing, 2022, 14(18): 4669. doi: 10.3390/rs14184669.
    [23] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. doi: 10.1109/TPAMI.2016.2577031.
    [24] WANG C Y, BOCHKOVSKIY A, and LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 7464–7475. doi: 10.1109/CVPR52729.2023.00721.
  • 加载中
图(15) / 表(5)
计量
  • 文章访问数:  391
  • HTML全文浏览量:  130
  • PDF下载量:  66
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-06-14
  • 修回日期:  2024-11-21
  • 网络出版日期:  2024-11-25
  • 刊出日期:  2025-12-01

目录

/

返回文章
返回