Loading [MathJax]/jax/element/mml/optable/BasicLatin.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

利用自适应融合和混合锚检测器的遥感图像小目标检测算法

王坤 丁麒龙

王坤, 丁麒龙. 利用自适应融合和混合锚检测器的遥感图像小目标检测算法[J]. 电子与信息学报, 2024, 46(7): 2942-2951. doi: 10.11999/JEIT230966
引用本文: 王坤, 丁麒龙. 利用自适应融合和混合锚检测器的遥感图像小目标检测算法[J]. 电子与信息学报, 2024, 46(7): 2942-2951. doi: 10.11999/JEIT230966
WANG Kun, DING Qilong. Remote Sensing Images Small Object Detection Algorithm With Adaptive Fusion and Hybrid Anchor Detector[J]. Journal of Electronics & Information Technology, 2024, 46(7): 2942-2951. doi: 10.11999/JEIT230966
Citation: WANG Kun, DING Qilong. Remote Sensing Images Small Object Detection Algorithm With Adaptive Fusion and Hybrid Anchor Detector[J]. Journal of Electronics & Information Technology, 2024, 46(7): 2942-2951. doi: 10.11999/JEIT230966

利用自适应融合和混合锚检测器的遥感图像小目标检测算法

doi: 10.11999/JEIT230966
基金项目: 国家自然科学基金(62173331)
详细信息
    作者简介:

    王坤:女,副教授,研究方向为图像处理、故障诊断

    丁麒龙:男,硕士生,研究方向为遥感图像目标检测

    通讯作者:

    王坤 yogo_w@163.com

  • 中图分类号: TN957.51; TP751.1

Remote Sensing Images Small Object Detection Algorithm With Adaptive Fusion and Hybrid Anchor Detector

Funds: The National Natural Science Foundation of China (62173331)
  • 摘要: 针对遥感图像背景噪声多,小目标多且密集排列,以及目标尺度分布广导致的遥感图像小目标难以检测的问题,该文提出一种根据不同尺度的特征信息自适应融合的混合锚检测器AEM-YOLO。首先,提出了一种结合目标宽高信息以及尺度宽高比信息的二坐标系k-means聚类算法,生成与遥感图像数据集匹配度较高的锚框。其次,设计了自适应增强模块,用于解决不同尺度特征之间的直接融合导致的信息冲突,并引入更低特征层沿自底向上的路径传播小目标细节信息。通过混合解耦检测头的多任务学习以及引入尺度引导因子,可以有效提高对宽高比大的目标召回率。最后,在DIOR数据集上进行实验表明,相较于原始模型,AEM-YOLO的AP提高了7.8%,在小中大目标的检测中分别提高了5.4%,7.2%,8.6%。
  • 遥感图像目标检测是目标检测的关键任务,在军事国防、城市规划、地质检测等领域都有着广泛应用前景。由于遥感图像小目标排列密集且背景复杂,导致小目标召回率低。随着卷积神经网络的发展以及遥感图像数据集的完善,如何提高复杂背景中遥感小目标的检测能力,提高尺度差异大目标的召回率,已经成为遥感目标检测中亟需解决的问题。

    目前基于深度学习的目标检测方法主要有基于卷积神经网络的一阶段、二阶段检测器。其中,二阶段检测器通过区域建议网络生成感兴趣区域,用来区分前景和背景,使正负样本更加平衡,所以二阶段检测器检测精度高,但检测速度较慢。一阶段检测器可以同时完成定位、分类以及置信度计算的任务,检测速度快。根据有无预先设定好的锚框,一阶段检测器分为有锚检测器和无锚检测器,以及兼顾二者的混合锚检测器。有锚检测器可以根据数据集生成合适的锚框,在遥感目标检测任务中能够有效学习多种尺寸的目标特征,检测适应性好,Wang等人[1]通过在k-means聚类中增加聚类中心间的距离维度以生成匹配度更高的锚框,并且通过坐标注意力机制抑制背景噪声从而提高在复杂背景下的遥感目标检测能力;王成龙等人[2]采用k-means++聚类算法改善聚类算法对初始点敏感的问题,并通过深度可分离卷积减少模型参数实现遥感图像实时检测。而无锚检测器对特殊尺度目标的召回效果更好,Reis等人[3]使用动态标签分配算法增强分类和目标定位任务之间的联系,可以召回更多尺度的目标。除此之外,混合锚检测器兼顾二者的优点,通过多任务学习的方法提高目标检测的精度,Zhu等人[4]以无锚检测器为主,通过计算损失函数最小的一层特征决定目标的尺度分配,同时使用有锚检测器辅助网络进行检测;Liu等人[5]则是以有锚检测器为主,将无锚检测器作为特殊尺度的锚框,并设计自适应融合模块,在中间层融合不同尺度的特征来抑制不一致的特征信息,从而提高网络的检测能力。

    由于遥感图像中目标的尺度差异大,而目标检测算法较少考虑不同尺度目标融合的信息差异,为了充分学习多尺度的目标特征,马梁等人[6]提出了金字塔结构加权融合的FPN (Feature Pyramid Network)增强网络的特征表达能力;雷大江等人[7]将全色图像和多光谱图像通过多个骨干网络构成金字塔模块生成融合图像,通过联合多流融合提高遥感图像中目标的质量。以上这些方法强化了图像中目标特征信息,但忽略了样本和检测头之间的分配关系。Qin等人[8]提出CEM (Context Enhancement Module)通过聚合多尺度特征的局部信息与全局信息,扩大感受野并细化特征信息;Kim等人[9]增加了更浅的检测层用于小目标检测,并通过转置卷积来优化上采样操作,以避免最近邻插值而导致的小目标信息受损。以上这些方法通过改变多尺度融合阶段中的融合路径,提高对遥感小目标的检测精度,但忽略了不同尺度层之间的信息冲突会丢失目标信息。

    综上所述,本文基于有锚检测器YOLOv4辅助以无锚检测分支提出混合锚目标检测模型AEM-YOLO,主要贡献如下:

    (1)提出二坐标系k-means聚类算法,在基于IoU的k-means聚类算法中增加极坐标系的尺度和角度维度,获得尺度更均衡的锚框。

    (2)提出自适应融合模块,消除不同尺度特征层融合引起的信息冲突;引入更低层的特征信息,采用不同空洞率的空洞卷积用来提取特征,通过全局平均池化抑制背景噪声,并沿着PAN的路径强化小目标的检测能力。

    (3)采用混合解耦检测头,增加无锚检测器分支,将极坐标系中尺度聚类簇作为无锚检测器的正样本,辅助有锚检测器对不同尺度目标的召回;在训练阶段采用多任务学习的策略,提高目标检测精度,并在预测阶段将无锚检测分支剪枝,只保留有锚检测头进行检测。

    本文采用YOLOv4[10]作为基线网络并增加无锚检测分支,混合锚检测器AEM-YOLO的网络模型如图1所示。在训练之前,通过二坐标k-means聚类算法为有锚检测器和无锚检测分支提供更高质量的正样本。

    图 1  AEM-YOLO网络结构

    首先,输入图像通过骨干网络CSPDarket-53提取特征,得到代表4层的特征(C2, C3, C4和C5)。随后,特征通过FPN和PAN构建的特征金字塔结构完成高层语义信息和低层细节信息的融合。其中,不同尺度的特征信息通过自适应融合模块,解决堆叠融合时导致的信息冲突,并且特征层C2通过PAN自下向上的路径传递小目标更丰富的特征信息,提高对小目标的检测能力。将融合后的多尺度特征通过混合解耦检测头完成不同尺度目标的检测。在训练阶段,采用多任务学习提升对遥感图像小目标的检测,使用CIoU[11]作为回归损失函数,并通过尺度引导因子,进一步提高不同尺度目标的召回率。

    k-means聚类算法得到的k个锚框往往是均匀分布的,k-means聚类结果如图2(a)所示,聚类结果与检测分支匹配度较差。受多模态训练的启发,将遥感图像的目标在极坐标系下的尺度和角度与直角坐标系下的宽高信息作为输入,通过改进聚类算法获得稀疏并且符合尺度分配的最佳聚类锚框,二坐标系k-means聚类算法的聚类结果如图2(b)所示,使得锚框分布得更加稀疏,更符合正样本匹配策略的需求。

    图 2  聚类结果图

    二坐标系k-means聚类算法的具体实现步骤如下:

    将遥感图像数据集的真实框映射到w-h直角坐标系上得到D1={(w1,h1),,(wm,hm)};以及对应的极坐标系上的真实框D2={(r1,ρ1),,(rm,ρm)},并在D2随机选取3个样本作为初始距离聚类中心μr={μr,p}, (p[0,2]),计算极坐标系下样本和距离聚类中心的距离,并根据距离确定聚类中心对应的聚类簇

    λr,j=argmin (1)

    其中,{\lambda _{{\mathrm{r}},j}}为当前真实框与距离聚类中心的最小距离的聚类中心序号。

    之后在每个距离聚类簇中选取3个样本作为角度聚类中心 {{\boldsymbol{\mu}} _\rho } = \{ {\mu _{\rho ,q}}\} ,(q \in [0,2]) ,计算在当前距离聚类簇中样本与角度聚类中心的距离,并选取对应的聚类簇:

    {\lambda _{\rho ,j}} = \mathop {\arg \min }\limits_{q \in [0,2]} \sqrt {\left| {\rho _j^2 - \mu _{\rho ,q}^2} \right|} (2)

    其中, {\lambda _{\rho ,j}} 为当前真实框与角度聚类中心的最小距离的聚类中心序号。

    将样本划分到对应的聚类簇中

    {C_{3 \times {\lambda _{{\mathrm{r}},j}} + {\lambda _{\rho ,j}}}} = {C_{3 \times {\lambda _{{\mathrm{r}},j}} + {\lambda _{\rho ,j}}}} \cup \{ ({r_j},{\rho _j})\} (3)

    其中,C为聚类中心对应的聚类簇,角标代表聚类中心的序号。

    通过聚类簇重新计算新的聚类中心

    {\mu '_{{\mathrm{r}},p}} = \tfrac{1}{{\left| {{C_{3 \times {\lambda _{\mathrm{r}}}}}} \right|}}\sum\limits_{{\mathrm{r}} \in {C_{3 \times {\lambda _{\mathrm{r}}}}}} r (4)
    {\mu '_{\rho ,q}} = \tfrac{1}{{\left| {{C_{{\lambda _\rho }}}} \right|}}\sum\limits_{\rho \in {C_{{\lambda _\rho }}}} \rho \quad (5)

    根据尺度聚类中心以及角度聚类中心得到极坐标系下的新聚类中心 {{\boldsymbol{\mu}} '_{{\mathrm{r}},\rho }} = \{ ({\mu '_{{\mathrm{r}},p}},{\mu '_{\rho ,q}})\} , (p \in [0,2], q \in [0,2]),并计算对应的平面直角坐标系下的聚类中心 {{\boldsymbol{\mu}} '_{{\mathrm{w,h}}}} = \{ ({\mu '_{{\mathrm{w}},3 \times p + q}},{\mu '_{{\mathrm{h}},3 \times p + q}})\} ,使用新的聚类中心在直角坐标系下计算IoU距离,并确定聚类中心对应的簇

    {\lambda _{{\mathrm{IoU}},j}} = \mathop {\arg \min }\limits_{i \in [0,k - 1]} (1 - {\text{IoU[(}}{{{w}}_j}{\text{,}}{h_j}{\text{),(}}{\mu '_{{\mathrm{w}},3 \times p + q}}{\text{,}}{\mu '_{{\mathrm{h}},3 \times p + q}}{\text{)])}} (6)

    其中, {\lambda _{{\mathrm{IoU}},j}} 为当前真实框与聚类中心的IoU距离最小的序号,IoU为真实框与聚类中心代表锚框的交并比。

    通过聚类簇重新计算新的聚类中心

    {{\boldsymbol{\mu}} ''_{3 \times {\lambda _{\mathrm{r}}} + {\lambda _\rho }}} = \tfrac{1}{{\left| {{C_{3 \times {\lambda _{\mathrm{r}}} + {\lambda _\rho }}}} \right|}}\sum\limits_{(w,h) \in {C_{3 \times {\lambda _{\mathrm{r}}} + {\lambda _\rho }}}} {(w,h)} (7)

    如果计算新的极坐标的聚类中心 {\boldsymbol{\mu}} ' 和上次迭代的聚类中心μ的差值不相同,那么令 {\boldsymbol{\mu}} ' 作为新的聚类中心再次进行迭代;如果相同,那么 {\boldsymbol{\mu}} '' 就是最终的聚类中心。

    YOLOv4采用FPN-PAN构建金字塔结构以融合不同尺度的特征层,从而提高网络对不同尺度目标的特征检测能力。如图3(a)所示,在FPN阶段,YOLOv4将P5层和C4层直接堆叠后通过卷积压缩通道的融合方式生成P4层。由于不同尺度的层之间的信息强度不同,C4层的较弱的目标特征被P5层经过SPP后产生的强语义信息掩盖,丢失了原始的目标信息;虽然在PAN第2次融合过程中,N4层从低向高的路径重新学习到中层目标的特征,但原始的特征丢失损害了网络对小目标的检测能力。为了增强对小目标的检测能力,通过自适应融合模块学习权重从而保留更多特征信息。如图3(b)所示,自适应融合模块保留并增强了来自主干网络的原始特征,并强化了小目标的特征信息。

    图 3  多尺度融合路径的类激活图

    自适应融合模块分为特征提取模块和融合模块,其结构如图4所示。特征提取模块包括两个分支,其中空间分支通过普通卷积和空洞卷积扩大感受野,并且通过卷积核为1的卷积压缩通道,提取特征的空间信息;通道分支通过平均池化获取通道的语义信息,并通过全连接层提取通道特征,最后采用广播操作获得分支特征,并通过sigmoid函数将特征映射到[0,1]之间,避免不同特征层之间的信息浓度差异。融合模块将两个分支通过softmax操作自适应学习权重,softmax操作之后的权重值在[0,1]之间,可以有效抑制背景噪声并且强化目标信息。最终将学习完成权重后的特征堆叠,通过卷积核为1的卷积压缩通道完成融合。

    图 4  自适应融合模块结构

    混合解耦检测头(Hybrid head)在解耦检测头[12]的基础上增加无锚检测分支,为检测网络提供新的尺度,混合解耦检测头结构如图5所示。其中,有锚检测分支根据锚框IoU的正样本匹配策略,无锚检测分支按照二坐标系k-means聚类得到的尺度聚类簇进行匹配。为了保证网络检测速度,在训练完成后,将无锚检测分支剪枝。

    图 5  混合解耦检测头结构

    由于混合检测头由有锚检测分支和无锚检测分支联合训练,所以损失函数也由两部分组成,新的损失函数的计算公式为

    \begin{split} {L_{{\mathrm{total}}}} = \,& {L_{{\mathrm{base}}}} + \beta {L_{{\mathrm{free}}}} \\ = & {L_{{\mathrm{reg}},{\mathrm{base}}}} + {L_{{\mathrm{cls}},{\mathrm{base}}}} + {L_{{\mathrm{obj}},{\mathrm{base}}}} \\ & + \beta ({L_{{\mathrm{reg}},{\mathrm{free}}}} + {L_{{\mathrm{cls}},{\mathrm{free}}}} + {L_{{\mathrm{obj}},{\mathrm{free}}}}) \end{split} (8)

    其中,Lreg, Lcls, Lobj分别为YOLOv4的预测框回归定位损失函数、分类损失函数以及目标置信度损失函数, \beta 为无锚检测分支损失函数的平衡系数。为了平衡无锚检测分支和有锚检测分支的训练关系,通过对比实验对 \beta 进行选取。在有锚检测分支损失函数系数为1的基础上,从[0,1]按间隔0.1进行 \beta 的选取,对比实验如表1所示。通过表1可知,当 \beta 为0.7时,有锚检测头检测能力最好,因此选择平衡系数为0.7。

    表 1  不同平衡系数对有锚检测分支精度的影响
    \beta 0.00.10.20.30.40.50.60.70.80.91.0
    mAP(%)81.581.682.082.282.382.182.282.682.482.582.3
    下载: 导出CSV 
    | 显示表格

    同时,为损失函数中的目标置信度损失函数设计尺度引导因子 \tau ,引导网络对小目标和大宽高比的目标进行训练,新目标置信度损失函数计算公式为

    \begin{split} {L_{{\mathrm{obj}},{\mathrm{base}}}} =\,& - \sum\limits_{i = 0}^{g \times g} \sum\limits_{j = 0}^B \tau I_{i,j}^{{\mathrm{obj}}}C_i^j\lg (\tilde C_i^j) + (1 - C_i^j)\\ & \cdot \lg (1 - \tilde C_i^j) \end{split} (9)

    其中,g×g代表特征图上的网格数量,B代表每个网格的边界框, I_{i,j}^{{\mathrm{obj}}} 代表是否包含正样本, \tilde C_i^j 为样本值, C_i^j 为预测值, \tau 为尺度引导因子。尺度引导因子的计算公式为

    \begin{split} \tau =\,& 4 - \underbrace {\sigma \left(\max \left(\frac{{{w_{{\mathrm{gt}}}}}}{{{w_{{\mathrm{anchor}}}}}},\frac{{{h_{{\mathrm{gt}}}}}}{{{h_{{\mathrm{anchor}}}}}}\right)\right)}_{{\mathrm{ratio}}\; {\mathrm{guiding}}} \\ & - \underbrace {\sigma \left( \max \left( \frac{{\sqrt {w_{{\mathrm{anchor}}}^2 + h_{{\mathrm{anchor}}}^2} }}{{\sqrt {w_{{\mathrm{gt}}}^2 + h_{{\mathrm{gt}}}^2} }},\frac{{\sqrt {w_{{\mathrm{gt}}}^2 + h_{{\mathrm{gt}}}^2} }}{{\sqrt {w_{{\mathrm{anchor}}}^2 + h_{{\mathrm{anchor}}}^2} }} \right) \right)}_{{\mathrm{scale}}\; {\mathrm{guiding}}} \end{split} (10)

    其中, \sigma 表示sigmoid激活函数,wanchorhanchor表示锚框的宽高,wgthgt代表真实框的宽高。当目标被分配到错误宽高比锚框的时候,会使宽高比引导系数(ratio guiding)增大, \tau 会减小,使得目标损失函数的绝对值减小,迫使网络将目标分配到宽高比合适的锚框;当小目标被分配到错误尺度的检测分支时,会导致尺度引导系数(scale guiding)增大,同样会监督网络将目标分配到合适的检测尺度上进行检测。

    本文选择COCO评价指标(AP, AP50, AP75, APS, APM, APL)作为消融实验以及对比实验的评价指标,根据分割掩码所占的像素数量,分为APS(像素面积<322)、APM(322<像素面积<962)以及APL(像素面积>962),用来验证网络对不同尺度目标的检测能力。同时采用平均类别准确度(mean Average Precision, mAP)作为对比实验的评估标准,mAP是所有类别P-R曲线下的面积,其中,查准率(Precision, P)表示预测正确的正样本的准确率;查全率(Recall, R)表征的是预测正确的正样本覆盖率。根据预测框是否超过IoU阈值从而判断是否为正样本,将样本分为正确识别的正样本(TP),误检的负样本(FP),正确识别的负样本(TN),漏检的正样本(FN)。

    本文主要消融实验以及对比实验的数据集采用西北工业大学的DIOR数据集[13],该遥感数据集包含23463张800像素×800像素的高分辨率遥感图像,包括飞机,机场,棒球场,篮球场,桥梁,烟囱,大坝,高速公路服务区,高速公路收费站,高尔夫球场,地面田径场,船坞,天桥,船舶,体育场,储油罐,网球场,火车站,车辆和风车共20个类别,总共192472个实例。除此之外,还使用了西北工业大学的NWPU VHR-10数据集[14]作为辅助对比实验数据集,数据集有650幅包含目标的图像和150幅背景图像,共包含10个类别。在对比实验中,使用650张包含对象的图像,不进行裁剪,将输入图像的大小调整为416像素×416像素和608像素×608像素,分别验证网络在不同像素下的检测能力。

    本文训练框架采用PyTorch 1.7.1,并采用CUDA加速,实验设备CPU采用i7-13700K, GPU使用RTX3080 TI,内存为32GB。训练优化器采用sgd,学习速率下降方式采用step。具体训练参数设置如表2所示。

    表 2  训练参数设定
    参数名称迭代次数批处理大小动量权重衰减
    参数值200160.9370.0005
    下载: 导出CSV 
    | 显示表格

    本实验对预设锚框、k-means聚类算法以及提出的二坐标系k-means聚类算法进行对比,实验结果如表3所示。通过表3可知,相较于预设的锚框,k-means聚类算法在AP, AP75上分别降低了2.4%和4.6%,这是因为遥感图像目标尺度差异大,而k-means的锚框聚类中心聚集在小目标上,对大宽高比以及大尺度目标的检测能力较弱。而二坐标系k-means聚类算法联合极坐标系聚类得到的锚框,能够满足目标随遥感图像拍摄高度变化导致的尺度变化,以及由于俯拍导致的遥感目标方向不确定的问题。相较于预设锚框,虽然在APL下降了0.7%,但是在小中目标的检测中都取得了较优效果,分别提高了2.9%和1.3%,并且在AP, AP50和AP75上提高了0.4%,0.7%以及0.6%。

    表 3  不同聚类算法在DIOR数据集实验结果对比(%)
    MethodAPAP50AP75APSAPMAPL
    预设锚框44.375.545.28.133.559.2
    k-means41.975.540.69.433.755.1
    二坐标系k-means44.776.245.811.034.858.5
    下载: 导出CSV 
    | 显示表格

    二坐标系k-means聚类算法生成的锚框对不同尺度和宽高比目标的召回效果如图6所示,柱状图中蓝色为当前尺度的真实目标数量,橙色为k-means算法召回数量,灰色为二坐标系k-means算法召回数量。通过图6(a)可知,在DIOR数据集中包含不同宽高比的遥感目标,通过二坐标系聚类算法可以生成稀疏的锚框从而提高大宽高比目标的检测精度;通过图6(b)可知,遥感目标中小目标占比大,通过二坐标系聚类算法可以有效提高对小目标的召回率。

    图 6  DIOR数据集中的目标在极坐标系下角度与尺度维度上的检测精度

    本实验在使用二坐标系k-means聚类算法的先验框并且采用解耦检测头的基础上,对YOLOv4的多尺度融合阶段使用ASFF[5],Bi-FPN[15],自适应增强模块(Adaptive Enhance Module, AEM)以及其子模块自适应融合模块(AEM-F)和附加增强模块(AEM-A)进行对比,实验结果如表4。通过表4可知,Bi-FPN引入了新的跨域路径,并通过通道信息自适应融合减少不同特征融合时的信息冲突,但在小目标以及大目标分别下降了1.4%和0.9%;ASFF通过统一尺度的融合和感受野模块进一步提取特征,相较于FPN-PAN在AP, AP50, AP75上分别提高了0.5%, 0.7%以及0.5%。以上改进算法都对小目标检测性能变差,AEM-F相较于同为自适应融合方法的ASFF模块,在小目标检测上提升了0.7%;AEM-A相较于原始模型,在AP上提升了0.6%,并且在小目标上的检测精度提高了1.9%。AEM模块通过引入低层特征,并兼顾空间信息与通道信息进行自适应融合,在AP, AP50, AP75分别提高了2.1%, 1.4%以及2.9%,并且对小目标检测能力提高了1.5%,对中大目标也分别提高了1.1%和2.7%。

    表 4  不同多尺度融合模块在DIOR数据集实验结果对比(%)
    算法 AP AP50 AP75 APS APM APL
    FPN-PAN 47.4 77.6 49.3 11.4 36.2 62.3
    Bi-FPN 46.6 77.6 48.1 10.0 37.2 61.4
    ASFF 47.9 78.3 49.8 10.2 36.4 63.0
    AEM-F 47.6 78.0 49.8 10.9 36.0 62.9
    AEM-A 48.0 78.9 50.2 13.3 37.5 62.5
    AEM 49.5 79.0 52.2 12.9 37.3 65.0
    下载: 导出CSV 
    | 显示表格

    本实验在使用二坐标系聚类算法的先验框的基础上,测试了不同检测头以及不同检测头策略的检测效果,对比实验如表5所示。解耦检测头根据任务不同分别进行卷积操作,相较于耦合检测头,AP增长了2.7%,在不同尺度上也有提高,APS, APM, APL分别增长了0.4%, 1.4%和3.8%;ASFF检测头引入新的无锚检测分支,相较于解耦检测头在AP上提高了0.9%,但是对于小目标的检测能力变差;混合解耦检测头在与ASFF检测头相同参数量的前提下,相较于ASFF检测头在AP, AP50, AP75上分别提高了2.2%, 1.1%, 2.7%,对各个尺度的目标分配更为合理,对小中大3个尺度的目标检测精度分别提高了1.5%, 2.2%和2.9%。

    表 5  不同检测头在DIOR数据集实验结果对比(%)
    算法 AP AP50 AP75 APS APM APL
    Coupled Head 44.7 76.2 45.8 11.0 34.8 58.5
    Decoupled Head 47.4 77.6 49.3 11.4 36.2 62.3
    ASFF Head 48.3 78.3 50.5 11.1 36.9 63.3
    Hybrid Head 50.5 79.4 53.2 12.6 39.1 66.2
    下载: 导出CSV 
    | 显示表格

    为了验证本文提出的模块的可行性,在原始模型的基础上进行消融实验,基线采用YOLOv4模型和预设锚框,其中Pre-train代表采用二坐标系k-means聚类,Neck代表采用自适应增强模块和解耦检测头,Head代表采用混合解耦检测头,消融实验结果如表6所示。

    表 6  在DIOR数据集上的消融实验结果(%)
    Pre-trainNeckHeadAPAP50AP75APSAPMAPLPara(M)FPS
    ×××44.375.545.28.133.559.264.061.2
    ××44.776.245.811.034.858.564.061.4
    ×49.579.052.212.937.365.074.052.4
    52.180.955.313.540.767.874.053.6
    下载: 导出CSV 
    | 显示表格

    表6可知,相较于预设锚框,二坐标系k-means聚类算法在没有引入其他参数,以及没有增加网络的计算复杂度的情况下,在AP, AP50,AP75上提高了0.4%, 0.7%, 0.6%;APS和APM分别提高了2.9%, 1.3%,但在APL下降了0.7%。

    其次,将多尺度融合阶段中的堆叠操作替换为自适应融合模块,引入低层特征,并采用解耦检测头,参数量增加了10 M,检测速度也降低了9.0 FPS,但精度得到了较大提升,其中AP, AP50, AP75提高了4.8%, 2.8%以及6.4%;在小中大尺寸上分别提升了1.9%, 2.5%和6.5%。

    最后,将检测头换为混合解耦检测头,并在训练完成后剪枝掉无锚检测分支,只用有锚检测器进行检测,在没有增加参数量的前提下,AP, AP50, AP75提升了2.6%, 1.9%, 3.1%;并在APS,APM和APL的检测中提高了0.6%, 3.4%以及2.8%。相较于原始模型,AEM-YOLO在AP上提高了7.8%,在小中大目标检测中分别提高了5.4%, 7.2%, 8.6%。

    为了验证不同模块对模型检测的影响,对二坐标系k-means聚类算法以及混合解耦检测头的检测结果进行对比,检测结果如图7所示,其中绿色框为TP,红色框为FP,黄色框为FN。通过对比检测图7可知,二坐标系聚类生成的预测框对密集排布的目标检测可以增强目标的召回率;而混合检测头可以进一步增强网络的检测能力,并且对宽高比大的目标的检测效果更好。

    图 7  不同模块在DIOR数据集上的检测结果

    除此之外,还在NWPU VHR-10数据集上验证了AEM-YOLO和YOLOv4在不同输入像素时的检测效果,对比实验如表7所示。随着输入尺寸的增大,由于小目标的像素也增多,检测精度也会增高,在608×608尺寸上,AEM-YOLO相较于原始网络AP提高了7.5%,在大中小目标的检测中分别提升了8.5%, 7.0%和8.2%,有较大提升,由此可见,AEM-YOLO网络的检测效果更好。

    表 7  不同输入尺寸下在NWPU VHR-10数据集实验结果对比(%)
    算法输入尺寸APAP50AP75APSAPMAPL
    YOLOv4416×41640.583.635.618.438.851.7
    AEM-YOLO416×41645.188.240.629.943.557.5
    YOLOv4608×60844.488.835.222.540.045.5
    AEM-YOLO608×60851.991.749.830.747.054.0
    下载: 导出CSV 
    | 显示表格

    本文将AEM-YOLO检测器和目前主流的1阶段检测器在相同的训练条件下进行对比实验,实验结果如表8所示。其中RetinaNet[16], YOLOv3, YOLOv4[10], YOLOv5, YOLOv7[17]都是有锚检测器,EfficientDet[15], YOLOX[12], YOLOv6[18], YOLOv8[3]则是无锚检测器,ASFF[5]是混合锚检测器。

    表 8  不同目标检测方法在DIOR数据集实验结果对比
    EfficientDet RetinaNet ASFF YOLOv3 YOLOv4 YOLOv5 YOLOX YOLOv6 YOLOv7 YOLOv8 本文算法
    mAP(%) 65.3 69.0 79.9 74.5 76.9 77.8 62.9 79.3 78.9 82.3 82.6
    GFLOPs 21.0 152.3 82.4 65.7 64.0 86.6 54.2 60.8 80.0 109.1 95.8
    fps 34.4 46.8 45.3 82.3 72.1 53.5 64.8 61.3 59.7 57.7 53.6
    下载: 导出CSV 
    | 显示表格

    表8可知,在DIOR数据集上,无锚检测器YOLOv8采用多梯度的主干网络,mAP达到了82.3%,而AEM-YOLO采用YOLOv4相同的主干前提下,mAP提高了5.7%,达到了最高的mAP。有锚检测器依赖于锚框的生成算法,在相同的锚框前提下,检测精度相差并不大。混合锚检测器ASFF同样采用多任务学习,mAP仅次于YOLOv8和AEM-YOLO,但检测速度较慢,而AEM-YOLO在预测阶段只采用有锚检测器,相较于ASFF, mAP提高了2.7%,检测速度提高了8.3 fps。

    其中选取YOLOv4, YOLOv7, YOLOv8以及AEM-YOLO网络进行检测,检测结果如图8所示。对于大尺度的目标如操场,有锚检测器YOLOv4和YOLOv7受到预设锚框的影响导致召回率较低;而对于密集排布的目标如储油罐,无锚框检测器YOLOv8由于每个检测网格只负责一个目标使得检测精度较差。而AEM-YOLO通过二坐标系聚类生成高质量预设锚框,对宽高比大的目标具有很好的检测性能,并且通过多任务学习,对密集排布的目标的召回率也得到提高。

    图 8  不同目标检测方法在DIOR数据集上的检测结果

    在本文中,提出了一种根据不同尺度的特征信息自适应融合的混合锚检测器AEM-YOLO。在k-means的基础上,使用极坐标系和直角坐标系形成多模态输入,通过二坐标系k-means聚类生成更加匹配遥感目标的锚框。在多尺度融合阶段,采用自适应融合模块,通过softmax自适应学习不同尺度的权重,减少不同尺度目标直接堆叠造成的信息冲突;为了提高小目标的检测能力,沿PAN路径增加更底层的目标信息,采用平均池化抑制低层信息的背景噪声,并通过不同空洞率的空洞卷积通过扩大感受野的方式,进一步提取小目标特征。最后采用混合解耦检测头,在训练阶段采用多任务学习的方式,提高网络对特殊尺度目标的召回能力,并在训练完成将无锚检测分支剪枝,从而保证网络参数量。最终,相较于其他目标检测器,AEM-YOLO对小目标以及宽高比较大的目标拥有更好的检测精度。

  • 图  1  AEM-YOLO网络结构

    图  2  聚类结果图

    图  3  多尺度融合路径的类激活图

    图  4  自适应融合模块结构

    图  5  混合解耦检测头结构

    图  6  DIOR数据集中的目标在极坐标系下角度与尺度维度上的检测精度

    图  7  不同模块在DIOR数据集上的检测结果

    图  8  不同目标检测方法在DIOR数据集上的检测结果

    表  1  不同平衡系数对有锚检测分支精度的影响

    \beta 0.00.10.20.30.40.50.60.70.80.91.0
    mAP(%)81.581.682.082.282.382.182.282.682.482.582.3
    下载: 导出CSV

    表  2  训练参数设定

    参数名称迭代次数批处理大小动量权重衰减
    参数值200160.9370.0005
    下载: 导出CSV

    表  3  不同聚类算法在DIOR数据集实验结果对比(%)

    MethodAPAP50AP75APSAPMAPL
    预设锚框44.375.545.28.133.559.2
    k-means41.975.540.69.433.755.1
    二坐标系k-means44.776.245.811.034.858.5
    下载: 导出CSV

    表  4  不同多尺度融合模块在DIOR数据集实验结果对比(%)

    算法 AP AP50 AP75 APS APM APL
    FPN-PAN 47.4 77.6 49.3 11.4 36.2 62.3
    Bi-FPN 46.6 77.6 48.1 10.0 37.2 61.4
    ASFF 47.9 78.3 49.8 10.2 36.4 63.0
    AEM-F 47.6 78.0 49.8 10.9 36.0 62.9
    AEM-A 48.0 78.9 50.2 13.3 37.5 62.5
    AEM 49.5 79.0 52.2 12.9 37.3 65.0
    下载: 导出CSV

    表  5  不同检测头在DIOR数据集实验结果对比(%)

    算法 AP AP50 AP75 APS APM APL
    Coupled Head 44.7 76.2 45.8 11.0 34.8 58.5
    Decoupled Head 47.4 77.6 49.3 11.4 36.2 62.3
    ASFF Head 48.3 78.3 50.5 11.1 36.9 63.3
    Hybrid Head 50.5 79.4 53.2 12.6 39.1 66.2
    下载: 导出CSV

    表  6  在DIOR数据集上的消融实验结果(%)

    Pre-trainNeckHeadAPAP50AP75APSAPMAPLPara(M)FPS
    ×××44.375.545.28.133.559.264.061.2
    ××44.776.245.811.034.858.564.061.4
    ×49.579.052.212.937.365.074.052.4
    52.180.955.313.540.767.874.053.6
    下载: 导出CSV

    表  7  不同输入尺寸下在NWPU VHR-10数据集实验结果对比(%)

    算法输入尺寸APAP50AP75APSAPMAPL
    YOLOv4416×41640.583.635.618.438.851.7
    AEM-YOLO416×41645.188.240.629.943.557.5
    YOLOv4608×60844.488.835.222.540.045.5
    AEM-YOLO608×60851.991.749.830.747.054.0
    下载: 导出CSV

    表  8  不同目标检测方法在DIOR数据集实验结果对比

    EfficientDet RetinaNet ASFF YOLOv3 YOLOv4 YOLOv5 YOLOX YOLOv6 YOLOv7 YOLOv8 本文算法
    mAP(%) 65.3 69.0 79.9 74.5 76.9 77.8 62.9 79.3 78.9 82.3 82.6
    GFLOPs 21.0 152.3 82.4 65.7 64.0 86.6 54.2 60.8 80.0 109.1 95.8
    fps 34.4 46.8 45.3 82.3 72.1 53.5 64.8 61.3 59.7 57.7 53.6
    下载: 导出CSV
  • [1] WANG Kun and LIU Maozhen. Toward structural learning and enhanced YOLOv4 network for object detection in optical remote sensing images[J]. Advanced Theory and Simulations, 2022, 5(6): 2200002. doi: 10.1002/adts.202200002.
    [2] 王成龙, 赵倩, 赵琰, 等. 基于深度可分离卷积的实时遥感目标检测算法[J]. 电光与控制, 2022, 29(8): 45–49. doi: 10.3969/j.issn.1671-637X.2022.08.009.

    WANG Chenglong, ZHAO Qian, ZHAO Yan, et al. A real-time remote sensing target detection algorithm based on depth Separable convolution[J]. Electronics Optics & Control, 2022, 29(8): 45–49. doi: 10.3969/j.issn.1671-637X.2022.08.009.
    [3] REIS D, KUPEC J, HONG J, et al. Real-time flying object detection with YOLOv8[J]. arXiv: 2305.09972, 2023. doi: 10.48550/arXiv.2305.09972.
    [4] ZHU Chenchen, HE Yihui, and SAVVIDES M. Feature selective anchor-free module for single-shot object detection[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 840–849. doi: 10.1109/CVPR.2019.00093.
    [5] LIU Songtao, HUANG Di, and WANG Yunhong. Learning spatial fusion for single-shot object detection[J]. arXiv: 1911.09516, 2019. doi: 10.48550/arXiv.1911.09516.
    [6] 马梁, 苟于涛, 雷涛, 等. 基于多尺度特征融合的遥感图像小目标检测[J]. 光电工程, 2022, 49(4): 210363. doi: 10.12086/oee.2022.210363.

    MA Liang, GOU Yutao, LEI Tao, et al. Small object detection based on multi-scale feature fusion using remote sensing images[J]. Opto-Electronic Engineering, 2022, 49(4): 210363. doi: 10.12086/oee.2022.210363.
    [7] 雷大江, 杜加浩, 张莉萍, 等. 联合多流融合和多尺度学习的卷积神经网络遥感图像融合方法[J]. 电子与信息学报, 2022, 44(1): 237–244. doi: 10.11999/JEIT200792.

    LEI Dajiang, DU Jiahao, ZHANG Liping, et al. Multi-stream architecture and multi-scale convolutional neural network for remote sensing image fusion[J]. Journal of Electronics & Information Technology, 2022, 44(1): 237–244. doi: 10.11999/JEIT200792.
    [8] QIN Zheng, LI Zeming, ZHANG Zhaoning, et al. ThunderNet: Towards real-time generic object detection on mobile devices[C]. 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 6717–6726. doi: 10.1109/ICCV.2019.00682.
    [9] KIM M, JEONG J, and KIM S. ECAP-YOLO: Efficient channel attention pyramid YOLO for small object detection in aerial image[J]. Remote Sensing, 2021, 13(23): 4851. doi: 10.3390/rs13234851.
    [10] BOCHKOVSKIY A, WANG C Y, and LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[J]. arXiv: 2004.10934, 2020. doi: 10.48550/arXiv.2004.10934.
    [11] ZHENG Zhaohui, WANG Ping, LIU Wei, et al. Distance-IoU loss: Faster and better learning for bounding box regression[C]. Proceedings of the 34th AAAI Conference on Artificial Intelligence, New York, USA, 2020: 12993–13000. doi: 10.1609/aaai.v34i07.6999.
    [12] GE Zheng, LIU Songtao, WANG Feng, et al. YOLOX: Exceeding YOLO series in 2021[J]. arXiv: 2107.08430, 2021. doi: 10.48550/arXiv.2107.08430.
    [13] LI Ke, WAN Gang, CHENG Gong, et al. Object detection in optical remote sensing images: A survey and a new benchmark[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159: 296–307. doi: 10.1016/j.isprsjprs.2019.11.023.
    [14] CHENG Gong, HAN Junwei, ZHOU Peicheng, et al. Multi-class geospatial object detection and geographic image classification based on collection of part detectors[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 98: 119–132. doi: 10.1016/j.isprsjprs.2014.10.002.
    [15] TAN Mingxing, PANG Ruoming, and LE Q V. EfficientDet: Scalable and efficient object detection[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 10778–10787. doi: 10.1109/CVPR42600.2020.01079.
    [16] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 2999–3007. doi: 10.1109/ICCV.2017.324.
    [17] WANG C Y, BOCHKOVSKIY A, and LIAO H Y M. YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 7464–7475. doi: 10.1109/CVPR52729.2023.00721.
    [18] LI Chuyi, LI Lulu, JIANG Hongliang, et al. YOLOv6: A single-stage object detection framework for industrial applications[J]. arXiv: 2209.02976, 2022. doi: 10.48550/arXiv.2209.02976.
  • 加载中
图(8) / 表(8)
计量
  • 文章访问数:  425
  • HTML全文浏览量:  256
  • PDF下载量:  81
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-09-04
  • 修回日期:  2024-04-08
  • 网络出版日期:  2024-05-01
  • 刊出日期:  2024-07-29

目录

/

返回文章
返回