一种改进YOLOv5算法的伪装目标检测方法

彭锐晖; 赖杰; 孙殿星; 李莽; 颜如玉; 李雪

doi:10.11999/JEIT231170

一种改进YOLOv5算法的伪装目标检测方法

doi: 10.11999/JEIT231170 cstr: 32379.14.JEIT231170

彭锐晖^{1, 2},
赖杰^2, ,,
孙殿星^{2, 3},
李莽²,
颜如玉²,
李雪²

1.
哈尔滨工程大学信息与通信工程学院哈尔滨 150001
2.
哈尔滨工程大学青岛创新发展基地青岛 266000
3.
海军航空大学信息融合研究所烟台 264001

基金项目: 航天科技集团稳定支持项目(ZY0110020009)，国防科技重点实验室基金项目(2023-JCJQ-LB-016)

详细信息

作者简介:
彭锐晖：男，博士，副教授，研究方向为信息感知及应用、电磁隐身材料与目标特性

赖杰：男，硕士生，研究方向为伪装目标检测、多源信息融合

孙殿星：男，博士，副教授，研究方向为信号与数据处理、信息融合

李莽：男，硕士生，研究方向为钙钛矿复合吸波材料

颜如玉：女，硕士生，研究方向为雷达隐身设计

李雪：女，硕士生，研究方向为深度学习、非显著性目标检测

通讯作者:
赖杰　laijie@hrbeu.edu.cn

中图分类号: TN911.73
计量
- 文章访问数: 654
- HTML全文浏览量: 520
- PDF下载量: 130
- 被引次数: 1
出版历程
- 收稿日期: 2023-10-30
- 修回日期: 2024-03-24
- 网络出版日期: 2024-04-07
- 刊出日期: 2024-08-30

A Camouflaged Target Detection Method with Improved YOLOv5 Algorithm

PENG Ruihui^{1, 2},
LAI Jie^{2
, ,},
SUN Dianxing^{2, 3},
LI Mang²,
YAN Ruyu²,
LI Xue²

1.
College of Information and Communication Engineering, Harbin Engineering University, Harbin 150001, China
2.
Qingdao Innovation and Development Center, Harbin Engineering University, Qingdao 266000, china
3.
Insitute of Information Fusion, Naval Aeronautical University, Yantai 264001, China

Funds: China Aerospace Science and Technology Corporation Stabilization Support Project (ZY0110020009), The Defense Science and Technology Key Laboratory Fund Project (2023-JCJQ-LB-016)

摘要

摘要: 为了深入挖掘伪装目标特征信息含量、充分发挥目标检测算法潜能，解决伪装目标检测精度低、漏检率高等问题，该文提出一种多模态图像特征级融合的伪装目标检测算法(CAFM-YOLOv5)。首先，构建伪装目标多波谱数据集用于多模态图像融合方法性能验证；其次，构建双流卷积通道用于可见光和红外图像特征提取；最后，基于通道注意力机制和空间注意力机制提出一种交叉注意力融合模块，以实现两种不同特征有效融合。实验结果表明，模型的检测精度达到96.4%、识别概率88.1%，优于YOLOv5参考网络；同时，在与YOLOv8等单模态检测算法、SLBAF-Net等多模态检测算法比较过程中，该算法在检测精度等指标上也体现出巨大优势。可见该方法对于战场军事目标检测具有实际应用价值，能够有效提升战场态势信息感知能力。
- 伪装目标检测 /
- 多波谱数据集 /
- 注意力机制 /
- 可见光图像 /
- 红外图像
Abstract: To comprehensively explore the information content of camouflaged target features, leverage the potential of target detection algorithms, and address issues such as low camouflage target detection accuracy and high false positive rates, a camouflage target detection algorithm named CAFM-YOLOv5 (Cross Attention Fusion Module Based on YOLOv5) is proposed. Firstly, a camouflaged target multispectral dataset is constructed for the performance validation of the multimodal image fusion method; secondly, a dual-stream convolution channel is constructed for visible and infrared image feature extraction; and finally, a cross-attention fusion module is proposed based on the channel-attention mechanism and spatial-attention mechanism in order to realise the effective fusion of two different features.Experimental results demonstrate that the model achieves a detection accuracy of 96.4% and a recognition probability of 88.1%, surpassing the YOLOv5 baseline network. Moreover, when compared with unimodal detection algorithms like YOLOv8 and multimodal detection algorithms such as SLBAF-Net, the proposed algorithm exhibits superior performance in detection accuracy metrics. These findings highlight the practical value of the proposed method for military target detection on the battlefield, enhancing situational awareness capabilities significantly.
- Camouflaged target detection /
- Multispectral datasets /
- Attention mechanisms /
- Visible images /
- Infrared images

HTML全文

1. 引言

伪装是指通过主动或被动等方式改变自身形状、轮廓、纹理、颜色等暴露特征，使其隐藏到复杂背景环境中^[1]，以达到躲避天敌攻击或捕食、敌方探测等目的。伪装目标通常包括自然界的伪装生物，如变色龙、墨鱼等生物，它们能够适应环境的变化主动改变自身视觉特征^[2]；其次是指军事上的伪装目标，人们受到伪装生物的启发将其应用在军事上，以提升士兵和军事装备的战场存活能力。早期的伪装方式集中在可见光领域，属于视觉上的“欺骗”，而现阶段伪装方式更为多元和综合，具备多谱段、多时段、自适应的综合防护能力。

伪装目标检测是利用计算机视觉和机器学习技术来识别、检测图像中融于背景环境的伪装物体^[3]，即获取目标的类别信息和位置信息。自然界的伪装目标检测任务涉及农业上害虫治理^[4]、医学上息肉检测^[5]等领域；而人造伪装目标检测主要应用在军事领域，其检测性能好坏与战场态势信息密切相关，是当前军事侦察探测领域重点研究内容，这也是本文所研究的对象范畴。

传统的军事伪装目标检测依赖于可见光图像中的信息，利用方向梯度直方图(Histogram of Oriented Gridients, HOG)、支持向量机(Support Vector Machine, SVM)、可变形部件模型(Deformable Parts Model, DPM)等传统机器学习方法实现目标的检测与识别。诸如Tankus等人^[6]通过引入3维凸面检测算子，解决了边缘检测算法无法检测具有3维凸面的伪装目标的难题；Bhajantri等人^[7]提出了一种先采用基于共生矩阵的纹理特征算法在图像的一个小区域块内进行计算，然后利用聚类分析检测缺陷部分，最后使用分水岭分割算法对伪装目标识别的方法。然而，传统的机器学习方法在特征提取过程中对信息的利用程度不高，实时性差，难以有效应用在复杂野外战场环境中。

随着深度学习技术日益成熟并在目标检测领域取得巨大成功，基于深度学习的伪装目标检测算法吸引了研究人员的关注。诸如Zhang等人^[8]针对伪装目标特点，提出了一种MC-YOLOv5s检测算法用于伪装人员检测；赖杰等人^[9]提出了一种基于改进YOLOv5的军事伪装目标检测算法—MHA-YOLOv5，该方法通过引入双通道注意力机制和增加低分辨率检测层，提升了伪装目标检测精度、降低了漏检率；Liu等人^[10]使用了一种端到端的检测网络Detection Tramsformer(DETR)，解决了融合度较高这类伪装目标的检测，其效果优于YOLOv5算法。基于深度学习的目标检测算法有效提升了伪装目标的检测精度和实用性，但复杂环境中伪装目标的可见光图像中所含目标特征信息较弱，这限制了伪装目标检测算法性能。

为此，研究人员考虑利用伪装目标的其他波段信息通过多源信息融合的方式提升目标在图像中的有效特征含量。诸如Yadav等人^[11]提出一种将高光谱和激光雷达数据决策级融合的目标检测模型，能够成功地分辨出伪装目标，但受环境影响较大；Hu等人^[12]利用小波变换将近红外波段图像信息引入到可见光的R, G, B通道中，在增强可见光图像细节的同时补充目标的近红外信息，在目标识别和伪装评估中更具优势。在图像融合目标检测上，诸如Cheng等人^[13]基于YOLOv5针对无人机视角下的车辆目标开发了一种光学与红外融合的目标检测算法，该算法轻量化程度大，难以满足伪装目标检测任务；Fang等人^[14]开发了一种基于YOLOv5框架、使用Transformer实现特征融合的光学与红外融合的目标检测算法，然而Transformer在数据量不足、特征信息含量有限的情况表现不好。可见，通过将不同数据源信息融合，能够充分发掘数据优势以提升伪装目标的检测效果，且具有良好的适用性。

可见光图像是由光学传感器捕获反射光产生，具有丰富的细节信息，如亮度、颜色、边缘和纹理等特征，但易受能见度、光照、烟雾等外界环境因素所干扰，导致输出的光学图像质量较差。红外图像则是通过红外传感器捕捉目标与场景之间辐射出的能量差异值而得到的，与目标表面温度和自身发射率有关，所以红外传感器抗干扰能力极强，在烟雾、大雪、黑夜等恶劣环境中仍能有效地捕捉目标。但红外图像缺少图像细节纹理、轮廓等特征。对于伪装目标检测来说，单一模态图像信息很难提供目标的全部有效特征信息。因此，将同一状态空间下的可见光图像与红外图像进行融合，提高复杂环境下对伪装目标及背景可探测性。

基于上述分析，本文受到YOLOv5算法启发，提出了一种用于伪装目标检测的特征级融合算法—CAFM-YOLOv5。该算法利用伪装目标的光学信息和红外信息，基于图像特征级融合手段实现伪装目标的有效检测。所做工作主要包括：(1) 构建了伪装目标的多波谱数据集，用于所提算法的性能验证；(2) 构建了双流卷积特征提取通道实现可见光和红外特征提取，并设计了基于注意力机制的交叉互联模块实现两种不同特征的融合。

2. YOLOv5算法

传统的图像融合是在空间域或变换域执行活动水平测量并手动设计融合规则来实现图像融合^[15]，但这类融合框架迁移性差，难以适应复杂多变的融合场景。基于卷积神经网络(Convolutional Neural Network, CNN)的图像融合算法避免了手工制定融合规则的局限性^[16]，通过端到端的方式不仅提升了图像融合质量，还具有端到端处理的优势性以及灵活的融合策略等特点。因此，本文选用基于CNN的代表性算法YOLOv5作为实现光学和红外图像的特征级融合的基础框架。

YOLOv5由Input(输入端)、Backone(特征提取骨干)、Neck(多尺度融合)和Predication(预测)4部分组成，如图1所示。Input使用了数据增强、自适应锚框计算和自适应图片缩放，提升数据集质量，增大网络对小目标的检测效果以及整体的泛化能力。Backbone主要以CSPDarknet53作为基准网络，提取输入图像的一些通用特征表示，包含Conv, C3和SPPF等组件。Neck采用FPN+PAN模块用来实现不同层次的特征融合。Head模块输出3个特征图，分别用于检测大、中、小不同尺度的目标，特征图大小(长×宽×通道数)分别为：20×20×512, 40×40×256, 80×80×128。

图 1 YOLOv5算法网络结构图

下载: 全尺寸图片幻灯片

3. 改进的YOLOv5算法

3.1 构建双流卷积通道

CAFM-YOLOv5网络主要包括双流卷积通道、交叉注意力融合模块、多尺度特征融合模块和检测头，整体网络架构如图2所示。为了更好地融合可见光特征和红外特征，充分利用可见光和红外图像的互补特征提升信息融合的有效性，提出了由通道注意力机制(Channeling Attention Mechanisms， CA)和空间注意力机制(Spatial Attention Mechanisms, SA)组成的交叉注意力融合模块(Cross Attention Fusion model, CAFM)。其次，受到YOLOv5网络结构启发构建了双流卷积通道用于可见光图像和红外图像特征的提取、多尺度特征融合模块用于多尺度信息的整合、检测头用于网络预测结果的输出。其中，双流卷积通道由两个并行的CSPDarknet53组成，构成了整个网络的特征提取骨干，通过不断地卷积操作提取原始图像的可见光特征和红外特征，随着卷积深入，特征的抽象程度越来越高。多尺度融合模块由特征金字塔FPN和PAN组成，通过多尺度融合的方式能够更好地实现不同大小目标的检测。检测头通过特征提取和预测操作，将网络输出的特征图转化为目标检测结果，包括目标的类别(Class)、置信度(Score)和位置信息(Box)，从而实现了高效准确的目标检测能力。

图 2 CAFM-YOLOv5网络结构图

下载: 全尺寸图片幻灯片

网络的输入是相同状态空间下的可见光和红外图像，其输入大小是640×640，输出是分类目标、检测框位置和目标的置信度。可见光和红外图像首先分别经过两个并行的特征卷积通道，得到了5个特征层。然后，将可见光的P5层特征和红外的P5层特征通过CAFM模块进行融合，融合之后的特征先经过FPN、再经过PAN实现特征的多尺度融合，得到特征图P6。最后，将特征图P6送到检测头中获得源图像中的目标信息、位置信息和置信度信息。

3.2 设计CAFM模块

级联和拼接是两种常用的特征融合方式，虽然保留了源特征较多的信息，但在融合过程中赋予可见光红外特征相同的权重，没有充分挖掘和利用两种传感器数据对伪装目标的表征差异性和互补性。例如，可见光传感器在夜晚等光照不足情况下检测到有效信息含量很少，而红外传感器此时能捕捉到丰富的信息。更为重要的是，可见光图像通常以R, G, B三通道组成，符合人类视觉感知，具有丰富的色彩信息和通道信息，但可见光图像中伪装目标存在视觉边缘性差、位置信息不足等问题；而红外图像反映的是物体的热辐射信息，其目标在图像中显著性较高、位置信息优越。可见，可见光特征和红外特征具有互补效应。为此，本文基于注意力机制提出了CAFM融合模块用来提升融合特征的质量，如图3所示。注意力机制在目标检测任务中能够帮助模型更好地关注感兴趣区域和通道，属于资源分配机制，进而提升目标的检测精度和定位准确性。空间注意力模块(Spatial Attention Mechanisms, SA)关注图像中的空间位置信息，通过对不同位置的加权操作以提高模型对目标位置的关注度；通道注意力模块(Channeling Attention Mechanisms, CA)则关注图像中的不同通道信息，对通道特征进行加权处理，通过抑制与任务无关的通道减少了冗余信息干扰，从而提高模型的表达能力和泛化能力。CAFM模块通过空间注意力机制来捕获输入特征图中伪装的位置信息、通过通道注意力机制来捕获输入特征图中的伪装目标的有效通道信息，由于可见光特征图的通道信息优于红外特征图，红外特征图的空间信息优于可见光特征图，因此可将可见光特征图的通道信息与红外特征图的空间信息相互作用、红外特征图的通道信息与可见光特征图的空间信息相互作用，通过这种交叉互连的方式实现了两种不同特征的自适应融合，以提升算法的鲁棒性和泛化能力。计算过程如下。

图 3 CAFM模块结构图

下载: 全尺寸图片幻灯片

对于给定的可见光特性图F_rgb、红外特征图F_ir 分别通过CA, SA两个注意力模块，获得可见光特征图的通道注意力权重W_C1、空间注意力权重W_S1和红外特征图的通道注意力权重W_C2、空间注意力权重W_S2。然后，将可见光特征图顺序与W_C1和W_S2相乘、将可红外特征图顺序与W_C2和W_S1相乘。最后，通过通道拼接(Concat)的方式将优化后的可见光特征图和红外特征图合并成一个混合特征图。整个过程可以概括为

$\begin{split} {\boldsymbol{F}}_{\text{f}} = \,&{{\mathrm{Cocnat}}} \{ {\text{CA}}({\boldsymbol{F}}_{\text{rgb}}) \otimes {\text{SA}}({\boldsymbol{F}}_{\text{ir}}),{\text{CA}}({\boldsymbol{F}}_{\text{ir}}) \\ & \otimes {\text{SA}}({\boldsymbol{F}}_{\text{rgb}})\} \end{split}$

(1)

3.2.1 通道注意力机制

通道注意力机制旨在捕捉通道的重要性程度，使得网络能够自适应地学习不同通道的注意力权重，如图4所示。CA通道注意力机制通过全局平均池化(Maxpool)和全局最大池化(Avgpool)分别来获取每个通道的全局统计信息，并通过两层全连接层来学习通道的权重。然后，会将处理后产生的两个结果进行相加。最后，使用Sigmoid函数将权重归一化到0到1之间，并对每个通道进行缩放，得到通道注意力图。计算公式如式(2)所示。

图 4 通道注意力机制结构图

下载: 全尺寸图片幻灯片

${\text{Mc}}({\boldsymbol{F}}) = {S} \{ {{\mathrm{MLP}}} [{{\mathrm{AvgPool}}} ({\boldsymbol{F}})] + {{\mathrm{MLP}}} [{{\mathrm{MaxPool}}} ({\boldsymbol{F}})]\}$

(2)

式中，F为输入特征图；S为sigmoid激活函数；MLP为多层感知机；AvgPool(·)为平均池化；MaxPool(·)为最大池化；C为Concat拼接操作。

3.2.2 空间注意力机制

空间注意力模块旨在学习不同区域的注意力权重，促使模型更加关注重要的图像区域，而忽略不重要区域，提高资源利用效率，结构如图5所示。首先依次对输入的特征图进行最大池化和平均池化，并将得到的两个特征图合并，再利用卷积层提取合并后的特征图，最后通过一个sigmoid激活函数输出空间注意力特征图。计算公式如式(3)所示。

图 5 空间注意力机制结构图

下载: 全尺寸图片幻灯片

${\text{Ms}}({\boldsymbol{F}}) = {{{S}}} \{ {{{f}}} \{ [{{\mathrm{AvgPool}}} ({\boldsymbol{F}});{{\mathrm{MaxPool}}} ({\boldsymbol{F}})]\} \}$

(3)

其中，F为输入的特征图；S为sigmoid激活函数；f为卷积层运算；AvgPool(·)为平均池化；MaxPool(·)为最大池化。

3.3 设计损失函数

YOLOv5网络的损失函数由位置损失、置信度损失和类别损失3部分组成，其中位置损失使用CIOU损失函数进行度量。该函数依赖于预测框和真实框的距离、重叠区域、纵横比等边界框回归指标的聚合，但没有考虑到预测框与真实框之间的不匹配方向，从而导致预测框在模型训练过程中位置漂移，这不仅会降低模型收敛速度且效率较低。为此，本文使用了一种新的位置损失函数SIOU^[17]，如式(4)–式(8)所示。

$\qquad {L_{{\text{box}}}} = 1 - {\text{IOU}} + \frac{{\varDelta + \varOmega }}{2}$

(4)

$\qquad \varLambda = 1 - 2 \times {\sin ^2}\left(\arcsin (x) - \frac{\pi }{4}\right)$

(5)

$\qquad \gamma = 2 - \varLambda$

(6)

$\qquad \varDelta = \sum\nolimits_{t = x,y} {(1 - } {{\text{e}}^{ - \gamma {\rho _t}}})$

(7)

$\varOmega = \sum\limits_{t = w,h} {(1 - {{\text{e}}^{ - {\omega _t}}})\theta }$

(8)

其中，Λ表示预测框快速移动到真实框所在水平或垂直线上的角损失， $\varDelta$ 是距离损失， $\varOmega$ 是形状损失，θ表示形状损失的系数，w和h分别表示真实框和预测框最小外接矩形的宽、高。考虑到本文的检测任务不涉及多类检测，因此在训练过程中不考虑类别损失。为此，本文提出了一种新的损失函数，如式(9)–式(11)所示。

$\quad {\text{Loss = }}{L_{{\text{conf}}}}{\text{ + }}{L_{{\text{SIOU}}}}$

(9)

$\begin{split} \quad{L_{{\text{conf}}}} =\,& {\lambda _{{\text{obj}}}}\sum\limits_{i = 0}^{{S^2}} {\sum\limits_{j = 0}^B {I_{ij}^{{\text{obj}}}} } [ - \mathop {{C_i}}\limits^\varLambda \ln {C_i} - (1 - \mathop {{C_i}}\limits^\varLambda )\\ & \ln (1 - {C_i})] \\ & + {\lambda _{{\text{nobj}}}}\sum\limits_{i = 0}^{{S^2}} {\sum\limits_{j = 0}^B {I_{ij}^{{\text{nobj}}}} } [ - \mathop {{C_i}}\limits^\varLambda \ln {C_i} \\ & - (1 - \mathop {{C_i}}\limits^\varLambda )\ln (1 - {C_i})] \end{split}$

(10)

$\quad {L_{{\text{SIOU}}}} = \sum\limits_{i = 0}^{{S^2}} {\sum\limits_{j = 0}^B {{L_{{\text{box}}}}} }$

(11)

其中，S表示网格大小；B表示每个网格的预测框数量； $I_{ij}^{{\text{obj}}}$ 表示第i个网格的第j个预测框是否有预测的目标，若有则取值为1，反之为0； $I_{ij}^{{\text{nobj}}}$ 表示第i个网格的第j个预测框是否有不需要预测的目标，若有则取值为1，反之为0； ${\lambda _{{\text{obj}}}}$ 为预测框中有目标平衡系数； ${\lambda _{{\text{nobj}}}}$ 为预测框中无目标平衡系数； $C_i$ 表示预测框的置信度； ${\mathop {C_i}\limits^\varLambda }$ 为真实框的置信度。

4. 实验验证

4.1 构建数据集

现阶段暂无可用的公开数据集满足基于多模态融合技术的伪装目标检测研究，为解决这一难题，课题组前期组织了数据采集工作，构建了包含可见光波段和红外波段的伪装目标多波谱数据集。该数据集以伪装人员为主，由2 000对可见光图像和红外图像组成，每一对图像均在同一状态空间下采集，且两者配准精度高。可见光图像空间分辨率大小为487 MB、红外图像空间分辨率大小为1.2 MB，两者的像素空间大小均为1028×768。在模型训练过程中按照7:2:1的比例划分训练集(1500)、验证集(400)、测试集(100)，并使用Labelimg软件标注所有训练样本。

实验人员身着兼具光学和红外两种伪装效果的林地型伪装服、荒漠型伪装服，分别在林地、荒漠、山谷、草坪等环境中利用自然环境背景隐藏自己，模拟真实战场环境。所用的数据采集设备是FLIR公司生产的T1050sc型号高分辨率红外热像仪，能够同时采集像素大小为1024×768的长波红外图像和可见光图像。此外，选择早上、中午、傍晚等典型时间段进行数据采集，探测距离在100 m到200 m。图6(a)展示了荒漠型背景中可见光与红外部分伪装目标数据集。图6(b)展示了林地型背景中可见光与红外部分伪装目标数据集。

图 6 多波谱伪装目标数据集

下载: 全尺寸图片幻灯片

4.2 训练参数设置

拟采用课题组收集的多模态伪装目标数据集进行所提算法的实验验证。实验平台主要环境配置如下：AMD R7 6800H CPU, 16 GB RAM, Nvidia GeForce RTX3060 6G GPU, win10专业版操作系统，Python3.9.12语言，CUDA11.3并行计算架构，CUDNN7.6.5深度神经网络加速库，Pytorch1.11.0深度学习框架。

实验过程中选择官方提供的YOLOv5预训练权重，在训练开始时模型参数就能得到一个较好的初始化。优化器选择SGD，训练时输入的图像大小调整为640×640，初始学习率设置为0.01，并随时间增加逐渐降到0.001，动量因子、权重衰减系数分别设置为0.937, 0.0005，每个批次中加载图像数量设置为8，训练轮数设置为100，置信度阈值和非极大值抑制 IoU 阈值分别设置为0.5和0.2。

目标检测模型的好坏可从检测的精度、速度以及模型大小进行定量评判，其精度评价指标包括精度(P)、召回率(R)、平均精度(AP)、平均精度均值(mAP)，速度评价指标通过每秒检测的帧数(fps)来表示，本文首先选mAP, fps两种不同类型的指标对目标检测模型进行初步评判。其中P, R, AP和mAP等指标的计算公式如式(12)–式(15)所示；fps通过在Nvidia GeForce RTX3060硬件设备上对测试集中的100张图像求取平均检测时间获得。此外，使用Parameters来评估模型的复杂程度，该指标表示模型训练中所需要训练的参数总数，只与网络结构有关，计算公式如式(16)所示。

$P = \frac{{{\text{TP}}}}{{{\text{TP + FP}}}}$

(12)

$R = \frac{{{\text{TP}}}}{{{\text{TP + FN}}}}$

(13)

${\text{AP}} = \int\limits_0^1 {P(r)} {\text{d}}r$

(14)

${\text{mAP}} = \frac{1}{m}\sum\limits_{i = 1}^m {{{\mathrm{AP}}_i}}$

(15)

${\text{Parameters}} = \{ [(K_{\mathrm{w}} \times K_{\mathrm{h}}) \times C\_{\text{in}}] \times C\_{\text{out}}\} \times C\_{\text{out}}$

(16)

其中，TP(真阳性)、FP(假阳性)、TN(真阴性)和FN(假阴性)表示目标检测过程可能出现的4种结果，如表1所示；K_w表示卷积核宽度，K_h表示卷积核的高度，C__in表示卷积核的输入通道，C_out表示卷积核的输出通道。

表 1 检测结果分类及其含义表

检测结果	含义
TP	将正类预测为正类数
FP	将负类预测为正类数
TN	将负类预测为负类数
FN	将正类预测为负类数

下载: 导出CSV

| 显示表格

此外，考虑到军事背景的特殊性，仅用目标检测模型的参数量、检测精度等指标难以满足实际军事应用需求。在比较了雷达目标检测中的漏检概念后，建立了用于军事目标检测的识别率(Recognition Rate, RCR)指标。计算公式如式(16)所示。

${\text{RCR}} = \frac{{\displaystyle\sum\limits_i^n {{D_i}} }}{{\displaystyle\sum\limits_i^n {{N_i}} }}$

(17)

其中， ${N_i}$ 是第i幅图像中所含伪装目标个数， $D_i$ 为检测算法对第i幅图像中预测正确的伪装目标个数。

4.3 实验验证以及结果对比

4.3.1 本文方法实验结果及验证

为了验证本文方法的真实性能，在采集的多波谱伪装目标数据集上进行实验验证。考虑到本文方法的网络结构参考了YOLOv5算法，因此在相同的实验条件下与本文方法进行了对比。表2给出了本文方法以及YOLOv5在可见光数据集和红外数据集的各项指标大小。

表 2 本文方法各项指标

模型	数据集	Parameters	Size(MB)	Precision(%)	Recall(%)	mAP@0.5:0.95(%)	RCR(%)	fps(帧/s)
YOLOv5	可见光	7012822	14.4	85.1	78.2	34.5	83.5	50
YOLOv5	红外	7012822	14.4	93.3	84.1	47.7	66.9	53
CAFM-Net	可见光、红外	11557128	23.6	96.4	93.8	57.2	88.1	48

下载: 导出CSV

| 显示表格

从表2可以看出，相较于参考网络YOLOv5来说，本文方法的检测精度、召回率、模型的平均检测精度和识别概率等指标上均有着较大提升。相较于仅使用可见光或红外数据的YOLOv5算法，本文方法的Precision分别提高11.3%, 3.1%，Recall分别提高15.6%, 9.7%，mAP@0.5:0.95(表示iou阈值从0.5到0.95，步长0.05上的平均mAP)分别提高22.7%, 9.5%，RCR分别提高4.6%, 21.2%。由于双卷积通道同时加载可见光图像和红外图像，因此造成了网络的参数量增大以及检测速度的减少。图7(a)展示了YOLOv5算法在可见光测试集上的真实检测结果，图7(b)展示了YOLOv5算法在红外测试集上的真实检测结果，图7(c)展示了本文算法在多波谱测试集上的真实检测结果。

图 7 不同方法在测试集上的检测结果

下载: 全尺寸图片幻灯片

图8(a)描述了YOLOv5在训练过程中可见光数据中训练集和验证集的损失函数变化，图8(b)描述了YOLOv5在训练过程中红外数据集中训练集和验证集的损失函数变化，图8(c)描述了本文方法在训练过程中多波谱数据中训练集和验证集的损失函数变化。可以看出，仅使用可见光数据或红外数据的YOLOv5算法在训练集上的优于验证集，这表明模型出现了过拟合。而本文方法在训练集和验证集上的性能相差不大，模型的泛化能力良好。

图 8 损失函数变化曲线

下载: 全尺寸图片幻灯片

4.3.2 多种方法性能对比实验

为了进一步说明本文方法的必要性，将本文算法与现阶段可用于伪装目标检测上的先进算法(Faster-Rcnn, SSD, YOLOv3, YOLOv4和YOLOv8)进行对比实验，同时复现了两种针对伪装目标检测而设计的算法：MHA-YOLOv5^[9]和DETR^[10]。为保证实验的公平性，本文在同一台配备了AMD R7 6800H CPU, GeForce RTX3060 6 GB GPU的计算机上训练。表3给出了对比算法在伪装目标数据集上检测性能的定量结果。从表中可以看出，本文方法在平均检测精度上相较于其他单模态目标检测算法具有巨大的优势。

表 3 多种算法检测精度性能对比

模型	数据集	特征提取骨干	图像输入尺寸	Parametrs	mAP@0.5:0.95(%)
Faster-Rcnn	可见光	ResNet50	640×640	7864320	34.1
Faster-Rcnn	红外	ResNet50	640×640	7864320	36.3
SSD	可见光	VGG-16	640×640	7235175	43.9
SSD	红外	VGG-16	640×640	7235175	47.6
YOLOv3	可见光	Darknet-53	416×416	6501172	34.1
YOLOv3	红外	Darknet-53	416×416	6501172	39.1
YOLOv4	可见光	CSPDarknet-53	416×416	6396314	27.8
YOLOv4	红外	CSPDarknet-53	416×416	6396314	34.1
YOLOv8	可见光	CSPDarknet-53	640×640	11125971	41.1
YOLOv8	红外	CSPDarknet-53	640×640	11125971	51.1
MHA-YOLOv5	可见光	CSPDarknet-53	640×640	7704906	53.3
MHA-YOLOv5	红外	CSPDarknet-53	640×640	7704906	52.0
DETR	可见光	Resnet50	800×800	42991616	53.6
DETR	红外	Resnet50	800×800	42991616	53.4

下载: 导出CSV

| 显示表格

为了说明本文所提融合方法的有效性，再将本文方法与当前2种先进的多模态图像融合的目标检测算法或模块进行了比较：SLBAF-Net^[13]和CFT (Cross-Modality Fusion Transformer)^[14]。以上提到的两种算法是我们根据原论文的实验结果复现得到的，并在本文所用的多光谱数据集上进行训练。表4给出了本文方法与SLBAF-Net, CFT在验证集上的各项性能。可以看出，本文方法在检测精度上依然具有较大优势。

表 4 多光谱数据集上多模态检测算法的结果

模型	数据集	图像输入尺寸	Parameters	mAP@0.5:0.95 (%)
SLBAF-Net	可见光、红外	640×640	419430	20.7
CFT	可见光、红外	640×640	44879052	50.4

下载: 导出CSV

| 显示表格

5. 结束语

针对伪装目标单波段特征信息不足，常规目标检测算法检测精度较低、漏检率高等问题，本文构建了一个全新的伪装目标多波谱数据集，并提出一种基于多模态图像融合技术的伪装目标检测算法。该方法核心在于利用通道注意力和空间注意力机制捕获可见光图像和红外图像中的优势特征，再通过交叉互连的方式利用二者的相关性和互补信息提升特征信息有效含量。

实验结果表明，基于多模态图像融合的目标检测算法相较于仅使用可见光图像或红外图像的常规目标检测算法来说，具有更高的检测准确率和识别概率，有效改善了伪装目标的检测效果。同时，本文方法同时利用到相同状态空间下的可见光和红外信息，因此算法的鲁棒性更强、抗干扰能力更好，能够适应复杂多变的战场环境。在后续工作中，将尝试在光学和红外的基础上加入毫米波雷达图像、深度图像等其他模态信息，进一步增强伪装目标的特征表达能力。

图 1 YOLOv5算法网络结构图

下载: 全尺寸图片幻灯片

图 2 CAFM-YOLOv5网络结构图

下载: 全尺寸图片幻灯片

图 3 CAFM模块结构图

下载: 全尺寸图片幻灯片

图 4 通道注意力机制结构图

下载: 全尺寸图片幻灯片

图 5 空间注意力机制结构图

下载: 全尺寸图片幻灯片

图 6 多波谱伪装目标数据集

下载: 全尺寸图片幻灯片

图 7 不同方法在测试集上的检测结果

下载: 全尺寸图片幻灯片

图 8 损失函数变化曲线

下载: 全尺寸图片幻灯片

表 1 检测结果分类及其含义表

检测结果	含义
TP	将正类预测为正类数
FP	将负类预测为正类数
TN	将负类预测为负类数
FN	将正类预测为负类数

下载: 导出CSV

表 2 本文方法各项指标

模型	数据集	Parameters	Size(MB)	Precision(%)	Recall(%)	mAP@0.5:0.95(%)	RCR(%)	fps(帧/s)
YOLOv5	可见光	7012822	14.4	85.1	78.2	34.5	83.5	50
YOLOv5	红外	7012822	14.4	93.3	84.1	47.7	66.9	53
CAFM-Net	可见光、红外	11557128	23.6	96.4	93.8	57.2	88.1	48

下载: 导出CSV

表 3 多种算法检测精度性能对比

模型	数据集	特征提取骨干	图像输入尺寸	Parametrs	mAP@0.5:0.95(%)
Faster-Rcnn	可见光	ResNet50	640×640	7864320	34.1
Faster-Rcnn	红外	ResNet50	640×640	7864320	36.3
SSD	可见光	VGG-16	640×640	7235175	43.9
SSD	红外	VGG-16	640×640	7235175	47.6
YOLOv3	可见光	Darknet-53	416×416	6501172	34.1
YOLOv3	红外	Darknet-53	416×416	6501172	39.1
YOLOv4	可见光	CSPDarknet-53	416×416	6396314	27.8
YOLOv4	红外	CSPDarknet-53	416×416	6396314	34.1
YOLOv8	可见光	CSPDarknet-53	640×640	11125971	41.1
YOLOv8	红外	CSPDarknet-53	640×640	11125971	51.1
MHA-YOLOv5	可见光	CSPDarknet-53	640×640	7704906	53.3
MHA-YOLOv5	红外	CSPDarknet-53	640×640	7704906	52.0
DETR	可见光	Resnet50	800×800	42991616	53.6
DETR	红外	Resnet50	800×800	42991616	53.4

下载: 导出CSV

表 4 多光谱数据集上多模态检测算法的结果

模型	数据集	图像输入尺寸	Parameters	mAP@0.5:0.95 (%)
SLBAF-Net	可见光、红外	640×640	419430	20.7
CFT	可见光、红外	640×640	44879052	50.4

下载: 导出CSV

参考文献(17)

[1]	SINGH S K, DHAWALE C A, and MISRA S. Survey of object detection methods in camouflaged image[J]. IERI Procedia, 2013, 4: 351–357. doi: 10.1016/j.ieri.2013.11.050.
[2]	王荣昌, 王峰, 任帅军, 等. 基于双流融合网络的单兵伪装偏振成像检测[J]. 光学学报, 2022, 42(9): 0915001. doi: 10.3788/AOS202242.0915001. WANG Rongchang, WANG Feng, REN Shuaijun, et al. Polarization imaging detection of individual camouflage based on two-stream fusion network[J]. Acta Optica Sinica, 2022, 42(9): 0915001. doi: 10.3788/AOS202242.0915001.
[3]	LE T N, NGUYEN T V, NIE Zhongliang, et al. Anabranch network for camouflaged object segmentation[J]. Computer Vision and Image Understanding, 2019, 184: 45–56. doi: 10.1016/j.cviu.2019.04.006.
[4]	FAN Dengping, JI Gepeng, SUN Guolei, et al. Camouflaged object detection[C]. IEEE/CVF Conference On Computer Vision And Pattern Recognition, Seattle, USA, 2020: 2774–2784. doi: 10.1109/CVPR42600.2020.00285.
[5]	FAN Dengping, JI Gepeng, ZHOU Tao, et al. PraNet: Parallel reverse attention network for polyp segmentation[C]. The 23rd International Conference on Medical Image Computing and Computer Assisted Intervention–MICCAI 2020, Lima, Peru, 2020: 263–273. doi: 10.1007/978-3-030-59725-2_26.
[6]	TANKUS A and YESHURUN Y. Convexity-based visual camouflage breaking[J]. Computer Vision and Image Understanding, 2001, 82(3): 208–237. doi: 10.1006/cviu.2001.0912.
[7]	BHAJANTRI N U and NAGABHUSHAN P. Camouflage defect identification: A novel approach[C]. The 9th International Conference on Information Technology, Bhubaneswar, India, 2006: 145–148. doi: 10.1109/ICIT.2006.34.
[8]	ZHANG Wei, ZHOU Qikai, LI Ruizhi, et al. Research on camouflaged human target detection based on deep learning[J]. Computational Intelligence and Neuroscience, 2022, 2022: 7703444. doi: 10.1155/2022/7703444.
[9]	赖杰, 彭锐晖, 孙殿星, 等. 融合注意力机制与多检测层结构的伪装目标检测[J]. 中国图象图形学报, 2024, 29(1): 134–146. doi: 10.11834/jig.221189. LAI Jie, PENG Ruihui, SUN Dianxing, et al. Detection of camouflage targets based on attention mechanism and multi-detection layer structure[J]. Journal of Image and Graphics, 2024, 29(1): 134–146. doi: 10.11834/jig.221189.
[10]	刘珩, 冉建国, 杨鑫, 等. 基于DETR的迷彩伪装目标检测[J]. 现代电子技术, 2022, 45(17): 41–46. doi: 10.16652/j.issn.1004-373x.2022.17.008. LIU Heng, RAN Jianguo, YANG Xin, et al. Camouflage target detection based on detection transformer[J]. Modern Electronics Technique, 2022, 45(17): 41–46. doi: 10.16652/j.issn.1004-373x.2022.17.008.
[11]	YADAV D, ARORA M K, TIWARI K C, et al. Detection and identification of camouflaged targets using hyperspectral and LiDAR data[J]. Defence Science Journal, 2018, 68(6): 540–546. doi: 10.14429/dsj.68.12731.
[12]	HU Jianghua, CUI Guangzhen, and QIN Lie. A new method of multispectral image processing with camouflage effect detection[C]. SPIE 9675, AOPC 2015: Image Processing and Analysis, Beijing, China, 2015: 967510. doi: 10.1117/12.2199206.
[13]	CHENG Xiaolong, GENG Keke, WANG Ziwei, et al. SLBAF-net: Super-lightweight bimodal adaptive fusion network for UAV detection in low recognition environment[J]. Multimedia Tools and Applications, 2023, 82(30): 47773–47792. doi: 10.1007/s11042-023-15333-w.
[14]	FANG Qingyun, HAN Depeng, and WANG Zhaokui. Cross-modality fusion transformer for multispectral object detection[J]. arXiv: 2111.00273, 2021. doi: 10.48550/arXiv.2111.00273.
[15]	MA Jiayi, MA Yong, and Li Chang. Infrared and visible image fusion methods and applications: A survey[J]. Information Fusion, 2019, 45: 153–178. doi: 10.1016/j.inffus.2018.02.004.
[16]	聂茜茜, 肖斌, 毕秀丽, 等. 基于超像素级卷积神经网络的多聚焦图像融合算法[J]. 电子与信息学报, 2021, 43(4): 965–973. doi: 10.11999/JEIT191053. NIE Xixi, XIAO Bin, BI Xiuli, et al. Multi-focus image fusion algorithm based on super pixel level convolutional neural network[J]. Journal of Electronics & Information Technology, 2021, 43(4): 965–973. doi: 10.11999/JEIT191053.
[17]	GEVORGYAN Z. SIoU loss: More powerful learning for bounding box regression[J]. arXiv: 2205.12740, 2022. doi: 10.48550/arXiv.2205.12740.

施引文献

期刊类型引用(0)
其他类型引用(1)

资源附件(0)

访问统计

图(8) / 表(4)

计量

文章访问数: 654
HTML全文浏览量: 520
PDF下载量: 130
被引次数: 1

1. 引言
2. YOLOv5算法
3. 改进的YOLOv5算法
3.1 构建双流卷积通道
3.2 设计CAFM模块
3.3 设计损失函数
4. 实验验证
4.1 构建数据集
4.2 训练参数设置
4.3 实验验证以及结果对比
5. 结束语

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

一种改进YOLOv5算法的伪装目标检测方法

doi: 10.11999/JEIT231170 cstr: 32379.14.JEIT231170

通讯作者:
赖杰　laijie@hrbeu.edu.cn

计量