A Detection Method of Small Target in Sea Clutter Environment Based on Feature Temporal Sequence
-
摘要: 特征检测作为海杂波环境下小目标检测的有效手段,受到了广泛关注与深入研究。过去对特征的研究大多关注于当前帧,近年来使用帧间时序信息融合当前帧特征的方法也被提出并在检测方面取得一定效果。但该方法不能很好地适应具有时变性的海杂波数据,且仅采用静态加权算法融合特征,对历史帧信息的利用不够充分。针对上述问题,该文提出基于模型稳定的修正Burg方法进行特征自回归(AR)建模与一步预测,使模型能够自适应调整极点分布,提高了海杂波特征预测的准确性,并基于求解多变量极值问题提出了一种动态加权算法得到了最小方差的融合特征。该文结合IPIX数据集和海军航空大学共享数据集进行实验,利用相对平均幅度(RAA)、相对多普勒峰高(RDPH)、频域峰均值比(FPAR)3特征构建凸包检测器验证了所提方法的有效性。Abstract:
Objective Feature detection has become an effective approach for detecting small targets in sea clutter environments, attracting significant attention and research. Previous studies primarily focused on extracting differential features between targets and clutter from the current pulse frame for detection. Recent methods have integrated temporal information from multiple frames with current frame features, demonstrating improved detection performance. However, these methods rely on fixed-order AR models, which do not effectively adapt to the time-varying nature of sea clutter. Moreover, the use of static weighting algorithms for feature fusion fails to account for clutter characteristics in the current scene, leading to suboptimal utilization of temporal information. To address these issues, this study proposes a feature AR modeling and one-step prediction method based on a model-stable modified Burg algorithm, enabling adaptive pole distribution adjustment and enhancing the accuracy of sea clutter feature prediction. Additionally, a dynamic weighting algorithm is developed by solving multivariable extreme value problems to obtain minimum variance fused features, fully leveraging historical frame temporal information and improving radar target detection performance. Methods This study employs a modified Burg method to predict sea clutter, incorporating a stability factor in the derivation of reflection coefficients to constrain the model's poles within the unit circle. This enhances model stability, improving its adaptability to the time-varying nature of sea clutter and increasing the accuracy of feature prediction. A dynamic weighting algorithm is introduced to adaptively adjust fusion weights based on data volatility around the current frame by solving a multivariable extremum problem, thereby minimizing the local variance of fused features. Temporal fusion is performed using the features Relative Average Amplitude, Frequency Peak to Average Ratio, and Relative Doppler Peak Height to generate a fused feature. The fused clutter features are then used to construct a three-dimensional convex hull decision region, where target presence is determined by assessing whether the detection unit's feature point lies within this region. Detection results are compared with commonly used feature detection methods. Additionally, the study evaluates the boundary performance of the proposed method and contrasts it with the traditional energy-domain CFAR method, providing a comprehensive analysis of its usability and effectiveness. Results and Discussions The proposed method achieves the following results: (1) For clutter data, the temporal fusion algorithm reduces data variance by an average of 0.024 5 compared to no temporal fusion and by 0.003 5 compared to the original temporal fusion algorithm. For target data, it reduces data variance by an average of 1.126 6 compared to no temporal fusion and by 0.179 compared to the original temporal fusion algorithm. (2) The Bhattacharyya distance of the proposed temporal fusion algorithm improves by an average of 0.237 3 compared to no temporal fusion and by 0.109 3 compared to the original temporal fusion algorithm. Under VV polarization, the Bhattacharyya distance improves by an average of 0.219 9 compared to no temporal fusion and by 0.0908 compared to the original temporal fusion algorithm. (3) The proposed method outperforms other feature detectors in detection performance by effectively utilizing temporal information from historical frames, thereby enhancing the echo information used. Compared to energy-domain CFAR methods, it maintains a strong competitive advantage. Conclusions This study presents innovative solutions to two key challenges in existing sea clutter feature modeling and fusion methods. First, to address the time-varying nature of sea clutter features, a model-stable modified Burg method is proposed for Autoregressive (AR) feature modeling. This approach enables adaptive adjustment of model pole distribution, improving the accuracy of one-step sea clutter feature predictions and simplifying model order estimation. Second, to enhance the utilization of inter-frame temporal information during feature fusion, a dynamic weighted fusion algorithm is introduced to integrate predicted and observed features. This method reduces the variance of fused features and fully exploits historical temporal information. Validation using the IPIX dataset and the shared dataset from the Naval Aeronautical University demonstrates that the fused features obtained through these methods exhibit improved separability compared to the original features, significantly enhancing detector performance. -
Key words:
- Small target detection /
- Sea clutter /
- Temporal feature information /
- Modified burg /
- Dynamic weighting
-
1. 引言
图像显著性检测的目的是模拟人的视觉特点,提取图像中人类更加关注的区域[1]。进行全景图像显著性检测,不仅可以提高全景图像的压缩效率,减少传输带宽,而且对全景图像编辑起着至关重要的作用。此外还有力支撑了图像分割、图像检索、目标追踪识别和机器人导航[2]等计算机视觉任务。
全景图像的显著性检测中,对图像特征的提取效果直接影响最终的显著性检测效果。Zhang等人[3]提出了一种球形卷积,并验证了球形U型网络对全景视频显著性检测的有效性。Coors等人[4]提出了一种可以避免极点过采样的球形卷积。Martin等人[5]提出的显著性检测的方法,主观检测结果好,收敛较缓慢。
全景图像显著性检测时,有多种投影方式,如等矩形投影和立方体投影等。Dai等人[6]将全景图像以立方体的格式输入扩展卷积神经网络,同时处理立方体的6个面进行全景图像的显著性检测。Monroy等人[7]提出了对卷积神经网络(Convolutional Neural Network, CNN)的架构扩展,以端到端的方式对全景图像进行显著性检测。以上方法将全景图像投影成2D图像的过程会造成不同程度的信息缺失,因此最终显著性检测结果的性能指标也会受其影响。
Dahou等人[8]提出用于全景视频显著性检测的基于新注意力的显著性模型(a novel ATtention based Saliency model, ATSal),该模型对全局视觉静态注意力进行显式编码。Zhu等人[9]针对显著性检测过程中,全景图像数据集规模小的问题,提出注意力感知特征融合网络。上述方法凭借注意力机制提高了全景图像显著性检测结果的性能指标得分,但这些指标还有上升的空间。
为了提高检测结果的精度,Chao等人[10]提出从全景图像的3个不同视场(Field of Views, FoV)的每个视口提取特征再融合的显著性检测方法。该方法在性能指标上能取得较好的结果,但是具有很高的计算量。
综上所述,以上方法都有各自的优势,但存在模型收敛速度慢、实际使用受限、全景图像投影成2D图像造成失真以及高计算量等问题。为了解决上述问题,本文提出一种新的全景图像显著性检测网络:基于鲁棒视觉变换和多注意力的U型网络(U-Net with Robust vision transformer and Multiple attention modules, URMNet)。主要贡献如下:
(1) 提出URMNet网络模型,与目前主流全景图像显著性检测模型相比,进一步提升了全景图像显著性检测评价指标。
(2) 提出鲁棒视觉变换模块 (Robust Vision Transformer, RVT ),采用卷积嵌入的方式,通过调整特征图的空间和通道维度,降低了分辨率,解决了网络准确度饱和与性能退化的问题,增强了模型的鲁棒性;提出多注意力模块 (Multiple Attention, MA),通过融合多维度注意力,提升网络的特征提取能力,提高显著性检测精确度。
(3) 提出更简洁的纬度加权损失函数Loss,加快模型收敛速度,提升全景图像显著性检测效果。
(4) 对原始全景图像显著性检测数据集,即全景图像注意(Attention on Omnidirectional Images, AOI)[11]、Salient360[12]分别进行数据增强得到新的数据集,即增强全景图像注意(Augment AOI, AAOI)、增强显著360(Augment Salient360, ASalient360),大幅增多数据集图像数量。本文模型在两种类型的数据集上达到了预期的效果,证明了模型的有效性和泛化能力。
2. 本文模型
2.1 URMNet网络概述
本文提出一种基于鲁棒视觉变换(RVT)和多注意力(MA)的全景图像显著性检测网络URMNet,如图1所示。URMNet是类U型结构,由编码器、解码器、RVT模块和MA模块组成。URMNet的工作流程如下:输入全景图像到编码模块,首先用球形卷积(sphere convolution)[4]进行特征提取,然后进行批归一化(Batch Normalization, BN)和修正线性单元(Rectified Linear Unit, ReLU)激活操作,得到第1尺度特征图,再进行球形池化。如此循环4次可得到5种尺度的特征图,这些特征图包含浅层的细节信息和深层的语义信息。将前4种尺度的特征图送入由4个rvt子模块组成的RVT模块,RVT模块可以提取4种尺度特征图所包含的显著信息。同时,最小尺度的特征图通过MA模块的多注意力机制有选择地融合空间和通道显著信息。融合后的显著信息经过上采样后送入解码器首先与RVT模块对应尺度的输出进行拼接,然后经过球形卷积、批归一化BN以及ReLU激活操作进一步细化生成的聚合特征,按此过程一共重复4次逐渐生成精确的显著图。
2.2 rvt子模块
为了提高特征的提取速度并兼顾全景图像的全局特征,本文采用包含了多通道自注意力机制的变换器(图1中变换器1)。经过实验,随着RVT-Block(见图2)块数的增多,模型的检测精度会提高,同时在变换器后期降低空间分辨率有利于提高模型的鲁棒性[13]。因此在变换器1之后,进行空间池化,如图1中rvt所示。变换器1与2中分别包含12个与4个RVT-Block。为了匹配解码器输出维度,对变换器2的输出进行卷积及上采样。为了解决随着网络的加深,模型准确度饱和以及性能退化的问题,将rvt子模块的输入与上采样后的特征图相加,得到rvt的输出。
2.2.1 特征图预处理
本文采用卷积嵌入的方法进行特征图重构。特征图预处理过程如图3所示。首先对输入的特征图进行卷积操作再归一化。然后通过平均池化提取特征图的局部信息,同时通过最大池化提取特征图峰值信息。
将经过两种池化操作的特征图融合,再进行卷积操作。预处理的输出Ype可表示为
Ype=Conv2(Pool(BN(Conv5(Xpe)))) (1) 其中,
Xpe 为输入特征图,Convi(⋅) 表示i×i卷积操作,BN(⋅) 表示归一化,Pool(⋅) 表示池化。2.2.2 变换器(Transformer)
本文提出变换器子模块根据像素间的关系提取预处理后特征图的全局特征,其结构如图2所示。受自注意力机制[14]的启发,本文将多个通道同时进行自注意力计算,如图4所示。把尺度
(c,h,w) 的特征图压缩维度后变成(h×w,c) ,再变成(6,h×w,c/6) ,本文对x1~x6同时进行自注意力机制计算,这大大提高了特征的提取速度。以全连接的方式将3个可训练权重WQ, WK和WV分别作用于每个通道中的特征图xi,得到对应的q (query),k (key)和v (value) 3个值。利用q和k的乘积表示特征图的相关性,为了利于网络训练,需要对q和k的乘积做线性缩放,缩放因子为√c/c66 。wi,j经Softmax操作得到对应位置的注意力权重Ai,j ,再与相应的vi相乘,得到一个通道下的注意力结果bi,最后将6个通道的注意力结果以通道维度拼接。这里的注意力机制可表示为式(2)。变换器对特征图处理时,将输入的特征图先压缩维度,经过重新排列(Rearrange)把形状为(c,h,w) 的特征图变为(h×w,c) 。压缩后的2维序列XRB 作为RVT-Block模块的输入,RVT-Block模块的输出记为YRB 。YRB 与XRB 的关系如式(3)所示attention=Softmax(QIKIT√c/c66)VI (2) YRB=D(mlp(LN(X1)))⊕D(attnRB(XRB))⊕XRB (3) 其中,
attnRB(⋅) 表示图4所示的注意力机制,D(⋅) 表示失活,⊕ 表示像素级相加,LN(⋅) 表示归一化,mlp(⋅) 表示多层感知。经过L个RVT-Block模块运算得到2维特征图,最后将特征图恢复到(c,h,w)。为了解决随着网络加深,模型性能退化的问题,本文使用了残差机制;为了更准确地检测图像显著性在模型中加入了多层感知机(MultiLayer Perceptron, MLP),通道扩张率设为4。2.3 MA模块
本文提出空间注意力模块(Spatial Attention Module, SAM)和通道注意力模块(Channel Attention Module, CAM),首先从空间和通道两个维度提取特征,再对SAM设置加权因子
β ,CAM设置加权因子1−β 。两者求和的结果经1×1卷积有选择地融合显著信息,如图1中MA模块所示。β∈[0,0.2,0.4,0.5,0.6,0.8,1.0] ,本文将在实验部分给出SAM与CAM的最佳比重。2.3.1 SAM
SAM子模块负责获得空间注意力,示意图如图5所示。输入尺度为(c ,h ,w)的特征图,经过3次
1×1 卷积,将3个不同的可学习权重作用于特征图,并压缩维度(Rearrange),便于计算空间中任一特征像素与其他像素之间的关系,得到尺度为(c,h×w) 的query值Qs、key值Ks和value值Vs。在特征图的空间维度有h×w 个像素,计算所有像素两两之间的注意力关系得到(h×w,h×w) 的空间注意力得分矩阵,即QTSKS√c ,√c 为缩放因子。特征图Vs的像素与对应位置的注意力权重相乘,即VS×Att ,得到空间注意力结果。然后将注意力结果经线性变换再提升维度,加入多层感知机MLP,通道扩张率设为4。所得结果与输入特征图加和,解决了模型性能退化的问题。计算流程用公式可表示为YS=mlp(Ω(attnS(ConvS(XS))))⊕XS (4) 其中,
XS 表示SAM模块的输入图像,ConvS(⋅) 表示1×1卷积与重新排列操作,attnS(⋅) 表示SAM模块的空间注意力机制,Ω(⋅) 操作由线性变化、失活以及重新排列组成,mlp(⋅) 表示多层感知,⊕ 表示像素级相加。2.3.2 CAM
CAM子模块用来获得通道注意力,如图6所示。将尺寸为(c ,h ,w)的输入特征图经过球形卷积,再压缩(Flatten)成
(c,h×w) 的尺寸。对特征矩阵进行转置(Transpose),再将一组尺寸为(h×w,c) 的可学习参数加到转置后的特征图上进行位置编码[15]。以相同的固定权重得到query值Qc、key值Kc和value值Vc,计算特征图通道之间的注意力关系,√hw 为缩放因子。将所得通道注意力得分矩阵与Vc相乘,加入通道扩张率为4的MLP。串联4个CAM-Block(Lc=4)。使用残差机制,得到CAM的输出。CAM-Block的计算流程如式(5)所示YC=Φ(attnC(LN(XC)))⊕mlp(Φ(attnC(LN(XC)))) (5) 其中,
LN(⋅) 表示归一化,attnC(⋅) 表示CAM模块的通道注意力机制,Φ(⋅) 表示由归一化、失活以及转置组成的操作,mlp(⋅) 表示多层感知,⊕ 表示像素级相加。2.4 纬度加权损失函数
本文设计一种新的损失函数,使赤道部分的损失权重最高,向两极的损失权重递减。由于同一纬度的像素失真程度相同,随着纬度的变化,相应纬度位置的像素其失真程度也发生变化,因此以像素点的纬度值来确定不同位置像素的损失权重。设全景图像的高为h,宽为w,把整幅图像分成h个纬度带。 则第i个纬度带的损失权重
Wi 与损失函数Loss可表示为Wi=sin(iπh)+1,Loss=1N∑i,jWi(Si,j−Gi,j)2 (6) 其中,
Si,j 表示预测的显著图中位于第i个纬度带的第j个像素灰度值,Gi,j 表示基准显著图中位于第i个纬度带的第j个像素的灰度值,N表示图像的像素个数。3. 实验
3.1 数据集与预处理
AOI有600张全景图像和基准显著图。Salient360有85张全景图像和基准显著图。由于原始数据集的图像数量较少,本文采用垂直翻转、水平翻转和双向翻转进行数据增强。此外,基于噪声的数据增强,能够提高模型在全景图像包含噪声情境下的鲁棒性能[5],因此本文对全景图像添加了高斯、泊松、椒盐和斑点噪声。上述所有的数据增强操作,不会改变全景图像像素之间的依赖关系,因此不会影响图像的显著性。最终构建的AAOI, ASalient360数据集分别包含4800张、680张全景图像。
3.2 实验设置
本文使用Pytorch架构以及150个epoch训练模型,4张图像为一组进行批处理。学习率设置为0.0001,动量参数为0.9的随机梯度下降(Stochastic Gradient Descent, SGD)优化器,权重衰减0.00001。设置检查点,参考文献[5]中训练图像与测试图像的比例,AAOI数据集中4752张图像用于训练,48张图像用于测试;ASalient360数据集中640张图像用于训练,40张图像用于测试。训练集中训练部分与验证部分图像数量比例为17:3。本文所有实验均在配备RTX3060 GPU和AMD I5 3600 CPU的台式机上完成。
3.3 MA模块中
β 取值对模型性能的影响表1列出了MA模块中SAM与CAM子模块不同权重的实验结果。Grade如式(7)所示
表 1 不同加权因子的实验结果SMA β CAM 1−β CC↑ SIM↑ KLDiv↓ NSS↑ AUC_Judd↑ AUC_Borji↑ Grade 0 1.0 0.9005 0.7787 0.1970 3.5346 0.9914 0.9755 3.3809 0.2 0.8 0.8803 0.7785 0.4403 3.4964 0.9861 0.9618 0.7047 0.4 0.6 0.9008 0.7921 0.5070 3.7190 0.9936 0.9795 3.4726 0.5 0.5 0.9067 0.8119 0.2198 3.2849 0.9898 0.9772 3.5050 0.6 0.4 0.8912 0.7871 0.2350 3.2212 0.9840 0.9655 1.2312 0.8 0.2 0.8771 0.7561 0.2317 3.2893 0.9864 0.9756 1.1757 1.0 0 0.9023 0.7890 0.3775 3.6737 0.9919 0.9774 3.4871 Grade=CC+SIM−KLDiv+NSS+AUC\_Judd+AUC_Borji (7) 其中,CC,SIM,KLDiv,NSS,AUC_Judd以及AUC_Borji分别是6种评价指标标准化后的结果。由式(7)可知,Grade同等考虑了6个评价指标的作用,得分越高,模型的性能越好。由表1中Grade结果可知,当
β =0.5时,即SAM与CAM具有相同权重时,模型性能在列出的所有权重组合中达到最优。本文模型取β =0.5。3.4 实验对比
本文将URMNet模型与目前先进的方法进行比较,包括U型网络(U-Net)[16]、注意力U型网络(Attention U-Net, AttU-Net)[17]、球形U型网络(Spherical U-Net)[3]、全景卷积神经网络(panoramic Convolutional Neural Network, panoramic CNN)[5]、四方注意力U型网络(Quartet Attention U-Net, QAU-Net)[18]以及从通道和变换器角度考虑U-Net的跳跃连接网络(rethinking the skip connections in U-Net from a Channel-wise perspective with transformer, UCTransNet)[19]。不同对比方法都是在相同的实验环境中运行测试。
表2给出了6个评价指标在AAOI数据集上的定量比较结果。明显可知,6个评价指标下,本文模型的性能超过所有对比方法的性能。具体来说,本文模型在指标相关系数(Correlation Coefficien, CC)、相似度(SIMilarity, SIM)、KL散度(KL-Divergence, KLDiv)、标准化扫描路径显著性(Normalized Scanpath Saliency, NSS)以及分别经Judd和Borji优化后的ROC曲线下面积(Area Under the Curve,AUC)AUC_Judd和AUC_Borji上,与对比的6种优秀算法中最好的指标(表2中用红色标出)相比,优化幅度分别是3.13%, 2.42%, 17.80%, 11.75%, 0.52%和0.68%。表3列出了6个评价指标在ASalient360数据集上的定量比较结果。本文模型在指标CC, SIM, NSS, AUC_Judd和AUC_Borji上,与对比的6种优秀算法中最好的指标(表3中用红色标出)相比,优化幅度分别是7.36%, 1.15%, 8.41%, 0.69%和1.67%。在KLDiv指标上,本文模型比文献算法最佳结果低0.1785。这是由于为了使综合性能更优,本文模型在设计上平衡了准确性、泛化性以及复杂度。总地来说,两个数据集下的实验结果证明了本文所提出模型的先进性。
表 2 AAOI数据集上各模型客观指标对比方法 CC↑ SIM↑ KLDiv↓ NSS↑ AUC_Judd↑ AUC_Borji↑ URMNet 0.8934 0.7918 0.1787 3.7113 0.9865 0.9707 U-Net(2015)[16] 0.8550 0.7694 0.2647 2.9639 0.9741 0.9582 AttU-Net(2018)[17] 0.8663 0.7675 0.2359 3.3212 0.9796 0.9632 Spherical U-Net(2018)[3] 0.7832 0.7304 0.3167 2.4795 0.9467 0.9295 panoramic CNN(2020)[5] 0.8520 0.7533 0.2412 3.1999 0.9778 0.9641 QAU-Net(2021)[18] 0.7314 0.6530 0.4203 1.8678 0.9226 0.8926 UCTransNet(2021)[19] 0.8619 0.7731 0.2105 3.0204 0.9814 0.9625 表 3 ASalient360数据集上各模型客观指标对比方法 CC↑ SIM↑ KLDiv↓ NSS↑ AUC_Judd↑ AUC_Borji↑ URMNet 0.6683 0.6602 0.5834 2.9874 0.9449 0.9336 U-Net(2015)[16] 0.6061 0.6404 0.4397 2.6228 0.9180 0.8973 AttU-Net(2018)[17] 0.5589 0.6262 0.4892 1.9840 0.8871 0.8644 Spherical U-Net(2018)[3] 0.6028 0.6412 0.6714 2.5834 0.9384 0.9183 panoramic CNN(2020)[5] 0.6225 0.6527 0.4049 2.0324 0.8975 0.8482 QAU-Net(2021)[18] 0.5641 0.6280 0.5138 2.7556 0.8889 0.8859 UCTransNet(2021)[19] 0.5429 0.6165 0.5246 2.0041 0.8990 0.8683 为了进一步验证本文模型的性能,与6种先进方法进行可视化对比,结果如图7和图8所示。图9是为了便于观察,将图7第2行放大。结果表明,本文方法能够较为准确地检测出图像的显著性区域,包括远景全景图像(图7第1,3,6行)和近景全景图像(图7第2,4,5行,图8第4,5行)。远景图像中图7第6行,背景为图像左侧的大树以及蓝色天空,显著区域为图像中间红色树以及右侧白色天空对应区域,从结果上看,本文算法更好地抑制了背景对显著性区域检测的干扰,使得检测结果与人工标注的真实值之间更为接近。近景图像中图7第5行,显著性区域有3处,分别是图像中间的雕像以及雕像两边的书法作品所在区域。对比模型由于背景的干扰,检测的显著性区域明显大于真实值。本文模型的检测结果有效地改善了这一现象,使显著性区域定位更准确。另外,本文模型对噪声干扰(图7第2行,图8第2行)更为鲁棒。图9中显著区域包括图像中间较大的两幅画所在区域,以及包括所有画在内左右方向的带状区域。受噪声干扰,对比模型中U-Net, AttU-Net, Spherical U-Net以及QAU-Net,检测的显著性区域明显大于真实值。与检测较为准确的panoramic CNN和UCTransNet相比,本文模型检测结果更接近于真实值。
3.5 消融实验
3.5.1 URMNet网络和损失函数Loss的消融实验
表4中,Baseline表示具有球形卷积的U-Net网络、L1表示文献[10]提出的自适应加权损失函数、L2表示文献[20]提出的固定权重损失函数、L3表示结合文献[6]和文献[21]给
CC ,NSS 和KLDiv 相同比例权重构造的损失函数。将两种网络(Baseline和URMNet)与4种损失函数(L1,L2,L3和Loss)分别组合进行消融实验,实验结果如表4所示。可知URMNet与Loss组合时,模型性能最好,说明采用损失函数Loss训练URMNet网络对获得最佳显著性检测性能是必要的和有效的。表 4 网络和损失函数的消融实验模型 损失函数 CC↑ SIM↑ KLDiv↓ NSS↑ AUC_Judd↑ AUC_Borji↑ Baseline URMNet L1 L2 L3 Loss √ √ 0.7389 0.6935 2.2079 1.5107 0.8634 0.8310 √ √ 0.7300 0.6886 2.2614 1.5002 0.8636 0.8169 √ √ 0.6629 0.6604 1.2939 1.2369 0.8184 0.7806 √ √ 0.8604 0.7618 0.3906 3.0463 0.9846 0.9614 √ √ 0.7456 0.7007 2.2068 1.5043 0.8627 0.8304 √ √ 0.7565 0.6845 2.9497 1.6848 0.8909 0.8166 √ √ 0.7557 0.6909 3.1000 1.6607 0.8830 0.8465 √ √ 0.9067 0.8119 0.2198 3.2849 0.9898 0.9772 3.5.2 RVT模块和MA模块的消融实验
实验结果如表5所示。同时加入RVT和MA模块,6个性能指标较表4第1行指标增幅分别为7.0%,5.6%,22.7%,11.7%,1.3%和1.96%,能够明显提高各项性能指标得分,增强网络显著性检测性能,这表明同时加入RVT和MA模块对本文模型获得最佳显著性检测效果是必要的和有效的。
表 5 RVT和MA模块消融实验结果RVT MA CC↑ SIM↑ KLDiv↓ NSS↑ AUC_Judd↑ AUC_Borji↑ × × 0.8335 0.7392 0.2947 2.9639 0.9779 0.9604 √ × 0.8664 0.7788 0.3682 3.0885 0.9821 0.9702 × √ 0.8553 0.7118 0.3317 3.4291 0.9848 0.9576 √ √ 0.8922 0.7805 0.2278 3.3100 0.9910 0.9786 3.6 泛化性能对比实验
为了检测本文模型的泛化能力,与优秀模型进行泛化性能对比,结果如表6所示。模型在AAOI数据集上进行训练,在ASalient360数据集上进行测试,可以看出URMNet在指标CC, SIM, NSS, AUC_Judd以及AUC_Borji上,较优秀算法中最好指标(红色标出)优化幅度分别为9.04%, 2.02%, 5.97%, 0.89%和0.48%。说明URMNet模型在保证显著性检测精度前提下,有较好的泛化能力。
表 6 不同模型泛化性能对比方法 CC↑ SIM↑ KLDiv↓ NSS↑ AUC_Judd↑ AUC_Borji↑ URMNet 0.5899 0.6116 1.0708 1.8395 0.9181 0.8917 U-Net(2015)[16] 0.5402 0.5733 1.9622 1.6975 0.9022 0.8750 AttU-Net(2018)[17] 0.4906 0.5572 1.9561 1.4668 0.8896 0.8556 panoramic CNN(2020)[5] 0.5146 0.5770 1.1245 1.4486 0.8865 0.8504 QAU-Net(2021)[18] 0.5044 0.5989 0.5373 1.5522 0.8854 0.8362 UCTransNet(2021)[19] 0.5410 0.5760 1.8189 1.7359 0.9100 0.8874 3.7 复杂度对比实验
复杂度实验结果如表7所示。可知URMNet计算量较U-Net, QAU-Net和UCTransNet优化幅度分别为62.35%, 96.07%和97.24%。参数量较QAU-Net和UCTransNet优化幅度分别为34.28%和60.93%。表明本文模型在保证较高检测精度的同时,相对较好地控制了模型的复杂度。
4. 结束语
针对当前全景图像显著性检测方法存在检测精度偏低、模型收敛速度慢和计算量大的问题,本文提出一种基于鲁棒视觉变换和多注意力的U型网络URMNet,用于全景图像的显著性检测。通过RVT用来提取4种尺度特征图所包含的显著信息,MA模块融合多维度注意力,提高中间层特征提取能力,纬度加权损失函数Loss提高检测精度并减少模型训练时间,使用球形卷积,最大限度上降低图像失真。实验结果表明,该模型收敛速度快,检测结果精度高于目前主流方法的检测结果精度,同时该模型具有较好的泛化性能和较低的复杂度。后续工作将进一步优化全景图像显著性检测方法,提高显著性检测效率。
-
表 1 IPIX数据集信息
文件序号 采样数 浪高 风力 目标影响单元
目标所在单元总距离 最大(m) 一般(m) 风向(°) 风速(m/s) 单元个数 17 131 072 3.1 2.1 301 10 8:11 9 14 26 131 072 1.56 1.03 211 9 6:9 7 14 30 131 072 1.25 0.89 210 19 6:8 7 14 31 131 072 1.28 0.89 206 15 6:9 7 14 54 131 072 0.97 0.66 308 20 7:10 8 14 280 131 072 2.4 1.44 216 11 7:10 8 14 310 131 072 1.38 0.9 313 33 6:9 7 14 311 131 072 1.38 0.9 310 33 6:9 7 14 320 131 072 1.34 0.91 317 27 6:9 7 14 表 2 LSTM训练参数设置
预设参数 设置值 最大训练次数 150 梯度阈值 1 使用历史帧数 20 初始学习率 0.01 调整学习率节点 60次以后 学习率调整因子 0.2 表 3 不同预测方法下杂波特征的平均相对预测误差
AR预测方法 不同特征的平均相对预测误差 RAA FPAR RDPH 本文所提方法 0.128 3 0.204 7 0.319 4 未修正Burg方法 0.153 0 0.225 6 0.345 0 文献[10]方法 0.198 3 0.260 3 0.338 4 LSTM 0.263 2 0.198 5 0.296 0 表 4 不同预测方法下目标特征的平均相对预测误差
AR预测方法 不同特征的平均相对预测误差 RAA FPAR RDPH 本文方法 0.112 6 0.183 1 0.285 8 未修正Burg方法 0.126 9 0.199 9 0.315 8 文献[10]方法 0.198 3 0.260 3 0.338 4 LSTM 0.152 7 0.183 2 0.310 7 表 5 IPIX数据检测结果
检测器 使用脉冲数 不同极化方式下的平均检测概率 平均检测概率 HH HV VH VV 原3特征
检测器64 0.245 9 0.349 1 0.339 3 0.177 2 0.277 9 128 0.437 2 0.574 3 0.569 9 0.368 7 0.487 5 256 0.569 4 0.699 6 0.696 7 0.496 2 0.615 5 文献[10]检测器 64 0.348 1 0.472 8 0.456 1 0.276 4 0.388 4 128 0.629 2 0.743 9 0.735 4 0.535 6 0.661 0 256 0.709 9 0.813 9 0.809 3 0.642 0 0.743 8 本文检测器 64 0.417 7 0.543 2 0.537 3 0.347 4 0.461 4 128 0.692 1 0.794 1 0.792 6 0.630 0 0.727 2 256 0.776 3 0.856 3 0.854 4 0.732 1 0.804 8 表 6 海军航空大学共享数据集检测结果
检测器 使用脉冲数 检测概率 平均检测概率 4级HH 4级VV 5级HH 5级VV 原3特征
检测器64 0.305 5 0.682 0 0.218 2 0.155 8 0.340 4 128 0.456 7 0.808 4 0.453 1 0.334 8 0.513 2 256 0.632 7 0.907 1 0.647 5 0.459 4 0.661 7 文献[10]检测器 64 0.400 7 0.718 6 0.334 7 0.208 9 0.415 7 128 0.592 3 0.886 5 0.644 5 0.443 3 0.641 7 256 0.753 3 0.959 1 0.820 8 0.534 6 0.767 0 本文检测器 64 0.442 4 0.778 5 0.434 1 0.255 6 0.477 7 128 0.647 1 0.922 5 0.727 6 0.497 5 0.698 7 256 0.803 1 0.976 6 0.866 4 0.597 9 0.811 0 -
[1] 关键. 雷达海上目标特性综述[J]. 雷达学报, 2020, 9(4): 674–683. doi: 10.12000/JR20114.GUAN Jian. Summary of marine radar target characteristics[J]. Journal of Radars, 2020, 9(4): 674–683. doi: 10.12000/JR20114. [2] BI Xiaowen, GUO Shenglong, YANG Yunxiu, et al. Adaptive target extraction method in sea clutter based on fractional Fourier filtering[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5115609. doi: 10.1109/TGRS.2022.3192893. [3] SHI Sainan and SHUI Penglang. Sea-surface floating small target detection by one-class classifier in time-frequency feature space[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(11): 6395–6411. doi: 10.1109/ TGRS.2018.2838260. doi: 10.1109/TGRS.2018.2838260. [4] XU Shuwen, ZHENG Jibin, PU Jia, et al. Sea-surface floating small target detection based on polarization features[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(10): 1505–1509. doi: 10.1109/LGRS.2018.2852560. [5] 陈世超, 高鹤婷, 罗丰. 基于极化联合特征的海面目标检测方法[J]. 雷达学报, 2020, 9(4): 664–673. doi: 10.12000/ JR20072. doi: 10.12000/JR20072.CHEN Shichao, GAO Heting, and LUO Feng. Target detection in sea clutter based on combined characteristics of polarization[J]. Journal of Radars, 2020, 9(4): 664–673. doi: 10.12000/JR20072. [6] LO T, LEUNG H, LITVA J, et al. Fractal characterisation of sea-scattered signals and detection of sea-surface targets[J]. IEE Proceedings F: Radar and Signal Processing, 1993, 140(4): 243–250. doi: 10.1049/ip-f-2.1993.0034. [7] FAN Yifei, TAO Mingliang, and SU Jia. Multifractal correlation analysis of autoregressive spectrum-based feature learning for target detection within sea clutter[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5108811. doi: 10.1109/TGRS.2021.3137466. [8] 关键, 伍僖杰, 丁昊, 等. 基于对角积分双谱的海面慢速小目标检测方法[J]. 电子与信息学报, 2022, 44(7): 2449–2460. doi: 10.11999/JEIT210408.GUAN Jian, WU Xijie, DING Hao, et al. A method for detecting small slow targets in sea surface based on diagonal integrated bispectrum[J]. Journal of Electronics & Information Technology, 2022, 44(7): 2449–2460. doi: 10.11999/JEIT210408. [9] 关键, 姜星宇, 刘宁波, 等. 海杂波背景下的双极化最大特征值目标检测[J]. 系统工程与电子技术, 2024, 46(11): 3715–3725. doi: 10.12305/j.issn.1001-506X.2024.11.13.GUAN Jian, JIANG Xingyu, LIU Ningbo, et al. Target detection using dual-polarization maximum eigenvalue in sea clutter background[J]. Systems Engineering and Electronics, 2024, 46(11): 3715–3725. doi: 10.12305/j.issn.1001-506X.2024.11.13. [10] 董云龙, 张兆祥, 丁昊, 等. 基于三特征预测的海杂波中小目标检测方法[J]. 雷达学报, 2023, 12(4): 762–775. doi: 10.12000/JR23037.DONG Yunlong, ZHANG Zhaoxiang, DING Hao, et al. Target detection in sea clutter using a three-feature prediction-based method[J]. Journal of Radars, 2023, 12(4): 762–775. doi: 10.12000/JR23037. [11] SHUI Penglang, LI Dongchen, and XU Shuwen. Tri-feature-based detection of floating small targets in sea clutter[J]. IEEE Transactions on Aerospace and Electronic Systems, 2014, 50(2): 1416–1430. doi: 10.1109/TAES.2014.120657. [12] IPIX Radar. The IPIX radar database[EB/OL]. http://soma.ece.mcmaster.ca/ipix/, 2021. [13] 关键, 刘宁波, 王国庆, 等. 雷达对海探测试验与目标特性数据获取——海上目标双极化多海况散射特性数据集[J]. 雷达学报, 2023, 12(2): 456–469. doi: 10.12000/JR23029.GUAN Jian, LIU Ningbo, WANG Guoqing, et al. Sea-detecting radar experiment and target feature data acquisition for dual polarization multistate scattering dataset of marine targets[J]. Journal of Radars, 2023, 12(2): 456–469. doi: 10.12000/JR23029. [14] BARBARESCO F. Algorithme de burg regularise fsds (fonctionnelle stabilisatrice de douceur spectrale) Comparaison avec l'algorithme de burg mfe (Minimum free energy)[C]. Quinzieme Colloque Gretsi - Juan-Les-Pins, 1995: 29–32. [15] LI Yuzhou, XIE Pengcheng, TANG Zeshen, et al. SVM-based sea-surface small target detection: A false-alarm-rate-controllable approach[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(8): 1225–1229. doi: 10.1109/LGRS.2019.2894385. [16] 王鑫, 吴际, 刘超, 等. 基于LSTM循环神经网络的故障时间序列预测[J]. 北京航空航天大学学报, 2018, 44(4): 772–784. doi: 10.13700/j.bh.1001-5965.2017.0285.WANG Xin, WU Ji, LIU Chao, et al. Exploring LSTM based recurrent neural network for failure time series prediction[J]. Journal of Beijing University of Aeronautics and Astronautics, 2018, 44(4): 772–784. doi: 10.13700/j.bh.1001-5965.2017.0285. [17] 胡学骏, 罗中良. 基于统计理论的多传感器信息融合方法[J]. 传感器技术, 2002(8): 38–39,43. doi: 10.13873/j.1000-97872002.08.013.HU Xuejun and LUO Zhongliang. Method of multi-sensor information fusion based on statistics theory[J]. Transducer and Microsystem Technologies, 2002(8): 38–39,43. doi: 10.13873/j.1000-97872002.08.013. 期刊类型引用(0)
其他类型引用(1)
-