基于多尺度特征增强与全局-局部特征聚合的视频目标分割算法

侯志强; 董佳乐; 马素刚; 王晨旭; 杨小宝; 王昀琛

doi:10.11999/JEIT231394

基于多尺度特征增强与全局-局部特征聚合的视频目标分割算法

doi: 10.11999/JEIT231394

1.
西安邮电大学计算机学院西安 710121
2.
西安邮电大学陕西省网络数据分析与智能处理实验室西安 710121

基金项目: 国家自然科学基金(62072370)，陕西省自然科学基金(2023-JC-YB-598)

详细信息

作者简介:
侯志强：男，博士，教授，研究方向为计算机视觉、目标跟踪等

董佳乐：男，硕士生，研究方向为计算机视觉、视频目标分割等

马素刚：男，博士，教授，研究方向为计算机视觉、机器学习等

王晨旭：男，硕士生，研究方向为计算机视觉、视频目标分割等

杨小宝：男，博士，讲师，研究方向为计算机图形学、人工智能等

王昀琛：女，博士，讲师，研究方向为计算机图形学、图像分类等

通讯作者:
董佳乐　djl112299@163.com

中图分类号: TN911.73; TP391.41
计量
- 文章访问数: 291
- HTML全文浏览量: 149
- PDF下载量: 78
- 被引次数: 36
出版历程
- 收稿日期: 2023-12-18
- 修回日期: 2024-09-25
- 网络出版日期: 2024-09-30
- 刊出日期: 2024-11-10

Video Object Segmentation Algorithm Based on Multi-scale Feature Enhancement and Global-Local Feature Aggregation

1.
Institute of Computer, Xi’an University of Posts and Telecommunications, Xi’an 710121, China
2.
Shaanxi Key Laboratory of Network Data Analysis and Intelligent Processing, Xi’an University of Posts and Telecommunications, Xi’an 710121, China

Funds: The National Natural Science Foundation of China (62072370), The Natural Science Foundation of Shaanxi Province (2023-JC-YB-598)

摘要

摘要: 针对记忆网络算法中多尺度特征表达能力不足和浅层特征没有充分利用的问题，该文提出一种多尺度特征增强与全局-局部特征聚合的视频目标分割(VOS)算法。首先，通过多尺度特征增强模块融合可参考掩码分支和可参考RGB分支的不同尺度特征信息，增强多尺度特征的表达能力；同时，建立了全局-局部特征聚合模块，利用不同大小感受野的卷积操作来提取特征，并通过特征聚合模块来自适应地融合全局区域和局部区域的特征，这种融合方式可以更好地捕捉目标的全局特征和细节信息，提高分割的准确性；最后，设计了跨层融合模块，利用浅层特征的空间细节信息来提升分割掩码的精度，通过将浅层特征与深层特征融合，能更好地捕捉目标的细节和边缘信息。实验结果表明，在公开数据集DAVIS2016, DAVIS2017和YouTube-2018上，该文算法的综合性能分别达到91.8%、84.5%和83.0%，在单目标和多目标分割任务上都能实时运行。
- 视频目标分割 /
- 记忆网络 /
- 孪生网络 /
- 特征融合 /
- 掩码细化
Abstract: To address the issues of insufficient multi-scale feature expression ability and insufficient utilization of shallow features in memory network algorithms, a Video Object Segmentation (VOS) algorithm based on multi-scale feature enhancement and global local feature aggregation is proposed in this paper. Firstly, the multi-scale feature enhancement module fuses different scale feature information from reference mask branches and reference RGB branches to enhance the expression ability of multi-scale features; At the same time, a global local feature aggregation module is established, which utilizes convolution operations of different sizes of receptive fields to extract features, through the feature aggregation module, the features of the global and local regions are adaptively fused. This fusion method can better capture the global features and detailed information of the target, improving the accuracy of segmentation; Finally, a cross layer fusion module is designed to improve the accuracy of masks segmentation by utilizing the spatial details of shallow features. By fusing shallow features with deep features, it can better capture the details and edge information of the target. The experimental results show that on the public datasets DAVIS2016, DAVIS2017, and YouTube 2018, the comprehensive performance of our algorithm reaches 91.8%, 84.5%, and 83.0%, respectively, and can run in real-time on both single and multi-objective segmentation tasks.
- Video Object Segmentation (VOS) /
- Memory network /
- Siamese network /
- Feature fusion /
- Mask refinement

HTML全文

1. 引言

合成孔径雷达(Synthetic Aperture Radar, SAR)是一种主动式的对地观测系统，能够全天时全天候对地观测，广泛应用于民用监测领域和军事侦察领域。近年来，随着SAR领域相关技术的发展，对SAR图像进行快速准确的目标检测是该领域的关键技术，也是目前的技术研究热点。

现有的SAR图像目标检测方法中，双参数CFAR检测算法^[1-3]是一种应用广泛的检测方法。该方法要求SAR图像中目标与背景杂波的对比度较高，并且假定背景杂波服从高斯分布，同时需要根据目标大小设置参考窗尺寸。在场景简单的情况下，该方法的检测效果较好，但是在复杂场景下检测性能较差。

随着深度学习技术的发展，卷积神经网络(Convolutional Neural Network, CNN)^[4-9]的特征提取能力不断提升，基于CNN的目标检测算法^[10-12]层出不穷。基于CNN的目标检测方法具有强大的特征提取能力和检测性能，因此将其应用于SAR图像目标检测能够获得较高的性能。文献[13]提出的基于CNN的SAR图像目标检测方法，可以在训练数据充足的情况下获得优异的检测性能，但是网络的训练依赖于切片级标记的训练样本以及扩充数据集，在切片级训练样本数量少的情况下，该方法的性能不佳。

现有的SAR图像目标检测方法依赖于大量的切片级标记训练样本，然而实际中对样本进行切片级标记十分耗时耗力。训练样本指训练时输入网络的SAR图像，切片级标记是对SAR图像中感兴趣目标的位置进行标记。对SAR图像进行切片级标记需要人工观察图像，在图像中复杂的人造杂波和自然杂波干扰的情况下，对感兴趣目标的位置和类别进行标记，人工标记的速度很慢；有的目标与杂波的区分度不高，人工标记很有可能漏标或者错标。相比之下，对SAR图像进行图像级标记较为容易，只需要标记SAR图像中是否含有感兴趣目标，不需要对目标位置进行标记。因此，在切片级标记的训练样本数量少的情况下，使用半监督学习方法对图像级标记的训练样本进行有效利用，是提升目标检测性能的一种解决方案。

早期的半监督学习方法主要利用人工特征和分类器进行自学习，文献[14]提出一种基于半监督自学习的目标检测方法，该方法首先对训练图像提取疑似目标切片，并对部分切片进行标记，接着利用标记样本训练分类器，然后利用训练好的分类器对未标记的切片进行分类，将分类置信度较高的样本加入到有标记样本集中，最后用更新的有标记样本集重新训练分类器。上述过程迭代进行直到不存在无标记样本。该方法在仅有少量目标切片标记的情况下，可以取得较好的性能，但是该方法需要选择合适的特征和分类器，在实际应用中较为困难。

将半监督学习方法与深度网络进行结合，可以避免选择特征和分类器的问题，并且网络的特征提取和分类器联合训练，可以取得较好的性能。文献[15]提出一种基于卷积神经网络的半监督学习方法，该方法提出候选区域提取网络和定位网络来提取候选区域和定位飞机，利用半监督学习框架从原始图像中自动挖掘和扩充训练数据集。该方法在对训练图像进行少量目标级标记的情况下，可以取得较好的性能，但是该方法仅从原始图像中挖掘负样本，会造成正负切片比例不均衡的问题，对结果造成不利影响；另外，该方法预测的目标尺寸固定，不能针对目标自动修正尺寸，对目标位置的预测不够精确。

针对以上问题，本文基于Faster R-CNN目标检测框架^[12]，在切片级标记SAR图像数量较少的情况下，将图像级标记SAR图像有效利用，提出一种基于CNN的半监督SAR图像目标检测方法。本文的主要工作包括：(1)基于Faster R-CNN目标检测框架，提出一种迭代挑选正负切片和训练网络交替进行的半监督学习方法，降低了网络对切片级标记样本的依赖程度；(2)通过网络获取负包，并将负包中的负切片加入候选区域集中，提高负切片的数量和多样性。由于本文方法同时挑选正切片和负切片，可以保证正负切片的比例均衡；此外，本文方法使用多任务深度网络，可以同时预测类别和位置，能够针对不同目标自适应地预测出准确的尺寸，对目标位置的预测较为精确。基于实测数据的实验结果表明，本文方法可以有效提升目标检测的性能，其性能与使用全部样本进行切片级标记的全监督方法的性能相差不大。

2. 基于CNN的半监督SAR目标检测方法

本文提出的基于CNN的半监督SAR图像目标检测方法如图1所示。

图 1 半监督SAR图像目标检测方法

下载: 全尺寸图片幻灯片

本文方法的网络结构主要包括候选区域提取网络和检测网络。候选区域提取网络对SAR图像进行特征提取，并获得潜在的候选区域；然后将候选区域送入检测网络，检测网络对候选区域进一步分类和位置调整，获得最终的检测结果。

如图1，本文方法的训练过程分为3步：第1步使用蓝色框和蓝色箭头表示，使用切片级标记的SAR图像对候选区域提取网络和检测网络进行训练，并获得这些图像对应的候选区域集；第2步使用黄色框和黄色箭头表示，将图像级标记的杂波SAR图像输入网络，对输出切片进行挑选得到负包，将负包中的杂波切片加入候选区域集；第3步使用绿色框和绿色箭头表示，将图像级标记的目标SAR图像输入网络，对输出的正负切片进行挑选并去重复，然后挑选的切片加入到候选区域集中，最后使用更新的候选区域集对网络进行训练。第3步需要交替迭代进行直到收敛。

接下来分别介绍本文方法的网络结构和半监督学习方法。

2.1 网络结构

目标检测网络的网络结构主要包括候选区域提取网络和检测网络。候选区域提取网络和检测网络共享特征提取网络。

特征提取网络的结构如图2所示，该网络有3个卷积层，每个卷积层后面接着批归一化(Batch Normalization, BN)^[16]层和修正线性单元(Rectified Linear Unit, ReLU)^[17]层，前两个ReLU层的后面使用池化层对特征进行降维，3个卷积层的卷积核个数分别是64, 128和256，卷积核大小分别是11×11, 7×7和3×3，卷积步长分别是2, 1和1。

图 2 特征提取网络

下载: 全尺寸图片幻灯片

候选区域提取网络通过特征提取网络提取图像的特征，然后使用一个滑动的小网络，通过滑动窗口的方式访问特征图的每个位置，使用每个位置的特征预测得到候选区域。这个滑动的小网络将 $n \times n$ 大小的滑动窗口对应的特征作为输入，通过全连接映射到一个低维的特征，然后将低维特征送入两个全连接层，分别是边框回归层和分类层，全连接层的输出是预测的候选区域。

检测网络通过特征提取网络提取图像的特征，使用ROI池化获得候选区域对应的特征，然后将特征通过全连接层对候选区域进一步分类和位置调整。ROI池化首先在特征图上截取候选区域对应的特征块，然后将特征块均匀划分为 $m \times m$ 个小格，对每个小格通过最大值池化降维，得到尺寸为 $m \times m$ 的特征。

2.2 半监督学习

2.2.1 半监督学习训练过程

本文提出的基于CNN的半监督SAR图像目标检测方法如图1所示，网络的半监督训练过程分为3步，具体算法步骤如下：

步骤 1

(1) 使用切片级标记的SAR图像，通过4步训练法^[12]对候选区域提取网络和检测网络进行训练。

(2) 将切片级标记的SAR图像输入训练好的候选区域提取网络，网络的输出是输入图像对应的候选区域，通过与真实切片级标记进行比对，获得每个候选区域的标签，即可得到切片级标记的SAR图像对应的正切片和负切片，构成初始候选区域集。

步骤 2

将图像级标记的SAR图像集中的杂波类图像输入步骤1训练好的目标检测网络中，对网络的输出切片进行选择得到负包，将负包中的杂波切片加入候选区域集。

步骤 3

(1) 将图像级标记的SAR图像集中的目标类图像输入目标检测网络，对输出结果进行NMS去重复处理，得到检测结果，检测结果包括预测得到的正切片和负切片。

(2) 使用切片挑选模块对检测结果中的正负切片进行挑选，首先挑选出置信度大于阈值的切片，然后去掉与候选区域集中已有切片重复的切片，得到挑选出的切片。如果挑选出的切片数量占候选区域集中所有切片数量的比例小于设定的比例阈值，则说明已经收敛，停止训练；否则将挑选出的切片加入候选区域集，并继续进行下一步。

(3) 使用更新后的候选区域集对检测网络再次进行训练。训练时，使用上次训练好的模型进行参数初始化，并使用更新的数据集进行微调，训练好之后对网络进行测试，获得测试准确率，如果准确率与上次训练的准确率相比没有提升，则说明已经收敛，停止训练，否则继续进行下一步。

步骤(1)—步骤(3)交替进行直到收敛。

接下来详细介绍步骤2中的负包生成过程和步骤3中的切片挑选过程。

2.2.2 负包生成过程

将图像级标记的SAR图像集中的杂波图像输入到训练好的目标检测网络中，获取对应的检测结果，因为输入的是杂波图像，所以输出的所有切片都是杂波切片，选择每一幅图像的检测结果中置信度最高的前 $K$ 个杂波切片，作为该杂波图像的杂波切片集，称之为负包。由于此过程需要尽可能挑选出难分的杂波切片，并且要保证候选区域集中目标切片和杂波切片的比例不会失衡，因此 $K$ 不能设置的较高。

将杂波图像输入目标检测网络，可以获得大量尺寸不同并且背景多样的杂波切片，加入的杂波切片可以提升候选区域集中切片的多样性，提升检测网络的泛化能力。

2.2.3 切片挑选过程

将图像级标记的SAR图像集中的目标类图像输入目标检测网络，预测得到其对应的检测结果，检测结果包括每个预测目标切片和杂波切片的分类置信度和边框坐标。

对检测结果进行NMS去重复处理，并选择检测结果中目标切片和杂波切片的分类置信度大于阈值 ${T_{\rm s}}$ 的切片，将挑选的切片与候选区域集中重复的切片删除。接下来介绍判断切片是否为重复切片的方法：

步骤 1　计算初始切片集中的切片与候选区域集中所有切片重叠率的最大值 ${\rm{IOU}}{_{{\rm{max}}}}$ 。

初始切片集中第 $i$ 个切片的 ${\rm{IOU}}{_{{\rm{max}},i}}$ 的计算方法为

${\rm{IOU}}{_{{\rm{max}},i}} = \mathop {\max}\limits_j \left( {\frac{{{{\rm C}_{{\rm{new}},i}} \cap {{\rm C}_{{\rm{old}},j}}}}{{{{\rm C}_{{\rm{new}},i}} \cup {{\rm C}_{{\rm{old}},j}}}}} \right)$

(1)

其中 ${{\rm C}_{{\rm{new}},i}}$ 表示初始切片集中的第 $i$ 个切片， ${{\rm C}_{{\rm{old}},j}}$ 表示候选区域集中的第 $j$ 个切片， ${{\rm C}_{{\rm{new}},i}} \cap {{\rm C}_{{\rm{old}},j}}$ 表示两个切片区域交集的面积， ${{\rm C}_{{\rm{new}},i}} \cup {{\rm C}_{{\rm{old}},j}}$ 表示两个切片区域并集的面积。

步骤 2　如果 ${\rm{IOU}}{_{{\rm{max}},i}}$ 大于设定的阈值 ${\rm{IOU}}{_{\rm{T}}}$ ，则认为该切片是重复的，应该删除掉。

经过阈值挑选和去除重复后，计算挑选出的切片数量与候选区域集中切片数量的比例 $\beta$ 。如果 $\beta$ 大于等于 ${\beta _{\rm{T}}}$ ，说明挑选出的新切片较多，这些新切片可以提升数据集中的切片的数量和多样性，新切片对网络的训练还会有较大的帮助，因此将挑选的切片加入候选区域集。如果 $\beta$ 小于设定的阈值 ${\beta _{\rm{T}}}$ ，说明挑选出的新切片数量非常少，如果将新切片加入候选区域集，更新后的候选区域集与更新前相比差别非常小，训练后网络的泛化能力基本不会提升。所以当 $\beta$ 小于 ${\beta _{\rm{T}}}$ 时，迭代过程终止，半监督学习过程结束。

交替迭代的过程中，如果网络的测试准确率与上次训练的网络准确率相比没有提升，说明此时网络的性能与上次迭代训练好的网络的性能也没有提升，如果使用当前的网络继续挑选切片，挑选出的切片与上次迭代挑选出的切片就会非常相似，那么候选区域集就基本不会更新，再次训练的网络的性能也就不会提升。因此为了减小不必要的训练时间，如果准确率与上次训练的准确率相比没有提升，则说明网络的性能已经达到顶峰，可以停止交替迭代的过程。

3. 实验结果与分析

3.1 实验数据集介绍

MiniSAR实测数据集^[18]和FARADSAR实测数据集^[19]是美国Sandia国家实验室分别在2006年和2015年公开的SAR图像数据集，分辨率为0.1 m×0.1 m，都是场景复杂的地面图像。实验将SAR图像中的车辆目标作为感兴趣目标。图3是MiniSAR数据集和FARADSAR数据集的示例。

图 3 数据集示例

下载: 全尺寸图片幻灯片

3.2 评价准则和实验细节

为了验证本文方法的有效性，使用F1-score作为检测结果的性能评价指标。F1-score的计算公式为

${{P}} = \frac{{\rm TP}}{{{\rm{TP + FP}}}}, R = \frac{{\rm TP}}{{\rm NP}}$

(2)

${{{\rm F1} {\text{-}} {\rm score}}} = \frac{{2 P R}}{{P + R}} \hspace{23pt}$

(3)

其中， ${\rm{TP}}$ 是检测结果中的正确目标个数， ${\rm{FP}}$ 是错误目标个数， ${\rm{NP}}$ 是真实目标个数， $P$ 是检测精度， $R$ 是召回率，F1-score是评价性能的主要指标。实验中随机选择30%的SAR训练子图像进行切片级标记，剩余的图像进行图像级标记。通过10次随机选择样本并进行10次重复实验，将得到的测试结果取平均作为最终的测试结果。实验中挑选切片的阈值 ${T_{\rm{s}}}$ 为0.925，判断是否重复的重叠率阈值 ${\rm{IOU}}{_{\rm{T}}}$ 为0.8，判断网络是否收敛的新切片数量的比例阈值 ${\beta _{\rm{T}}}$ 为0.03。

3.3 切片挑选方案和负包对网络性能的影响

对于MiniSAR数据集，实验对比了使用不同的挑选切片方案的性能，包括只挑选正切片，只挑选负切片，以及正负切片都挑选共3种方案，实验也对比了加入负包对性能的影响，负包是通过杂波SAR图像获得的杂波切片集合，负包数量是指使用杂波SAR子图像的数量。

使用不同的切片挑选方案以及加入负包的数量对应的实验结果如表1所示，表中数字加粗表示对应方案的F1-score最高。

表 1 不同方案的实验结果

负包数量	挑选的切片	$P$	$R$	F1-score
0	正切片	0.6397	0.7500	0.6905
	负切片	0.8833	0.4569	0.6023
	正切片+负切片	0.7387	0.7069	0.7225
10	正切片	0.6797	0.7500	0.7131
	负切片	0.7917	0.4914	0.6064
	正切片+负切片	0.7573	0.6724	0.7123
20	正切片	0.7658	0.7328	0.7489
	负切片	0.8382	0.4914	0.6196
	正切片+负切片	0.8137	0.7155	0.7615
30	正切片	0.8202	0.6293	0.7122
	负切片	0.8413	0.4569	0.5922
	正切片+负切片	0.8675	0.6207	0.7236
40	正切片	0.8111	0.6293	0.7087
	负切片	0.8667	0.4483	0.5909
	正切片+负切片	0.8352	0.6552	0.7343

下载: 导出CSV

| 显示表格

实验结果表明对正切片和负切片都进行挑选的性能最佳。主要原因是只挑选正切片或负切片会使得候选区域集中某种切片的数量越来越多，造成正负切片比例不均衡的问题，影响网络的性能；对正负切片都进行挑选能保证候选区域集中正负切片的数量同时增加，不会造成正负切片的数量比例失衡，还可以提高切片的多样性，提升检测网络的性能。

实验结果还表明，当加入负包的数量增大时，在一定范围内，网络的性能不断提升，超过一定范围，网络的性能就会降低。主要原因是加入的负包提升了候选区域集中负切片的多样性，检测网络就具有更好的泛化性能；如果加入负包的数量过多，那么候选区域集中负切片的数量过多，会造成正负切片比例不均衡的问题，网络的性能就会降低。

3.4 与其他方法的检测结果对比

表2对比了不同方法的实验结果，其中Gaussian-CFAR使用文献[1]中的方法；Faster R-CNN-少部分切片级标记使用文献[13]中的网络，仅使用了少部分切片级标记的训练样本；Faster R-CNN-全部切片级标记使用文献[13]中的网络，对全部训练样本都进行了切片级标记；文献[14]方法使用原文的半监督算法框架，利用CFAR提取疑似切片，使用林肯特征训练SVM分类器；文献[15]方法使用原文的半监督算法框架，使用候选区域提取网络和定位网络，多次迭代挑选负切片并训练网络；本文方法基于Faster R-CNN网络，使用网络挑选杂波切片并得到负包，通过网络迭代挑选正负切片进行半监督学习。

表 2 不同方法的实验结果

不同方法	MiniSAR数据集			FARADSAR数据集
不同方法	$P$	$R$	F1-score	$P$	$R$	F1-score
Gaussian-CFAR	0.3789	0.7966	0.5135	0.2813	0.4671	0.3512
Faster R-CNN-少部分切片级标记	0.6455	0.6121	0.6283	0.7370	0.8813	0.8027
Faster R-CNN-全部切片级标记	0.8073	0.7586	0.7822	0.7760	0.9479	0.8534
文献[14]方法	0.5814	0.9806	0.7285	0.4506	0.7325	0.5580
文献[15]方法	0.4699	0.7480	0.5772	0.3744	0.7945	0.5090
本文方法	0.8137	0.7155	0.7615	0.8035	0.8813	0.8406

下载: 导出CSV

| 显示表格

从表2可以看出，Gaussian-CFAR方法的F1-score非常低，虚警很多，有很多检测结果是错误的；Faster R-CNN-少部分切片级标记的方法仅使用了少量的训练样本，其F1-score较低；文献[14]方法虽然召回率很高，能将大部分目标检测出来，但是检测精度较低，虚警较多；文献[15]方法的召回率较高，但是检测精度较低，虚警也较多；本文方法的检测精度, 召回率和F1-score都较高，相比其他方法有较大优势，本文方法检测虚警量较少，能检测出大部分的目标。对于MiniSAR数据集，本文方法的F1-score相比Faster R-CNN-少部分切片级标记的结果提升了0.1332，仅比Faster R-CNN-全部切片级标记的检测结果低0.0207；对于FARADSAR数据集，本文方法的F1-score相比Faster R-CNN-少部分切片级标记的结果提升了0.0379，仅比Faster R-CNN-全部切片级标记的检测结果低0.0128。因此，本文方法在仅使用少量切片级标记训练样本和大量图像级标记训练样本的情况下，与全监督方法的性能相差不大。

图4，图5，图6，图7，图8和图9分别表示Gaussian-CFAR, Faster R-CNN-少部分切片级标记，Faster R-CNN-全部切片级标记，文献[14]方法，文献[15]方法和本文方法在MiniSAR数据集上的测试结果；图10，图11，图12，图13，图14和图15分别表示上述方法在FARADSAR数据集上的测试结果，由于该数据集的测试图片较多，本节只展示了其中两幅测试图片的结果。图中绿色框表示检测正确的目标，红色框表示检测错误的目标，蓝色框表示未检测到的目标。实验结果表明在建筑物，树木和其它军事目标的区域中，Gaussian-CFAR的虚警非常多，Faster R-CNN-少部分切片级标记的方法的检测结果虚警较多，文献[14]方法和文献[15]方法也有较多虚警；本文方法的检测结果中的虚警最低；在车辆较为集中的区域，Gaussian-CFAR和Faster R-CNN-少部分切片级标记的方法的检测结果含有一些漏警，本文方法的漏警较少；本文方法与Faster R-CNN-全部切片级标记的测试结果相差不大。

图 4 MiniSAR数据集：Gaussian-CFAR的检测结果

下载: 全尺寸图片幻灯片

图 5 MiniSAR数据集：Faster R-CNN-少部分切片级标记的检测结果

下载: 全尺寸图片幻灯片

图 6 MiniSAR数据集：Faster R-CNN-全部切片级标记的检测结果

下载: 全尺寸图片幻灯片

图 7 MiniSAR数据集：文献[14]方法的检测结果

下载: 全尺寸图片幻灯片

图 8 MiniSAR数据集：文献[15]方法的检测结果

下载: 全尺寸图片幻灯片

图 9 MiniSAR数据集：本文方法的检测结果

下载: 全尺寸图片幻灯片

图 10 FARADSAR数据集：Gaussian-CFAR的检测结果

下载: 全尺寸图片幻灯片

图 11 FARADSAR数据集：Faster R-CNN-少部分切片级标记的检测结果

下载: 全尺寸图片幻灯片

图 12 FARADSAR数据集：Faster R-CNN-全部切片级标记的检测结果

下载: 全尺寸图片幻灯片

图 13 FARADSAR数据集：文献[14]方法的检测结果

下载: 全尺寸图片幻灯片

图 14 FARADSAR数据集：文献[15]方法的检测结果

下载: 全尺寸图片幻灯片

图 15 FARADSAR数据集：本文方法的检测结果

下载: 全尺寸图片幻灯片

本文方法性能较高的主要原因有两个方面：第一，本文方法使用半监督学习的方案训练目标检测网络，使用迭代挑选正负切片的方法对图像级标记图像进行有效利用，提升了网络的泛化性能；第二，本文方法通过将负包中的负切片加入候选区域集中，提高了候选区域集中负切片的多样性，提升了网络的泛化性能。

4. 结论

本文研究了利用半监督学习方法对目标检测网络进行训练的方法，解决了现有方法对切片级标记的训练样本依赖程度高的问题。本文所提的半监督学习方法仅需要对训练样本中少部分样本进行切片级标记，剩余大部分样本进行图像级标记。本文方法不依赖于具体的目标检测算法，可以适用于任何两阶段目标检测器。基于实测数据的实验结果证明了在切片级标记训练样本数量少的情况下，本文方法在SAR图像目标检测中可以获得较好的性能，并且使用本文方法训练得到的模型的性能，与全部训练样本切片级标记训练的全监督方法的性能相差不大。

图 1 多尺度特征增强与全局-局部特征聚合的视频目标分割算法整体框架

下载: 全尺寸图片幻灯片

图 2 多尺度特征增强模块

下载: 全尺寸图片幻灯片

图 3 全局-局部特征聚合模块

下载: 全尺寸图片幻灯片

图 4 跨层融合模块

下载: 全尺寸图片幻灯片

图 5 本文算法在DAVIS2016和 DAVIS2017验证集上与近年算法的性能和速度比较

下载: 全尺寸图片幻灯片

图 6 本文算法与对比算法在DAVIS2017数据集上的部分分割结果比较

下载: 全尺寸图片幻灯片

图 7 本文算法在DAVIS2017数据集和YouTube-2018数据集的部分定性结果展示

下载: 全尺寸图片幻灯片

表 1 DAVIS2016和DAVIS2017验证集不同算法的性能比较

算法	来源	DAVIS2016					DAVIS2017
算法	来源	J&F	J	F	速度(fps)	时间(s)	J&F	J	F	速度(fps)	时间(s)
OSVOS ^[5]	CVPR2017	80.2	79.8	80.6	0.10	10.00	60.3	56.6	63.9	0.1	10.00
OnAVOS^[7]	CVPRW2017	85.5	86.1	84.9	0.08	12.50	63.6	61.0	66.1	0.05	22.0
OSVOS-S^[25]	TPAMI2018	86.6	85.6	87.5	0.20	5.00	68.0	64.7	71.3	0.1	10.00
OSNM^[26]	CVPR2018	73.5	74	72.9	7.70	0.13	54.8	52.5	57.1	7.0	0.14
FAVOS^[27]	CVPR2018	82.4	79.5	80.9	0.60	1.67	58.2	54.6	61.8	5.6	0.18
AGAME^[14]	CVPR2019	82.1	82.0	82.2	14.00	0.07	70.0	67.4	72.6	14.0	0.07
RANet^[28]	ICCV2019	85.5	85.5	85.4	33.00	0.03	65.7	63.2	68.2	33.0	0.03
FTMU^[29]	CVPR2020	78.9	77.5	80.3	11.00	0.09	70.6	69.1	72.1	11.0	0.09
SSM^[19]	T-CSVT2021	85.9	86.2	85.6	37.00	0.03	77.6	75.3	79.9	--	--
TMO^[20]	TCSVT2023	86.1	85.6	86.6	43.20	0.02	72.3	69.9	74.7	37.0	0.03
STM^[11]	ICCV2019	89.3	88.7	89.9	10.30	0.10	81.8	79.2	84.3	8.8	0.11
FRTM^[21]	CVPR2020	83.6	83.7	83.4	21.9	0.05	76.7	73.8	79.6	21.9	0.05
GC^[15]	ECCV2020	86.6	87.6	85.7	25.00	0.04	71.4	69.3	73.5	--	--
KMN^[16]	ECCV2020	90.5	89.5	83.6	9.00	0.11	82.8	80.0	85.6	8.0	0.13
TransVOS^[22]	CVPR2021	90.5	89.8	91.2	--	--	83.9	81.4	86.4	--	--
MTMFI^[23]	Neurocomputing2022	85.2	84.9	85.5	13.70	0.07	77.6	74.6	80.6	13.7	0.07
ILTR^[24]	计算机学报2022	84.6	84.9	84.3	18.00	0.06	72.9	70.0	75.8	--	--
KMN^M[17]	TPAMI2022	91.2	90.2	92.1	8.00	0.13	83.5	80.9	86.1	8.0	0.13
LLB^[30]	AAAI2023	--	--	--	--	--	84.6	81.5	87.7	8.3	0.12
MGLAS	本文	91.8	90.6	93.0	33.45	0.03	84.5	81.6	87.3	26.6	0.04

下载: 导出CSV

表 2 YouTube-2018验证集不同算法的性能比较

算法	来源	G	J_s	J_u	F_s	F_u
MSK^[13]	CVPR2017	53.1	59.9	45.0	59.5	47.9
OnAVOS^[7]	CVPRW2017	55.2	60.1	46.6	62.7	51.4
OSVOS^[5]	CVPR2017	58.8	59.8	54.2	60.5	60.7
OSNM^[26]	CVPR2018	51.2	60.0	40.6	60.1	44.0
RGMP^[8]	CVPR2018	53.8	59.5	45.2	--	--
AGAME^[14]	CVPR2019	66.0	66.9	61.2	--	--
STM^[11]	ICCV2019	78.9	78.6	73.3	82.8	80.9
FRTM^[21]	CVPR2020	65.7	68.6	58.4	71.3	64.5
SSM^[19]	T-CSVT2021	66.5	72.3	57.8	73.3	62.6
TranVOS^[22]	CVPR2021	81.8	82.0	75.0	86.7	83.4
ILTR^[24]	计算机学报2022	73.8	73.9	67.5	77.9	75.7
KMN^M[17]	TPAMI2022	81.4	81.4	75.3	85.6	83.3
LLB^[30]	AAAI2023	83.8	82.1	79.1	87.0	87.0
MGLAS	本文	83.0	81.9	77.9	86.5	85.7

下载: 导出CSV

表 3 本文算法在DAVIS2017验证集上的消融实验

基准算法	MFEM	GLFAM	CFM	J&F	J	F
√				81.8	79.2	84.3
√	√			83.2	79.9	86.5
√		√		83.5	80.6	86.4
√			√	83.5	80.0	86.9
√	√	√	√	84.5	81.6	87.3

下载: 导出CSV

参考文献(30)

[1]	ERDÉLYI A, BARÁT T, VALET P, et al. Adaptive cartooning for privacy protection in camera networks[C]. 2014 11th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), Seoul, Korea (South), 2014: 44–49. doi: 10.1109/AVSS.2014.6918642.
[2]	WANG Wenguan, SHEN Jianbing, PORIKLI F, et al. Semi-supervised video object segmentation with super-trajectories[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(4): 985–998. doi: 10.1109/TPAMI.2018.2819173.
[3]	SALEH K, HOSSNY M, and NAHAVANDI S. Kangaroo vehicle collision detection using deep semantic segmentation convolutional neural network[C]. 2016 International Conference on Digital Image Computing: Techniques and Applications (DICTA), Gold Coast, Australia, 2016: 1–7. doi: 10.1109/DICTA.2016.7797057.
[4]	LU Xiankai, WANG Wenguan, SHEN Jianbing, et al. Learning video object segmentation from unlabeled videos[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 8957–8967. doi: 10.1109/CVPR42600.2020.00898.
[5]	CAELLES S, MANINIS K K, PONT-TUSET J, et al. One-shot video object segmentation[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 5320–5329. doi: 10.1109/CVPR.2017.565.
[6]	CHENG H K, TAI Y W, and TANG C K. Modular interactive video object segmentation: Interaction-to-mask, propagation and difference-aware fusion[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 5555–5564. doi: 10.1109/CVPR46437.2021.00551.
[7]	VOIGTLAENDER P and LEIBE B. Online adaptation of convolutional neural networks for video object segmentation[C]. British Machine Vision Conference 2017, London, UK, 2017.
[8]	OH S W, LEE J Y, SUNKAVALLI K, et al. Fast video object segmentation by reference-guided mask propagation[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 7376–7385. doi: 10.1109/CVPR.2018.00770.
[9]	徐金东, 赵甜雨, 冯国政, 等. 基于上下文模糊C均值聚类的图像分割算法[J]. 电子与信息学报, 2021, 43(7): 2079–2086. doi: 10.11999/JEIT200263. XU Jindong, ZHAO Tianyu, FENG Guozheng, et al. Image segmentation algorithm based on context fuzzy C-means clustering[J]. Journal of Electronics & Information Technology, 2021, 43(7): 2079–2086. doi: 10.11999/JEIT200263.
[10]	杭昊, 黄影平, 张栩瑞, 等. 面向道路场景语义分割的移动窗口变换神经网络设计[J]. 光电工程, 2024, 51(1): 230304. doi: 10.12086/oee.2024.230304. HANG Hao, HUANG Yingping, ZHANG Xurui, et al. Design of swin transformer for semantic segmentation of road scenes[J]. Opto-Electronic Engineering, 2024, 51(1): 230304. doi: 10.12086/oee.2024.230304.
[11]	OH S W, LEE J Y, XU Ning, et al. Video object segmentation using space-time memory networks[C]. The IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 9225–9234. doi: 10.1109/ICCV.2019.00932.
[12]	LUITEN J, VOIGTLAENDER P, and LEIBE B. PReMVOS: Proposal-generation, refinement and merging for video object segmentation[C]. 14th Asian Conference on Computer Vision, Perth, Australia, 2019: 565–580. doi: 10.1007/978-3-030-20870-7_35.
[13]	PERAZZI F, KHOREVA A, BENENSON R, et al. Learning video object segmentation from static images[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 3491–3500. doi: 10.1109/CVPR.2017.372.
[14]	JOHNANDER J, DANELLJAN M, BRISSMAN E, et al. A generative appearance model for end-to-end video object segmentation[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA: 2019: 8945–8954. doi: 10.1109/CVPR.2019.00916.
[15]	LI Yu, SHEN Zhuoran, and SHAN Ying. Fast video object segmentation using the global context module[C]. 16th European Conference on Computer Vision, Glasgow, UK, 2020: 735–750. doi: 10.1007/978-3-030-58607-2_43.
[16]	SEONG H, HYUN J, and KIM E. Kernelized memory network for video object segmentation[C]. 16th European Conference on Computer Vision, Glasgow, UK, 2020: 629–645. doi: 10.1007/978-3-030-58542-6_38.
[17]	SEONG H, HYUN J, and KIM E. Video object segmentation using Kernelized memory network with multiple kernels[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(2): 2595–2612. doi: 10.1109/TPAMI.2022.3163375.
[18]	KINGMA D P and BA J. Adam: A method for stochastic optimization[C]. 3rd International Conference on Learning Representations, San Diego, USA, 2015.
[19]	ZHU Wencheng, LI Jiahao, LU Jiwen, et al. Separable structure modeling for semi-supervised video object segmentation[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(1): 330–344. doi: 10.1109/TCSVT.2021.3060015.
[20]	CHO S, LEE M, LEE S, et al. Treating motion as option to reduce motion dependency in unsupervised video object segmentation[C]. The IEEE/CVF Winter Conference on Applications of Computer Vision, Waikoloa, USA, 2023: 5129–5138. doi: 10.1109/WACV56688.2023.00511.
[21]	ROBINSON A, LAWIN F J, DANELLJAN M, et al. Learning fast and robust target models for video object segmentation[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 7404–7413. doi: 10.1109/CVPR42600.2020.00743.
[22]	MEI Jianbiao, WANG Mengmeng, LIN Yeneng, et al. TransVOS: Video object segmentation with transformers[J]. arXiv: 2106.00588, 2021. doi: 10.48550/arXiv.2106.00588.
[23]	GAO Bocong, ZHAO Yuqian, ZHANG Fan, et al. Video object segmentation based on multi-level target models and feature integration[J]. Neurocomputing, 2022, 492: 396–407. doi: 10.1016/j.neucom.2022.04.042.
[24]	徐凯, 李国荣, 洪德祥, 等. 结合在线归纳和直推推理的快速视频目标分割方法[J]. 计算机学报, 2022, 45(10): 2117–2132. doi: 10.11897/SP.J.1016.2022.02117. XU Kai, LI Guorong, HONG Dexiang, et al. A fast video object segmentation method based on inductive learning and transductive reasoning[J]. Chinese Journal of Computers, 2022, 45(10): 2117–2132. doi: 10.11897/SP.J.1016.2022.02117.
[25]	MANINIS K K, CAELLES S, CHEN Yuhua, et al. Video object segmentation without temporal information[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(6): 1515–1530. doi: 10.1109/TPAMI.2018.2838670.
[26]	YANG Linjie, WANG Yanran, XIONG Xuehan, et al. Efficient video object segmentation via network modulation[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 6499–6507. doi: 10.1109/CVPR.2018.00680.
[27]	CHENG Jingchun, TSAI Y H, HUNG W C, et al. Fast and accurate online video object segmentation via tracking parts[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 7415–7424. doi: 10.1109/CVPR.2018.00774.
[28]	WANG Ziqin, XU Jun, LIU Li, et al. RANet: Ranking attention network for fast video object segmentation[C]. The IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 3977–3986. doi: 10.1109/ICCV.2019.00408.
[29]	SUN Mingjie, XIAO Jimin, LIM E G, et al. Fast template matching and update for video object tracking and segmentation[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 10788–10796. doi: 10.1109/CVPR42600.2020.01080.
[30]	LAN Meng, ZHANG Jing, ZHANG Lefei, et al. Learning to learn better for video object segmentation[C]. The AAAI Conference on Artificial Intelligence, Washington, USA, 2023: 1205–1212. doi: 10.1609/aaai.v37i1.25203.

施引文献

期刊类型引用(19)

1.	姜杰，闫文君，刘凯，张立民. 基于IC-GANs的红外舰船目标识别方法. 兵器装备工程学报. 2025(01): 277-284 . 百度学术
2.	郭瑞香. 基于感兴趣区域池化的SAR图像目标检测算法. 邵阳学院学报(自然科学版). 2023(02): 29-36 . 百度学术
3.	袁翔，程塨，李戈，戴威，尹文昕，冯瑛超，姚西文，黄钟泠，孙显，韩军伟. 遥感影像小目标检测研究进展. 中国图象图形学报. 2023(06): 1662-1684 . 百度学术
4.	谢灶芳. 基于显著性引导SSD算法的SAR图像目标检测. 地理空间信息. 2023(08): 5-8 . 百度学术
5.	许述文，茹宏涛. 基于标签传播算法的海面漂浮小目标检测方法. 电子与信息学报. 2022(06): 2119-2126 . 本站查看
6.	杜兰，王梓霖，郭昱辰，杜宇昂，严俊坤. 结合强化学习自适应候选框挑选的SAR目标检测方法. 雷达学报. 2022(05): 884-896 . 百度学术
7.	崔雷，庄磊，张泽栋，魏松杰. 基于特征叠加网络的SAR海上舰船运动状态感知方法. 上海航天(中英文). 2022(06): 75-83 . 百度学术
8.	王红卫，董鹏宇，陈游，周一鹏，肖冰松. 半监督条件下基于朴素贝叶斯和Choi-Williams时频分布能量积累的雷达信号识别. 电子与信息学报. 2021(03): 589-597 . 本站查看
9.	李璐，杜兰，何浩男，李晨，邓盛. 基于深度森林的多级特征融合SAR目标识别. 电子与信息学报. 2021(03): 606-614 . 本站查看
10.	赵建辉，张蓓，李宁，郭拯危. 基于Sentinel-1/2遥感数据的冬小麦覆盖地表土壤水分协同反演. 电子与信息学报. 2021(03): 692-699 . 本站查看
11.	陈嘉琪，刘祥梅，李宁，张燕. 一种超分辨SAR图像水域分割算法及其应用. 电子与信息学报. 2021(03): 700-707 . 本站查看
12.	洪汉玉，吴世康，时愈，吴锦梦，孙春生. 非合作水雷目标图像非均匀强噪声去除方法. 红外与激光工程. 2021(03): 251-260 . 百度学术
13.	李维鹏，杨小冈，李传祥，卢瑞涛，黄攀. 红外目标检测网络改进半监督迁移学习方法. 红外与激光工程. 2021(03): 243-250 . 百度学术
14.	刘畅，朱卫纲. 基于卷积神经网络的SAR图像目标检测综述. 兵器装备工程学报. 2021(03): 15-21 . 百度学术
15.	王迪聪，白晨帅，邬开俊. 基于深度学习的视频目标检测综述. 计算机科学与探索. 2021(09): 1563-1577 . 百度学术
16.	高宇歌，杨海涛，王晋宇，李高源，张长弓，冯博迪. 联合知识与CNN的遥感影像目标检测研究综述. 计算机工程与应用. 2021(18): 65-74 . 百度学术
17.	李昊，周帅. 基于深度学习的变电设备缺陷检测. 云南电力技术. 2021(06): 17-20 . 百度学术
18.	杜兰，王兆成，王燕，魏迪，李璐. 复杂场景下单通道SAR目标检测及鉴别研究进展综述. 雷达学报. 2020(01): 34-54 . 百度学术
19.	付哲泉，李尚生，李相平，但波，王旭坤. 基于高效可扩展改进残差结构神经网络的舰船目标识别技术. 电子与信息学报. 2020(12): 3005-3012 . 本站查看

其他类型引用(17)

资源附件(0)

访问统计

图(7) / 表(3)

计量

文章访问数: 291
HTML全文浏览量: 149
PDF下载量: 78
被引次数: 36

1. 引言
2. 基于CNN的半监督SAR目标检测方法
2.1 网络结构
2.2 半监督学习
3. 实验结果与分析
3.1 实验数据集介绍
3.2 评价准则和实验细节
3.3 切片挑选方案和负包对网络性能的影响
3.4 与其他方法的检测结果对比
4. 结论

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于多尺度特征增强与全局-局部特征聚合的视频目标分割算法

doi: 10.11999/JEIT231394

通讯作者:
董佳乐　djl112299@163.com

计量

Video Object Segmentation Algorithm Based on Multi-scale Feature Enhancement and Global-Local Feature Aggregation

1. 引言

2. 基于CNN的半监督SAR目标检测方法

2.1 网络结构

2.2 半监督学习

2.2.1 半监督学习训练过程

2.2.2 负包生成过程

2.2.3 切片挑选过程

3. 实验结果与分析

3.1 实验数据集介绍

3.2 评价准则和实验细节

3.3 切片挑选方案和负包对网络性能的影响

3.4 与其他方法的检测结果对比

4. 结论

期刊类型引用(19)

其他类型引用(17)

计量

目录

1. 引言

2. 基于CNN的半监督SAR目标检测方法

2.1 网络结构

2.2 半监督学习

3. 实验结果与分析

3.1 实验数据集介绍

3.2 评价准则和实验细节

3.3 切片挑选方案和负包对网络性能的影响

3.4 与其他方法的检测结果对比

4. 结论

留言板

基于多尺度特征增强与全局-局部特征聚合的视频目标分割算法

doi: 10.11999/JEIT231394

通讯作者: 董佳乐 djl112299@163.com

计量

出版历程

Video Object Segmentation Algorithm Based on Multi-scale Feature Enhancement and Global-Local Feature Aggregation

1. 引言

2. 基于CNN的半监督SAR目标检测方法

2.1 网络结构

2.2 半监督学习

2.2.1 半监督学习训练过程

2.2.2 负包生成过程

2.2.3 切片挑选过程

3. 实验结果与分析

3.1 实验数据集介绍

3.2 评价准则和实验细节

3.3 切片挑选方案和负包对网络性能的影响

3.4 与其他方法的检测结果对比

4. 结论

期刊类型引用(19)

其他类型引用(17)

计量

出版历程

目录

1. 引言

2. 基于CNN的半监督SAR目标检测方法

2.1 网络结构

2.2 半监督学习

3. 实验结果与分析

3.1 实验数据集介绍

3.2 评价准则和实验细节

3.3 切片挑选方案和负包对网络性能的影响

3.4 与其他方法的检测结果对比

4. 结论

通讯作者:
董佳乐　djl112299@163.com