高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于多尺度特征增强与全局-局部特征聚合的视频目标分割算法

侯志强 董佳乐 马素刚 王晨旭 杨小宝 王昀琛

杜兰, 魏迪, 李璐, 郭昱辰. 基于半监督学习的SAR目标检测网络[J]. 电子与信息学报, 2020, 42(1): 154-163. doi: 10.11999/JEIT190783
引用本文: 侯志强, 董佳乐, 马素刚, 王晨旭, 杨小宝, 王昀琛. 基于多尺度特征增强与全局-局部特征聚合的视频目标分割算法[J]. 电子与信息学报, 2024, 46(11): 4198-4207. doi: 10.11999/JEIT231394
Lan DU, Di WEI, Lu LI, Yuchen GUO. SAR Target Detection Network via Semi-supervised Learning[J]. Journal of Electronics & Information Technology, 2020, 42(1): 154-163. doi: 10.11999/JEIT190783
Citation: HOU Zhiqiang, DONG Jiale, MA Sugang, WANG Chenxu, YANG Xiaobao, WANG Yunchen. Video Object Segmentation Algorithm Based on Multi-scale Feature Enhancement and Global-Local Feature Aggregation[J]. Journal of Electronics & Information Technology, 2024, 46(11): 4198-4207. doi: 10.11999/JEIT231394

基于多尺度特征增强与全局-局部特征聚合的视频目标分割算法

doi: 10.11999/JEIT231394
基金项目: 国家自然科学基金(62072370),陕西省自然科学基金(2023-JC-YB-598)
详细信息
    作者简介:

    侯志强:男,博士,教授,研究方向为计算机视觉、目标跟踪等

    董佳乐:男,硕士生,研究方向为计算机视觉、视频目标分割等

    马素刚:男,博士,教授,研究方向为计算机视觉、机器学习等

    王晨旭:男,硕士生,研究方向为计算机视觉、视频目标分割等

    杨小宝:男,博士,讲师,研究方向为计算机图形学、人工智能等

    王昀琛:女,博士,讲师,研究方向为计算机图形学、图像分类等

    通讯作者:

    董佳乐 djl112299@163.com

  • 中图分类号: TN911.73; TP391.41

Video Object Segmentation Algorithm Based on Multi-scale Feature Enhancement and Global-Local Feature Aggregation

Funds: The National Natural Science Foundation of China (62072370), The Natural Science Foundation of Shaanxi Province (2023-JC-YB-598)
  • 摘要: 针对记忆网络算法中多尺度特征表达能力不足和浅层特征没有充分利用的问题,该文提出一种多尺度特征增强与全局-局部特征聚合的视频目标分割(VOS)算法。首先,通过多尺度特征增强模块融合可参考掩码分支和可参考RGB分支的不同尺度特征信息,增强多尺度特征的表达能力;同时,建立了全局-局部特征聚合模块,利用不同大小感受野的卷积操作来提取特征,并通过特征聚合模块来自适应地融合全局区域和局部区域的特征,这种融合方式可以更好地捕捉目标的全局特征和细节信息,提高分割的准确性;最后,设计了跨层融合模块,利用浅层特征的空间细节信息来提升分割掩码的精度,通过将浅层特征与深层特征融合,能更好地捕捉目标的细节和边缘信息。实验结果表明,在公开数据集DAVIS2016, DAVIS2017和YouTube-2018上,该文算法的综合性能分别达到91.8%、84.5%和83.0%,在单目标和多目标分割任务上都能实时运行。
  • 合成孔径雷达(Synthetic Aperture Radar, SAR)是一种主动式的对地观测系统,能够全天时全天候对地观测,广泛应用于民用监测领域和军事侦察领域。近年来,随着SAR领域相关技术的发展,对SAR图像进行快速准确的目标检测是该领域的关键技术,也是目前的技术研究热点。

    现有的SAR图像目标检测方法中,双参数CFAR检测算法[1-3]是一种应用广泛的检测方法。该方法要求SAR图像中目标与背景杂波的对比度较高,并且假定背景杂波服从高斯分布,同时需要根据目标大小设置参考窗尺寸。在场景简单的情况下,该方法的检测效果较好,但是在复杂场景下检测性能较差。

    随着深度学习技术的发展,卷积神经网络(Convolutional Neural Network, CNN)[4-9]的特征提取能力不断提升,基于CNN的目标检测算法[10-12]层出不穷。基于CNN的目标检测方法具有强大的特征提取能力和检测性能,因此将其应用于SAR图像目标检测能够获得较高的性能。文献[13]提出的基于CNN的SAR图像目标检测方法,可以在训练数据充足的情况下获得优异的检测性能,但是网络的训练依赖于切片级标记的训练样本以及扩充数据集,在切片级训练样本数量少的情况下,该方法的性能不佳。

    现有的SAR图像目标检测方法依赖于大量的切片级标记训练样本,然而实际中对样本进行切片级标记十分耗时耗力。训练样本指训练时输入网络的SAR图像,切片级标记是对SAR图像中感兴趣目标的位置进行标记。对SAR图像进行切片级标记需要人工观察图像,在图像中复杂的人造杂波和自然杂波干扰的情况下,对感兴趣目标的位置和类别进行标记,人工标记的速度很慢;有的目标与杂波的区分度不高,人工标记很有可能漏标或者错标。相比之下,对SAR图像进行图像级标记较为容易,只需要标记SAR图像中是否含有感兴趣目标,不需要对目标位置进行标记。因此,在切片级标记的训练样本数量少的情况下,使用半监督学习方法对图像级标记的训练样本进行有效利用,是提升目标检测性能的一种解决方案。

    早期的半监督学习方法主要利用人工特征和分类器进行自学习,文献[14]提出一种基于半监督自学习的目标检测方法,该方法首先对训练图像提取疑似目标切片,并对部分切片进行标记,接着利用标记样本训练分类器,然后利用训练好的分类器对未标记的切片进行分类,将分类置信度较高的样本加入到有标记样本集中,最后用更新的有标记样本集重新训练分类器。上述过程迭代进行直到不存在无标记样本。该方法在仅有少量目标切片标记的情况下,可以取得较好的性能,但是该方法需要选择合适的特征和分类器,在实际应用中较为困难。

    将半监督学习方法与深度网络进行结合,可以避免选择特征和分类器的问题,并且网络的特征提取和分类器联合训练,可以取得较好的性能。文献[15]提出一种基于卷积神经网络的半监督学习方法,该方法提出候选区域提取网络和定位网络来提取候选区域和定位飞机,利用半监督学习框架从原始图像中自动挖掘和扩充训练数据集。该方法在对训练图像进行少量目标级标记的情况下,可以取得较好的性能,但是该方法仅从原始图像中挖掘负样本,会造成正负切片比例不均衡的问题,对结果造成不利影响;另外,该方法预测的目标尺寸固定,不能针对目标自动修正尺寸,对目标位置的预测不够精确。

    针对以上问题,本文基于Faster R-CNN目标检测框架[12],在切片级标记SAR图像数量较少的情况下,将图像级标记SAR图像有效利用,提出一种基于CNN的半监督SAR图像目标检测方法。本文的主要工作包括:(1)基于Faster R-CNN目标检测框架,提出一种迭代挑选正负切片和训练网络交替进行的半监督学习方法,降低了网络对切片级标记样本的依赖程度;(2)通过网络获取负包,并将负包中的负切片加入候选区域集中,提高负切片的数量和多样性。由于本文方法同时挑选正切片和负切片,可以保证正负切片的比例均衡;此外,本文方法使用多任务深度网络,可以同时预测类别和位置,能够针对不同目标自适应地预测出准确的尺寸,对目标位置的预测较为精确。基于实测数据的实验结果表明,本文方法可以有效提升目标检测的性能,其性能与使用全部样本进行切片级标记的全监督方法的性能相差不大。

    本文提出的基于CNN的半监督SAR图像目标检测方法如图1所示。

    图 1  半监督SAR图像目标检测方法

    本文方法的网络结构主要包括候选区域提取网络和检测网络。候选区域提取网络对SAR图像进行特征提取,并获得潜在的候选区域;然后将候选区域送入检测网络,检测网络对候选区域进一步分类和位置调整,获得最终的检测结果。

    图1,本文方法的训练过程分为3步:第1步使用蓝色框和蓝色箭头表示,使用切片级标记的SAR图像对候选区域提取网络和检测网络进行训练,并获得这些图像对应的候选区域集;第2步使用黄色框和黄色箭头表示,将图像级标记的杂波SAR图像输入网络,对输出切片进行挑选得到负包,将负包中的杂波切片加入候选区域集;第3步使用绿色框和绿色箭头表示,将图像级标记的目标SAR图像输入网络,对输出的正负切片进行挑选并去重复,然后挑选的切片加入到候选区域集中,最后使用更新的候选区域集对网络进行训练。第3步需要交替迭代进行直到收敛。

    接下来分别介绍本文方法的网络结构和半监督学习方法。

    目标检测网络的网络结构主要包括候选区域提取网络和检测网络。候选区域提取网络和检测网络共享特征提取网络。

    特征提取网络的结构如图2所示,该网络有3个卷积层,每个卷积层后面接着批归一化(Batch Normalization, BN)[16]层和修正线性单元(Rectified Linear Unit, ReLU)[17]层,前两个ReLU层的后面使用池化层对特征进行降维,3个卷积层的卷积核个数分别是64, 128和256,卷积核大小分别是11×11, 7×7和3×3,卷积步长分别是2, 1和1。

    图 2  特征提取网络

    候选区域提取网络通过特征提取网络提取图像的特征,然后使用一个滑动的小网络,通过滑动窗口的方式访问特征图的每个位置,使用每个位置的特征预测得到候选区域。这个滑动的小网络将n×n大小的滑动窗口对应的特征作为输入,通过全连接映射到一个低维的特征,然后将低维特征送入两个全连接层,分别是边框回归层和分类层,全连接层的输出是预测的候选区域。

    检测网络通过特征提取网络提取图像的特征,使用ROI池化获得候选区域对应的特征,然后将特征通过全连接层对候选区域进一步分类和位置调整。ROI池化首先在特征图上截取候选区域对应的特征块,然后将特征块均匀划分为m×m个小格,对每个小格通过最大值池化降维,得到尺寸为m×m的特征。

    2.2.1   半监督学习训练过程

    本文提出的基于CNN的半监督SAR图像目标检测方法如图1所示,网络的半监督训练过程分为3步,具体算法步骤如下:

    步骤 1

    (1) 使用切片级标记的SAR图像,通过4步训练法[12]对候选区域提取网络和检测网络进行训练。

    (2) 将切片级标记的SAR图像输入训练好的候选区域提取网络,网络的输出是输入图像对应的候选区域,通过与真实切片级标记进行比对,获得每个候选区域的标签,即可得到切片级标记的SAR图像对应的正切片和负切片,构成初始候选区域集。

    步骤 2

    将图像级标记的SAR图像集中的杂波类图像输入步骤1训练好的目标检测网络中,对网络的输出切片进行选择得到负包,将负包中的杂波切片加入候选区域集。

    步骤 3

    (1) 将图像级标记的SAR图像集中的目标类图像输入目标检测网络,对输出结果进行NMS去重复处理,得到检测结果,检测结果包括预测得到的正切片和负切片。

    (2) 使用切片挑选模块对检测结果中的正负切片进行挑选,首先挑选出置信度大于阈值的切片,然后去掉与候选区域集中已有切片重复的切片,得到挑选出的切片。如果挑选出的切片数量占候选区域集中所有切片数量的比例小于设定的比例阈值,则说明已经收敛,停止训练;否则将挑选出的切片加入候选区域集,并继续进行下一步。

    (3) 使用更新后的候选区域集对检测网络再次进行训练。训练时,使用上次训练好的模型进行参数初始化,并使用更新的数据集进行微调,训练好之后对网络进行测试,获得测试准确率,如果准确率与上次训练的准确率相比没有提升,则说明已经收敛,停止训练,否则继续进行下一步。

    步骤(1)—步骤(3)交替进行直到收敛。

    接下来详细介绍步骤2中的负包生成过程和步骤3中的切片挑选过程。

    2.2.2   负包生成过程

    将图像级标记的SAR图像集中的杂波图像输入到训练好的目标检测网络中,获取对应的检测结果,因为输入的是杂波图像,所以输出的所有切片都是杂波切片,选择每一幅图像的检测结果中置信度最高的前K个杂波切片,作为该杂波图像的杂波切片集,称之为负包。由于此过程需要尽可能挑选出难分的杂波切片,并且要保证候选区域集中目标切片和杂波切片的比例不会失衡,因此K不能设置的较高。

    将杂波图像输入目标检测网络,可以获得大量尺寸不同并且背景多样的杂波切片,加入的杂波切片可以提升候选区域集中切片的多样性,提升检测网络的泛化能力。

    2.2.3   切片挑选过程

    将图像级标记的SAR图像集中的目标类图像输入目标检测网络,预测得到其对应的检测结果,检测结果包括每个预测目标切片和杂波切片的分类置信度和边框坐标。

    对检测结果进行NMS去重复处理,并选择检测结果中目标切片和杂波切片的分类置信度大于阈值Ts的切片,将挑选的切片与候选区域集中重复的切片删除。接下来介绍判断切片是否为重复切片的方法:

    步骤 1 计算初始切片集中的切片与候选区域集中所有切片重叠率的最大值IOUmax

    初始切片集中第i个切片的IOUmax,i的计算方法为

    IOUmax,i=maxj(Cnew,iCold,jCnew,iCold,j)
    (1)

    其中Cnew,i表示初始切片集中的第i个切片,Cold,j表示候选区域集中的第j个切片,Cnew,iCold,j表示两个切片区域交集的面积,Cnew,iCold,j表示两个切片区域并集的面积。

    步骤 2 如果IOUmax,i大于设定的阈值IOUT,则认为该切片是重复的,应该删除掉。

    经过阈值挑选和去除重复后,计算挑选出的切片数量与候选区域集中切片数量的比例β。如果β大于等于βT,说明挑选出的新切片较多,这些新切片可以提升数据集中的切片的数量和多样性,新切片对网络的训练还会有较大的帮助,因此将挑选的切片加入候选区域集。如果β小于设定的阈值βT,说明挑选出的新切片数量非常少,如果将新切片加入候选区域集,更新后的候选区域集与更新前相比差别非常小,训练后网络的泛化能力基本不会提升。所以当β小于βT时,迭代过程终止,半监督学习过程结束。

    交替迭代的过程中,如果网络的测试准确率与上次训练的网络准确率相比没有提升,说明此时网络的性能与上次迭代训练好的网络的性能也没有提升,如果使用当前的网络继续挑选切片,挑选出的切片与上次迭代挑选出的切片就会非常相似,那么候选区域集就基本不会更新,再次训练的网络的性能也就不会提升。因此为了减小不必要的训练时间,如果准确率与上次训练的准确率相比没有提升,则说明网络的性能已经达到顶峰,可以停止交替迭代的过程。

    MiniSAR实测数据集[18]和FARADSAR实测数据集[19]是美国Sandia国家实验室分别在2006年和2015年公开的SAR图像数据集,分辨率为0.1 m×0.1 m,都是场景复杂的地面图像。实验将SAR图像中的车辆目标作为感兴趣目标。图3是MiniSAR数据集和FARADSAR数据集的示例。

    图 3  数据集示例

    为了验证本文方法的有效性,使用F1-score作为检测结果的性能评价指标。F1-score的计算公式为

    P=TPTP+FP,R=TPNP
    (2)
    F1-score=2PRP+R
    (3)

    其中,TP是检测结果中的正确目标个数,FP是错误目标个数,NP是真实目标个数,P是检测精度,R是召回率,F1-score是评价性能的主要指标。实验中随机选择30%的SAR训练子图像进行切片级标记,剩余的图像进行图像级标记。通过10次随机选择样本并进行10次重复实验,将得到的测试结果取平均作为最终的测试结果。实验中挑选切片的阈值Ts为0.925,判断是否重复的重叠率阈值IOUT为0.8,判断网络是否收敛的新切片数量的比例阈值βT为0.03。

    对于MiniSAR数据集,实验对比了使用不同的挑选切片方案的性能,包括只挑选正切片,只挑选负切片,以及正负切片都挑选共3种方案,实验也对比了加入负包对性能的影响,负包是通过杂波SAR图像获得的杂波切片集合,负包数量是指使用杂波SAR子图像的数量。

    使用不同的切片挑选方案以及加入负包的数量对应的实验结果如表1所示,表中数字加粗表示对应方案的F1-score最高。

    表 1  不同方案的实验结果
    负包数量挑选的切片PRF1-score
    0正切片0.63970.75000.6905
    负切片0.88330.45690.6023
    正切片+负切片0.73870.70690.7225
    10正切片0.67970.75000.7131
    负切片0.79170.49140.6064
    正切片+负切片0.75730.67240.7123
    20正切片0.76580.73280.7489
    负切片0.83820.49140.6196
    正切片+负切片0.81370.71550.7615
    30正切片0.82020.62930.7122
    负切片0.84130.45690.5922
    正切片+负切片0.86750.62070.7236
    40正切片0.81110.62930.7087
    负切片0.86670.44830.5909
    正切片+负切片0.83520.65520.7343
    下载: 导出CSV 
    | 显示表格

    实验结果表明对正切片和负切片都进行挑选的性能最佳。主要原因是只挑选正切片或负切片会使得候选区域集中某种切片的数量越来越多,造成正负切片比例不均衡的问题,影响网络的性能;对正负切片都进行挑选能保证候选区域集中正负切片的数量同时增加,不会造成正负切片的数量比例失衡,还可以提高切片的多样性,提升检测网络的性能。

    实验结果还表明,当加入负包的数量增大时,在一定范围内,网络的性能不断提升,超过一定范围,网络的性能就会降低。主要原因是加入的负包提升了候选区域集中负切片的多样性,检测网络就具有更好的泛化性能;如果加入负包的数量过多,那么候选区域集中负切片的数量过多,会造成正负切片比例不均衡的问题,网络的性能就会降低。

    表2对比了不同方法的实验结果,其中Gaussian-CFAR使用文献[1]中的方法;Faster R-CNN-少部分切片级标记使用文献[13]中的网络,仅使用了少部分切片级标记的训练样本;Faster R-CNN-全部切片级标记使用文献[13]中的网络,对全部训练样本都进行了切片级标记;文献[14]方法使用原文的半监督算法框架,利用CFAR提取疑似切片,使用林肯特征训练SVM分类器;文献[15]方法使用原文的半监督算法框架,使用候选区域提取网络和定位网络,多次迭代挑选负切片并训练网络;本文方法基于Faster R-CNN网络,使用网络挑选杂波切片并得到负包,通过网络迭代挑选正负切片进行半监督学习。

    表 2  不同方法的实验结果
    不同方法MiniSAR数据集FARADSAR数据集
    PRF1-scorePRF1-score
    Gaussian-CFAR0.37890.79660.51350.28130.46710.3512
    Faster R-CNN-少部分切片级标记0.64550.61210.62830.73700.88130.8027
    Faster R-CNN-全部切片级标记0.80730.75860.78220.77600.94790.8534
    文献[14]方法0.58140.98060.72850.45060.73250.5580
    文献[15]方法0.46990.74800.57720.37440.79450.5090
    本文方法0.81370.71550.76150.80350.88130.8406
    下载: 导出CSV 
    | 显示表格

    表2可以看出,Gaussian-CFAR方法的F1-score非常低,虚警很多,有很多检测结果是错误的;Faster R-CNN-少部分切片级标记的方法仅使用了少量的训练样本,其F1-score较低;文献[14]方法虽然召回率很高,能将大部分目标检测出来,但是检测精度较低,虚警较多;文献[15]方法的召回率较高,但是检测精度较低,虚警也较多;本文方法的检测精度, 召回率和F1-score都较高,相比其他方法有较大优势,本文方法检测虚警量较少,能检测出大部分的目标。对于MiniSAR数据集,本文方法的F1-score相比Faster R-CNN-少部分切片级标记的结果提升了0.1332,仅比Faster R-CNN-全部切片级标记的检测结果低0.0207;对于FARADSAR数据集,本文方法的F1-score相比Faster R-CNN-少部分切片级标记的结果提升了0.0379,仅比Faster R-CNN-全部切片级标记的检测结果低0.0128。因此,本文方法在仅使用少量切片级标记训练样本和大量图像级标记训练样本的情况下,与全监督方法的性能相差不大。

    图4图5图6图7图8图9分别表示Gaussian-CFAR, Faster R-CNN-少部分切片级标记,Faster R-CNN-全部切片级标记,文献[14]方法,文献[15]方法和本文方法在MiniSAR数据集上的测试结果;图10图11图12图13图14图15分别表示上述方法在FARADSAR数据集上的测试结果,由于该数据集的测试图片较多,本节只展示了其中两幅测试图片的结果。图中绿色框表示检测正确的目标,红色框表示检测错误的目标,蓝色框表示未检测到的目标。实验结果表明在建筑物,树木和其它军事目标的区域中,Gaussian-CFAR的虚警非常多,Faster R-CNN-少部分切片级标记的方法的检测结果虚警较多,文献[14]方法和文献[15]方法也有较多虚警;本文方法的检测结果中的虚警最低;在车辆较为集中的区域,Gaussian-CFAR和Faster R-CNN-少部分切片级标记的方法的检测结果含有一些漏警,本文方法的漏警较少;本文方法与Faster R-CNN-全部切片级标记的测试结果相差不大。

    图 4  MiniSAR数据集:Gaussian-CFAR的检测结果
    图 5  MiniSAR数据集:Faster R-CNN-少部分切片级标记的检测结果
    图 6  MiniSAR数据集:Faster R-CNN-全部切片级标记的检测结果
    图 7  MiniSAR数据集:文献[14]方法的检测结果
    图 8  MiniSAR数据集:文献[15]方法的检测结果
    图 9  MiniSAR数据集:本文方法的检测结果
    图 10  FARADSAR数据集:Gaussian-CFAR的检测结果
    图 11  FARADSAR数据集:Faster R-CNN-少部分切片级标记的检测结果
    图 12  FARADSAR数据集:Faster R-CNN-全部切片级标记的检测结果
    图 13  FARADSAR数据集:文献[14]方法的检测结果
    图 14  FARADSAR数据集:文献[15]方法的检测结果
    图 15  FARADSAR数据集:本文方法的检测结果

    本文方法性能较高的主要原因有两个方面:第一,本文方法使用半监督学习的方案训练目标检测网络,使用迭代挑选正负切片的方法对图像级标记图像进行有效利用,提升了网络的泛化性能;第二,本文方法通过将负包中的负切片加入候选区域集中,提高了候选区域集中负切片的多样性,提升了网络的泛化性能。

    本文研究了利用半监督学习方法对目标检测网络进行训练的方法,解决了现有方法对切片级标记的训练样本依赖程度高的问题。本文所提的半监督学习方法仅需要对训练样本中少部分样本进行切片级标记,剩余大部分样本进行图像级标记。本文方法不依赖于具体的目标检测算法,可以适用于任何两阶段目标检测器。基于实测数据的实验结果证明了在切片级标记训练样本数量少的情况下,本文方法在SAR图像目标检测中可以获得较好的性能,并且使用本文方法训练得到的模型的性能,与全部训练样本切片级标记训练的全监督方法的性能相差不大。

  • 图  1  多尺度特征增强与全局-局部特征聚合的视频目标分割算法整体框架

    图  2  多尺度特征增强模块

    图  3  全局-局部特征聚合模块

    图  4  跨层融合模块

    图  5  本文算法在DAVIS2016和 DAVIS2017验证集上与近年算法的性能和速度比较

    图  6  本文算法与对比算法在DAVIS2017数据集上的部分分割结果比较

    图  7  本文算法在DAVIS2017数据集和YouTube-2018数据集的部分定性结果展示

    表  1  DAVIS2016和DAVIS2017验证集不同算法的性能比较

    算法 来源 DAVIS2016 DAVIS2017
    J&F J F 速度(fps) 时间(s) J&F J F 速度(fps) 时间(s)
    OSVOS [5] CVPR2017 80.2 79.8 80.6 0.10 10.00 60.3 56.6 63.9 0.1 10.00
    OnAVOS[7] CVPRW2017 85.5 86.1 84.9 0.08 12.50 63.6 61.0 66.1 0.05 22.0
    OSVOS-S[25] TPAMI2018 86.6 85.6 87.5 0.20 5.00 68.0 64.7 71.3 0.1 10.00
    OSNM[26] CVPR2018 73.5 74 72.9 7.70 0.13 54.8 52.5 57.1 7.0 0.14
    FAVOS[27] CVPR2018 82.4 79.5 80.9 0.60 1.67 58.2 54.6 61.8 5.6 0.18
    AGAME[14] CVPR2019 82.1 82.0 82.2 14.00 0.07 70.0 67.4 72.6 14.0 0.07
    RANet[28] ICCV2019 85.5 85.5 85.4 33.00 0.03 65.7 63.2 68.2 33.0 0.03
    FTMU[29] CVPR2020 78.9 77.5 80.3 11.00 0.09 70.6 69.1 72.1 11.0 0.09
    SSM[19] T-CSVT2021 85.9 86.2 85.6 37.00 0.03 77.6 75.3 79.9 -- --
    TMO[20] TCSVT2023 86.1 85.6 86.6 43.20 0.02 72.3 69.9 74.7 37.0 0.03
    STM[11] ICCV2019 89.3 88.7 89.9 10.30 0.10 81.8 79.2 84.3 8.8 0.11
    FRTM[21] CVPR2020 83.6 83.7 83.4 21.9 0.05 76.7 73.8 79.6 21.9 0.05
    GC[15] ECCV2020 86.6 87.6 85.7 25.00 0.04 71.4 69.3 73.5 -- --
    KMN[16] ECCV2020 90.5 89.5 83.6 9.00 0.11 82.8 80.0 85.6 8.0 0.13
    TransVOS[22] CVPR2021 90.5 89.8 91.2 -- -- 83.9 81.4 86.4 -- --
    MTMFI[23] Neurocomputing2022 85.2 84.9 85.5 13.70 0.07 77.6 74.6 80.6 13.7 0.07
    ILTR[24] 计算机学报2022 84.6 84.9 84.3 18.00
    0.06 72.9 70.0 75.8 -- --
    KMNM[17] TPAMI2022 91.2 90.2 92.1 8.00 0.13 83.5 80.9 86.1 8.0 0.13
    LLB[30] AAAI2023 -- -- -- -- -- 84.6 81.5 87.7 8.3 0.12
    MGLAS 本文 91.8 90.6 93.0 33.45 0.03 84.5 81.6 87.3 26.6 0.04
    下载: 导出CSV

    表  2  YouTube-2018验证集不同算法的性能比较

    算法 来源 G Js Ju Fs Fu
    MSK[13] CVPR2017 53.1 59.9 45.0 59.5 47.9
    OnAVOS[7] CVPRW2017 55.2 60.1 46.6 62.7 51.4
    OSVOS[5] CVPR2017 58.8 59.8 54.2 60.5 60.7
    OSNM[26] CVPR2018 51.2 60.0 40.6 60.1 44.0
    RGMP[8] CVPR2018 53.8 59.5 45.2 -- --
    AGAME[14] CVPR2019 66.0 66.9 61.2 -- --
    STM[11] ICCV2019 78.9 78.6 73.3 82.8 80.9
    FRTM[21] CVPR2020 65.7 68.6 58.4 71.3 64.5
    SSM[19] T-CSVT2021 66.5 72.3 57.8 73.3 62.6
    TranVOS[22] CVPR2021 81.8 82.0 75.0 86.7 83.4
    ILTR[24] 计算机学报2022 73.8 73.9 67.5 77.9 75.7
    KMNM[17] TPAMI2022 81.4 81.4 75.3 85.6 83.3
    LLB[30] AAAI2023 83.8 82.1 79.1 87.0 87.0
    MGLAS 本文 83.0 81.9 77.9 86.5 85.7
    下载: 导出CSV

    表  3  本文算法在DAVIS2017验证集上的消融实验

    基准算法 MFEM GLFAM CFM J&F J F
    81.8 79.2 84.3
    83.2 79.9 86.5
    83.5 80.6 86.4
    83.5 80.0 86.9
    84.5 81.6 87.3
    下载: 导出CSV
  • [1] ERDÉLYI A, BARÁT T, VALET P, et al. Adaptive cartooning for privacy protection in camera networks[C]. 2014 11th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), Seoul, Korea (South), 2014: 44–49. doi: 10.1109/AVSS.2014.6918642.
    [2] WANG Wenguan, SHEN Jianbing, PORIKLI F, et al. Semi-supervised video object segmentation with super-trajectories[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(4): 985–998. doi: 10.1109/TPAMI.2018.2819173.
    [3] SALEH K, HOSSNY M, and NAHAVANDI S. Kangaroo vehicle collision detection using deep semantic segmentation convolutional neural network[C]. 2016 International Conference on Digital Image Computing: Techniques and Applications (DICTA), Gold Coast, Australia, 2016: 1–7. doi: 10.1109/DICTA.2016.7797057.
    [4] LU Xiankai, WANG Wenguan, SHEN Jianbing, et al. Learning video object segmentation from unlabeled videos[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 8957–8967. doi: 10.1109/CVPR42600.2020.00898.
    [5] CAELLES S, MANINIS K K, PONT-TUSET J, et al. One-shot video object segmentation[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 5320–5329. doi: 10.1109/CVPR.2017.565.
    [6] CHENG H K, TAI Y W, and TANG C K. Modular interactive video object segmentation: Interaction-to-mask, propagation and difference-aware fusion[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 5555–5564. doi: 10.1109/CVPR46437.2021.00551.
    [7] VOIGTLAENDER P and LEIBE B. Online adaptation of convolutional neural networks for video object segmentation[C]. British Machine Vision Conference 2017, London, UK, 2017.
    [8] OH S W, LEE J Y, SUNKAVALLI K, et al. Fast video object segmentation by reference-guided mask propagation[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 7376–7385. doi: 10.1109/CVPR.2018.00770.
    [9] 徐金东, 赵甜雨, 冯国政, 等. 基于上下文模糊C均值聚类的图像分割算法[J]. 电子与信息学报, 2021, 43(7): 2079–2086. doi: 10.11999/JEIT200263.

    XU Jindong, ZHAO Tianyu, FENG Guozheng, et al. Image segmentation algorithm based on context fuzzy C-means clustering[J]. Journal of Electronics & Information Technology, 2021, 43(7): 2079–2086. doi: 10.11999/JEIT200263.
    [10] 杭昊, 黄影平, 张栩瑞, 等. 面向道路场景语义分割的移动窗口变换神经网络设计[J]. 光电工程, 2024, 51(1): 230304. doi: 10.12086/oee.2024.230304.

    HANG Hao, HUANG Yingping, ZHANG Xurui, et al. Design of swin transformer for semantic segmentation of road scenes[J]. Opto-Electronic Engineering, 2024, 51(1): 230304. doi: 10.12086/oee.2024.230304.
    [11] OH S W, LEE J Y, XU Ning, et al. Video object segmentation using space-time memory networks[C]. The IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 9225–9234. doi: 10.1109/ICCV.2019.00932.
    [12] LUITEN J, VOIGTLAENDER P, and LEIBE B. PReMVOS: Proposal-generation, refinement and merging for video object segmentation[C]. 14th Asian Conference on Computer Vision, Perth, Australia, 2019: 565–580. doi: 10.1007/978-3-030-20870-7_35.
    [13] PERAZZI F, KHOREVA A, BENENSON R, et al. Learning video object segmentation from static images[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 3491–3500. doi: 10.1109/CVPR.2017.372.
    [14] JOHNANDER J, DANELLJAN M, BRISSMAN E, et al. A generative appearance model for end-to-end video object segmentation[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA: 2019: 8945–8954. doi: 10.1109/CVPR.2019.00916.
    [15] LI Yu, SHEN Zhuoran, and SHAN Ying. Fast video object segmentation using the global context module[C]. 16th European Conference on Computer Vision, Glasgow, UK, 2020: 735–750. doi: 10.1007/978-3-030-58607-2_43.
    [16] SEONG H, HYUN J, and KIM E. Kernelized memory network for video object segmentation[C]. 16th European Conference on Computer Vision, Glasgow, UK, 2020: 629–645. doi: 10.1007/978-3-030-58542-6_38.
    [17] SEONG H, HYUN J, and KIM E. Video object segmentation using Kernelized memory network with multiple kernels[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(2): 2595–2612. doi: 10.1109/TPAMI.2022.3163375.
    [18] KINGMA D P and BA J. Adam: A method for stochastic optimization[C]. 3rd International Conference on Learning Representations, San Diego, USA, 2015.
    [19] ZHU Wencheng, LI Jiahao, LU Jiwen, et al. Separable structure modeling for semi-supervised video object segmentation[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(1): 330–344. doi: 10.1109/TCSVT.2021.3060015.
    [20] CHO S, LEE M, LEE S, et al. Treating motion as option to reduce motion dependency in unsupervised video object segmentation[C]. The IEEE/CVF Winter Conference on Applications of Computer Vision, Waikoloa, USA, 2023: 5129–5138. doi: 10.1109/WACV56688.2023.00511.
    [21] ROBINSON A, LAWIN F J, DANELLJAN M, et al. Learning fast and robust target models for video object segmentation[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 7404–7413. doi: 10.1109/CVPR42600.2020.00743.
    [22] MEI Jianbiao, WANG Mengmeng, LIN Yeneng, et al. TransVOS: Video object segmentation with transformers[J]. arXiv: 2106.00588, 2021. doi: 10.48550/arXiv.2106.00588.
    [23] GAO Bocong, ZHAO Yuqian, ZHANG Fan, et al. Video object segmentation based on multi-level target models and feature integration[J]. Neurocomputing, 2022, 492: 396–407. doi: 10.1016/j.neucom.2022.04.042.
    [24] 徐凯, 李国荣, 洪德祥, 等. 结合在线归纳和直推推理的快速视频目标分割方法[J]. 计算机学报, 2022, 45(10): 2117–2132. doi: 10.11897/SP.J.1016.2022.02117.

    XU Kai, LI Guorong, HONG Dexiang, et al. A fast video object segmentation method based on inductive learning and transductive reasoning[J]. Chinese Journal of Computers, 2022, 45(10): 2117–2132. doi: 10.11897/SP.J.1016.2022.02117.
    [25] MANINIS K K, CAELLES S, CHEN Yuhua, et al. Video object segmentation without temporal information[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(6): 1515–1530. doi: 10.1109/TPAMI.2018.2838670.
    [26] YANG Linjie, WANG Yanran, XIONG Xuehan, et al. Efficient video object segmentation via network modulation[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 6499–6507. doi: 10.1109/CVPR.2018.00680.
    [27] CHENG Jingchun, TSAI Y H, HUNG W C, et al. Fast and accurate online video object segmentation via tracking parts[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 7415–7424. doi: 10.1109/CVPR.2018.00774.
    [28] WANG Ziqin, XU Jun, LIU Li, et al. RANet: Ranking attention network for fast video object segmentation[C]. The IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 3977–3986. doi: 10.1109/ICCV.2019.00408.
    [29] SUN Mingjie, XIAO Jimin, LIM E G, et al. Fast template matching and update for video object tracking and segmentation[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 10788–10796. doi: 10.1109/CVPR42600.2020.01080.
    [30] LAN Meng, ZHANG Jing, ZHANG Lefei, et al. Learning to learn better for video object segmentation[C]. The AAAI Conference on Artificial Intelligence, Washington, USA, 2023: 1205–1212. doi: 10.1609/aaai.v37i1.25203.
  • 期刊类型引用(19)

    1. 姜杰,闫文君,刘凯,张立民. 基于IC-GANs的红外舰船目标识别方法. 兵器装备工程学报. 2025(01): 277-284 . 百度学术
    2. 郭瑞香. 基于感兴趣区域池化的SAR图像目标检测算法. 邵阳学院学报(自然科学版). 2023(02): 29-36 . 百度学术
    3. 袁翔,程塨,李戈,戴威,尹文昕,冯瑛超,姚西文,黄钟泠,孙显,韩军伟. 遥感影像小目标检测研究进展. 中国图象图形学报. 2023(06): 1662-1684 . 百度学术
    4. 谢灶芳. 基于显著性引导SSD算法的SAR图像目标检测. 地理空间信息. 2023(08): 5-8 . 百度学术
    5. 许述文,茹宏涛. 基于标签传播算法的海面漂浮小目标检测方法. 电子与信息学报. 2022(06): 2119-2126 . 本站查看
    6. 杜兰,王梓霖,郭昱辰,杜宇昂,严俊坤. 结合强化学习自适应候选框挑选的SAR目标检测方法. 雷达学报. 2022(05): 884-896 . 百度学术
    7. 崔雷,庄磊,张泽栋,魏松杰. 基于特征叠加网络的SAR海上舰船运动状态感知方法. 上海航天(中英文). 2022(06): 75-83 . 百度学术
    8. 王红卫,董鹏宇,陈游,周一鹏,肖冰松. 半监督条件下基于朴素贝叶斯和Choi-Williams时频分布能量积累的雷达信号识别. 电子与信息学报. 2021(03): 589-597 . 本站查看
    9. 李璐,杜兰,何浩男,李晨,邓盛. 基于深度森林的多级特征融合SAR目标识别. 电子与信息学报. 2021(03): 606-614 . 本站查看
    10. 赵建辉,张蓓,李宁,郭拯危. 基于Sentinel-1/2遥感数据的冬小麦覆盖地表土壤水分协同反演. 电子与信息学报. 2021(03): 692-699 . 本站查看
    11. 陈嘉琪,刘祥梅,李宁,张燕. 一种超分辨SAR图像水域分割算法及其应用. 电子与信息学报. 2021(03): 700-707 . 本站查看
    12. 洪汉玉,吴世康,时愈,吴锦梦,孙春生. 非合作水雷目标图像非均匀强噪声去除方法. 红外与激光工程. 2021(03): 251-260 . 百度学术
    13. 李维鹏,杨小冈,李传祥,卢瑞涛,黄攀. 红外目标检测网络改进半监督迁移学习方法. 红外与激光工程. 2021(03): 243-250 . 百度学术
    14. 刘畅,朱卫纲. 基于卷积神经网络的SAR图像目标检测综述. 兵器装备工程学报. 2021(03): 15-21 . 百度学术
    15. 王迪聪,白晨帅,邬开俊. 基于深度学习的视频目标检测综述. 计算机科学与探索. 2021(09): 1563-1577 . 百度学术
    16. 高宇歌,杨海涛,王晋宇,李高源,张长弓,冯博迪. 联合知识与CNN的遥感影像目标检测研究综述. 计算机工程与应用. 2021(18): 65-74 . 百度学术
    17. 李昊,周帅. 基于深度学习的变电设备缺陷检测. 云南电力技术. 2021(06): 17-20 . 百度学术
    18. 杜兰,王兆成,王燕,魏迪,李璐. 复杂场景下单通道SAR目标检测及鉴别研究进展综述. 雷达学报. 2020(01): 34-54 . 百度学术
    19. 付哲泉,李尚生,李相平,但波,王旭坤. 基于高效可扩展改进残差结构神经网络的舰船目标识别技术. 电子与信息学报. 2020(12): 3005-3012 . 本站查看

    其他类型引用(17)

  • 加载中
图(7) / 表(3)
计量
  • 文章访问数:  291
  • HTML全文浏览量:  149
  • PDF下载量:  78
  • 被引次数: 36
出版历程
  • 收稿日期:  2023-12-18
  • 修回日期:  2024-09-25
  • 网络出版日期:  2024-09-30
  • 刊出日期:  2024-11-10

目录

/

返回文章
返回