Correlation Filter Algorithm Based on Adaptive Context Selection and Multiple Detection Areas
-
摘要: 为了进一步提高相关滤波算法的判别力和对快速运动、遮挡等复杂场景的应对能力,该文提出一种基于自适应背景选择和多检测区域的跟踪框架。首先对检测后的响应图进行峰值分析,当响应为单峰的时候,提取目标上下左右的4块区域作为负样本对模型进行训练,当响应为多峰的时候,采用峰值提取技术和阈值选择方法提取较大几个峰值区域作为负样本。为了进一步提高算法对遮挡的应对能力,该文提出了一种多检测区域的搜索策略。将该框架和传统的相关滤波算法进行结合,实验结果表明,相对于基准算法,该算法在精度上提高了6.9%,在成功率上提高了6.3%。Abstract: In order to improve further the discrimination ability of the correlation filtering algorithm and the ability to deal with fast motion and occlusion, a tracking framework based on adaptive context selection and multiple detection areas is proposed. Firstly, the peak value of the detected response map is analyzed. When the response is single peak, four areas surrounding the target are extracted as negative samples to train the model. When the response is multi-peak, the peak value extraction technology and threshold selection are used to extract several larger peak areas as negative samples. In order to improve further the ability to deal with occlusion, a multi detection area search strategy is proposed. Combining the framework with the traditional correlation filter algorithm, the experimental results show that the proposed algorithm improves the accuracy by 6.9% and the success rate by 6.3%.
-
Key words:
- Visual tracking /
- Correlation filter /
- Occlusion /
- Context selection
-
1. 引言
视觉跟踪是计算机视觉领域的重要问题,是实现场景分析与语义理解的前提和基础,近年来获得了广泛地关注与研究[1]。不管是在军事上还是民用上,视觉跟踪都有着广泛的应用场景。军事上可以用于无人机侦察、视觉导航、射击辅助等,在民用方面,视觉跟踪技术广泛应用于自动驾驶、视频监控、人机交互等领域。视觉跟踪主要分为单目标跟踪和多目标跟踪,现有的工作大多集中在单目标跟踪的研究上。在仅给定目标首帧信息的条件下,视觉跟踪的目的是在后续帧中实现对目标持续且稳定的跟踪。虽然经过了近三十年的发展,视觉跟踪依然难以处理大量富有挑战性的场景,例如相似物体的干扰、遮挡和目标丢失、目标快速运动与出视野等。
近年来,关于视觉跟踪的研究可以概括为两个分支,一个分支是基于孪生网络的跟踪[2-4],另一个分支是相关滤波算法[5-8]。基于相关滤波的改进主要可以分为两个方面,一方面是在特征上,从最初的单通道灰度特征[5]换到多通道的方向梯度直方图(Histogram of Oriented Gradient, HOG)特征[7]和颜色属性特征[8],随着深度学习的蓬勃发展,许多研究者将传统的手工特征替换为更加具有表达能力的深度特征[9-14],虽然处理速度越来越慢,但是性能上却实现了大幅度的提升。另一方面的改进集中模型上,最初的相关滤波算法可以视为一个简单的岭回归模型,判别力有限,同时由于样本的循环移位特性使得算法的性能受到边界效应的严重影响。对此,后续提出了采用滤波器系数惩罚[15]、样本裁剪[16-18]、时空正则化[19,20]等方法进行处理,取得了很好的效果,但是这些方面都是以牺牲速度换取精度上的提升。
对此,本文在模型训练和目标检测两个方面对算法的框架进行改进:(1)首先是在不破坏模型结构的前提下,通过自适应样本选择的方法提高模型的判别能力,通过峰值提取技术实现难负样本的挖掘,降低无效负样本的使用;(2)由于传统的相关滤波算法检测区域有限,且边界受到余弦窗的影响,使得算法对遮挡和快速运动等场景的应对能力较弱,对此,本文提出了一种简单且有效的多区域检测方法,在目标运动方向上增加两个检测区域,提高了算法的抗遮挡能力。
2. 本文算法
本文提出了一种基于自适应背景选择和多检测区域的相关滤波算法。首先对得到的响应图进行分析,自适应的选择背景块进行模型训练,并采用线性加权方式对模型进行更新。接着下一帧的检测阶段,采用多区域搜索的方式获得目标的位置信息。
2.1 相关滤波算法
在详细讨论本文算法之前,为了完整起见,首先对传统的相关滤波算法进行简要的介绍。跟踪算法从类别上可以分为生成式和判别式,而相关滤波作为判别式跟踪算法的一种,由于具有较好的判别能力和较快的速度受到了大量的关注与研究。从本质上讲,相关滤波可视为如式(1)的一个岭回归问题
minh‖F0∗h−g‖22+λ‖h‖22 (1) 其中,
F0 为训练样本,h 代表对应的目标模板,∗ 表示循环相关操作,g 是对应的理想回归响应,一般是高斯型的标签向量,λ 代表正则化系数且一般有λ≥0 。相关滤波算法受到广泛欢迎的一大原因是它的样本获取方式。传统的跟踪算法一般在目标周围采集训练样本,离目标较近的为正样本,较远的为负样本,这样的采样方式存在的问题是,当采集的样本不足时,训练得到的分类器判别力不够,如果采集大量样本会造成很大的运算负担。对此,相关滤波算法引入循环矩阵的思想,以较低的运算负担实现了在目标周围的密集采样。通过对单个样本f0 进行循环移位从而产生大量的训练样本,并将所有样本组合起来便得到训练样本循环矩阵F0 。同时由于F0 的循环结构特性,使得该岭回归问题在傅里叶域也可以很好的求解ˆh=ˆf∗0⊙ˆgˆf∗0⊙ˆf0+λ (2) 接着通过学习到的滤波器模板在下一帧中进行检测搜索,响应图的计算公式为
E=F−1(ˆz⊙ˆh) (3) 其中,
ˆz 表示搜索区域所构造的循环矩阵Z 的傅里叶变换;F−1 表示逆傅里叶变换,E 为计算出来的响应图。2.2 训练阶段——自适应背景选择
传统的相关滤波算法仅利用目标周围较小的区域作为训练样本,且在特征提取后进一步受到余弦窗的干扰,使得所获得的背景信息较为有限。为了进一步提高算法的判别能力,在已有的检测区域之外选择多个区域作为负样本进行训练。
在每一帧中,本文都会选择周围的多个区域,这些区域包含有丰富的背景信息,为了不破坏算法的闭合解,构建目标函数为
minh‖F0∗h−g‖22+λ1‖h‖22+λ2k∑i=1‖Fi∗h‖22 (4) 其中,
λ2 表示背景块的正则系数,对式(4)在傅里叶域进行求解得ˆh=ˆf∗0⊙ˆgˆf∗0⊙ˆf0+λ1+λ2k∑i=1ˆf∗i⊙ˆfi (5) 关于背景块的选择,本文在初始帧选择目标邻近的上下左右4个区域作为负样本[21],如图1(a)所示。在后续帧中主要是对得到的响应图进行分析,当响应为单峰时,依然采用初始帧的采样方式,当响应为多峰时,采用文献[22]提出的峰值检测技术提取多峰的响应位置和响应值。为了选取方便,本文采用最大响应值对响应图进行归一化,如式(6)所示
˜E=Emax(E) (6) 选择响应较高的区域作为接下来的背景样本
Fi ,如图1(b)和图1(c)的绿色框所示。2.3 检测阶段——多检测区域搜索
由于相关滤波算法采用固定大小的模板进行跟踪,使得算法对遮挡和快速运动等场景应对能力较弱。对此,很多算法从提高搜索框大小的角度出发,提出了大量的改进算法。但是直接扩大搜索区域反而会降低算法的性能,主要原因是模板引入了太多的背景信息。空间正则化相关滤波器(Spatially Regularized Discriminative Correlation Filter, SRDCF)[15]从对边界背景区域进行压制,使得背景区域系数的响应值较低,背景感知相关滤波器 (Background-Aware Correlation Filter, BACF)[17]从样本裁剪的角度,使得滤波器的大小保持在一个较小的尺度范围。但是这些方法都存在着算法复杂度过高的问题。对此,本文在滤波器大小固定的条件下,直接在多个区域进行检测,提取最大值响应作为目标的最终位置。如图2所示,当行人遮挡后再次出现,本文策略可以很好地实现对目标的重检测。
2.4 更新阶段
由于视觉跟踪是一个动态的过程,目标和背景都会发生各种各样的变化,为了适时地提高模型的判别能力,需要不断对跟踪模板进行更新。尤其是在相关滤波跟踪框架下,良好的模型更新策略将提高算法对复杂场景的处理能力,以防止出现跟踪漂移甚至目标丢失。在本文中,为了评价的公平性,采用每帧都更新的方式
ht=(1−α)ht−1+αh (7) 式中,
ht 表示当前帧更新后的滤波器模板,ht−1 表示更新前的模板,h 为当前帧训练的目标,α 为更新率。2.5 算法流程
本文跟踪算法的主要流程如表1所示。整体流程和判别式相关滤波器(Discriminative Correlation Filter, DCF)算法相同,首先提取多通道方向梯度直方图 (Histogram of Oriented Gradient, HOG)特征作为目标的表征,接着在初始帧上进行计算,获得初始的模板。接着,通过得到的滤波器模板在后续帧中进行检测,与传统的单一检测区域不同的是,本文采用多区域检测策略,获得目标在当前帧中的位置信息。最后根据响应图的峰值响应情况,选择特定的背景区域对模型进行训练和更新。
表 1 基于自适应背景选择和多检测区域的相关滤波算法输入:图像序列I1, I2, ···, In,目标初始位置p0=(x0, y0)。 输出:每帧图像的跟踪结果pt=(xt, yt)。 对于t=1, 2, ···, n, do: (1) 定位目标中心位置 (a) 利用前一帧目标位置pt-1确定第t帧ROI区域,并提取
HOG特征;(b) 利用式(3)在多个检测区域进行计算,获得多个响应图; (c) 提取多个响应图的最大值作为目标的中心位置pt。 (2) 模型更新 (a) 对得到的响应图计算峰值个数; (b) 当为单峰时,提取上下左右4个背景块进行模型更新; (c) 当为多峰时,选取峰值位置的背景块作为负样本,对模型
进行训练;(d) 采用式(7)对模型进行更新。 结束 3. 仿真实验
为验证本文提出的跟踪框架的有效性,将其与DCF算法[7]进行结合,并在OTB2015数据集[23]上将所提算法DCF_ACS(Adaptive Context Selection)与基于传统特征的多个算法进行性能比较,这些方法包括: DCF_CA[21], DCF[7], KCF[7], DSST[24], Struck[25], TLD[26], CSK[6], MTT[27], MIL[28], MOSSE_CA[20]。为了公平起见,所有算法均使用默认参数。其中,
λ1=0.1 ,λ2=25 ,模型的更新率α=0.015 。3.1 算法整体性能
本文采用跟踪精度、成功率以及跟踪速度3个指标在OTB数据集上对算法的性能进行评估,图3显示了跟踪精度和成功率的对比曲线图。相比于基准算法DCF,本文算法在精度上提高了6.9%,在成功率上提高了6.3%,表明了本文所提算法框架的有效性。和同样基于背景感知的CA框架相比,本文算法在精度上有3.2%的优势,在成功率上也明显高于基于CA框架的DCF算法。实验结果也进一步验证了本文跟踪框架的有效性。表2显示了几种跟踪算法在OTB2015上的性能和速度对比,在跟踪速度方面,DCF表现最好(333 fps),其次是MOSSE_CA(115 fps),而本文算法的运行速度为53.5 fps,虽然速度有所下降,但是在跟踪精度和成功率上均远高于上述两种算法。同时和基于检测的TLD相比,本文在速度上依然有着很大的优势。
表 2 算法跟踪速度对比本文算法 DCF_CA DCF DSST TLD MOSSE_CA 成功率 0.586 0.566 0.523 0.552 0.448 0.488 跟踪精度 0.808 0.776 0.739 0.731 0.633 0.642 跟踪速度(FPS) 53.5 82.3 333.0 28.3 33.4 115.0 3.2 定性分析
定性分析主要将本文算法和11种对比算法在5个具有挑战性的图像视频上进行对比,包括Couple, Freeman1, Jogging1, Bolt, Jogging2。如图4所示,本文算法能够很好地应对这些复杂场景。
(1) 快速运动:目标表观发生变化会导致当前帧信息与模板匹配程度降低,增加跟踪难度,特别是对于相关滤波而言,边界效应会导致边缘的样本割裂,快速运动的目标难以得到较好的响应。例如“Couple”,目标的快速运动和形变增加了跟踪难度,本文算法由于采用了多区域检测技术,使得算法可以获得更多的检测区域,对快速运动有着较好的应对能力。
(2) 目标形变:目标表观发生较大程度的变化会导致模板匹配的置信度较低,容易导致跟踪失败。以“Freeman1”为例,目标在第143帧后突然转头,使得表观变化较大,传统的DCF以及DCF_CA由于判别力不够,均丢失了目标。而本文算法由于具有更好的判别能力以及对多个区域的同时检测能力,可以很好地跟踪目标,进一步证明了难负样本挖掘在跟踪中的有效性。
(3) 目标遮挡:目标遮挡使得跟踪算法不能获得足够的目标信息而导致跟踪偏差或丢失。以“Jogging1”和“Jogging2”为例,目标在跟踪过程中受到背景遮挡,在“Jogging1”中70帧以后目标完全被遮挡,传统的DCF, KCF算法以及以及固定背景感知的DCF_CA算法均丢失了目标,仅有本文算法和TLD算法成功跟踪了目标。本文算法由于在检测阶段采用了多区域检测方法,使得当目标重新出现能够准确将其捕获,而其它算法由于模型破坏严重,无法重新检测到目标。
(4) 背景杂乱:相似物体的干扰对跟踪性能也会产生明显的影响,在“Bolt”中存在相似物体以及相似背景的影响,由于本文算法在滤波器训练过程中加入了难负样本,使得模型对相似物体的干扰具有更好的判别能力,可以实现稳定的跟踪。
4. 结束语
本文提出了一种基于自适应背景选择和多检测区域搜索的相关滤波算法。本文构建了一个通用的跟踪框架,在模型训练阶段,可以通过难负样本的挖掘,获得更加具有判别能力的跟踪模型,同时未破坏原始模型的闭合解,使得算法依然具有较快的跟踪速度。另一方面,在检测定位阶段,通过在多个区域进行同时检测,可以在一定程度上降低算法因为遮挡或者快速运动导致目标丢失的概率,使得算法具有一定的重检测能力。实验结果也表明了本文所提跟踪框架在基准算法上有较大幅度的性能提升。
-
表 1 基于自适应背景选择和多检测区域的相关滤波算法
输入:图像序列I1, I2, ···, In,目标初始位置p0=(x0, y0)。 输出:每帧图像的跟踪结果pt=(xt, yt)。 对于t=1, 2, ···, n, do: (1) 定位目标中心位置 (a) 利用前一帧目标位置pt-1确定第t帧ROI区域,并提取
HOG特征;(b) 利用式(3)在多个检测区域进行计算,获得多个响应图; (c) 提取多个响应图的最大值作为目标的中心位置pt。 (2) 模型更新 (a) 对得到的响应图计算峰值个数; (b) 当为单峰时,提取上下左右4个背景块进行模型更新; (c) 当为多峰时,选取峰值位置的背景块作为负样本,对模型
进行训练;(d) 采用式(7)对模型进行更新。 结束 表 2 算法跟踪速度对比
本文算法 DCF_CA DCF DSST TLD MOSSE_CA 成功率 0.586 0.566 0.523 0.552 0.448 0.488 跟踪精度 0.808 0.776 0.739 0.731 0.633 0.642 跟踪速度(FPS) 53.5 82.3 333.0 28.3 33.4 115.0 -
SMEULDERS A W M, CHU D M, CUCCHIARA R, et al. Visual tracking: An experimental survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(7): 1442–1468. doi: 10.1109/TPAMI.2013.230 HE Anfeng, LUO Chong, TIAN Xinmei, et al. A twofold Siamese network for real-time object tracking[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 4834–4843. doi: 10.1109/CVPR.2018.00508. LI Bo, YAN Junjie, WU Wei, et al. . High performance visual tracking with Siamese region proposal network[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 8971–8980. doi: 10.1109/CVPR.2018.00935. LI Peixia, CHEN Boyu, OUYANG Wanli, et al. GradNet: Gradient-guided network for visual object tracking[C]. 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea, 2019: 6162–6171. doi: 10.1109/ICCV.2019.00626. BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters[C]. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, USA, 2010: 2544–2550. doi: 10.1109/CVPR.2010.5539960. HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]. 12th European Conference on Computer Vision on Computer Vision, Florence, Italy, 2012: 702–715. doi: 10.1007/978-3-642-33765-9_50. HENRIQUES J F, CASEIRO R, MARTINS P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583–596. doi: 10.1109/tpami.2014.2345390 DANELLJAN M, KHAN F S, FELSBERG M, et al. Adaptive color attributes for real-time visual tracking[C]. 2014 IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 1090–1097. doi: 10.1109/CVPR.2014.143. DANELLJAN M, HÄGER G, KHAN F S, et al. Convolutional features for correlation filter based visual tracking[C]. 2015 IEEE International Conference on Computer Vision Workshop, Santiago, Chile, 2015: 58–66. doi: 10.1109/ICCVW.2015.84. QI Yuankai, ZHANG Shengping, QIN Lei, et al. Hedged deep tracking[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 4303–4311. doi: 10.1109/CVPR.2016.466. MA Chao, HUANG Jiabin, YANG Xiaokang, et al. Hierarchical convolutional features for visual tracking[C]. 2015 IEEE International Conference on Computer Vision, Santiago, Chile, 2015: 3074–3082. doi: 10.1109/ICCV.2015.352. WANG Haijun, ZHANG Shengyan, GE Hongjuan, et al. Robust visual tracking via semiadaptive weighted convolutional features[J]. IEEE Signal Processing Letters, 2018, 25(5): 670–674. doi: 10.1109/LSP.2018.2819622 QI Yuankai, ZHANG Shengping, QIN Lei, et al. Hedging deep features for visual tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(5): 1116–1130. doi: 10.1109/TPAMI.2018.2828817 ZHANG Tianzhu, XU Changsheng, and YANG M H. Learning multi-task correlation particle filters for visual tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(2): 365–378. doi: 10.1109/TPAMI.2018.2797062 DANELLJAN M, HÄGER G, KHAN F S, et al. Learning spatially regularized correlation filters for visual tracking[C]. 2015 IEEE International Conference on Computer Vision, Santiago, Chile, 2015: 4310–4318. doi: 10.1109/ICCV.2015.490. 蒲磊, 冯新喜, 侯志强, 等. 基于空间可靠性约束的鲁棒视觉跟踪算法[J]. 电子与信息学报, 2019, 41(7): 1650–1657. doi: 10.11999/JEIT180780PU Lei, FENG Xinxi, HOU Zhiqiang, et al. Robust visual tracking based on spatial reliability constraint[J]. Journal of Electronics &Information Technology, 2019, 41(7): 1650–1657. doi: 10.11999/JEIT180780 GALOOGAHI H K, SIM T, LUCEY S. Correlation filters with limited boundaries[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, 2015: 4630–4638. doi: 10.1109/CVPR.2015.7299094. PU Lei, FENG Xinxi, and HOU Zhiqiang. Learning temporal regularized correlation filter tracker with spatial reliable constraint[J]. IEEE Access, 2019, 7: 81441–81450. doi: 10.1109/ACCESS.2019.2922416 LI Feng, TIAN Cheng, ZUO Wangmeng, et al. Learning spatial-temporal regularized correlation filters for visual tracking[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 4904–4913. doi: 10.1109/CVPR.2018.00515. 侯志强, 王帅, 廖秀峰, 等. 基于样本质量估计的空间正则化自适应相关滤波视觉跟踪[J]. 电子与信息学报, 2019, 41(8): 1983–1991. doi: 10.11999/JEIT180921HOU Zhiqiang, WANG Shuai, LIAO Xiufeng, et al. Adaptive regularized correlation filters for visual tracking based on sample quality estimation[J]. Journal of Electronics &Information Technology, 2019, 41(8): 1983–1991. doi: 10.11999/JEIT180921 MUELLER M, SMITH N, GHANEM B, et al. Context-aware correlation filter tracking[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 1396–1404. doi: 10.1109/CVPR.2017.152. WANG Mengmeng, LIU Yong, HUANG Zeyi, et al. Large margin object tracking with circulant feature maps[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 4021–4029. doi: 10.1109/CVPR.2017.510. WU Yi, LIM J, and YANG M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834–1848. doi: 10.1109/TPAMI.2014.2388226 DANELLJAN M, HÄGER G, KHAN F S, et al. Accurate scale estimation for robust visual tracking[C]. British Machine Vision Conference 2014, Nottingham, UK, 2014: 65.1–65.11. doi: 10.5244/C.28.65. HARE S, GOLODETZ S, SAFFARI A, et al. Struck: Structured output tracking with kernels[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10): 2096–2109. doi: 10.1109/TPAMI.2015.2509974 KALAL Z, MIKOLAJCZYK K, and MATAS J. Tracking-learning-detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409–1422. doi: 10.1109/TPAMI.2011.239 ZHANG Tianzhu, GHANEM B, LIU Si, et al. Robust visual tracking via multi-task sparse learning[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012: 2042–2049. doi: 10.1109/CVPR.2012.6247908. BABENKO B, YANG M H, and BELONGIE S. Visual tracking with online multiple instance learning[C]. 2019 IEEE Conference on Computer Vision and Pattern Recognition, Miami, USA, 2009: 983–990. doi: 10.1109/CVPR.2009.5206737. 期刊类型引用(3)
1. 黄昱程,肖子旺,武丹凤,艾斯卡尔·艾木都拉. 时空融合与判别力增强的孪生网络目标跟踪方法. 智能系统学报. 2024(05): 1218-1227 . 百度学术
2. 李锦瑞,张轶. 基于注意力机制和不对称卷积的目标跟踪算法. 计算机工程与设计. 2023(10): 3110-3116 . 百度学术
3. 刘嘉敏,谢文杰,黄鸿,汤一明. 基于空间和通道注意力机制的目标跟踪方法. 电子与信息学报. 2021(09): 2569-2576 . 本站查看
其他类型引用(1)
-