结合双层路由感知和散射视觉变换的视觉-语言跟踪方法

刘仲民; 李振华; 胡文瑾

doi:10.11999/JEIT240257

结合双层路由感知和散射视觉变换的视觉-语言跟踪方法

doi: 10.11999/JEIT240257

刘仲民^{1, 3, ,},
李振华^{1, 3},
胡文瑾²

1.
兰州理工大学电气工程与信息工程学院兰州 730050
2.
西北民族大学数学与计算机科学学院兰州 730030
3.
甘肃省工业过程先进控制重点实验室兰州 730050

基金项目: 国家自然科学基金(62061042)，甘肃省自然科学基金(23JRRA796)，甘肃省工业过程先进控制重点实验室开发基金项目(2022KX10)

详细信息

作者简介:
刘仲民：男，副教授，研究方向为模式识别、图像修复、图像描述

李振华：男，硕士生，研究方向为目标跟踪

胡文瑾：女，教授，研究方向为图像修复、图像质量评价

通讯作者:
刘仲民　liuzhmx@163.com

中图分类号: TN911.73; TP391.4
计量
- 文章访问数: 239
- HTML全文浏览量: 105
- PDF下载量: 39
- 被引次数: 0
出版历程
- 收稿日期: 2024-04-09
- 修回日期: 2024-07-19
- 网络出版日期: 2024-08-03
- 刊出日期: 2024-11-10

Vision-Language Tracking Method Combining Bi-level Routing Perception and Scattered Vision Transformation

LIU Zhongmin^{1, 3
, ,},
LI Zhenhua^{1, 3},
HU Wenjin²

1.
College of Electrical and Information Engineering, Lanzhou University of Technology, Lanzhou 730050, China
2.
College of Mathematics and Computer Science, Northwest Minzu University, Lanzhou 730030, China
3.
Key Laboratory of Gansu Advanced Control for Industrial Processes, Lanzhou 730050, China

Funds: The National Natural Science Foundation of China(62061042), The Natural Science Foundation of Gansu Province(23JRRA796), The Open Fund Project of the Key Laboratory of Gansu Advanced Control for Industrial Processes (2022KX10)

摘要

摘要: 针对视觉-语言关系建模中存在感受野有限和特征交互不充分问题，该文提出一种结合双层路由感知和散射视觉变换的视觉-语言跟踪框架(BPSVTrack)。首先，设计了一种双层路由感知模块(BRPM)，通过将高效的加性注意力(EAA)与双动态自适应模块(DDAM)并行结合起来进行双向交互来扩大感受野，使模型更加高效地整合不同窗口和尺寸之间的特征，从而提高模型在复杂场景中对目标的感知能力。其次，通过引入基于双树复小波变换(DTCWT)的散射视觉变换模块(SVTM)，将图像分解为低频和高频信息，以此来捕获图像中目标结构和细粒度信息，从而提高模型在复杂环境下的鲁棒性和准确性。在OTB99, LaSOT, TNL2K 3个跟踪数据集上分别取得了86.1%, 64.4%, 63.2%的精度，在RefCOCOg数据集上取得了70.21%的准确率，在跟踪和定位方面的性能均优于基准模型。
- 视觉-语言跟踪 /
- 双层路由感知 /
- 散射视觉变换 /
- 高效的加性注意力 /
- 双动态自适应
Abstract: Considering the issues of limited receptive field and insufficient feature interaction in vision-language tracking framework combineing Bi-level routing Perception and Scattering Visual Trans-formation (BPSVTrack) is proposed in this paper. Initially, a Bi-level Routing Perception Module (BRPM) is designed which combines Efficient Additive Attention(EAA) and Dual Dynamic Adaptive Module(DDAM) in parallel to enable bidirectional interaction for expanding the receptive field. Consequently, enhancing the model’s ability to integrate features between different windows and sizes efficiently, thereby improving the model’s ability to perceive objects in complex scenes. Secondly, the Scattering Vision Transform Module(SVTM) based on Dual-Tree Complex Wavelet Transform(DTCWT) is introduced to decompose the image into low frequency and high frequency information, aiming to capture the target structure and fine-grained details in the image, thus improving the robustness and accuracy of the model in complex environments. The proposed framework achieves accuracies of 86.1%, 64.4%, and 63.2% on OTB99, LaSOT and TNL2K tracking datasets respectively. Moreover, it attains an accuracy of 70.21% on the RefCOCOg dataset, the performance in tracking and locating surpasses that of the baseline model.
- Vision-Language Tracking (VLT) /
- Bi-level routing perception /
- Scattering vision transform /
- Efficient Additive Attention (EAA) /
- Dual dynamic adaptation

HTML全文

1. 引言

视觉-语言跟踪^[1](Vision-Language Tracking, VLT)是一项涉及计算机视觉和自然语言处理的多模态任务，旨在根据自然语言描述和初始边界框从视频序列中准确地预测目标的运动轨迹。VLT技术在医疗诊断、安防监控、智能交通等领域有着重要的应用价值，能够为相关行业提供智能化的解决方案。

传统的基于边界框^[2](Bounding Box, BBox)的视觉目标跟踪方法不包含关于目标的直接语义信息，会导致跟踪模糊^[3]。现有的VLT方法^[4–6]通过引入自然语言为目标提供了清晰的语义信息，从而辅助跟踪器更准确地跟踪目标。Guo等人^[1]通过混合视觉-语言(Vision-Laugugae, VL)表示来提高跟踪模型的鲁棒性。Zhao等人^[7]通过动态模态聚合的方法有机地融合VL特征。Zhou等人^[8]通过联合VL构建了单个端到端的跟踪框架-具有自然语言规范的联合视觉定位和跟踪(Joint visual grounding and Tracking with Natural Language specification, JointNLT)。现有的VLT方法通过结合目标模板和自然语言描述来预测目标状态，提高了跟踪模型对目标语义信息的理解，解决了传统视觉目标跟踪方法导致的跟踪模糊问题，并实现了稳健的跟踪性能，但它们在跟踪过程中仍然面临着巨大的挑战。首先，视觉编码器在提取特征的过程中存在信息丢失和不充分传递，导致跟踪模型在一些复杂场景中对目标的感知能力变差。其次，融合模型直接进行特征交互忽略了视觉和语言模态在特征空间中的分布差异，导致VL表示学习的学习效率显著低下，不能有效地捕获图像中的目标结构和细粒度信息。为了解决上述问题，本文提出了一种结合双层路由感知和散射视觉变换的视觉-语言跟踪框架(vision-language tracking framework combining Bi-level routing Perception and Scattered Visual Transformation, BPSVTrack)，以提高跟踪性能。本文的主要贡献如下：

(1)提出一种双层路由感知模块，通过将高效的加性注意力模块与双动态自适应模块结合起来建立跨窗口连接，以扩大感受野。同时进行跨分支的双向交互，以在通道和空间维度上提供补充线索，使模型更加高效地整合不同窗口和尺寸之间的特征，从而避免信息丢失和不充分传递，以提高模型在复杂场景中对目标的感知能力。

(2)提出一种基于双树复小波变换的散射视觉变换模块，通过把图像分解为低频和高频特征为跟踪器提供更丰富的图像特征表示，以此来捕获图像中的目标结构和细粒度信息，从而提高模型在复杂环境下的鲁棒性和准确性。

(3)此外，由于常规卷积不能动态地调整卷积核来适应目标外观变化，提出一种双动态自适应模块，它能够以依赖输入的方式聚合稀疏的全局信息和局部细节，从而获得更有效的感受野。

2. 相关工作

2.1 视觉跟踪

基于边界框的视觉目标跟踪是一种通过在连续帧中定位目标对象边界框来实现跟踪的方法。在跟踪的过程中，视觉跟踪器根据第1帧中给定的边界框初始化其跟踪过程。受到Transformer^[9]在识别和检测方面成功应用的启发，最近的许多跟踪器^[7,10,11]都是基于Transformer架构开发的，并在许多跟踪数据集上取得了令人印象深刻的性能表现。基于Transformer的跟踪器(Tracker with Transformer, TrTr)^[12]使用Transformer编码器中的自注意力进行特征增强，并使用Transformer解码器中的交叉注意力在模板特征和搜索特征之间进行信息传播。用于视觉目标跟踪的空间频率Transformer模型(Spatial-Frequency Transformer framework for visual object Tracking, SFTransT)^[13]采用Transformer架构来捕获视频序列中空间和时间信息的全局特征依赖性。单流跟踪(One-Stream Tracking, OSTrack)^[14]将特征提取和交互过程结合起来构建了一个端到端跟踪框架。然而，这些视觉跟踪器由于缺乏语义信息的指导，在跟踪的过程中会产生视觉歧义，导致跟踪模糊。

2.2 视觉-语言跟踪

VLT是一种将自然语言处理与视觉目标跟踪任务结合的方法，旨在利用自然语言指导、增强视觉跟踪系统，以提高其交互性和鲁棒性。Li等人^[15]受到视觉定位任务的启发，定义了通过自然语言规范的视觉跟踪任务。Yang等人^[16]将问题分解为定位、跟踪、联合定位和跟踪3个子任务。Feng等人^[17]提出了一种通过检测进行自然语言跟踪的方法。Wang等人^[3]提出了由自然语言初始化和联合边界框和自然语言初始化的两个基准模型。Li等人^[4]采用针对特定目标位置和信息的检索模块定位目标，以初始化局部跟踪器。此外，Zhou等人^[8]通过联合定位和跟踪构建了单个端到端的VL跟踪框架JointNLT。与传统的视觉目标跟踪方法相比，VLT通过结合语义信息解决了边界框的模糊性，从而实现了更加灵活、稳健和准确的跟踪。然而，这些VLT方法利用视觉编码器提取特征的过程中存在信息丢失和不充分传递，同时融合模型直接进行特征交互忽略了视觉和语言模态在特征空间中的分布差异，导致跟踪性能不佳。因此，本文通过将双层路由感知和散射视觉变换模块集成到JointNLT框架中来实现更加先进的跟踪性能。

3. 本文方法

本文提出一种结合双层路由感知和散射视觉变换的跟踪框架，该框架通过集成双层路由感知和散射视觉变换模块构建了单个端到端的VLT框架，实现了自然语言辅助视觉跟踪。框架结构如图1所示。

图 1 结合双层路由感知和散射视觉变换的视觉-语言跟踪框架

下载: 全尺寸图片幻灯片

给定参考输入和测试图像，视觉和语言编码器首先将它们嵌入到特定的特征空间中，生成输入单词和图像的标记嵌入。然后，在视觉编码器后面采用双层路由感知模块建立跨窗口连接。接下来，通过两个线性投影层将语言和视觉标记嵌入投影到具有相同维度的隐藏空间。投影的标记嵌入被送到基于Transformer的VL关系建模模块，用于对多源参考和测试图像之间的关系进行建模，以增强测试图像嵌入的目标信息表示。随后，采用散射视觉变换模块捕获图像中的目标结构和细粒度信息，以提高目标跟踪的鲁棒性。目标解码器和定位头用于预测参考目标的边界框。在视觉跟踪过程中，语义引导的时间建模模块将为目标解码器生成时间线索，使模型能够利用历史目标状态。

3.1 双层路由感知模块

Swin Transformer采用分层的窗口注意力，使模型能够在不同分辨率下更好地捕获图像的全局和局部信息。但是这种层级式的窗口注意力影响模型对不同尺度和层级特征的捕获能力，在信息传递过程中存在丢失和不充分传递。为了更好的捕获图像的全局和局部信息，设计了一种双层路由感知模块(Bi-level Routing Perception Module, BRPM)，它由特征交互(Feature Interaction, FI)和标记压缩-增强(Squeezed Token Enhancer, STE)两部分组成，如图2所示。

图 2 双层路由感知模块

下载: 全尺寸图片幻灯片

具体来说，对于特征图 ${\boldsymbol{X}} \in {{R}^{C \times H \times W}}$ ，首先将其沿通道维度均匀划分为两个子特征图，表示为 $\{ {{\boldsymbol{X}}_1},{{\boldsymbol{X}}_2}\} \in {{R}^{C/2 \times H \times W}}$ 。随后， ${{\boldsymbol{X}}_1}$ 和 ${{\boldsymbol{X}}_2}$ 分别输入到高效的加性注意力(Efficient Additive Attention, EAA)和双动态自适应模块(Dual Dynamic Adaptive Module, DDAM)进行特征交互，输出特征图 $\{ {{\boldsymbol{X}}'_1},{{\boldsymbol{X}}'_2}\} \in {{R}^{C/2 \times H \times W}}$ ，然后将其沿通道维度拼接起来生成输出特征图。最后，采用STE来实现高效的局部标记聚合。总体而言，提出的双层感知模块可以表示为

$\quad {{\boldsymbol{X}}_1},{{\boldsymbol{X}}_2} = {\mathrm{Split}}({\boldsymbol{X}})$

(1)

$\quad {{\boldsymbol{X}}'_1} = {{\mathrm{EAA}}(}{\mathrm{CI}}({{\mathrm{DDAM}}(}{{\boldsymbol{X}}_2})) \times {{\boldsymbol{X}}_1})$

(2)

$\quad {{\boldsymbol{X}}'_2} = {\mathrm{SI}}({{\boldsymbol{X}}'_1}) \times {{\mathrm{DDAM}}(}{{\boldsymbol{X}}_2})$

(3)

${\boldsymbol{X}}' = {\mathrm{STE}}({\mathrm{Concat}}({{\boldsymbol{X}}'_1},{{\boldsymbol{X}}'_2}) + {\boldsymbol{X}})$

(4)

其中，Split(⋅)表示将特征图沿通道维度均匀划分为两个子特征图，CI(⋅)表示通道交互，SI(⋅)表示空间交互。

3.1.1 特征交互

为了同时建立局部和全局关系来扩大感受野，首先将EAA与DDAM并行结合起来。其次，引入跨分支的双向交互，这种相互作用抵消了权重共享机制带来的限制，同时为EAA和DDAM提供补充线索来增强通道和空间维度的建模能力。上述设计被集成到BRPM中，以实现跨窗口和维度的互补特征混合，解决了层级式局部窗口自注意力中感受野有限和建模能力弱的问题。

对于通道交互，它包含一个全局平均池化层、两个1×1卷积层、批归一化(Batch Normalization, BN)层和激活函数GELU层组成。最后，在通道维度上使用Sigmoid函数生成注意力。通道交互中，注意力模块的输入来自另一个并行分支，并且将通道交互的输出作用到注意力中的查询，而不是作用到注意力模块的输出。对于空间交互，它由两个1×1卷积层、BN层和激活函数GELU层组成。最后，使用Sigmoid函数生成空间注意力图。空间交互专注于空间维度，为DDAM分支提供了强有力的空间线索。

(1)高效的加性注意力。

为了更好地捕获全局上下文信息，引入了高效加性注意力来建立序列的长距离依赖关系。它通过删除典型注意力的键-值交互和合并线性投影层来有效编码查询-键交互学习标记之间的关系，如所示。使用两个变换矩阵 ${{\boldsymbol{W}}_{\boldsymbol{q}}}$ , ${{\boldsymbol{W}}_k}$ 将输入嵌入矩阵 ${{\boldsymbol{X}}_1}$ 转换为 ${\boldsymbol{Q}}$ (Query, Q)和 ${\boldsymbol{K}}$ (Key, K)，其中 ${\boldsymbol{Q}}, {\boldsymbol{K}} \in {{R}^{n \times d}}$ , ${{\boldsymbol{W}}_{{\boldsymbol{q}}}},{{\boldsymbol{W}}_{k}} \in {{R}^{d \times d}}$ ，n是标记长度，d是嵌入向量的维度。查询矩阵 ${\boldsymbol{Q}}$ 与可学习参数向量 ${{\boldsymbol{w}}_{\boldsymbol{a}}} \in {{R}^{1 \times d}}$ 相乘来学习查询向量的注意力权重，产生全局注意力权重向量 ${\boldsymbol{\alpha}} \in {{R}^n}$ ，如式(5)所示

图 3 高效的加性注意力

下载: 全尺寸图片幻灯片

${\boldsymbol{\alpha}} = {\boldsymbol{Q}} \cdot {{{{\boldsymbol{w}}_{\boldsymbol{a}}}} \mathord{\left/ {\vphantom {{{{\boldsymbol{w}}_a}} {\sqrt d }}} \right. } {\sqrt d }}$

(5)

然后，根据学习到的注意力权重对查询矩阵进行池化，产生单个全局查询向量 ${\boldsymbol{q}} \in {{R}^{1 \times d}}$ ，如式(6)所示

$_{ } {\boldsymbol{q = }}\sum\limits_{i = 1}^n {{{\boldsymbol{a}}_i}} \cdot {{\boldsymbol{Q}}_i}$

(6)

接下来，使用逐元素乘积对全局查询向量 ${\boldsymbol{q}} \in {{R}^{1 \times d}}$ 和键矩阵 ${\boldsymbol{K}} \in {{R}^{n \times d}}$ 之间的交互进行编码，形成全局上下文( ${{R}^{n \times d}}$ )。该矩阵可以捕获每个标记的信息，并且可以灵活地学习输入序列中的相关性。采用线性转换层进行查询-键交互，学习标记的隐藏表示。可以表示为

${{\boldsymbol{X}}'_1} = {\boldsymbol{\hat Q}} + {\boldsymbol{T}}({\boldsymbol{K}} \cdot {\boldsymbol{q}})$

(7)

其中， ${\boldsymbol{\hat Q}}$ 表示归一化查询矩阵， ${\boldsymbol{T}}$ 表示线性变换。

(2)双动态自适应模块。

为了捕获不同位置和大小的目标信息，并以动态依赖输入的方式进行局部特征聚合，提出了一种双动态自适应模块，如所示。首先对输入特征图 ${{\boldsymbol{X}}_2} \in {{R}^{C \times H \times W}}$ 使用可变核卷积^[18](Alterable Kernel Convolution, AKConv)动态地适应目标外观变化，接着通过自适应平均池化(Adaptive Pooling, AP)来动态聚合空间上下文信息，将空间维度压缩到 ${K^2}$ 。随后，通过两个连续的1×1卷积产生注意力图 ${\boldsymbol{A}}' \in {{R}^{(G \times C) \times {K^2}}}$ ，其中G表示注意力组的数量。然后，将 ${\boldsymbol{A}}'$ 重塑为 ${{R}^{G \times C \times {K^2}}}$ ，并在G维度上采用softmax函数，以生成注意力权重 ${\boldsymbol{A}} \in {{R}^{G \times C \times {K^2}}}$ 。最后， ${\boldsymbol{A}}$ 与一组可学习参数 ${\boldsymbol{P}} \in {{R}^{G \times C \times {K^2}}}$ 逐元素相乘，输出在G维度上求和，得到依赖输入的深度卷积核 ${\boldsymbol{W}} \in {{R}^{C \times {K^2}}}$ ，表示为

图 4 双动态自适应模块

下载: 全尺寸图片幻灯片

${\boldsymbol{A}}' = {{\mathrm{Conv}}}_{1 \times 1}^{\frac{C}{r} \to (G \times C)} \left({{\mathrm{Conv}}}_{1 \times 1}^{C \to \frac{C}{r}}({{\mathrm{AP}}}({{\mathrm{AKConv}}}({{\boldsymbol{X}}_2})))\right)$

(8)

${\boldsymbol{A}} = {{\mathrm{Softmax}}}({{\mathrm{Reshape}}}({\boldsymbol{A}}'))$

(9)

${\boldsymbol{W}} = \sum\limits_{i = 0}^G {{{\boldsymbol{P}}_i}} {{\boldsymbol{A}}_i}$

(10)

3.1.2 特征压缩增强

为了更好地混合拼接后的通道特征，提出了一种轻量级的标记压缩-增强器，包括特征压缩和特征增强，如图5所示。STE定义为

图 5 标记压缩-增强器

下载: 全尺寸图片幻灯片

$\begin{split} {{\mathrm{STE}}}({\boldsymbol{X}}) = \,&{{\mathrm{Conv}}}_{1 \times 1}^{\frac{C}{r} \to C}\\ & \cdot\left({{\mathrm{Conv}}}_{1 \times 1}^{C \to \frac{C}{r}}({{\mathrm{DWCon}}}{{{\mathrm{v}}}_{3 \times 3}}({\boldsymbol{X}}))\right) + {\boldsymbol{X}} \end{split}$

(11)

(1)特征增强。特征增强旨在通过深度卷积在压缩特征之前提取更有用和丰富的特征信息。输入特征图通过3×3深度卷积在每个输入通道上独立进行卷积操作，从而捕获每个通道内部的空间特征，实现特征增强。

(2)特征压缩。特征压缩旨在通过1×1卷积减少特征图的通道数，从而降低计算复杂度和内存占用，同时保留重要的信息。输入特征图首先通过1×1卷积将特征维度从 $C$ 压缩到 $C/r$ ，然后将压缩后的特征维度从 $C/r$ 恢复到原始的 $C$ 。这个过程使模块输出与输入具有相同的通道数，便于嵌入更大的网络结构。

3.2 散射视觉变换模块

在特征融合阶段，利用Transformer进行VL关系建模，这种特征交互忽略了特征空间中视觉和语言模态之间的分布差异，导致VL表示学习的学习效率显著低下，无法有效捕获图像中的目标结构和细粒度信息，而且这种操作是不可逆转的，会导致信息丢失。因此，设计了一种散射视觉变换模块(Scattering Vision Transform Module, SVTM)。首先，输入特征通过散射变换获得低频(Low-Frequency, LF)和高频(High-Frequency, HF)分量。然后，使用张量混合方法(Tensor Blending Method, TBM)和爱因斯坦混合方法(Einstein Blending Method, EBM)分别获得分量的低频表示(Low-Frequency Representation, LFR)和高频表示(High-Frequency Representation, HFR)。最后，对LFR和HFR进行逆散射变换得到特征输出。SVTM由3个部分组成：散射变换、频谱门控网络、频谱通道和标记混合，如图6所示。

图 6 散射视觉变换模块

下载: 全尺寸图片幻灯片

3.2.1 散射变换

为了进行散射变换，捕获图像中的细粒度信息和全局信息，引入双树复小波变换^[19](Dual-Tree Complex Wavelet Transform, DTCWT)。DTCWT在高维空间有更好的方向选择性，可以更容易地检测图像的边缘和方向特征。给定特征 ${\boldsymbol{X}} \in {{R}^{C \times H \times W}}$ ，通过使用DTCWT进行散射变换 ${{\boldsymbol{X}}_F} = {\mathcal{F}_{{{\mathrm{scatter}}}}}({\boldsymbol{X}})$ 获得相应的频率表示 ${{\boldsymbol{X}}_F}$ 。频域中的变换 ${{\boldsymbol{X}}_F}$ 提供两个分量：(1)低频分量(缩放分量) ${{\boldsymbol{X}}_\phi }$ ；(2)高频分量(小波分量) ${{\boldsymbol{X}}_\psi }$ 。 ${\mathcal{F}_{{\text{DTCWT}}}}( \cdot )$ 实部的简化公式为

$\left. \begin{gathered} {{\boldsymbol{X}}_F}(u,v) = {{\boldsymbol{X}}_\phi }(u,v) + {{\boldsymbol{X}}_\psi }(u,v) \\ {{\boldsymbol{X}}_\phi }(u,v) = \sum\limits_{h = 0}^{H - 1} {} \sum\limits_{w = 0}^{W - 1} {{c_{M,h,w}}} {\phi _{M,h,w}} \\ {{\boldsymbol{X}}_\psi }(u,v) = \sum\limits_{m = 0}^{M - 1} {} \sum\limits_{h = 0}^{H - 1} {} \sum\limits_{w = 0}^{W - 1} {} \sum\limits_{k = 1}^6 {d_{m,h,w}^k} \psi _{m,h,w}^k \\ \end{gathered} \right\}$

(12)

其中，M指分辨率，k指方向选择性。 ${c_{M,h,w}}$ 指分辨率为M，位置 $(h,w)$ 处的缩放系数， $d_{m,h,w}^k$ 指分辨率为 $m$ ，方向 $k$ 和位置 $(h,w)$ 处的小波系数。类似地，可以计算 ${\mathcal{F}_{\rm{DTCWT}}}( \cdot )$ 虚部分量的变换。

3.2.2 频谱门控网络

为了从散射变换的低频和高频分量中提取频谱特征，设计了一种频谱门控网络(Spectrum Gated Network, SGN)，如所示。SGN使用可学习的权重参数来混合每个频率分量，并且对低频和高频分量使用不同的混合方法。对于低频分量 ${{\boldsymbol{X}}_\phi } \in {{R}^{C \times H \times W}}$ 使用TBM。TBM通过混合低频分量 ${{\boldsymbol{X}}_\phi }$ 和可学习权重参数 ${{\boldsymbol{W}}_\phi }$ 来捕捉图像整体亮度、对比度、边缘和轮廓等全局信息。TBM表示为

${{\boldsymbol{{M}}}_\phi } = [{{\boldsymbol{X}}_\phi } \odot {{\boldsymbol{{W}}}_\phi }]$

(13)

其中， $({{\boldsymbol{X}}_\phi },{{\boldsymbol{{W}}}_\phi }) \in {{R}^{C \times H \times W}}$ , ${{\boldsymbol{{W}}}_\phi }$ 具有与 ${{{\boldsymbol{X}}}_\phi }$ 相同的尺寸， ${{\boldsymbol{{M}}}_\phi }$ 是图像的低频表示，它捕获图像的全局信息。

对于高频分量 ${{\boldsymbol{X}}_\psi } \in {{R}^{k \times C \times H \times W \times 2}}$ 使用EBM。EBM通过混合高频分量 ${{\boldsymbol{X}}_\psi }$ 和可学习权重参数 ${{\boldsymbol{W}}_\psi }$ 来捕捉图像中的纹理、图案和小特征等细粒度信息。为了构建EBM，首先从 ${{R}^{H \times W \times C}}$ 到 ${{R}^{H \times W \times {C_b} \times {C_d}}}$ 重塑一个张量 ${\boldsymbol{A}}$ ，其中 $C = {C_b} \times {C_d}$ , $b \gg d$ 。然后定义一个大小为 ${\boldsymbol{W}} \in {{R}^{{C_b} \times {C_d} \times {C_d}}}$ 权重矩阵。最后沿着最后两个维度在 ${\boldsymbol{A}}$ 和 ${\boldsymbol{W}}$ 之间进行爱因斯坦乘法，得到一个混合特征张量 ${\boldsymbol{Y}} \in {{R}^{H \times W \times {C_b} \times {C_d}}}$ 。EBM表示为

$_{ } {{\boldsymbol{Y}}^{H \times W \times {C_b} \times {C_d}}} = {{\boldsymbol{A}}^{H \times W \times {C_b} \times {C_d}}}{\boxed * ^{}}{{\boldsymbol{W}}^{{C_b} \times {C_d} \times {C_d}}}$

(14)

其中， $\boxed *$ 表示爱因斯坦乘法。

3.2.3 频谱通道和标记混合

在高频分量的通道维度中进行EBM，称为频谱通道混合(Spectrum Channel Mixing, SCM)。为了在通道维度上进行EBM，首先把高频分量 ${{\boldsymbol{X}}_\psi }$ 从 ${{R}^{2 \times k \times H \times W \times C}}$ 塑为 ${{R}^{2 \times k \times H \times W \times {C_b} \times {C_d}}}$ ，其中 $C = {C_b} \times {C_d}$ , $b \gg d$ 。然后定义一个大小为 ${{\boldsymbol{W}}_{{\psi _c}}} \in {{R}^{{C_b} \times {C_d} \times {C_d}}}$ 的权重矩阵，沿着最后两个维度在 ${{\boldsymbol{X}}_\psi }$ 和 ${\boldsymbol{W}}$ 之间进行爱因斯坦乘法，得到混合特征张量 ${{\boldsymbol{S}}_{{\psi _c}}} \in {{R}^{2 \times k \times H \times W \times {C_b} \times {C_d}}}$ 。通道混合中EBM表示为

$\begin{split} {\boldsymbol{S}}_{{\psi _c}}^{2 \times k \times H \times W \times {C_b} \times {C_d}} =\,& {\boldsymbol{X}}_\psi ^{2 \times k \times H \times W \times {C_b} \times {C_d}}\\ & {\boxed * ^{}}{\boldsymbol{W}}_{{\psi _c}}^{{C_b} \times {C_d} \times {C_d}} + {b_{{\psi _c}}} \end{split}$

(15)

在高频分量的标记维度中进行EBM，称为频谱标记混合(Spectrum Token Mixing, STM)。为了在标记维度上进行EBM，首先将高频分量 ${{\boldsymbol{S}}_{{\psi _c}}}$ 从 ${\mathbb{R}^{2 \times k \times H \times W \times C}}$ 重塑为 ${{\mathbb R}^{2 \times k \times C \times W \times H}}$ ，其中 $H = W$ 。然后定义一个大小为 ${{\boldsymbol{W}}_{{\psi _t}}} \in {{R}^{W \times H \times H}}$ 的权重矩阵，沿着最后两个维度在 ${{\boldsymbol{X}}_\psi }$ 和 ${\boldsymbol{W}}$ 之间进行爱因斯坦乘法，得到混合特征张量 ${{\boldsymbol{S}}_{{\psi _c}}} \in {{R}^{2 \times k \times C \times W \times H}}$ 。标记混合中EBM表示为

$_{ } {\boldsymbol{S}}_{{\psi _t}}^{2 \times k \times C \times W \times H} = {\boldsymbol{X}}_{{\psi _c}}^{2 \times k \times C \times W \times H}{\boxed * ^{}}{\boldsymbol{W}}_{{{\psi}}_t}^{W \times H \times H} + {b_{{\psi _t}}}$

(16)

式(15)、式(16)中，偏置项 ${b_{{\psi _c}}} \in {{R}^{{C_b} \times {C_d}}}$ , ${b_{{\psi _t}}} \in {{R}^{H \times H}}$ 。EBM使用标准的torch包^[20]来实现。

4. 实验结果和分析

4.1 数据集和参数设置

实验数据集采用RefCOCOg-google^[21], OTB99^[15], LaSOT^[22]和TNL2K^[3]。使用来自Transformer的双向编码器表示(Bidirectional Encoder Representations from Transformers, BERT)^[23]作为语言编码器，Swin-B^[24]作为视觉编码器。模板图像和搜索图像的尺寸分别设置为128×128和320×320。设定自然语言序列的最大长度设置为40，其中包括CLS和SEP标记。在4个数据集上以1:1:1:1的采样方式在NVIDIA GeForce RTX 3090 GPU训练模型，使用GIoU损失和L1损失来监督模型的学习。模型训练迭代次数设置为300，初始学习率为5e–4，并采用预热策略。视觉和语言编码器以及其他参数的学习率在前30个时期分别线性增加到1e–5和1e–4。在第200个epoch之后，学习率每50个epoch下降10。使用曲线下面积(Area Under the Curve, AUC)和精度(Precision, Pre)在具有自然语言描述的跟踪数据集OTB99, LaSOT, TNL2K上评估跟踪模型。此外，在RefCOCOg的Google-split验证集上评估视觉定位模型，并报告Top-1准确性。

4.2 消融实验

为了验证每个主要组件对模型的贡献。为此，本文对每个模块进行了消融研究。

(1)JointNLT+BRPM：在基准模型JointNLT中引入双层路由感知模块。

(2)JointNLT+SVT：在基准模型JointNLT中引入散射视觉变换模块。

(3)JointNLT+BRPM+SVT：在基准模型JointNLT中同时引入双层路由感知模块和散射视觉变换模块。

实验结果见表1。本文模型在跟踪任务中表现更佳，其跟踪精度在数据集LaSOT和TNL2K分别达到了0.612和0.563，相较于基准模型JointNLT分别提高了1.9%和1.3%。它能够更好地结合来自自然语言和图像信息，更有效地适应目标的外观变化，并利用这些信息来提高目标跟踪的准确性和鲁棒性。

表 1 模型的3种变体在数据集LaSOT和TNL2K上的AUC和Pre

变体	LaSOT		TNL2K
变体	AUC	Pre	AUC	Pre
JointNLT	0.569	0.593	0.546	0.550
JointNLT +BRPM	0.547	0.569	0.521	0.516
JointNLT +SVT	0.562	0.580	0.543	0.539
JointNLT +BRPM+SVT	0.574	0.612	0.550	0.563

下载: 导出CSV

| 显示表格

为了验证双层路由感知模块中各组件的贡献，本文对BRPM进行了消融实验。

(1) BRPM-FI：BRPM中移除FI。

(2) EAA-O：BRPM中只使用EAA。

(3) DDAM-O：BRPM中只使用DDAM。

(4) BRPM-STE：BRPM中移除STE。

实验结果见表2。当在BRPM中移除FI，仅采用并行的EAA和DDAM时，在LaSOT和TNL2K数据集上分别取得了0.560和0.504的精度得分，相较于BRPM精度分别下降了0.9%和1.2%。这表明特征交互对EAA和DDAM互相提供补充线索的有效性，可以更好地整合全局和局部信息。当分别采用EAA和DDAM时，在LaSOT和TNL2K数据集上的精度相当，但是仅采用DDAM的精度得分AUC均高于仅采用EAA，这表明DDAM可以和动态地捕获不同位置，和大小目标的信息，进行准确的跟踪。当在BRPM中移除STE时，在LaSOT和TNL2K数据集上分别取得了0.564和0.512的精度得分，相较于BRPM精度分别下降了0.5%和0.4%。这表明STE可以增强重要的特征信息并压缩不重要的特征信息，使BRPM更具鲁棒性。

表 2 双层路由感知模块在LaSOT和TNL2K上的AUC和Pre

模型	LaSOT		TNL2K
模型	AUC	Pre	AUC	Pre
BRPM	0.547	0.569	0.521	0.516
BRPM-FI	0.538	0.560	0.517	0.504
EAA-O	0.537	0.554	0.513	0.507
DDAM-O	0.540	0.559	0.517	0.510
BRPM-STE	0.539	0.564	0.515	0.512

下载: 导出CSV

| 显示表格

为了验证标记压缩-增强模块中压缩过程对模型跟踪精度和参数量(Params, P)的影响，本文对STE进行了消融实验，结果见表3。

表 3 标记压缩-增强模块在数据集LaSOT和TNL2K上的PRE和P

模型	LsSOT	TNL2K	模型
模型	PRE	PRE	模型
STE-S	0.569	0.516	155.4M
STE-NS	0.563	0.511	155.9M

下载: 导出CSV

| 显示表格

(1) STE-NS：STE中使用1×1卷积，不对通道 $C$ 进行压缩。

(2) STE-S：STE中使用1×1卷积，对通道 $C$ 进行缩减率为16的压缩。

实验结果表明，在精度方面，STE-NS在LaSOT和TNL2K数据集上分别取得了0.563和0.511的精度得分，相较于STE-S，精度分别下降了0.6%和0.5%，这表明特征压缩通过线性组合通道信息，保留了重要的特征，压缩了不重要的特征信息，使STE更具鲁棒性。在参数量方面，STE-S的参数量为155.4M，相较于STE-NS参数量增加了0.5M，这表明特征压缩可以有效地减少参数量，使STE在保证精度的情况下减少了模型的复杂度。

为了评估BPSVTrack的性能，比较通过视觉-语言验证和迭代推理改进的视觉定位(improving Visual Grounding with Visual-Linguistic verification and iterative reasoning, VLTVG)^[25]和用于视觉跟踪的时空变压器网络(Spatio-Temporal transformer network for visual tracking, STARK)^[26]、OSTrack-384^[14]以及基准模型JointNLT^[8]在浮点运算次数(FLoating Point of Operations, FLOPs)、推理时间(frames per second, fps)、P和AUC方面的差异，结果见表4。本文方法在LaSOT和TNL2K上的表现出色，AUC得分分别达到了0.574和0.550。然而，这也导致了计算速度、推理时间和参数量方面都略高于基准模型JointNLT。

表 4 分离方法和联合方法以及定位和跟踪之间的比较

		分离的方法			联合的方法
		VLTVG+STARK	VTLVG+OSTrack	SepRM	JointNLT	BPSVTrack
FLOPs	定位	39.6G	39.6G	34.7G	34.9G	35.9G
FLOPs	跟踪	20.4G	48.3G	38.5G	42.0G	43.1G
fps	定位	28.2 ms	28.2 ms	26.4 ms	34.8 ms	36.0 ms
fps	跟踪	22.9 ms	8.3 ms	20.6 ms	25.3 ms	28.4 ms
P	总量	169.8M	214.7M	214.4M	153.0M	155.4M
AUC	LaSOT	0.446	0.524	0.518	0.569	0.574
AUC	TNL2K	0.373	0.399	0.491	0.546	0.550

下载: 导出CSV

| 显示表格

4.3 对比试验

4.3.1 自然语言初始化跟踪

为验证模型的优越性，将其与仅使用自然语言进行初始化的先进的跟踪器以及使用边界框进行初始化的经典跟踪器进行比较。测试结果如表5所示，其中“–”表示没有此项指标，最佳结果和较好的两个结果用粗体和下划线标记，BB和NL分别表示边界框和自然语言。

表 5 不同方法在数据集OTB99, LaSOT和TNL2K上的AUC和Pre

方法	来源	初始化方式	OTB99		LaSOT		TNL2K
方法	来源	初始化方式	AUC	Pre	AUC	Pre	AUC	Pre
AutoMatch^[27]	ICCV21	BB	–	–	0.583	0.599	0.472	0.435
TrDiMP^[28]	CVPR21	BB	–	–	0.639	0.663	0.523	0.528
TransT^[29]	CVPR21	BB	–	–	0.649	0.690	0.507	0.517
STARK^[26]	ICCV21	BB	–	–	0.671	0.712	–	–
KeepTrack^[30]	ICCV21	BB	–	–	0.671	0.702	–	–
SwinTrack-B^[31]	NeurIPS22	BB	–	–	0.696	0.741	–	–
OSTrack-384^[14]	ECCV2022	BB	–	–	0.711	0.776	0.559	–
TNLS-II^[15]	CVPR17	NL	0.250	0.290	–	–	–	–
RTTNLD^[17]	WACV20	NL	0.540	0.780	0.280	0.280	–	–
GTI^[16]	TCSVT20	NL	0.581	0.732	0.478	0.476	–	–
TNL2K-1^[3]	CVPR21	NL	0.190	0.240	0.510	0.490	0.110	0.060
CTRNLT^[4]	CVPR22	NL	0.530	0.720	0.520	0.510	0.140	0.090
JointNLT	CVPR23	NL	0.592	0.776	0.569	0.593	0.546	0.550
BPSVTrack	本文	NL	0.603	0.786	0.574	0.612	0.550	0.563
TNLS-III^[15]	CVPR17	NL+BB	0.550	0.720	–	–	–	–
RTTNLD	WACV20	NL+BB	0.610	0.790	0.350	0.350	0.250	0.270
TNL2K-2^[3]	CVPR21	NL+BB	0.680	0.880	0.510	0.550	0.420	0.420
SNLT^[5]	CVPR21	NL+BB	0.666	0.804	0.540	0.576	0.276	0.419
VLTTT^[3]	NeurIPS22	NL+BB	0.764	0.931	0.673	0.721	0.531	0.533
JointNLT	CVPR23	NL+BB	0.653	0.856	0.604	0.636	0.569	0.581
BPSVTrack	本文	NL+BB	0.664	0.861	0.621	0.644	0.609	0.632

下载: 导出CSV

| 显示表格

在TNL2K数据集上与使用NL进行初始化的TNL2K-1和CTRNLT方法相比，BPSVTrack方法在AUC和精度方面分别取得了44.0%, 41.0%和50.3%, 47.3%的显著性能提升，验证了所提方法的有效性。此外，与基准模型JointNLT相比，在AUC和精度方面均取得了显著的性能提升。在OTB99上取得了0.603的AUC得分，均优于最近提出的先进的自然语言跟踪器，从而验证了本文方法的有效性。

4.3.2 联合自然语言和边界框初始化跟踪

为验证模型的优越性，将其与联合NL和BB进行初始化的跟踪器进行比较，测试结果见表4。

在TNL2K数据集上，与基准模型相比，本文模型在AUC和精密度方面分别提高了4%和5.1%。在LaSOT数据集上取得了0.621的AUC分数和0.644的精度分数，验证了BPSVTrack方法的有效性。在OTB99数据集上，BPSVTrack的AUC得分为0.664，精度得分为0.861。由于BPSVTrack主要针对的是VL跟踪，在OTB99和LaSOT数据集上的得分均低于VLTTT得分，性能与SNLT和TNL2K-2相当。

4.3.3 视觉定位性能

为了验证在视觉定位方面的性能，在RefCOCOg的Google-split验证集上评估了视觉定位模型，并报告Top-1准确性，结果见表6。BPSVTrack方法在准确率方面相较于基准模型JointNLT提高了0.14%。与先进的视觉定位算法VLTVG相比，准确性略低，但均高于其他所列算法的准确性。这表明BPSVTrack方法能够准确的识别目标对象。

表 6 在RefCOCOg验证集上与视觉定位算法的比较

方法	NMTree^[32]	LBYL-Net^[33]	ReSC-Large^[34]	TransVG^[35]	VLTVG^[25]	JointNLT	BPSVTrack
准确率	0.618	0.6270	0.6312	0.6702	0.7298	0.7007	0.7021

下载: 导出CSV

| 显示表格

4.3.4 定性对比

为了研究BRPM+SVT的有效性，对TNL2K中的3个具有挑战性序列的跟踪结果进行了可视化。在跟踪过程中主要面临的挑战分别是存在对抗性样本，目标外观变化和目标脱离视野，如图7所示。通过可视化可以观察到BPSVTrack在性能上优于其他大多数跟踪器。例如，在第2个序列中，TNL2K-1一开始无法准确预测目标框，随着目标外观的变化，VLTTT和OSTrack逐渐预测的目标框变得不准确。相比之下，本文方法预测的目标框更准确。

图 7 3种具有挑战性序列上的定性比较

下载: 全尺寸图片幻灯片

5. 结论

本文提出了一种结合双层路由感知和散射视觉变换的视觉-语言跟踪方法，解决了VL关系建模中存在的感受野有限和特征交互不充分问题，从而提高了目标跟踪的鲁棒性和准确性。基于现有的研究成果，采用高效的加性注意力和双动态自适应模块设计了一种双层路由感知模块，以扩大感受野，从而使模型更加高效地整合不同窗口和尺寸之间的特征。最后，通过轻量级的特征压缩-增强器对混合后的标记进行压缩和增强，以减少计算开销。此外，利用双树复小波变换设计了一种散射视觉变换模块，以捕获图像中的目标结构和细粒度信息，缓解了视觉和语言模态之间的分布差异。实验结果表明，本文方法在自然语言跟踪数据集LaSOT, TNL2K, OTB99和视觉定位数据集RefCOCOg上与其它跟踪算法相比取得了良好的性能。

图 1 结合双层路由感知和散射视觉变换的视觉-语言跟踪框架

下载: 全尺寸图片幻灯片

图 2 双层路由感知模块

下载: 全尺寸图片幻灯片

图 3 高效的加性注意力

下载: 全尺寸图片幻灯片

图 4 双动态自适应模块

下载: 全尺寸图片幻灯片

图 5 标记压缩-增强器

下载: 全尺寸图片幻灯片

图 6 散射视觉变换模块

下载: 全尺寸图片幻灯片

图 7 3种具有挑战性序列上的定性比较

下载: 全尺寸图片幻灯片

表 1 模型的3种变体在数据集LaSOT和TNL2K上的AUC和Pre

变体	LaSOT		TNL2K
变体	AUC	Pre	AUC	Pre
JointNLT	0.569	0.593	0.546	0.550
JointNLT +BRPM	0.547	0.569	0.521	0.516
JointNLT +SVT	0.562	0.580	0.543	0.539
JointNLT +BRPM+SVT	0.574	0.612	0.550	0.563

下载: 导出CSV

表 2 双层路由感知模块在LaSOT和TNL2K上的AUC和Pre

模型	LaSOT		TNL2K
模型	AUC	Pre	AUC	Pre
BRPM	0.547	0.569	0.521	0.516
BRPM-FI	0.538	0.560	0.517	0.504
EAA-O	0.537	0.554	0.513	0.507
DDAM-O	0.540	0.559	0.517	0.510
BRPM-STE	0.539	0.564	0.515	0.512

下载: 导出CSV

表 3 标记压缩-增强模块在数据集LaSOT和TNL2K上的PRE和P

模型	LsSOT	TNL2K	模型
模型	PRE	PRE	模型
STE-S	0.569	0.516	155.4M
STE-NS	0.563	0.511	155.9M

下载: 导出CSV

表 4 分离方法和联合方法以及定位和跟踪之间的比较

		分离的方法			联合的方法
		VLTVG+STARK	VTLVG+OSTrack	SepRM	JointNLT	BPSVTrack
FLOPs	定位	39.6G	39.6G	34.7G	34.9G	35.9G
FLOPs	跟踪	20.4G	48.3G	38.5G	42.0G	43.1G
fps	定位	28.2 ms	28.2 ms	26.4 ms	34.8 ms	36.0 ms
fps	跟踪	22.9 ms	8.3 ms	20.6 ms	25.3 ms	28.4 ms
P	总量	169.8M	214.7M	214.4M	153.0M	155.4M
AUC	LaSOT	0.446	0.524	0.518	0.569	0.574
AUC	TNL2K	0.373	0.399	0.491	0.546	0.550

下载: 导出CSV

表 5 不同方法在数据集OTB99, LaSOT和TNL2K上的AUC和Pre

方法	来源	初始化方式	OTB99		LaSOT		TNL2K
方法	来源	初始化方式	AUC	Pre	AUC	Pre	AUC	Pre
AutoMatch^[27]	ICCV21	BB	–	–	0.583	0.599	0.472	0.435
TrDiMP^[28]	CVPR21	BB	–	–	0.639	0.663	0.523	0.528
TransT^[29]	CVPR21	BB	–	–	0.649	0.690	0.507	0.517
STARK^[26]	ICCV21	BB	–	–	0.671	0.712	–	–
KeepTrack^[30]	ICCV21	BB	–	–	0.671	0.702	–	–
SwinTrack-B^[31]	NeurIPS22	BB	–	–	0.696	0.741	–	–
OSTrack-384^[14]	ECCV2022	BB	–	–	0.711	0.776	0.559	–
TNLS-II^[15]	CVPR17	NL	0.250	0.290	–	–	–	–
RTTNLD^[17]	WACV20	NL	0.540	0.780	0.280	0.280	–	–
GTI^[16]	TCSVT20	NL	0.581	0.732	0.478	0.476	–	–
TNL2K-1^[3]	CVPR21	NL	0.190	0.240	0.510	0.490	0.110	0.060
CTRNLT^[4]	CVPR22	NL	0.530	0.720	0.520	0.510	0.140	0.090
JointNLT	CVPR23	NL	0.592	0.776	0.569	0.593	0.546	0.550
BPSVTrack	本文	NL	0.603	0.786	0.574	0.612	0.550	0.563
TNLS-III^[15]	CVPR17	NL+BB	0.550	0.720	–	–	–	–
RTTNLD	WACV20	NL+BB	0.610	0.790	0.350	0.350	0.250	0.270
TNL2K-2^[3]	CVPR21	NL+BB	0.680	0.880	0.510	0.550	0.420	0.420
SNLT^[5]	CVPR21	NL+BB	0.666	0.804	0.540	0.576	0.276	0.419
VLTTT^[3]	NeurIPS22	NL+BB	0.764	0.931	0.673	0.721	0.531	0.533
JointNLT	CVPR23	NL+BB	0.653	0.856	0.604	0.636	0.569	0.581
BPSVTrack	本文	NL+BB	0.664	0.861	0.621	0.644	0.609	0.632

下载: 导出CSV

表 6 在RefCOCOg验证集上与视觉定位算法的比较

方法	NMTree^[32]	LBYL-Net^[33]	ReSC-Large^[34]	TransVG^[35]	VLTVG^[25]	JointNLT	BPSVTrack
准确率	0.618	0.6270	0.6312	0.6702	0.7298	0.7007	0.7021

下载: 导出CSV

参考文献(35)

[1]	GUO Mingzhe, ZHANG Zhipeng, JING Liping, et al. Divert more attention to vision-language object tracking[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. doi: 10.1109/TPAMI.2024.3409078.
[2]	许廷发, 王颖, 史国凯, 等. 深度学习单目标跟踪方法的基础架构研究进展[J]. 光学学报, 2023, 43(15): 1510003. doi: 10.3788/AOS230746. XU Tingfa, WANG Ying, SHI Guokai, et al. Research progress in fundamental architecture of deep learning-based single object tracking method[J]. Acta Optica Sinica, 2023, 43(15): 1510003. doi: 10.3788/AOS230746.
[3]	WANG Xiao, SHU Xiujun, ZHANG Zhipeng, et al. Towards more flexible and accurate object tracking with natural language: Algorithms and benchmark[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 13758–13768. doi: 10.1109/cvpr46437.2021.01355.
[4]	LI Yihao, YU Jun, CAI Zhongpeng, et al. Cross-modal target retrieval for tracking by natural language[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, New Orleans, USA, 2022: 4927–4936. doi: 10.1109/cvprw56347.2022.00540.
[5]	FENG Qi, ABLAVSKY V, BAI Qinxun, et al. Siamese natural language tracker: Tracking by natural language descriptions with Siamese trackers[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 5847–5856. doi: 10.1109/cvpr46437.2021.00579.
[6]	ZHENG Yaozong, ZHONG Bineng, LIANG Qihua, et al. Toward unified token learning for vision-language tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34(4): 2125–2135. doi: 10.1109/TCSVT.2023.3301933.
[7]	ZHAO Haojie, WANG Xiao, WANG Dong, et al. Transformer vision-language tracking via proxy token guided cross-modal fusion[J]. Pattern Recognition Letters, 2023, 168: 10–16. doi: 10.1016/j.patrec.2023.02.023.
[8]	ZHOU Li, ZHOU Zikun, MAO Kaige, et al. Joint visual grounding and tracking with natural language specification[C]. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 23151–23160. doi: 10.1109/cvpr52729.2023.02217.
[9]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]. The 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 6000–6010.
[10]	SONG Zikai, LUO Run, YU Junqing, et al. Compact transformer tracker with correlative masked modeling[C]. The 37th AAAI Conference on Artificial Intelligence, Washington, USA, 2023: 2321–2329. doi: 10.1609/aaai.v37i2.25327.
[11]	WANG Yuanyun, ZHANG Wenshuang, LAI Changwang, et al. Adaptive temporal feature modeling for visual tracking via cross-channel learning[J]. Knowledge-Based Systems, 2023, 265: 110380. doi: 10.1016/j.knosys.2023.110380.
[12]	ZHAO Moju, OKADA K, and INABA M. TrTr: Visual tracking with transformer[J]. arXiv: 2105.03817, 2021. doi: 10.48550/arXiv.2105.03817.
[13]	TANG Chuanming, WANG Xiao, BAI Yuanchao, et al. Learning spatial-frequency transformer for visual object tracking[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(9): 5102–5116. doi: 10.1109/tcsvt.2023.3249468.
[14]	YE Botao, CHANG Hong, MA Bingpeng, et al. Joint feature learning and relation modeling for tracking: A one-stream framework[C]. The 17th European Conference on Computer Vision, Tel Aviv, Israel, 2022: 341–357. doi: 10.1007/978-3-031-20047-2_20.
[15]	LI Zhenyang, TAO Ran, GAVVES E, et al. Tracking by natural language specification[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 7350–7358. doi: 10.1109/cvpr.2017.777.
[16]	YANG Zhengyuan, KUMAR T, CHEN Tianlang, et al. Grounding-tracking-integration[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(9): 3433–3443. doi: 10.1109/tcsvt.2020.3038720.
[17]	FENG Qi, ABLAVSKY V, BAI Qinxun, et al. Real-time visual object tracking with natural language description[C]. 2020 IEEE Winter Conference on Applications of Computer Vision, Snowmass, USA, 2020: 689–698. doi: 10.1109/wacv45572.2020.9093425.
[18]	ZHANG Xin, SONG Yingze, SONG Tingting, et al. AKConv: Convolutional kernel with arbitrary sampled shapes and arbitrary number of parameters[J]. arXiv: 2311.11587, 2023. doi: 10.48550/arXiv.2311.11587.
[19]	SELESNICK I W, BARANIUK R G, and KINGSBURY N C. The dual-tree complex wavelet transform[J]. IEEE Signal Processing Magazine, 2005, 22(6): 123–151. doi: 10.1109/MSP.2005.1550194.
[20]	ROGOZHNIKOV A. Einops: Clear and reliable tensor manipulations with Einstein-like notation[C]. The 10th International Conference on Learning Representations, 2022: 1–21.
[21]	MAO Junhua, HUANG J, TOSHEV A, et al. Generation and comprehension of unambiguous object descriptions[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 11–20. doi: 10.1109/cvpr.2016.9.
[22]	FAN Heng, LIN Liting, YANG Fan, et al. LaSOT: A high-quality benchmark for large-scale single object tracking[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 5369–5378. doi: 10.1109/cvpr.2019.00552.
[23]	DEVLIN J, CHANG Mingwei, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]. 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota, 2018: 4171–4186. doi: 10.18653/v1/N19-1423.
[24]	LIU Ze, LIN Yutong, CAO Yue, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 9992–10002. doi: 10.1109/iccv48922.2021.00986.
[25]	YANG Li, XU Yan, YUAN Chunfeng, et al. Improving visual grounding with visual-linguistic verification and iterative reasoning[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 9489–9498. doi: 10.1109/cvpr52688.2022.00928.
[26]	YAN Bin, PENG Houwen, FU Jianlong, et al. Learning spatio-temporal transformer for visual tracking[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 10428–10437. doi: 10.1109/iccv48922.2021.01028.
[27]	ZHANG Zhipeng, LIU Yihao, WANG Xiao, et al. Learn to match: Automatic matching network design for visual tracking[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 13319–13328. 10. doi: 1109/iccv48922.2021.01309.
[28]	WANG Ning, ZHOU Wengang, WANG Jie, et al. Transformer meets tracker: Exploiting temporal context for robust visual tracking[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 1571–1580. doi: 10.1109/cvpr46437.2021.00162.
[29]	CHEN Xin, YAN Bin, ZHU Jiawen, et al. Transformer tracking[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 8122–8131. doi: 10.1109/CVPR46437.2021.00803.
[30]	MAYER C, DANELLJAN M, PAUDEL D P, et al. Learning target candidate association to keep track of what not to track[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 13424–13434. doi: 10.1109/iccv48922.2021.01319.
[31]	LIN Liting, FAN Heng, ZHANG Zhipeng, et al. SwinTrack: A simple and strong baseline for transformer tracking[C]. The 36th Conference on Neural Information Processing Systems, New Orleans, USA, 2022: 16743–16754.
[32]	LIU Daqing, ZHANG Hanwang, ZHA Zhengjun, et al. Learning to assemble neural module tree networks for visual grounding[C]. 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 4672–4681. doi: 10.1109/iccv.2019.00477.
[33]	HUANG Binbin, LIAN Dongze, LUO Weixin, et al. Look before you leap: Learning landmark features for one-stage visual grounding[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 16883–16892. doi: 10.1109/cvpr46437.2021.01661.
[34]	YANG Zhengyuan, CHEN Tianlang, WANG Liwei, et al. Improving one-stage visual grounding by recursive sub-query construction[C]. The 16th European Conference on Computer Vision, Glasgow, UK, 2020: 387–404. doi: 10.1007/978-3-030-58568-6_23.
[35]	DENG Jiajun, YANG Zhengyuan, CHEN Tianlang, et al. TransVG: End-to-end visual grounding with transformers[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 1749–1759. doi: 10.1109/iccv48922.2021.00179.

施引文献

资源附件(0)

访问统计

图(7) / 表(6)

计量

文章访问数: 239
HTML全文浏览量: 105
PDF下载量: 39
被引次数: 0

1. 引言
2. 相关工作
2.1 视觉跟踪
2.2 视觉-语言跟踪
3. 本文方法
3.1 双层路由感知模块
3.2 散射视觉变换模块
4. 实验结果和分析
4.1 数据集和参数设置
4.2 消融实验
4.3 对比试验
5. 结论

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

结合双层路由感知和散射视觉变换的视觉-语言跟踪方法

doi: 10.11999/JEIT240257

作者简介: 刘仲民：男，副教授，研究方向为模式识别、图像修复、图像描述 李振华：男，硕士生，研究方向为目标跟踪 胡文瑾：女，教授，研究方向为图像修复、图像质量评价

通讯作者: 刘仲民 liuzhmx@163.com

计量

出版历程

Vision-Language Tracking Method Combining Bi-level Routing Perception and Scattered Vision Transformation

1. 引言

2. 相关工作

2.1 视觉跟踪

2.2 视觉-语言跟踪

3. 本文方法

3.1 双层路由感知模块

3.1.1 特征交互

3.1.2 特征压缩增强

3.2 散射视觉变换模块

3.2.1 散射变换

3.2.2 频谱门控网络

3.2.3 频谱通道和标记混合

4. 实验结果和分析

4.1 数据集和参数设置

4.2 消融实验

4.3 对比试验

4.3.1 自然语言初始化跟踪

4.3.2 联合自然语言和边界框初始化跟踪

4.3.3 视觉定位性能

4.3.4 定性对比

5. 结论

计量

出版历程

目录

1. 引言

2. 相关工作

2.1 视觉跟踪

2.2 视觉-语言跟踪

3. 本文方法

3.1 双层路由感知模块

3.2 散射视觉变换模块

4. 实验结果和分析

4.1 数据集和参数设置

4.2 消融实验

4.3 对比试验

5. 结论

作者简介:
刘仲民：男，副教授，研究方向为模式识别、图像修复、图像描述

李振华：男，硕士生，研究方向为目标跟踪

胡文瑾：女，教授，研究方向为图像修复、图像质量评价

通讯作者:
刘仲民　liuzhmx@163.com