基于预训练固定参数和深度特征调制的红外与可见光图像融合网络

徐少平; 周常飞; 肖建; 陶武勇; 戴田宇

doi:10.11999/JEIT231283

基于预训练固定参数和深度特征调制的红外与可见光图像融合网络

doi: 10.11999/JEIT231283 cstr: 32379.14.JEIT231283

南昌大学数学与计算机学院南昌 330031

基金项目: 国家自然科学基金(62162043)

详细信息

作者简介:
徐少平：男，博士，教授，博士生导师，研究方向包括数字图像处理、机器视觉、虚拟手术模拟

周常飞：男，硕士生，研究方向包括数字图像处理、机器视觉

肖建：女，博士生，研究方向包括数字图像处理、机器视觉

陶武勇：男，博士，讲师，研究方向包括数字图像处理、点云配准和3D目标识别

戴田宇：男，博士，讲师，研究方向包括数字图像处理、深度学习、地下空间探测与成像等

通讯作者:
徐少平　xushaoping@ncu.edu.cn

中图分类号: TN911.73; TN219; TP391
计量
- 文章访问数: 310
- HTML全文浏览量: 238
- PDF下载量: 40
- 被引次数: 21
出版历程
- 收稿日期: 2023-11-20
- 修回日期: 2024-03-15
- 网络出版日期: 2024-03-26
- 刊出日期: 2024-08-30

A Fusion Network for Infrared and Visible Images Based on Pre-trained Fixed Parameters and Deep Feature Modulation

School of Mathematics and Computer Sciences, Nanchang University, Nanchang 330031, China

Funds: The National Natural Science Foundation of China (62162043)

摘要

摘要: 为了更好地利用红外与可见光图像中互补的图像信息，得到符合人眼感知特性的融合图像，该文采用两阶段训练策略提出一种基于预训练固定参数和深度特征调制的红外与可见光图像融合网络(PDNet)。具体地，在自监督预训练阶段，以大量清晰的自然图像分别作为U型网络结构(UNet)的输入和输出，采用自编码器技术完成预训练。所获得编码器模块能有效提取输入图像的多尺度深度特征功能，而解码器模块则能将其重构为与输入图像差异极小的输出图像；在无监督融合训练阶段，将预训练编码器和解码器模块的网络参数保持固定不变，而在两者之间新增包含Transformer结构的融合模块。其中，Transformer结构中的多头自注意力机制能对编码器分别从红外和可见光图像提取到的深度特征权重进行合理分配，从而在多个尺度上将两者融合调制到自然图像深度特征的流型空间上来，进而保证融合特征经解码器重构后所获得融合图像的视觉感知效果。大量实验表明：与当前主流的融合模型(算法)相比，所提PDNet模型在多个客观评价指标方面具有显著优势，而在主观视觉评价上，也更符合人眼视觉感知特点。
- 红外与可见光图像 /
- 图像融合 /
- 自监督预训练 /
- 无监督融合训练 /
- 固定参数 /
- 深度特征调制
Abstract: To better leverage complementary image information from infrared and visible light images and generate fused images that align with human perception characteristics, a two-stage training strategy is proposed to obtain a novel infrared-visible image fusion Network based on pre-trained fixed Parameters and Deep feature modulation (PDNet). Specifically, in the self-supervised pre-training stage, a substantial dataset of clear natural images is employed as both inputs and outputs for the UNet backbone network, and pre-training is accomplished with autoencoder technology. As such, the resulting encoder module can proficiently extract multi-scale depth features from the input image, while the decoder module can faithfully reconstruct it into an output image with minimal deviation from the input. In the unsupervised fusion training stage, the pre-trained encoder and decoder module parameters remain fixed, and a fusion module featuring a Transformer structure is introduced between them. Within the Transformer structure, the multi-head self-attention mechanism allocates deep feature weights, extracted by the encoder from both infrared and visible light images, in a rational manner. This process fuses and modulates the deep image features at various scales into the manifold space of deep features of clear natural image, thereby ensuring the visual perception quality of the fused image after reconstruction by the decoder. Extensive experimental results demonstrate that, in comparison to current mainstream fusion models (algorithms), the proposed PDNet model exhibits substantial advantages across various objective evaluation metrics. Furthermore, in subjective visual evaluations, it aligns more closely with human visual perception characteristics.
- Infrared and visible images /
- Image fusion /
- Self supervised pre-training /
- Unsupervised fusion training /
- Fixed parameters /
- Deep feature modulation

HTML全文

1. 引言

近年来，人体动作识别因其在视频监控和人机交互等领域^[1]的高度实用性而受到广泛关注。基于骨骼数据的动作识别方法由于其对环境信息的鲁棒性和低成本等优点，已成为该领域最重要的研究方向之一。基于深度学习的传统方法手动将骨架构建为伪图像，并将其发送到卷积神经网络(Convolutional Neural Network, CNN)或循环神经网络(Recurrent Neural Network, RNN)进行特征提取以获得预测。然而，将骨架数据表示为2维网格并不能完全表达相关关节之间的相关性。作为以关节为顶点、骨骼为边的自然拓扑结构图，用2维图像代替图结构进行特征提取的方法无疑破坏了原有的信息相关性。因此，近年来，基于骨架的动作识别最广泛的方法已成为图神经网络，尤其是图卷积神经网络(Graph Convolutional Neural Networks, GCNs)^[2]。

Yan等人^[3]首先使用GCNs对人体骨骼数据进行建模，提出了ST-GCN模型，在人体关节的拓扑结构上构建空间图，并在连续帧中连接每个关节的不同位置以获得时间信息，同时聚合时空信息进行动作识别。虽然在骨架数据上表现不错，但ST-GCN仍存在着一些设计缺陷^[4,5]。(1)ST-GCN仅考虑相邻范围内关节之间的联系，而对结构上距离较远但具有协同作用的关节缺乏关注。比如打篮球时，需要手、脚、腰的配合才能完成一个完整的投篮动作，而这些关节的物理距离是较远的。(2)表示人体骨骼的拓扑特征图对于所有层和动作都是固定的，这可能会影响不同网络层之间语义的丰富表示，比如网络训练后期的数据往往拥有初期所不具备的高级语义信息。(3)尽管GCN可以通过一系列3D卷积的叠加来学习长期交互联系，但这种联系是片面的、局部的，并且受到卷积核大小的限制。

最近，Transformer的成功提出了一种通过强大的自注意力机制对远程依赖进行建模的新范式^[6]，虽然它最初是为自然语言处理(Natural Language Processing, NLP)任务而设计的，但人体骨骼序列的序列性和层次结构，以及Transformer在建模长期依赖方面的灵活性，使其成为解决ST-GCN弱点的完美方案，最近一些学者在图像视觉领域的研究^[7-10]也证明了使用Transformer同时建模空间和时间关系的可行性，但随之而来的是需要大量的计算资源和数据才能建模长期依赖关系。

尽管Transformer在视觉任务上取得了很大成功，但在小数据集上进行训练时，其性能仍低于类似大小的CNN模型。一个可能的原因是Transformer缺乏CNN固有的一些理想特性，例如平移不变性和失真不变性。此外，CNN能够使用局部感受野、共享权重和空间子采样来捕获不同复杂度的局部空间上下文，而Transformer不具备。因此，本文提出了一个协同GCNs和Transformer的模型，在保持高效的计算和内存效率的基础上，对人类行为在空间和时间上的交互信息建模以进行动作识别。

本文将整个模型分为两个阶段：低层阶段使用纯卷积来充分学习局部空间信息，高层阶段引入Transformer来捕获远程依赖，获得全局视图以及丰富的语义信息。另外，由于Transformer天然缺少位置信息，需要使用位置嵌入来添加位置信息。针对这种情况，本文使用卷积嵌入而不是线性嵌入来学习人体序列之间的位置关系，避免使用位置编码来达到降低参数的目的。同时，这种机制使模型能够进一步捕捉局部空间上下文，减少注意力机制中的语义歧义。

本文的主要贡献总结如下：

(1) 为基于骨架的动作识别任务提出了一种协同GCNs和Transformer的模型，并将其分别应用于时间流和空间流。

(2) 设计了卷积嵌入代替原始的线性嵌入来学习位置信息，避免使用位置编码，减少模型的计算损失，大大减少了参数。

(3) 在基于骨架的动作识别的两个大规模权威数据集NTU-60和Kinetics-400上，本文的模型优于ST-GCN基线和几种最先进的方法。

2. 相关工作

2.1 基于骨架的动作识别

骨架数据广泛用于动作识别，早期基于骨架的动作识别研究通常设计手工特征来建模人体^[11]。然而，这些基于手工特征的方法的性能不能令人满意，因为它不能同时考虑所有因素。深度学习的发展提出了可以增强鲁棒性并获得前所未有的性能的方法，其中最广泛使用的模型是RNN和CNN。基于RNN的方法将人体关节序列建模为时间序列^[12]进行计算。基于CNN的方法通过手动设计转换规则^[13]将骨架数据建模为伪图像以充分利用空间信息。最近，由于人体关节与图结构的自然契合，基于GCNs的方法引起了很多关注^[14-17]。

Yan等人^[3]直接将骨架数据建模为图结构，每个时空图卷积层用图卷积算子构造空间特征，用卷积算子对时间动态进行建模，从空间和时间上提取特征，从而实现超越之前方法的性能。Li等人^[18]在ST-GCN的基础上通过引入一种结构连接来学习一些动作相互依赖的关节之间的关系，一定程度上解决了其缺陷。

2.2 时空图卷积网络

时空图卷积网络(ST-GCN)由一系列ST-GCN块堆叠而成。每个块依次包含一个空间图卷积和一个时间卷积，用于交替提取空间和时间特征。最后一个块连接到一个全连接的Softmax分类器以生成最终预测，GCNs为每个关节引入了相邻特征的加权平均值。

令 ${{\boldsymbol{X}}_{{\text{in}}}} \in {{\boldsymbol{R}}^{n \times {d_n}}}$ 为一帧中所有关节的输入特征，其中 ${d_{{\text{in}}}}$ 为输入特征维度， ${{\boldsymbol{X}}_{{\text{out}}}} \in {{\boldsymbol{R}}^{n \times {d_{{\text{out}}}}}}$ 是GCNs得到的输出特征，其中 ${d_{{\text{out}}}}$ 是输出特征维度。以上可以总结为

$\qquad\quad {{\boldsymbol{X}}_{{\text{out}}}} = \sum\limits_k^{{K_{\text{s}}}} {({{\boldsymbol{X}}_{{\text{in}}}}{{\boldsymbol{A}}_k}){{\boldsymbol{W}}_k}}$

(1)

$\qquad\quad {{\boldsymbol{A}}_k} = {{\boldsymbol{D}}_k}^{ - \frac{1}{2}}({ {\tilde{{\boldsymbol{A}}}} _k} + {\boldsymbol{I}}){{\boldsymbol{D}}_k}^{ - \frac{1}{2}}$

(2)

其中， ${K_{\text{s}}}$ 是空间维度上的核大小， ${\tilde {\boldsymbol{A}} _k}$ 是表示人体关节连接的邻接矩阵， ${{\boldsymbol{W}}_k}$ 是可训练的权重矩阵， ${\boldsymbol{I}}$ 是单位矩阵。

时间图卷积网络是具有 $(1,{K_{\text{t}}})$ 卷积核大小的标准2维卷积，最近，Shi等人^[19]提出了一种自适应图结构来替代ST-GCN中传统的预定义固定图结构，使模型更加灵活，其式(1)改为

${{\boldsymbol{X}}_{{\text{out}}}} = \sum\limits_k^{{K_{\text{s}}}} {{{\boldsymbol{X}}_{{\text{in}}}}({{\boldsymbol{A}}_k} + {{\boldsymbol{B}}_k} + {{\boldsymbol{C}}_k}){{\boldsymbol{W}}_k}}$

(3)

其中， ${{\boldsymbol{A}}_k}$ 与式(1)中的相同， ${{\boldsymbol{B}}_k}$ 是一个可学习的数据驱动矩阵， ${{\boldsymbol{C}}_k}$ 是计算两个顶点相似度的矩阵。

2.3 Transformer和自注意力机制

Vaswani等人^[6]提出的Transformer已成为NLP领域的主导模型，因为它在处理非常长的序列和句子的并行化方面取得了出色的效果，这是LSTM(Long and Short Term Neural Network)和RNN所不具备的。

自注意力，有时称为内部注意力，是一种将单个序列的不同位置联系起来以计算序列表示的注意力机制。自注意力层是Transformer编码器-解码器架构的构建块，其内部计算过程是：首先，对于输入数据，通过一个可训练的线性嵌入计算得到一个query向量 ${\boldsymbol{q}} \in {{\boldsymbol{R}}^{{d_q}}}$ ，一个key向量 ${\boldsymbol{k}} \in {{\boldsymbol{R}}^{{d_k}}}$ 和一个value向量 ${\boldsymbol{v}} \in {{\boldsymbol{R}}^{{d_v}}}$ ，然后对 ${\boldsymbol{q}}$ 向量和 ${\boldsymbol{k}}$ 向量进行矩阵点乘得到相似度得分，将得分经过Softmax处理后，使用 ${\boldsymbol{v}}$ 向量对其进行加权，得到最终的输出。

整个过程可以表示成矩阵形式为

${\text{Attention}}({\boldsymbol{Q}},{\boldsymbol{K}},{\boldsymbol{V}}) = {\text{Softmax}}\left(\frac{{{\boldsymbol{Q}}{{\boldsymbol{K}}^{\text{T}}}}}{{\sqrt {{d_k}} }}\right){\boldsymbol{V}}$

(4)

其中， ${\boldsymbol{Q}}$ , ${\boldsymbol{K}}$ , ${\boldsymbol{V}}$ 都是矩阵，分别表示所有打包在一起的query, key和value向量， ${d_k}$ 是key矩阵的维数，除以 $\sqrt {{d_k}}$ 是为了防止梯度爆炸。

最近，一些研究人员尝试只使用多头自注意力层将Transformer引入计算机视觉领域^{[20, 21]}，并在图像分类基准(例如ImageNet)上产生了最先进的结果。其他方法包括^[22-24]在图像像素级别应用Transformer模型，这会产生很大的计算成本，并且必须对图像进行下采样或使用局部注意力而不是全局注意力。

在这项工作中，本文应用自注意力机制在空间和时间上建立远程连接，如图1所示。左图表示帧内连接，可以理解为捕捉人体完成动作时每个关节的协作关系；右图为各帧之间的连接，用来捕捉随着时间推移的时间顺序特征，例如，正向序列和反向序列在时间框架上的表现应该是不同的。图中连接线的粗细代表着不同程度的依赖，线越粗代表着两个关节之间的联系越紧密。

图 1 在空间流与时间流上的关节连接示意图

下载: 全尺寸图片幻灯片

此外，针对计算成本的问题，本文研究了如何将GCNs和Transformer更好地结合起来，以一种轻量且有效的方式建立同时具有局部和全局感受野的模型来进行动作识别。

3. 协作卷积Transformer网络

如图2所示，协作卷积Transformer网络(Collaborative Convolutional Transformer Network, Co-ConvT)是一些基本块的堆栈，它分为两个阶段，浅层阶段由自适应图卷积层组成，深层阶段由本文提出的卷积Transformer块组成，它将自注意力机制与图卷积相结合，并在空间和时间维度上交替运行以提取时空融合特征进行动作识别。

图 2 Co-ConvT网络层示意图

下载: 全尺寸图片幻灯片

其中，L1～L5是自适应图卷积层，L6-L9是本文提出的卷积Transformer块，Pool层代表平均池化操作。

3.1 卷积Transformer块

如图3所示，一个基本块由一个空间卷积Transformer层和一个时间卷积Transformer层组成，它们分别用于提取空间和时间特征。

图 3 卷积Transformer基本块结构图

下载: 全尺寸图片幻灯片

空间卷积Transformer层主要是让模型提取一些完成人体运动的远程协作关节的特征，重点关注在当前动作识别中发挥突出作用的关节。时间卷积Transformer层起到捕捉某些非连续帧之间联系的作用，使模型在整个动作过程中更加关注关键帧，而忽略对动作识别没有贡献的时间帧。两个卷积Transformer层之后是批归一化(Batch Normalization, BN)层和ReLU(Linear Rectification fUnction)层。此外，每个模块都增加了一个残差连接来稳定训练。

3.2 协作卷积Transformer层

在建模长期依赖方面，Transformer优于卷积。但是，由于Transformer的自注意力机制是在图像像素级别进行计算的，因此具有很大的计算成本。为了在两者之间取得平衡，本文提出了如图4所示的协作卷积Transformer层(ConvT)。ConvT层的输入分别送入两个支线进行处理，其上部的Transformer模块通过时空自注意力来捕捉远程依赖，获取全局视野；下部的自适应卷积模块^[19]通过添加一个与原骨架等同大小的参数矩阵来跟随网络更新迭代，在网络低层提供了有助于动作识别的特征信息，学习了丰富的空间局部特征。两条支线都添加了残余连接来减少过拟合，防止梯度消失。ConvT层的后部将Transformer模块捕获的全局特征与卷积模块提取的局部特征进行矩阵加法融合，通过BN层和ReLU层激活后得到输出。

图 4 ConvT层内部框架图

下载: 全尺寸图片幻灯片

3.3 Transformer模块

在模块设计上，本文沿用了原有的Transformer模型，目的是方便NLP中原始Transformer架构的迁移，使其能够高效的实现。

值得一提的是，为了使模型专注于提取空间域上的信息，本文对4维输入张量 ${{\boldsymbol{X}}_{{\text{in}}}} \in {{\boldsymbol{R}}^{N \times C \times T \times V}}$ 进行降维处理得到3维张量 ${{\boldsymbol{X}}_{{\text{in}}}} \in {{\boldsymbol{R}}^{(N \times T) \times C \times V}}$ 用于self-attention计算，同时，在时域上也进行了对应的处理。相比2D数据，1维序列数据更符合NLP中Transformer处理词向量的初衷，而3维张量可视为特殊的1维序列数据，由此可以更直观地拟合模型，方便后续操作。

3.3.1 卷积嵌入

Transformer模块的输入是 ${\boldsymbol{X}} \in {{\boldsymbol{R}}^{N \times 3 \times T \times V}}$ ， $N$ 表示样本数，每个样本都从原始视频中采样 $T$ 帧，每帧包含X, Y, Z坐标系上的 $V$ 个身体关节的坐标。在嵌入层中，本文使用具有3个卷积核的卷积操作来代替原来的线性嵌入。

具体来说，3个卷积核的大小为 $3 \times 3$ ，步长为2，padding为1，特征维度分别为 $({{\boldsymbol{C}}_{{\text{in}}}},0.5 \times {{\boldsymbol{C}}_{{\text{out}}}})$ , $(0.5 \times {{\boldsymbol{C}}_{{\text{out}}}},0.5 \times {{\boldsymbol{C}}_{{\text{out}}}})$ , $(0.5 \times {{\boldsymbol{C}}_{{\text{out}}}},{{\boldsymbol{C}}_{{\text{out}}}})$ ，这样设计的目的是降低特征分辨率，扩大特征维度，增加其表达丰富性，使得模型可以在逐渐增大的空间足迹上表示越来越复杂的视觉模式。

此外，卷积局部感受野和zero-padding操作可以隐式地捕获位置信息，因此无需在输入中添加额外的位置编码，降低了模型复杂度，并且隐式位置信息比原始的显式位置编码更具解释性。

3.3.2 多头自注意力

多头自注意力机制意味着在 $h$ 个头上并行计算，形成多个子空间来关注信息的不同方面。可以类比CNN中同时使用多个滤波器，帮助网络捕获更丰富的特征，综合利用各个方面的信息。形式上，对于输入 ${{\boldsymbol{X}}_{{\text{in}}}}$ ，使用 $h$ 个query/key/value权重矩阵将其投影到不同的表示子空间中。

${{\boldsymbol{q}}_i} = {{\boldsymbol{W}}_{q,i}}{\text{LN}}({{\boldsymbol{X}}_{{\text{in}}}})$

(5)

${{\boldsymbol{k}}_i} = {{\boldsymbol{W}}_{k,i}}{\text{LN}}({{\boldsymbol{X}}_{{\text{in}}}})$

(6)

${{\boldsymbol{v}}_i} = {{\boldsymbol{W}}_{v,i}}{\text{LN}}({{\boldsymbol{X}}_{{\text{in}}}})$

(7)

其中， ${\text{LN}}( \cdot )$ 表示层归一化^[25]， $i \in [1,2, \cdots ,h]$ 。然后，每个头并行应用缩放的点积注意力，最终的多头自注意力(Multi-head Self-Attention, MSA)输出是 $h$ 个注意力头的串联。

${{\boldsymbol{z}}_i} = {\text{Softmax}}\left(\frac{{{{\boldsymbol{q}}_i}{\boldsymbol{k}}_i^{\text{T}}}}{{\sqrt {{d_k}/h} }}\right){{\boldsymbol{v}}_i},i \in [1,2, \cdots ,h]$

(8)

${\text{MSA}}({\boldsymbol{q}},{\boldsymbol{k}},{\boldsymbol{v}}) = {\text{Concat}}({{\boldsymbol{z}}_1},{{\boldsymbol{z}}_2}, \cdots ,{{\boldsymbol{z}}_h}){{\boldsymbol{W}}_{{\text{out}}}}$

(9)

4. 实验

4.1 数据集

4.1.1 NTU-RGB+D 60

NTU-RGB+D数据集^[26]是目前规模最大、应用最广泛的室内捕捉动作识别数据集之一。它包含从RGB+D视频样本中采样的56 880个RGB视频、深度序列、骨架数据和红外帧。骨骼信息由25个身体关节的3维坐标组成，代表60种不同的动作类别。

NTU-60数据集遵循两个不同的评估基准。Cross-Sub(X-Sub)：此基准测试中的数据集分为训练集(40 320个视频)和验证集(16 560个视频)，两个子集中的演员不同；Cross-View(X-View)：它由37 920个训练样本和18 960个测试样本组成，根据采取行动的相机不同进行拆分。

4.1.2 Kinetics-skeleton

Kinetics-skeleton数据集是从Kinetics-400^[27]数据集的视频中使用OpenPose工具箱提取骨骼注释获得的。它由240 436个训练样本和19 796个测试样本组成，共代表400个动作类。每个骨架由18个关节组成，每个关节提供2D坐标和置信度分数，对于每一帧，根据最高置信度得分最多选择2个人。

本文在训练集中训练模型，并在测试集中报告Top-1和Top-5精确度，以与之前的模型进行比较。

4.2 实验设置

本文在2块GTX-2080Ti GPU上使用PyTorch深度学习框架进行所有实验。该模型使用随机梯度下降(Stochastic Gradient Descent, SGD)和Nesterov动量(0.9)作为优化策略，使用交叉熵函数作为损失函数对梯度进行反向传播，权重衰减参数设置为0.000 1。

对于NTU数据集，总共训练了50次epoch模型，批次大小为50，初始学习率设置为0.1，并在第30次epoch和第40次epoch时减小10倍；而在Kinetics-skeleton数据集上，总共训练了65次epoch模型，批次大小为64，初始学习率为0.1，在第45次epoch和第55次epoch时减小10倍。

本文使用与2s-AGCN相同的数据预处理操作，并在前5个epoch中使用warm-up操作来预热模型。所有实验的多头注意力的头数量设置为8，Transformer的 ${d_q}$ , ${d_k}$ 和 ${d_v}$ 的嵌入维度设置为 $0.25 \times {C_{{\text{out}}}}$ 。

4.3 与先进模型比较

本文将模型与在Kinetics-skeleton和NTU-60数据集上的最先进方法进行比较，结果分别如表1和表2所示。在Kinetics-skeleton数据集上，作为本文实验的基线，ST-GCN的原始性能为30.7%，本文的方法将其提高到36.6%，准确率提高了5.9%。

表 1 在Kinetics-skeleton数据集上与其他模型的性能对比(%)

模型	骨骼流	Top-1精度	Top-5精度
ST-GCN^[3]		30.7	52.8
AS-GCN^[18]		34.8	56.5
2s-AGCN^[19]	√	36.1	58.7
SAN^[28]		35.1	55.7
Co-ConvT	√	36.6	60.0

下载: 导出CSV

| 显示表格

表 2 在NTU-60数据集上与其他模型的性能对比(%)

模型	X-Sub基准精度	X-View基准精度
ST-GCN^[3]	81.5	88.3
DPRL^[29]	83.5	89.8
HCN^[30]	86.5	91.1
SAN^[28]	87.2	92.7
AS-GCN^[18]	86.8	94.2
STA-GCN^[17]	87.7	95.0
1s-Shift-GCN^[4]	87.8	95.1
Co-ConvT	88.1	94.3

下载: 导出CSV

| 显示表格

此外，本文采用与2s-AGCN相同的骨骼流特征来计算融合分数，结果如图5所示，无论是关节流、骨骼流还是融合流，本文的方法的性能都优于2s-AGCN模型。

图 5 与2s-AGCN模型精度比较

下载: 全尺寸图片幻灯片

另外，正如3.2节所提到的，本文模型并没有完全通过全局注意力提取特征，而是仅仅在深层网络中使用它，以此来减少参数，降低计算成本。同时，在ConvT层内部也使用了减少参数的操作，因此本文的模型以非常小的计算成本实现了良好的性能，如表3所示。

表 3 在参数和精度方面与基线模型的对比

模型	参数量( ${10^5}$ )	Top-1精度(%)	Top-5精度(%)
ST-GCN^[3]	31.1	30.7	52.8
2s-AGCN^[19]	35.5	36.1	58.7
Co-ConvT	28.7	36.6	60.0

下载: 导出CSV

| 显示表格

4.4 消融实验

为了验证Co-ConvT每个组件的贡献以及某些参数设置对性能的影响，本文对Kinetics-skeleton数据集进行了大量的消融实验。

首先，本文证明通过将Transformer中的线性嵌入改为卷积嵌入，可以有效增强局部空间特征的提取，并且可以隐式获取位置信息，从而去除位置编码。其次，为了平衡计算成本和模型性能，经过大量的消融实验，本文最终选择了当前的ConvT层配置，在保证计算精度的基础上减少模型参数。

4.4.1 卷积嵌入

首先，本文通过选择每个ConvT层使用卷积嵌入还是原始线性嵌入来研究提出的卷积嵌入如何影响性能，结果如表4所示。

表 4 不同嵌入方法和移除位置编码在Kinetics-skeleton数据集上对性能的影响(%)

嵌入方法	位置编码	Top-1精度	Top-5精度
线性嵌入	×	35.2	58.1
卷积嵌入	√	35.1	57.8
卷积嵌入	×	35.4	58.3

下载: 导出CSV

| 显示表格

可以观察到用卷积嵌入替换原始线性嵌入将Kinetics-skeleton上的Top-1准确率从35.2%提高到35.4%(+0.2%)，证明这种方法是一种有效的策略。然后，正如在3.3.1节提到的，由于卷积嵌入的局部感受野和zero-padding操作以一种隐式方式捕获位置信息，本文研究模型是否还需要添加位置编码。

通过表4中第2行和第3行的对比分析，可以证明去除位置编码并没有降低模型的性能，模型的复杂度也得到了一定程度的降低。

4.4.2 ConvT层数

如3.2节所述，本文的模型分为两个阶段。第1阶段只使用卷积操作提取特征，第2阶段使用卷积和Transformer协同提取特征。

因此，本文对如何划分这两个阶段进行了消融实验，并将网络第2阶段的ConvT层数设置为不同数量来寻求最佳的划分方式，表5显示了不同ConvT层数下的分类准确率。

表 5 不同ConvT层数在Kinetics-skeleton数据集的识别精度(%)

层数	Top-1	Top-5
2	35.2	57.7
3	35.5	58.1
4	35.6	58.3
5	35.4	58.0
6	35.1	57.7

下载: 导出CSV

| 显示表格

可以观察到随着ConvT层数的增加，识别准确率先升高后降低。即在刚添加Transformer支线后使网络具备新层次的特征提取方式，补充了图卷积在远程依赖方面的短视，提升了性能。但随着网络层数的加深，在对实验结果中的精度和损失值进行分析后发现，训练后期网络的精度在 $\pm$ 0.1%浮动，相应的损失值在 $\pm$ 0.01浮动，表明此时网络已完成了对特征的学习，注意力特征图逐渐变得相似甚至几乎相同，因此一味增加层数的方式使得网络发生了“过拟合”现象，精度反而发生了下降。所以本文最终将模型的ConvT层数设置为4，在保证精度的基础上降低模型参数。

5. 结束语

本文提出了一种协作卷积Transformer网络，针对图卷积在提取特征方面的片面和局部性，引入了Transformer架构中的自注意力机制来提供全局感受野，促进模型在建模全局信息方面的提升，通过协同融合Transformer捕获远程依赖和图卷积学习局部空间信息的优势来提高模型的学习能力。此外，本文在Transformer中使用卷积嵌入代替原始的线性嵌入来增强局部空间特征提取和学习空间位置信息，从而去除掉了位置嵌入，这种通过网络学习到的位置信息比Transformer中的固定位置编码更具有解释性，可以获得更丰富的语义信息，同时也降低了模型参数。

通过在NTU-RGB+D和Kinetics-skeleton数据集上进行的大量实验，证明了本文提出的Co-ConvT模型的有效性，并通过与多个主流模型进行精度对比验证了其先进性。其中，对于NTU-RGB+D数据集，Co-ConvT在X-Sub和X-View基准上的准确率分别为88.1%和94.3%，较基线模型ST-GCN分别提高了6.6%和6.0%；对于Kinetics-skeleton数据集，ST-GCN的Top-1和Top-5精度分别为30.7%和52.8%，Co-ConvT将其分别提高至36.6%和60.0%，准确率提高了5.9%和7.2%。此外，Co-ConvT的网络阶段划分策略使得网络参数量较ST-GCN减少了约2.4×10⁵，较2s-AGCN减少了约6.8×10⁵，一定程度上缓解了Transformer在计算代价上的压力，使得模型更为轻量化。

图 1 UNet网络中典型的编码器和解码器架构图

下载: 全尺寸图片幻灯片

图 2 自监督预训练阶段网络模型框架图

下载: 全尺寸图片幻灯片

图 3 无监督融合阶段网络模型框架图

下载: 全尺寸图片幻灯片

图 4 各方法在MSRS数据集上融合效果对比

下载: 全尺寸图片幻灯片

损失函数 ${L_{{\text{un}}}}$ 中超参数 $\lambda$ 取值对融合结果评价指标的影响

评价指标					$\lambda$
评价指标	0	25	50	75	100	125	150	175	200
En	6.766 9	6.949 8	6.932 3	6.937 4	6.953 3	7.085 1	7.155 7	7.127 6	7.144 1
SD	77.730 8	81.681 1	80.013 2	80.885 2	81.097 8	99.554 7	98.155 5	99.972 5	98.011 0
CC	0.454 8	0.509 2	0.509 6	0.509 3	0.510 4	0.416 6	0.450 4	0.426 3	0.451 5
VIF	0.901 0	0.848 8	0.837 0	0.844 2	0.841 4	0.985 1	0.936 1	0.841 4	0.947 1
SCD	1.595 4	1.766 9	1.746 6	1.745 8	1.767 7	1.572 6	1.698 7	1.626 3	1.690 6
PSNR	61.293 9	62.337 4	62.234 9	62.190 9	62.392 3	61.482 8	61.798 7	61.544 5	61.834 7
MS-SSIM	0.794 7	0.920 8	0.898 8	0.892 1	0.923 6	0.858 3	0.893 6	0.878 5	0.895 0

下载: 导出CSV

表 2 特征融合部分中Transformer模块对融合效果的影响

评价指标	Transformer个数
评价指标	0	1	2	3
En	7.120 9	7.080 6	6.953 3	7.115 2
SD	112.593 5	100.349 8	81.097 8	113.844 2
CC	0.360 0	0.402 2	0.510 4	0.353 6
VIF	1.131 6	0.986 3	0.841 4	1.162 6
SCD	1.131 1	1.393 1	1.767 7	1.016 1
PSNR	60.665 8	61.393 5	62.392 3	60.745 7
MS-SSIM	0.805 0	0.830 1	0.923 6	0.799 4

下载: 导出CSV

表 3 采用1阶段和两阶段训练策略在VOT2020-RGBT测试集上的融合效果对比

训练策略	评价指标
训练策略	En	SD	CC	VIF	SCD	PSNR	MS-SSIM
1阶段	7.182 8	109.516 7	0.379 1	1.039 5	1.252 5	60.989 0	0.832 6
2阶段	6.953 3	81.097 8	0.510 4	0.841 4	1.767 7	62.392 3	0.923 6

下载: 导出CSV

表 4 各方法在MSRS数据集上的指标值对比

评价指标	对比算法
评价指标	GTF	STDFusionNet	ConvSR	DCHWT	DenseFuse	U2Fusion	TarDAL	ReCoNet	YDTR	DATFuse	PDNet
En	5.483 5	5.244 1	6.030 8	6.346 6	5.936 8	5.372 2	6.349 5	4.233 7	5.645 1	6.420 3	6.360 5
SD	42.970 8	65.835 1	55.818 2	72.187 0	51.226 4	55.479 9	77.116 0	90.668 6	55.146 1	71.763 9	71.110 0
CC	0.525 4	0.541 0	0.647 5	0.604 2	0.659 8	0.6482	0.626 2	0.555 3	0.631 1	0.590 2	0.629 0
VIF	0.558 0	0.521 2	0.709 5	0.713 0	0.704 1	0.564 1	0.677 3	0.594 0	0.559 3	0.800 8	0.817 3
SCD	0.749 5	0.952 6	1.291 7	1.340 7	1.251 1	1.2439	1.484 6	1.262 0	1.138 1	1.285 1	1.506 4
PSNR	64.723 4	64.815 0	67.117 7	66.147 0	67.237 3	66.358 0	60.899 6	64.507 9	64.107 6	62.598 7	66.271 7
MS-SSIM	0.848 4	0.867 3	0.942 0	0.902 2	0.902 9	0.919 4	0.928 9	0.884 2	0.887 2	0.946 6	0.946 5

下载: 导出CSV

参考文献(27)

[1]	CHANG Zhihao, FENG Zhixi, YANG Shuyuan, et al. AFT: Adaptive fusion transformer for visible and infrared images[J]. IEEE Transactions on Image Processing, 2023, 32: 2077–2092. doi: 10.1109/TIP.2023.3263113.
[2]	WU Xin, HONG Danfeng, and CHANUSSOT J. UIU-Net: U-Net in U-Net for infrared small object detection[J]. IEEE Transactions on Image Processing, 2023, 32: 364–376. doi: 10.1109/TIP.2022.3228497.
[3]	TANG Linfeng, YUAN Jiteng, ZHANG Hao, et al. PIAFusion: A progressive infrared and visible image fusion network based on illumination aware[J]. Information Fusion, 2022, 83/84: 79–92. doi: 10.1016/j.inffus.2022.03.007.
[4]	冯鑫, 张建华, 胡开群, 等. 基于变分多尺度的红外与可见光图像融合[J]. 电子学报, 2018, 46(3): 680–687. doi: 10.3969/j.issn.0372-2112.2018.03.025. FENG Xin, ZHANG Jianhua, HU Kaiqun, et al. The infrared and visible image fusion method based on variational multiscale[J]. Acta Electronica Sinica, 2018, 46(3): 680–687. doi: 10.3969/j.issn.0372-2112.2018.03.025.
[5]	RAM PRABHAKAR K, SAI SRIKAR V, and BABU R V. DeepFuse: A deep unsupervised approach for exposure fusion with extreme exposure image pairs[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 4714–4722. doi: 10.1109/ICCV.2017.505.
[6]	LI Hui and WU Xiaojun. DenseFuse: A fusion approach to infrared and visible images[J]. IEEE Transactions on Image Processing, 2019, 28(5): 2614–2623. doi: 10.1109/TIP.2018.2887342.
[7]	ZHANG Hao, XU Han, XIAO Yang, et al. Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity[C]. The Thirty-Seventh AAAI Conference on Artificial Intelligence, Washington, USA, 2020: 12797–12804. doi: 10.1609/AAAI.V34I07.6975.
[8]	MA Jiayi, YU Wei, LIANG Pengwei, et al. FusionGAN: A generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48: 11–26. doi: 10.1016/j.inffus.2018.09.004.
[9]	MA Jiayi, XU Han, JIANG Junjun, et al. DDcGAN: A dual-discriminator conditional generative adversarial network for multi-resolution image fusion[J]. IEEE Transactions on Image Processing, 2020, 29: 4980–4995. doi: 10.1109/TIP.2020.2977573.
[10]	LI Jing, HUO Hongtao, LI Chang, et al. AttentionFGAN: Infrared and visible image fusion using attention-based generative adversarial networks[J]. IEEE Transactions on Multimedia, 2021, 23: 1383–1396. doi: 10.1109/TMM.2020.2997127.
[11]	XU Han, MA Jiayi, JIANG Junjun, et al. U2Fusion: A unified unsupervised image fusion network[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 502–518. doi: 10.1109/TPAMI.2020.3012548.
[12]	LIANG Jingyun, CAO Jiezhang, SUN Guolei, et al. SwinIR: Image restoration using swin transformer[C]. The 2021 IEEE/CVF International Conference on Computer Vision Workshops, Montreal, Canada, 2021: 1833–1844. doi: 10.1109/ICCVW54120.2021.00210.
[13]	RONNEBERGER O, FISCHER P, and BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]. 18th International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, Germany, 2015: 234–241. doi: 10.1007/978-3-319-24574-4_28.
[14]	WEI Yanyan, ZHANG Zhao, WANG Yang, et al. DerainCycleGAN: Rain attentive cycleGAN for single image deraining and rainmaking[J]. IEEE Transactions on Image Processing, 2021, 30: 4788–4801. doi: 10.1109/TIP.2021.3074804.
[15]	ZHANG Yuyang, XU Shibiao, WU Baoyuan, et al. Unsupervised multi-view constrained convolutional network for accurate depth estimation[J]. IEEE Transactions on Image Processing, 2020, 29: 7019–7031. doi: 10.1109/TIP.2020.2997247.
[16]	KRISTAN M, LEONARDIS A, MATAS J, et al. The eighth visual object tracking VOT2020 challenge results[C]. European Conference on Computer Vision, Glasgow, UK, 2020: 547–601. doi: 10.1007/978-3-030-68238-5_39.
[17]	MA Jiayi, CHEN Chen, LI Chang, et al. Infrared and visible image fusion via gradient transfer and total variation minimization[J]. Information Fusion, 2016, 31: 100–109. doi: 10.1016/j.inffus.2016.02.001.
[18]	LIU Yu, CHEN Xun, WARD R K, et al. Image fusion with convolutional sparse representation[J]. IEEE Signal Processing Letters, 2016, 23(12): 1882–1886. doi: 10.1109/LSP.2016.2618776.
[19]	KUMAR B K S. Multifocus and multispectral image fusion based on pixel significance using discrete cosine harmonic wavelet transform[J]. Signal, Image and Video Processing, 2013, 7(6): 1125–1143. doi: 10.1007/s11760-012-0361-x.
[20]	MA Jiayi, TANG Linfeng, XU Meilong, et al. STDFusionNet: An infrared and visible image fusion network based on salient target detection[J]. IEEE Transactions on Instrumentation and Measurement, 2021, 70: 1–13. doi: 10.1109/TIM.2021.3075747.
[21]	LIU Jinyuan, FAN Xin, HUANG Zhanbo, et al. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 5792–5801. doi: 10.1109/CVPR52688.2022.00571.
[22]	HUANG Zhanbo, LIU Jinyuan, FAN Xin, et al. ReCoNet: Recurrent correction network for fast and efficient multi-modality image fusion[C]. 17th European Conference on Computer Vision, Tel Aviv, Israel, 2022: 539–555. doi: 10.1007/978-3-031-19797-0_31.
[23]	TANG Wei, HE Fazhi, and LIU Yu. YDTR: Infrared and visible image fusion via Y-shape dynamic transformer[J]. IEEE Transactions on Multimedia, 2023, 25: 5413–5428. doi: 10.1109/TMM.2022.3192661.
[24]	TANG Wei, HE Fazhi, LIU Yu, et al. DATFuse: Infrared and visible image fusion via dual attention transformer[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(7): 3159–3172. doi: 10.1109/TCSVT.2023.3234340.
[25]	蔺素珍, 韩泽. 基于深度堆叠卷积神经网络的图像融合[J]. 计算机学报, 2017, 40(11): 2506–2518. doi: 10.11897/SP.J.1016.2017.02506. LIN Suzhen and HAN Ze. Images fusion based on deep stack convolutional neural network[J]. Chinese Journal of Computers, 2017, 40(11): 2506–2518. doi: 10.11897/SP.J.1016.2017.02506.
[26]	SHEIKH H R and BOVIK A C. Image information and visual quality[J]. IEEE Transactions on Image Processing, 2006, 15(2): 430–444. doi: 10.1109/TIP.2005.859378.
[27]	ASLANTAS V and BENDES E. A new image quality metric for image fusion: The sum of the correlations of differences[J]. AEU-International Journal of Electronics and Communications, 2015, 69(12): 1890–1896. doi: 10.1016/j.aeue.2015.09.004.

施引文献

期刊类型引用(13)

1.	王晓路，汶建荣. 基于运动-时间感知的人体动作识别方法. 计算机工程. 2025(01): 216-224 . 百度学术
2.	宋永坤，晏天兴，张可，刘显，戴永鹏，金添. 基于点云时空特征的超宽带雷达轻量化人体行为识别方法. 雷达学报(中英文). 2025(01): 1-15 . 百度学术
3.	石东子，林宏辉，刘一江，张鑫. 面向骨架手势识别的全局时空可变形网络. 电子科技大学学报. 2024(01): 60-66 . 百度学术
4.	曹毅，吴伟官，张小勇，夏宇，高清源. 基于自校准机制的时空采样图卷积行为识别模型. 工程科学学报. 2024(03): 480-490 . 百度学术
5.	谢文武，袁婷，张海洋，李敏，李桂林，李中年. 基于智能反射表面的单站智能定位算法研究. 无线电工程. 2024(03): 557-564 . 百度学术
6.	刘斌斌，赵宏涛，王田，杨艺. 用于骨架行为识别的时空卷积Transformer网络. 电子测量技术. 2024(01): 169-177 . 百度学术
7.	陈迪，李焱芳，毕卫云，李朗，蒲珊珊. 基于视频时空特征提取分类的动作分析评估模型. 现代电子技术. 2024(08): 160-164 . 百度学术
8.	童立靖，冯金芝，英溢卓，曹楠. 基于图卷积与规则匹配的单兵动作识别. 北方工业大学学报. 2024(01): 12-19 . 百度学术
9.	卢先领，杨嘉琦. 时空关联的Transformer骨架行为识别. 信号处理. 2024(04): 766-775 . 百度学术
10.	龚成张，严云洋，卞苏阳，祝巧巧，冷志超. 基于Fast-CAANet的火焰检测方法. 南京师大学报(自然科学版). 2024(02): 109-116 . 百度学术
11.	韩宗旺，杨涵，吴世青，陈龙. 时空自适应图卷积与Transformer结合的动作识别网络. 电子与信息学报. 2024(06): 2587-2595 . 本站查看
12.	陈斌，樊飞燕，陆天易. 骨骼双流注意力增强图卷积人体姿态识别. 南京师范大学学报(工程技术版). 2024(04): 57-67 . 百度学术
13.	曹毅，吴伟官，李平，夏宇，高清源 . 基于时空特征增强图卷积网络的骨架行为识别. 电子与信息学报. 2023(08): 3022-3031 . 本站查看