用于跨模态舰船图像检索的判别性对抗哈希变换器

关欣; 国佳恩; 卢雨

doi:10.11999/JEIT220980

用于跨模态舰船图像检索的判别性对抗哈希变换器

doi: 10.11999/JEIT220980

关欣¹,
国佳恩^{1, 2, ,},
卢雨¹

1.
海军航空大学烟台 264001
2.
中国人民解放军91422部队烟台 265200

基金项目: 泰山学者工程专项经费(ts 201712072)，国防科技卓越青年科学基金(2017-JCJQ-ZQ-003)

详细信息

作者简介:
关欣：女，博士，教授，研究方向为信息融合、电子对抗及智能计算

国佳恩：男，硕士生，研究方向为多传感器信息融合

卢雨：男，博士生，研究方向为无源协同定位、多源信息融合

通讯作者:
国佳恩　guojiaen@163.com

中图分类号: TN913
计量
- 文章访问数: 541
- HTML全文浏览量: 319
- PDF下载量: 133
- 被引次数: 3
出版历程
- 收稿日期: 2022-07-22
- 修回日期: 2023-01-27
- 网络出版日期: 2023-02-08
- 刊出日期: 2023-12-26

Discriminant Adversarial Hashing Transformer for Cross-modal Vessel Image Retrieval

GUAN Xin¹,
GUO Jiaen^{1, 2
, ,},
LU Yu¹

1.
Naval Aviation University, Ysntai 264001, China
2.
Unit 91422 of the PLA, Yantai 265200, China

Funds: Taishan Scholar Engineering Special Fund (ts 201712072), The National Defense Science and Technology Excellence Youth Talent Fund (2017-JCJQ-ZQ-003)

摘要

摘要: 针对当前主流的基于卷积神经网络(CNN)范式的跨模态图像检索算法无法有效提取舰船图像细节特征，以及跨模态“异构鸿沟”难以消除等问题，该文提出一种基于对抗机制的判别性哈希变换器(DAHT)用于舰船图像的跨模态快速检索。该网络采用双流视觉变换器(ViT)结构，依托ViT的自注意力机制进行舰船图像的判别性特征提取，并设计了Hash Token结构用于哈希生成；为了消除同类别图像的跨模态差异，整个检索框架以一种对抗的方式进行训练，通过对生成哈希码进行模态辨别实现模态混淆；同时设计了一种基于反馈机制的跨模加权5元组损失(NW-DCQL)以保持网络对不同类别图像的语义区分性。在两组数据集上开展的4类跨模态检索实验中，该文方法相比次优检索结果分别取得了9.8%, 5.2%, 19.7%, 21.6%的性能提升(32 bit)，在单模态检索任务中亦具备一定的性能优势。
- 跨模态检索 /
- 舰船图像 /
- 对抗训练 /
- 哈希变换 /
- 变换器
Abstract: In view of the problems that the current mainstream cross-modal image retrieval algorithm based on Convolutional Neural Network (CNN) paradigm can not extract details of ship images effectively, and the cross-modal “heterogeneous gap” is difficult to eliminate, a Discriminant Adversarial Hash Transformer (DAHT) is proposed for fast cross-modal retrieval of ship images. The network adopts dual-stream Vision Transformer(ViT) structure and relies on the self-attention mechanism of ViT to extract the discriminant features of ship images. Based on this, a Hash Token structure is designed for Hash generation. In order to eliminate the cross-modal difference of the same category image, the whole retrieval framework is trained in an adversarial way, and modal confusion is realized by modal discrimination of generated Hash codes. At the same time, a Normalized discounted cumulative gain Weighting based Discriminant Cross-modal Quintuplet Loss (NW-DCQL) is designed to maintain the semantic discrimination of different types of images. In the four types of cross-modal retrieval tasks carried out on two datasets, the proposed method achieves 9.8 %, 5.2 %, 19.7 %, and 21.6 % performance improvement compared with the suboptimal retrieval results (32 bit), and also has certain performance advantages in unimodal retrieval tasks.
- Cross-modal retrieval /
- Vessel image /
- Adversarial training /
- Hash transform /
- Transformer

HTML全文

1. 引言

当前对海洋态势感知的迫切需求使得舰船监测数据在数量上呈现出爆炸性增长的态势，在大规模舰船监测数据中检索到感兴趣的关键信息也就成为当前一个亟需解决的关键问题，具有广泛的应用前景和较高的研究价值，一个良好的检索算法能大大提升对监测大数据的管理能力^[1,2]。

文献[3]是对遥感场景图像进行跨模态检索的首次尝试，作者基于深度学习架构设计了一组源不变深度哈希卷积神经网络(Convolutional Neural Network, CNN)用于双模态遥感图像特征的并行提取，并在其构建的双模态遥感图像数据集(Dual-Source Remote Sensing Image Dataset, DSRSID)上验证了所提算法的有效性；通过将识别引入跨模态检索框架中，Xiong等人^[4]基于循环生成对抗网络^[5](Cycle-Generative Adversarial Networks, Cycle-GAN)设计了一种循环-识别生成对抗网络并将其用于跨模态配对样本的生成，以源域-目标域图像互相映射的思路解决了跨模态数据的特征漂移问题，在DSRSID上的平均准确率均值(mean Average Precision, mAP)^[5]最高可达到97.55%；文献[6]采用了知识蒸馏的思路来解决跨模态数据的“异构鸿沟”问题，通过将源域图像信息进行跨模态蒸馏，在DSRSID上的mAP值最高达到了98.98%； Sun等人^[7]同样基于跨模态对抗网络(Cross-modal Adversarial Network, GAN)设计了多光谱(Multi-Spectral, MS)图像生成网络进行跨模态视觉语义差异的消除；Hu等人 ^[8]主要关注含噪声标签背景下的图文跨模态检索问题，基于鲁棒聚类损失和多模态对比损失设计了一个通用的多模态鲁棒学习框架，在4类广泛使用的多模态数据集上验证了所提框架的先进性；Xu等人^[9]针对图文检索中源域和目标域类别不一致导致的不可扩展问题，提出了一种模态对抗性语义学习网络来重建不同模态数据，对抗性学习机制的引入可以最小化跨模态类别差异，较好地解决了目标域存在“不可见”类时的跨模态检索问题。文献[9]采用的对抗思想最早由Wang等人^[10]提出，让不同模态特征相互对抗以实现混淆的目的，特征对抗的思想也被后来的许多多模态检索研究所借鉴；文献[11]基于模态对抗思想构建了跨模态检索框架，并利用图卷积神经网络进行样本表示的重构，以弥补单样本信息表达的不足；文献[12]提出了一种基于对抗引导的非对称哈希方法，同样基于对抗思想进行跨模态检索框架的搭建，并且为了保留样本的多标签语义信息，设计了非对称式的哈希生成方法来进行多标签语义信息的映射。但是上述方法中特征对抗的实现均基于高维卷积特征，难以保证特征空间与度量空间相似性的完全过渡，在检索精度上仍然有进一步的提升空间。

当前专门针对舰船图像检索的研究较少，Hu等人^[13]基于视觉词袋模型进行舰船图像的视觉特征提取，并采用词频-逆文档频率对词频向量进行加权，实现舰船图像检索的同时提升了检索的效率；另有Tian等人^[14]利用VGG16网络提取的卷积特征构造视觉词袋，其检索准确性要高于传统尺度不变特征变换及加速稳健特征；邹利华^[15]则基于自适应短时傅里叶算法辅以主成分分析降维实现了舰船图像的快速检索。综合当前研究成果来看，关于跨模态检索的研究限于图文及遥感场景图像等对象，仅有的几项针对舰船图像检索的研究仍然以传统手工提取特征为主，且主要集中于同模态图像的相互检索，普遍存在特征提取困难，检索效率低下等问题，针对舰船图像的跨模态检索研究几乎没有。

为了弥补舰船图像跨模态检索的相关研究空白，本文设计一种基于判别性对抗哈希变换器(Discriminant Adversarial Hashing Transformer, DAHT)的跨模态舰船图像检索框架予以解决。具体来说，DAHT在一个框架内融合了GAN及ViT (Vision Transformer)^[16]两种视觉生成及理解范式，识别-哈希变换器(Identity-Hash Transformer, IH-Transformer)用于舰船图像微细节提取并在GAN中扮演生成器角色，CAN用于在哈希空间中消除由生成器输出的跨模态配对哈希码的模态差异。此外，本文还设计了一种基于归一化折损累计增益(Normalized Discounted Cumulative Gain, NDCG)加权的判别性跨模5元组损失(NDCG Weighting based Discriminant Cross-modal Quintuplet Loss, NW-DCQL)以实现哈希空间中不同类别样本的最优分布。

2. 判别性对抗哈希变换器

本文考虑有监督条件下双模态舰船图像的相互检索，给定N组配对图像集 ${{\boldsymbol{G}}} = \left\{ {{{d}_i}} \right\}_{i = 1}^N$ , ${{\boldsymbol{L}}} = \left\{ {{{l}_i}} \right\}_{i = 1}^N$ 为与之对应的标签向量，其中 ${{{\boldsymbol{l}}}_i} = \left[ {{l_{i1}},{l_{i2}}, \cdots ,{l_{ic}}} \right]$ 是第i组图像对应的标签向量，其中 ${l_{ij}} \in \left[ {0,1} \right]$ ， $c$ 为类别数。DAHT的整体框架由2.1节给出，其中包含两个重要组件：用于语义嵌入及哈希生成的识别-哈希变换器及用于模态混淆的跨模态对抗网络，用于指导网络训练的核心损失函数NW-DCQL将在2.4节进行具体介绍。

2.1 DAHT整体结构

图1是DAHT的基本框架，其整体以GAN结构进行搭建，并将模态对抗从特征空间转移到哈希空间中，确保网络的优化对象与最终用于检索的特征向量相一致。生成器在DAHT中被替换为双模态舰船图像特征提取器IH-变换器，用于对输入的双模态配对舰船图像进行判别性特征提取，并经过哈希生成后在哈希空间内进行2元博弈以欺骗判别器。当配对样本生成的哈希码能够实现对判别器的有效“欺骗”时，认为实现模态混淆，模态边界消失，舰船图像的跨模态检索问题转化为单模态检索问题，在一定程度上保证了检索的准确性。如图1，IH-ViT具有两组输出，可实现类别预测及哈希码生成的双重功能。其中哈希分支用于舰船图像的哈希生成，可将多模态舰船图像中包含的判别性信息集成到紧凑的二进制哈希码中，以提升后续舰船图像的跨模态检索速度。识别分支输出的类概率分布则用于提升哈希生成的质量，在交叉熵损失的约束下可对不同类别舰船图像包含的潜在语义信息进行预先嵌入，使得生成的哈希码在进入哈希空间之前能够包含足够的语义判别信息，以便后续交由NW-DCQL进行进一步优化。

图 1 DAHT基本框架

下载: 全尺寸图片幻灯片

2.2 用于哈希生成的识别-哈希变换器

针对常规CNN无法有效关注舰船图像的细节信息，对全局特征建模能力不强等问题，本文将ViT作为特征提取器引入到检索框架中，试图更好地建模深浅层视觉特征之间的相似性以及图像的空间信息，并提出一种可同时满足分类及检索双重功能的视觉变换器，即IH-ViT，其结构如图2所示。

图 2 IH-ViT结构

下载: 全尺寸图片幻灯片

如图2，按照ViT的处理思路，尺寸为H×W×C的输入图像进入IH-ViT后首先被分割成若干大小为P×P×C的图像切片，其中H×W为输入图像的分辨率，P×P为图像切片的分辨率，C为图像通道数。经过分割得到的图像切片数为N=HW/P²。由于变换器只能处理序列数据，在完成图像分割后需要将2维图像切片拉平为1维图像序列，并统一处理为相同维度D以便后续处理。式(1)表示图像序列的预处理。其中，x_i为展平后的图像序列，E为用于维度转换的变换矩阵，z₀为最终输入编码器的序列组

${{\boldsymbol{{z}}}_0} = \left[ {{{{\boldsymbol{x}}}_{{\text{class}}}};{{{\boldsymbol{x}}}_1}{{\boldsymbol{E}}};{{{\boldsymbol{x}}}_2}{{\boldsymbol{E}}}; \cdots ;{{{\boldsymbol{x}}}_N}{{\boldsymbol{E}}}} \right] + {{{\boldsymbol{E}}}_{{\text{pos}}}}$

(1)

原始ViT中一组可优化的序列x_class即Class Token可与其他图像序列进行交互，自适应地从中提取有效判别性信息，并最终转换为可用于分类的图像表示。为了保持原始图像块的位置信息，一组1D位置编码序列E_pos参与到序列组z₀的构造中，并满足 ${{{\boldsymbol{E}}}_{{\text{pos}}}} \in {\mathbb{R}^{\left( {N + 1} \right) \times D}}$ 。

ViT最初被设计用于解决图像分类问题并通过Class Token输出的类概率分布来实现。文献[12]在Class Token之后附加了一组全连接层进行维度变换以获取图像的哈希表示，基于分类及检索的差异性，这种直接嫁接的方式并不能获得完全有效的哈希表示，且丢失了原始Class Token的类语义嵌入功能。为了保留Class Token分类功能的同时获取高质量的图像哈希表示，IH-ViT在原始ViT的基础上设计了一组同样可随训练进行优化的1维哈希序列Hash Token用于哈希生成，表示为x_hash，并将其添加到图像序列组中参与信息交互，捕获用于满足检索任务的判别性信息，如式(2)所示。

${{\boldsymbol{z}}'_0} = \left[ {{{{\boldsymbol{x}}}_{{\text{class}}}};{{{\boldsymbol{x}}}_1}{{\boldsymbol{E}}};{{{\boldsymbol{x}}}_2}{{\boldsymbol{E}}}; \cdots ;{{{\boldsymbol{x}}}_N}{{\boldsymbol{E}}};{{{\boldsymbol{x}}}_{{\text{hash}}}}} \right] + {{\boldsymbol{E}}'_{{\text{pos}}}}$

(2)

此时位置编码序列E_pos与输出序列组z₀的维度也随之发生改变并扩展到N+2维，即 ${{\boldsymbol{z}}'_0},{{\boldsymbol{E}}'_{{\text{pos}}}} \in {\mathbb{R}^{\left( {N + 2} \right) \times D}}$ 。

图像预处理完成后，便可输入变换器编码器进行后续的处理。IH-ViT采用了与原ViT一致的编码器结构进行图像序列的处理。如图2，图像序列组进入编码器后，首先依靠层归一化(Layer Norm, LN)完成规范化处理，然后在多头自注意力模块和多层感知机(Multi Layer Perceptron, MLP)中进行进一步处理，并通过跨层连接的方式进一步增强特征表示，上述流程可总结为

$\left. \begin{gathered} {{\boldsymbol{z}}'_l} = {\text{MSA}}\left( {{\text{LN}}\left( {{{\boldsymbol{z}}_{l - 1}}} \right)} \right) + {{{\boldsymbol{z}}}_{l - 1}} \\ {{{\boldsymbol{z}}}_l} = {\text{MLP}}\left( {{\text{LN}}\left( {{{\boldsymbol{z}}'_l}} \right)} \right) + {{\boldsymbol{z}}'_l} \\ \end{gathered} ,l = 1,2, \cdots ,L \right\}$

(3)

其中，L为编码器数量。多头自注意力模块的具体结构及原理本文不做赘述，在此只给出编码器的具体构造，如图2(b)所示。综上，IH-ViT的最终输出为x_class以及x_hash两部分，并通过两组多层感知机(Identification Head及Hashing Head)分别输出类概率分布y和实值哈希码h

$\left. \begin{gathered} {{\boldsymbol{y}} = }{{{\boldsymbol{F}}}_{{\text{Sigmoid}}}}\left( {{{\boldsymbol{x}}}_{{\text{class}}}^L{{\boldsymbol{W}}}_{{\text{class}}}^{\text{T}} + {{{\boldsymbol{b}}}_{{\text{class}}}}} \right) \\ {{\boldsymbol{h}} = }{{{\boldsymbol{F}}}_{\rm{Tanh} }}\left( {{{\boldsymbol{x}}}_{{\text{hash}}}^L{{\boldsymbol{W}}}_{{\text{hash}}}^{\text{T}} + {{{\boldsymbol{b}}}_{{\text{hash}}}}} \right) \\ \end{gathered} \right\}$

(4)

为了使生成的哈希码具备足够的判别性，IH-ViT基于y额外构造了分类任务，试图通过分类对IH-ViT进行辅助优化，将潜在的类语义信息转移到生成的哈希码中，该过程通过交叉熵损失来实现

${L_{{\text{IDE}}}} = \frac{1}{N}{{l}_i}\sum\limits_i^N {\lg {{y}_i}}$

(5)

2.3 用于模态混淆的跨模态对抗网络

为了避免直接在特征空间中优化IH-ViT使得哈希码的跨模态相似性无法有效保持的问题，本文将对抗思想引入哈希空间，尝试在哈希空间中消除跨模态“异构鸿沟”，实现哈希码的最近邻匹配。具体来说，CAN仅采用了GAN中的判别器结构，而生成器被替换为双流IH-ViT，并以其输出的实值哈希码作为CAN的输入参与模态对抗。CAN的目的是对来自不同模态的哈希码进行辨别，并将损失进行反向传播，以此实现对自身参数及双流IH-ViT的更新。其损失函数为

$\begin{split} {L_{{\text{CAN}}}} =& \frac{1}{N}\sum \left( \lg \left( {{{\boldsymbol{D}}}\left( {{{{\boldsymbol{h}}}^m};{\phi _h}} \right)} \right) \right.\\ & \left.+ \lg \left( {1 - {{\boldsymbol{D}}}\left( {{{{\boldsymbol{h}}}^n};{\phi _h}} \right)} \right) \right) \end{split}$

(6)

其中，h^m, hⁿ为双模态哈希码， ${\phi _h}$ 为判别器参数，D表示判别器。

借助GAN的最大-最小的2元博弈结构，整个DAHT的参数都可以随着CAN的输出做动态调整优化，在这个过程中同类别样本的跨模态差异性得以不断缩小，当CAN无法对输入进行辨别时，表明此时分属不同模态的哈希码在哈希空间实现了一致的分布，目标函数取得全局最优解。

表1给出了判别器的网络结构，其中B表示哈希码长，Tanh用于将输出限幅为[0,1]。

表 1 判别器结构组成

层名称	参数设置
线性层1	B×B/2
激活层1	ReLU
线性层2	B/2×B/4
激活层2	ReLU
线性层3	B/4×1
激活层3	Tanh

下载: 导出CSV

| 显示表格

2.4 基于NDCG加权的判别性跨模5元组损失

DAHT的输入为配对的双模态舰船图像，即使考虑模态异构，双模态舰船图像仍然具有较高的相似性，而CAN只针对配对样本之间的模态差异进行了优化，虽然保证了跨模态同类样本具有一致的哈希分布，但没有很好地考虑舰船图像巨大的类内差异性和高度的类间相似性。3元组损失通过抽样并构造Anchor-Positive-Negative的图像3元组形式，可以较好地解决上述问题，但将其直接应用到跨模态检索中又存在困难。3元组损失的核心在于3元组的构造，一般思路是选取难区分样本组以增强网络的泛化能力，从而使网络学习到更好的表征。文献[17]通过构造采样器实现了基于难样本挖掘的3元组损失，但十分消耗计算资源。为了保证网络跨模态快速检索的同时实现良好的正负样本区分，本文摒弃了难样本挖掘的传统思路并提出一种带反馈机制的判别性跨模5元组损失NW-DCQL予以解决。

3元组损失的基本思想是对于每一张参与训练图像即锚点图像(Anchor)都从其对应的batch中选取1张正样本(Positive)图像即同类别图像和1张负样本(Negative)图像组成3元组参与训练，使得在特征空间中锚点图像能够和正样本图像接近而远离负样本图像。其定义为

${L_{{\text{tri}}}} = \sum {\max \left( {d\left( {{{\boldsymbol{h}}},{{{\boldsymbol{h}}}_ + }} \right) - d\left( {{{\boldsymbol{h}}},{{{\boldsymbol{h}}}_ - }} \right) + m,0} \right)}$

(7)

其中， $d\left( \cdot \right)$ 表示距离，“+”表示正样本，“–”表示负样本，m为边距控制系数，用于控制锚点图像与正负样本图像之间的距离差。区别于常规3元组损失，NW-DCQL可同时进行模内及跨模采样。如图3所示，(m₊,m_–)为同模态采样的正负样本对，(n₊,n_–)则为跨模态采样的正负样本对。此外，NW-DCQL还将训练过程的关联结果反馈到5元组损失的计算中，并通过加权的方式优化正负样本之间的距离，以此代替难样本的挖掘过程。在介绍NW-DCQL之前，首先对加权5元组损失的原理进行介绍。如， $\omega ,\mu$ 为权重系数，并满足 $\omega > 1,\mu < 1$ 。不难得出，在权重系数的控制下，当l₁, l₂取值不变时，锚点图像与正样本图像之间的距离变得更小而与负样本图像之间的距离增大，这无疑会使得网络可以更好地对不同类别图像进行区分辨别。

图 3 加权5元组损失原理

下载: 全尺寸图片幻灯片

结合上述分析首先给出加权跨模5元组损失的定义

$\begin{split} {L_{{\text{DCQL}}}} = &\frac{1}{N}\sum \left( \max \left( \omega d \left( {{{{\boldsymbol{h}}}^m} ,{{\boldsymbol{h}}}_ + ^m} \right) - \mu d \left( {{{{\boldsymbol{h}}}^m},{{\boldsymbol{h}}}_ - ^m} \right) + p,0 \right)\right. \\ & \left. + \max \left( {\omega d\left( {{{{\boldsymbol{h}}}^m},{{\boldsymbol{h}}}_ + ^n} \right) - \mu d\left( {{{{\boldsymbol{h}}}^m},{{\boldsymbol{h}}}_ - ^n} \right) + q,0} \right) \right) \end{split}$

(8)

其中，p,q为边距控制系数。将权重 $\omega ,\mu$ 替换为NDCG，得到基于NDCG加权的判别性跨模5元组损失为

$\begin{split} {L_{{\text{NW - DCQL}}}} = & \frac{1}{N}\sum \left( \max \left( {{d\left( {{{{\boldsymbol{h}}}^m},{{\boldsymbol{h}}}_ + ^m} \right)} \mathord{\left/ {\vphantom {{d\left( {{{{\boldsymbol{h}}}^m},{{\boldsymbol{h}}}_ + ^m} \right)} {{\text{NDCG}}}}} \right. } {{\text{NDCG}}}} \right.\right.\\ & \left.- {\text{NDCG}} \cdot d\left( {{{{\boldsymbol{h}}}^m},{{\boldsymbol{h}}}_ - ^m} \right) + p,0 \right) \\ & + \max \left( {{d\left( {{{{\boldsymbol{h}}}^m},{{\boldsymbol{h}}}_ + ^n} \right)} \mathord{\left/ {\vphantom {{d\left( {{{{\boldsymbol{h}}}^m},{h}_ + ^n} \right)} {{\text{NDCG}}}}} \right. } {{\text{NDCG}}}} \right.\\ & \left.\left.- {\text{NDCG}} \cdot d\left( {{{{\boldsymbol{h}}}^m},{{\boldsymbol{h}}}_ - ^n} \right) + q,0 \right) \right) \end{split}$

(9)

其中，NDCG^[18]是一种用于评估推荐系统中排序返回结果的准确性的指标，排名越准确，其值越接近1。综上，DAHT的损失函数共有L_CAN, L_IDE及L_NW-DCQL 3部分，首先对L_IDE及L_NW-DCQL进行组合并用于网络的端到端优化，得到目标函数

$L = \alpha \cdot {L_{{\text{IDE}}}} + \beta \cdot {L_{{\text{NW-DCQL}}}}$

(10)

其中，α, β为损失对应权重。

组合完毕采取交替策略后对整个DAHT进行优化。具体来说，首先固定DAHT中除CAN外的参数，并依靠L_CAN进行反向传播更新CAN参数；而后固定CAN中的参数，依靠L对网络其余部分进行优化。

3. 实验结果与分析

3.1 数据集、基线和评价标准

本文引入目前唯一公开的两组双模态舰船图像数据集MPSC^[19]及VAIS^[20]进行DAHT跨模态检索效果的检验。为了确保实验对比的公平性，本节开展的舰船图像跨模态检索实验均在官方测试集上开展，并采用与文献[21]一致的计算平台进行网络的训练及效果的测试。数据集的具体类别信息同样已由文献[21]给出，本文在此不做赘述。

由于目前没有专门针对舰船图像的跨模态检索研究，为了全面地检验DAHT的舰船图像检索效果，本文从遥感场景图像检索及图文检索领域选取几类先进的跨模态哈希检索方法参与对比，分别为AGAH^[12], DADH^[22], DCMH^[23], DCMHN^[24]；此外，本文额外引入DHN^[25], DSH^[26], DCH^[27], DFH^[28], DPN^[29]等几类表现良好的哈希检索框架进行DAHT单模态舰船图像检索效果的对比检验。为了保证实验对比的公平性，上述哈希方法的特征提取器均被替换为ResNet50。同时，实验选取检索任务中常用的mAP及PR(Precision-Recall)曲线^[23]两类指标进行检索效果的评价。

α, β, p, q, B默认值为1.0, 0.1, 0.3, 0.3, 256，图像尺寸预处理为224×224，图像块尺寸为16×16，编码器个数为12，MSA头数为12，维数D设定为768。采用Adam算法进行网络优化，初始学习率设定为0.000 1，共训练100轮次，每10轮衰减0.9倍。

3.2 检索性能分析

表2给出了不同哈希码长下不同哈希算法的跨模态检索mAP值，其中，M2P表示用多光谱图像检索全色图像，其余检索任务采用相同的表示方法，加粗字体表示对应检索任务的最优结果。分析表中结果可以发现，DAHT在4类不同的舰船图像跨模态检索任务中均实现了最高的mAP值。这是因为DAHT采用的IH-ViT是在ViT的基础上进行搭建，ViT的引入首先保证了网络可以有效关注舰船图像中的细节信息，同时可有效建模舰船图像的整体信息，相比几类对比方法能够有效捕获多模态舰船图像的判别性信息；其次，Hash Token结构的设计也使得DAHT可以更好地进行哈希生成，与Class Token互相配合可以帮助网络有针对性地对类语义信息及哈希信息进行分别建模，生成的哈希码也即更具判别性；此外，在3元组损失基础上改进得到的NW-DCQL能够同时进行样本的模内及跨模采样，对跨模态检索具有更好的适应性，反馈加权机制的设计也能够加速网络的收敛，在随机构造5元组的基础上增强了对难样本的区分性。

表 2 不同哈希码长度下跨模态检索mAP值对比

数据集	方法	检索任务	32 bit	64 bit	128 bit	256 bit
MPSC	DAHT	M2P	0.696	0.691	0.696	0.693
	DAHT	P2M	0.715	0.713	0.729	0.714
	AGAH	M2P	0.437	0.444	0.432	0.437
	AGAH	P2M	0.446	0.457	0.443	0.446
	DADH	M2P	0.455	0.458	0.446	0.432
	DADH	P2M	0.453	0.461	0.470	0.439
	DCMH	M2P	0.378	0.400	0.332	0.440
	DCMH	P2M	0.346	0.370	0.268	0.422
	DCMHN	M2P	0.598	0.589	0.601	0.599
	DCMHN	P2M	0.563	0.561	0.593	0.568
VAIS	DACH	V2I	0.599	0.582	0.617	0.603
	DACH	I2V	0.603	0.615	0.611	0.635
	AGAH	V2I	0.390	0.401	0.387	0.368
	AGAH	I2V	0.369	0.390	0.383	0.361
	DADH	V2I	0.389	0.398	0.401	0.413
	DADH	I2V	0.386	0.392	0.387	0.388
	DCMH	V2I	0.401	0.404	0.403	0.396
	DCMH	I2V	0.384	0.368	0.384	0.372
	DCMHN	V2I	0.402	0.399	0.411	0.428
	DCMHN	I2V	0.387	0.379	0.402	0.404

下载: 导出CSV

| 显示表格

继续对DAHT的单模态舰船图像检索效果进行检验，结果如表3所示。从表3结果来看，DAHT在不同哈希码长下相比几类单模态哈希检索算法仍然具有一定的检索优势，在P2P及I2I两类检索任务上相比其他算法有近20%的性能提升，在M2M及V2V中则略逊于DCH等对比算法。这是由于NW-DCQL同时进行了模内及跨模的采样，其优化方向不易把握，在实现跨模紧致性的同时无法保证同模态样本的类内紧致性，因此在单模态舰船图像检索任务中缺乏一定的鲁棒性。虽然DAHT在M2M及V2V两类检索任务中没有实现最佳的检索精度，但与最优结果相差并不大，总体来看仍然优于几类对比方法。

表 3 不同哈希码长度下单模态检索mAP值对比

数据集	方法	检索任务	32 bit	64 bit	128 bit	256 bit
MPSC	DAHT	M2M	0.648	0.548	0.657	0.640
	DAHT	P2P	0.777	0.759	0.781	0.780
	DHN	M2M	0.678	0.685	0.668	0.651
	DHN	P2P	0.545	0.551	0.559	0.543
	DSH	M2M	0.501	0.471	0.485	0.476
	DSH	P2P	0.366	0.405	0.388	0.360
	DCH	M2M	0.695	0.683	0.692	0.669
	DCH	P2P	0.561	0.557	0.572	0.544
	DFH	M2M	0.665	0.700	0.691	0.695
	DFH	P2P	0.569	0.568	0.570	0.572
	DPN	M2M	0.646	0.651	0.659	0.654
	DPN	P2P	0.532	0.551	0.536	0.553
VAIS	DAHT	V2V	0.637	0.625	0.639	0.633
	DAHT	I2I	0.719	0.743	0.752	0.736
	DHN	V2V	0.613	0.602	0.620	0.641
	DHN	I2I	0.504	0.529	0.509	0.510
	DSH	V2V	0.571	0.554	0.494	0.442
	DSH	I2I	0.468	0.416	0.397	0.356
	DCH	V2V	0.631	0.659	0.667	0.656
	DCH	I2I	0.512	0.529	0.521	0.499
	DFH	V2V	0.622	0.648	0.642	0.633
	DFH	I2I	0.510	0.525	0.514	0.509
	DPN	V2V	0.620	0.634	0.663	0.645
	DPN	I2I	0.487	0.491	0.492	0.489

下载: 导出CSV

| 显示表格

图4及图5分别为哈希码长为256 bit时的跨模态及单模态检索PR曲线。图4可以清晰地展示DAHT相比其他跨模态检索方法的巨大优势，在同样的Recall值下，其Precision值要大幅高于其他算法。图5同样表明了DAHT在单模态检索中要优于其他哈希方法。综合表2及表3中的mAP结果可以验证DAHT对舰船图像检索任务的有效性。

图 4 不同网络跨模态检索PR曲线对比(256 bit)

下载: 全尺寸图片幻灯片

图 5 不同网络单模态检索PR曲线对比(256 bit)

下载: 全尺寸图片幻灯片

为了进一步对DAHT中设计的不同模块进行性能检验，设计以下5种形式的DAHT并开展消融实验对DAHT进行评估，包含DAHT在内的7种网络8类检索任务的mAP值如表4所示。

表 4 消融实验mAP值

网络	跨模态检索				单模态检索
网络	M2P	P2M	V2I	I2V	M2M	P2P	V2V	I2I
DAHT-1	0.680	0.691	0.601	0.615	0.636	0.764	0.540	0.722
DAHT-2	0.600	0.655	0.595	0.591	0.600	0.755	0.519	0.725
DAHT-3	0.682	0.689	0.591	0.584	0.630	0.761	0.534	0.707
DAHT-4	0.668	0.679	0.600	0.595	0.630	0.731	0.509	0.726
DAHT-5	0.608	0.631	0.555	0.579	0.566	0.725	0.521	0.661
DAHT-6	0.668	0.692	0.588	0.596	0.638	0.762	0.529	0.715
DAHT	0.693	0.714	0.603	0.635	0.640	0.780	0.553	0.736

下载: 导出CSV

| 显示表格

(1) DAHT-1：将跨模加权5元组损失替换为跨模3元组损失。

(2) DAHT-2：将跨模加权5元组损失替换为跨模5元组损失。

(3) DAHT-3：去除跨模态对抗网络不进行模态混淆。

(4) DAHT-4：去除Hash Token，直接用Class Token进行哈希生成。

(5) DAHT-5：将IH-ViT替换为ResNet50。

(6) DAHT-6：在跨模5元组损失基础上采用文献[28]的难样本挖掘策略。

综合分析表4中结果可以发现，DAHT在8类检索任务中均取得了最高的检索mAP值。以P2M为例，DAHT相比其他6种形式的DAHT分别提升了2.3%, 6.9%, 2.5%, 3.5%, 8.3%及2.2%，证明DAHT中设计的几种性能提升手段均能改善网络的检索准确性。NW-DCQL采用的跨模态采样策略缩小了同类别样本的模态差异，能有效改善跨模态检索的准确性；NDCG的引入既实现了加权5元组损失对正负样本对距离的良好控制，又可以将关联结果反馈到网络的优化过程中，相比常规3元组损失其对类别信息的判别性更强，能够更加有效地指导DAHT的训练，提升DAHT的判别性。CAN的设计可进一步提升跨模态配对哈希码的相似性，使得同类别样本的模态差异减小，更容易实现舰船图像的准确检索；DAHT-5的检索结果则验证了ViT相比CNN在舰船图像特征提取上的优势。

3.3 参数敏感性分析

DAHT的检索性能受目标函数的影响，式(10)中有效的超参数取值能帮助DAHT实现最佳的检索效果。图6给出了超参数α和β的不同取值在MPSC上的影响，其中数值结果表示DAHT在M2P及P2M两类检索任务上mAP的平均值。

图 6 不同参数设置下的检索mAP对比

下载: 全尺寸图片幻灯片

从图6可知，不同的超参数设置对检索结果的影响较大。总体来看，DAHT对α的变化较为敏感，平均检索mAP在不同α取值下具有较大的波动趋势，且不同哈希码长下的平均检索mAP亦有较大差异。因此在不同码长下，为了保证较好的检索效果，DAHT可以进行参数寻优以取得较高的检索准确率。同时可以看出当α和β均取0时，DAHT的跨模态检索效果及单模态检索效果均大幅下降，而当取其他值时，检索效果变化不大，证明了式(10)中设计的两类损失函数均能有效提升DAHT的舰船图像检索效果。

3.4 计算复杂度分析

表5给出了不同方法在MPSC上单一轮次的平均训练时间。为了保证对比的公平性，本节采用相同的运算平台进行网络的训练，并且只对训练时间进行统计，数据的预处理等过程消耗的时间不统计在内。根据表5结果，由于DAHT的参数量较大，相比其他算法在训练时间上不具有显著优势，逊于几类对比算法；同时，对比DAHT-6的训练时间来看，DAHT采用的反馈加权策略既能实现检索精度的提升，又不会增加运算量，证明了NW-DCQL在跨模态检索任务中的有效性。

表 5 不同方法训练时间及参数量对比

	DAHT	DAHT-5	DAHT-6	AGAH	DADH	DCMH	DCMHN	DHN	DSH	DCH	DFH	DPN
训练时间(s)	49.61	30.87	53.10	13.91	17.05	10.84	15.98	11.63	11.85	11.57	12.90	11.75
参数量(M)	85.8	25.6	85.8	57.5	50.8	47.1	53.8	23.6	23.6	23.6	23.6	23.6

下载: 导出CSV

| 显示表格

4. 结束语

针对当前无专门针对舰船图像跨模态检索研究，现有跨模态检索方法对舰船图像适应性不强的问题，本文提出一种基于判别性对抗哈希变换器的跨模态舰船图像检索方法。基于ViT构建哈希转换器将舰船图像的判别性细节特征转换为高质量哈希码，并通过对抗训练消除模态差异性，保持配对样本的语义结构。在此基础上设计了一种跨模加权5元组损失实现在无难样本挖掘的前提下对不同类别样本的距离控制，有效提升哈希码的跨模态相似性及异类语义区分性。实验结果表明，本文所提方法能大幅提升舰船图像的跨模态检索准确性，同时兼具良好的单模态舰船图像检索效果，具有较高的实际应用价值；但同时ViT的引入也使得模型存在参数量较大以及图像需预处理成相同尺寸等不足，后续将针对模型的轻量化展开进一步的研究。

图 1 DAHT基本框架

下载: 全尺寸图片幻灯片

图 2 IH-ViT结构

下载: 全尺寸图片幻灯片

图 3 加权5元组损失原理

下载: 全尺寸图片幻灯片

图 4 不同网络跨模态检索PR曲线对比(256 bit)

下载: 全尺寸图片幻灯片

图 5 不同网络单模态检索PR曲线对比(256 bit)

下载: 全尺寸图片幻灯片

图 6 不同参数设置下的检索mAP对比

下载: 全尺寸图片幻灯片

表 1 判别器结构组成

层名称	参数设置
线性层1	B×B/2
激活层1	ReLU
线性层2	B/2×B/4
激活层2	ReLU
线性层3	B/4×1
激活层3	Tanh

下载: 导出CSV

表 2 不同哈希码长度下跨模态检索mAP值对比

数据集	方法	检索任务	32 bit	64 bit	128 bit	256 bit
MPSC	DAHT	M2P	0.696	0.691	0.696	0.693
	DAHT	P2M	0.715	0.713	0.729	0.714
	AGAH	M2P	0.437	0.444	0.432	0.437
	AGAH	P2M	0.446	0.457	0.443	0.446
	DADH	M2P	0.455	0.458	0.446	0.432
	DADH	P2M	0.453	0.461	0.470	0.439
	DCMH	M2P	0.378	0.400	0.332	0.440
	DCMH	P2M	0.346	0.370	0.268	0.422
	DCMHN	M2P	0.598	0.589	0.601	0.599
	DCMHN	P2M	0.563	0.561	0.593	0.568
VAIS	DACH	V2I	0.599	0.582	0.617	0.603
	DACH	I2V	0.603	0.615	0.611	0.635
	AGAH	V2I	0.390	0.401	0.387	0.368
	AGAH	I2V	0.369	0.390	0.383	0.361
	DADH	V2I	0.389	0.398	0.401	0.413
	DADH	I2V	0.386	0.392	0.387	0.388
	DCMH	V2I	0.401	0.404	0.403	0.396
	DCMH	I2V	0.384	0.368	0.384	0.372
	DCMHN	V2I	0.402	0.399	0.411	0.428
	DCMHN	I2V	0.387	0.379	0.402	0.404

下载: 导出CSV

表 3 不同哈希码长度下单模态检索mAP值对比

数据集	方法	检索任务	32 bit	64 bit	128 bit	256 bit
MPSC	DAHT	M2M	0.648	0.548	0.657	0.640
	DAHT	P2P	0.777	0.759	0.781	0.780
	DHN	M2M	0.678	0.685	0.668	0.651
	DHN	P2P	0.545	0.551	0.559	0.543
	DSH	M2M	0.501	0.471	0.485	0.476
	DSH	P2P	0.366	0.405	0.388	0.360
	DCH	M2M	0.695	0.683	0.692	0.669
	DCH	P2P	0.561	0.557	0.572	0.544
	DFH	M2M	0.665	0.700	0.691	0.695
	DFH	P2P	0.569	0.568	0.570	0.572
	DPN	M2M	0.646	0.651	0.659	0.654
	DPN	P2P	0.532	0.551	0.536	0.553
VAIS	DAHT	V2V	0.637	0.625	0.639	0.633
	DAHT	I2I	0.719	0.743	0.752	0.736
	DHN	V2V	0.613	0.602	0.620	0.641
	DHN	I2I	0.504	0.529	0.509	0.510
	DSH	V2V	0.571	0.554	0.494	0.442
	DSH	I2I	0.468	0.416	0.397	0.356
	DCH	V2V	0.631	0.659	0.667	0.656
	DCH	I2I	0.512	0.529	0.521	0.499
	DFH	V2V	0.622	0.648	0.642	0.633
	DFH	I2I	0.510	0.525	0.514	0.509
	DPN	V2V	0.620	0.634	0.663	0.645
	DPN	I2I	0.487	0.491	0.492	0.489

下载: 导出CSV

表 4 消融实验mAP值

网络	跨模态检索				单模态检索
网络	M2P	P2M	V2I	I2V	M2M	P2P	V2V	I2I
DAHT-1	0.680	0.691	0.601	0.615	0.636	0.764	0.540	0.722
DAHT-2	0.600	0.655	0.595	0.591	0.600	0.755	0.519	0.725
DAHT-3	0.682	0.689	0.591	0.584	0.630	0.761	0.534	0.707
DAHT-4	0.668	0.679	0.600	0.595	0.630	0.731	0.509	0.726
DAHT-5	0.608	0.631	0.555	0.579	0.566	0.725	0.521	0.661
DAHT-6	0.668	0.692	0.588	0.596	0.638	0.762	0.529	0.715
DAHT	0.693	0.714	0.603	0.635	0.640	0.780	0.553	0.736

下载: 导出CSV

表 5 不同方法训练时间及参数量对比

	DAHT	DAHT-5	DAHT-6	AGAH	DADH	DCMH	DCMHN	DHN	DSH	DCH	DFH	DPN
训练时间(s)	49.61	30.87	53.10	13.91	17.05	10.84	15.98	11.63	11.85	11.57	12.90	11.75
参数量(M)	85.8	25.6	85.8	57.5	50.8	47.1	53.8	23.6	23.6	23.6	23.6	23.6

下载: 导出CSV

参考文献(29)

[1]	MUKHERJEE S, COHEN S, and GERTNER I. Content-based vessel image retrieval[J]. SPIE Automatic Target Recognition XXVI, Baltimore, USA, 2016, 9844: 984412.
[2]	何柏青, 王自敏. 反馈机制的大规模舰船图像检索[J]. 舰船科学技术, 2018, 40(4A): 157–159. doi: 10.3404/j.issn.1672-7649.2018.4A.053 HE Baiqing and WANG Zimin. The feedback mechanism of large-scale ship image retrieval[J]. Ship Science and Technology, 2018, 40(4A): 157–159. doi: 10.3404/j.issn.1672-7649.2018.4A.053
[3]	LI Yansheng, ZHANG Yongjun, HUANG Xin, et al. Learning source-invariant deep hashing convolutional neural networks for cross-source remote sensing image retrieval[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(11): 6521–6536. doi: 10.1109/TGRS.2018.2839705
[4]	XIONG Wei, LV Yafei, ZHANG Xiaohan, et al. Learning to translate for cross-source remote sensing image retrieval[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(7): 4860–4874. doi: 10.1109/TGRS.2020.2968096
[5]	ZHU Junyan, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 2242–2251.
[6]	XIONG Wei, XIONG Zhenyu, CUI Yaqi, et al. A discriminative distillation network for cross-source remote sensing image retrieval[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 1234–1247. doi: 10.1109/JSTARS.2020.2980870
[7]	SUN Yuxi, FENG Shanshan, YE Yunming, et al. Multisensor fusion and explicit semantic preserving-based deep hashing for cross-modal remote sensing image retrieval[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5219614. doi: 10.1109/TGRS.2021.3136641
[8]	HU Peng, PENG Xi, ZHU Hongyuan, et al. Learning cross-modal retrieval with noisy labels[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 5399–5409.
[9]	XU Xing, SONG Jingkuan, LU Huimin, et al. Modal-adversarial semantic learning network for extendable cross-modal retrieval[C]. 2018 ACM on International Conference on Multimedia Retrieval, Yokohama, Japan, 2018: 46–54.
[10]	WANG Bokun, YANG Yang, XU Xing, et al. Adversarial cross-modal retrieval[C]. The 25th ACM International Conference on Multimedia, Mountain View, USA, 2017: 154–162.
[11]	DONG Xinfeng, LIU Li, ZHU Lei, et al. Adversarial graph convolutional network for cross-modal retrieval[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(3): 1634–1645. doi: 10.1109/TCSVT.2021.3075242
[12]	GU Wen, GU Xiaoyan, GU Jingzi, et al. Adversary guided asymmetric hashing for cross-modal retrieval[C]. 2019 on International Conference on Multimedia Retrieval, Ottawa, Canada, 2019: 159–167.
[13]	HU Rong, YANG Jie, ZHU Bangpei, et al. Research on ship image retrieval based on BoVW model under hadoop platform[C]. The 1st International Conference on Information Science and Systems, Jeju, Korea, 2018: 156–160.
[14]	TIAN Chi, XIA Jinfeng, TANG Ji, et al. Deep image retrieval of large-scale vessels images based on BoW model[J]. Multimedia Tools and Applications, 2020, 79(13/14): 9387–9401. doi: 10.1007/s11042-019-7725-y
[15]	邹利华. 基于PCA降维的舰船图像检索方法[J]. 舰船科学技术, 2020, 42(24): 97–99. ZOU Lihua. Research on ship image retrieval method based on PCA dimension reduction[J]. Ship Science and Technology, 2020, 42(24): 97–99.
[16]	DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[C/OL]. The 9th International Conference on Learning Representations, 2021.
[17]	HERMANS A, BEYER L, and LEIBE B. In defense of the triplet loss for person re-identification[J]. arXiv: 1703.07737, 2017.
[18]	LI Tao, ZHANG Zheng, PEI Lishen, et al. HashFormer: Vision transformer based deep hashing for image retrieval[J]. IEEE Signal Processing Letters, 2022, 29: 827–831. doi: 10.1109/LSP.2022.3157517
[19]	LI Mengyang, SUN Weiwei, DU Xuan, et al. Ship classification by the fusion of panchromatic image and multi-spectral image based on pseudo siamese LightweightNetwork[J]. Journal of Physics: Conference Series, 2021, 1757: 012022.
[20]	ZHANG M M, CHOI J, DANIILIDIS K, et al. VAIS: A dataset for recognizing maritime imagery in the visible and infrared spectrums[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops, Boston, USA, 2015: 10–16.
[21]	关欣, 国佳恩, 衣晓. 基于低秩双线性池化注意力网络的舰船目标识别[J]. 系统工程与电子技术, 2023, 45(5): 1305–1314. GUAN Xin, GUO Jiaen, and YI Xiao. Low rank bilinear pooling attention network for ship target recognition[J]. Systems Engineering and Electronics, 2023, 45(5): 1305–1314.
[22]	BAI Cong, ZENG Chao, MA Qing, et al. Deep adversarial discrete hashing for cross-modal retrieval[C]. 2020 International Conference on Multimedia Retrieval, Dublin, Ireland, 2020: 525–531.
[23]	JIANG Qingyuan and LI Wujun. Deep cross-modal hashing[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 3270–3278.
[24]	XIONG Wei, XIONG Zhenyu, ZHANG Yang, et al. A deep cross-modality hashing network for SAR and optical remote sensing images retrieval[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 5284–5296. doi: 10.1109/JSTARS.2020.3021390
[25]	ZHU Han, LONG Mingsheng, WANG Jianmin, et al. Deep hashing network for efficient similarity retrieval[C]. The Thirtieth AAAI Conference on Artificial Intelligence, Phoenix, USA, 2016: 2415–2421.
[26]	LIU Haomiao, WANG Ruiping, SHAN Shiguang, et al. Deep supervised hashing for fast image retrieval[J]. International Journal of Computer Vision, 2019, 127(9): 1217–1234. doi: 10.1007/s11263-019-01174-4
[27]	CAO Yue, LONG Mingsheng, LIU Bin, et al. Deep Cauchy hashing for hamming space retrieval[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 1229–1237.
[28]	LI Yunqiang, PEI Wenjie, ZHA Yufei, et al. Push for quantization: Deep fisher hashing[C]. The 30th British Machine Vision Conference 2019, Cardiff, UK, 2019.
[29]	FAN Lixin, NG K W, JU Ce, et al. Deep polarized network for supervised learning of accurate binary hashing codes[C]. The Twenty-Ninth International Joint Conference on Artificial Intelligence, Yokohama, Japan, 2020: 825–831.

施引文献

期刊类型引用(2)

1.	李中，郭云丽. 舰船通信关联信息目标数据检索方法研究. 舰船科学技术. 2024(18): 159-162 . 百度学术
2.	陈严. 基于物联网技术的跨模态图像修改方法研究. 电视技术. 2024(11): 17-19 . 百度学术

其他类型引用(1)

资源附件(0)

访问统计

图(6) / 表(5)

计量

文章访问数: 541
HTML全文浏览量: 319
PDF下载量: 133
被引次数: 3

1. 引言
2. 判别性对抗哈希变换器
2.1 DAHT整体结构
2.2 用于哈希生成的识别-哈希变换器
2.3 用于模态混淆的跨模态对抗网络
2.4 基于NDCG加权的判别性跨模5元组损失
3. 实验结果与分析
3.1 数据集、基线和评价标准
3.2 检索性能分析
3.3 参数敏感性分析
3.4 计算复杂度分析
4. 结束语

1. 引言
2. 判别性对抗哈希变换器
2.1 DAHT整体结构
2.2 用于哈希生成的识别-哈希变换器
2.3 用于模态混淆的跨模态对抗网络
2.4 基于NDCG加权的判别性跨模5元组损失
3. 实验结果与分析
3.1 数据集、基线和评价标准
3.2 检索性能分析
3.3 参数敏感性分析
3.4 计算复杂度分析
4. 结束语

参考文献(29)

施引文献

资源附件(0)

访问统计

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

用于跨模态舰船图像检索的判别性对抗哈希变换器

doi: 10.11999/JEIT220980

作者简介:
关欣：女，博士，教授，研究方向为信息融合、电子对抗及智能计算

国佳恩：男，硕士生，研究方向为多传感器信息融合

卢雨：男，博士生，研究方向为无源协同定位、多源信息融合

通讯作者:
国佳恩　guojiaen@163.com

计量

Discriminant Adversarial Hashing Transformer for Cross-modal Vessel Image Retrieval

1. 引言

2. 判别性对抗哈希变换器

2.1 DAHT整体结构

2.2 用于哈希生成的识别-哈希变换器

2.3 用于模态混淆的跨模态对抗网络

2.4 基于NDCG加权的判别性跨模5元组损失

3. 实验结果与分析

3.1 数据集、基线和评价标准

3.2 检索性能分析

3.3 参数敏感性分析

3.4 计算复杂度分析

4. 结束语

期刊类型引用(2)

其他类型引用(1)

计量

目录

1. 引言

2. 判别性对抗哈希变换器

2.1 DAHT整体结构

2.2 用于哈希生成的识别-哈希变换器

2.3 用于模态混淆的跨模态对抗网络

2.4 基于NDCG加权的判别性跨模5元组损失

3. 实验结果与分析

3.1 数据集、基线和评价标准

3.2 检索性能分析

3.3 参数敏感性分析

3.4 计算复杂度分析

4. 结束语

留言板

用于跨模态舰船图像检索的判别性对抗哈希变换器

doi: 10.11999/JEIT220980

作者简介: 关欣：女，博士，教授，研究方向为信息融合、电子对抗及智能计算 国佳恩：男，硕士生，研究方向为多传感器信息融合 卢雨：男，博士生，研究方向为无源协同定位、多源信息融合

通讯作者: 国佳恩 guojiaen@163.com

计量

出版历程

Discriminant Adversarial Hashing Transformer for Cross-modal Vessel Image Retrieval

1. 引言

2. 判别性对抗哈希变换器

2.1 DAHT整体结构

2.2 用于哈希生成的识别-哈希变换器

2.3 用于模态混淆的跨模态对抗网络

2.4 基于NDCG加权的判别性跨模5元组损失

3. 实验结果与分析

3.1 数据集、基线和评价标准

3.2 检索性能分析

3.3 参数敏感性分析

3.4 计算复杂度分析

4. 结束语

期刊类型引用(2)

其他类型引用(1)

计量

出版历程

目录

1. 引言

2. 判别性对抗哈希变换器

2.1 DAHT整体结构

2.2 用于哈希生成的识别-哈希变换器

2.3 用于模态混淆的跨模态对抗网络

2.4 基于NDCG加权的判别性跨模5元组损失

3. 实验结果与分析

3.1 数据集、基线和评价标准

3.2 检索性能分析

3.3 参数敏感性分析

3.4 计算复杂度分析

4. 结束语

作者简介:
关欣：女，博士，教授，研究方向为信息融合、电子对抗及智能计算

国佳恩：男，硕士生，研究方向为多传感器信息融合

卢雨：男，博士生，研究方向为无源协同定位、多源信息融合

通讯作者:
国佳恩　guojiaen@163.com