Loading [MathJax]/jax/element/mml/optable/GeneralPunctuation.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种结构化双注意力混合通道增强的跨模态行人重识别方法

庄建军 庄宇辰

沈凡, 陈建军, 池雅庆, 梁斌, 王珣, 文溢, 郭昊. 一种低压差线性稳压器的单粒子瞬态失效分析和加固设计[J]. 电子与信息学报, 2023, 45(11): 3965-3972. doi: 10.11999/JEIT230438
引用本文: 庄建军, 庄宇辰. 一种结构化双注意力混合通道增强的跨模态行人重识别方法[J]. 电子与信息学报, 2024, 46(2): 518-526. doi: 10.11999/JEIT230614
SHEN Fan, CHEN Jianjun, CHI Yaqing, LIANG Bin, WANG Xun, WEN Yi, GUO Hao. Single Event Transient Analysis and Hardening in a Low-Dropout Regulator[J]. Journal of Electronics & Information Technology, 2023, 45(11): 3965-3972. doi: 10.11999/JEIT230438
Citation: ZHUANG Jianjun, ZHUANG Yuchen. A Cross-modal Person Re-identification Method Based on Hybrid Channel Augmentation with Structured Dual Attention[J]. Journal of Electronics & Information Technology, 2024, 46(2): 518-526. doi: 10.11999/JEIT230614

一种结构化双注意力混合通道增强的跨模态行人重识别方法

doi: 10.11999/JEIT230614
基金项目: 国家重点研发计划(2021YFE0105500),国家自然科学基金(62171228 ),江苏高校“青蓝工程”
详细信息
    作者简介:

    庄建军:男,教授,研究方向为视频信号的智能处理

    庄宇辰:男,硕士生,研究方向为计算机视觉、行人重识别

    通讯作者:

    庄建军 jjzhuang@nuist.edu.cn

  • 中图分类号: TN911.73; TP391.4

A Cross-modal Person Re-identification Method Based on Hybrid Channel Augmentation with Structured Dual Attention

Funds: The National Key Research and Development Program (2021YFE0105500), The National Natural Science Foundation of China (62171228), Jiangsu Qinglan Project
  • 摘要: 在目前跨模态行人重识别技术的研究中,大部分现有的方法会通过单模态原始可见光图像或者对抗生成图像的局部共享特征来降低跨模态差异,导致在红外图像判别中由于底层特征信息丢失而缺乏稳定的识别准确率。为了解决该问题,该文提出一种结构化双注意力可交换混合随机通道增强的特征融合跨模态行人重识别方法,利用通道增强后的可视图像作为第三模态,通过图像通道可交换随机混合增强(I-CSA)模块对可见光图像进行单通道和三通道随机混合增强抽取,从而突出行人的姿态结构细节,在学习中减少模态间差异。结构化联合注意力特征融合 (SAFF)模块在注重模态间行人姿态结构关系的前提下,为跨模态表征学习提供更丰富的监督,增强了模态变化中共享特征的鲁棒性。在SYSU-MM01数据集全搜索模式单摄设置下Rank-1和mAP分别达到71.2%和68.1%,优于同类前沿方法。
  • 手势识别技术研究广泛应用于肌电假肢[1]、虚拟现实[2]、康复医疗[3]、航空航天[4]、机器人控制[5]领域。对于截肢患者来说,手臂的截肢虽然意味着其功能和社会接受度的丧失,但可以通过假肢来弥补。目前手势识别的先进技术有基于调频连续波雷达[6,7]、基于机器视觉[8]等等,但由于前臂的缺失应用于截肢人群仿生假肢领域意图识别是不合适的。现代假肢技术普遍采用表面肌电信号[9],并且从过去的单一控制方式演变到多自由度控制[10]。然而使用假肢的关键是可准确地识别出用户的意图,给出可靠的指令驱动假肢。因此,关于截肢人群手势识别方法研究具有重大的实际意义。

    特征提取是基于表面肌电信号(surface ElectroMyoGraphy, sEMG)的手势识别技术的研究热点之一,当前常用的有时域、频域、时频域[11]等多种提取方法。时域分析主要以幅值与能量等特征为主,提取特征比较快,但是会造成部分信息描述不充分;频域分析能够全面地反映信号的特征,但是有提取过程复杂、耗时较多等特点[12];虽然现有技术可与精确的解剖定位策略相结合使得特征提取更加科学,但是仍不能兼容计算工作量和识别准确率,往往采用复杂的算法才能达到更高的准确率,同时需要大量的样本,期望样本具有规律性的分布,这对于截肢者来说往往是很难做到的。Li等人[13]通过研究5例单侧经桡骨截肢患者对于虚拟手臂的实时控制,表明了断臂的手部运动完成率明显低于完整臂。石欣等人[9]针对实时性与准确性难以兼容的问题,提出了改进能量核的特征提取方法,对信号进行实时处理,使得实时处理速率最高提升了13倍。另外,目前大部分的论文采集的数据来自健康的受试者,运用在假肢康复领域缺乏普适性,对最终康复医疗存在一些影响。汪洋等人[14]对肌电信号进行实时的识别,从而控制假肢的关节运动,并在健康受试者身上取得了6类动作稳态识别率达到了90%以上,但是其文中也提到是否同样适用于经桡动脉切除的受试者有待于证实;Jiralerspong等人[15]提出一种利用频谱特征和人工神经网络对截肢者的17个任意运动进行分类的信号处理方法,达到了83%的识别正确率。Robinson等人[16]采用频域下的均方根(RMS)、波形长度和斜率符号变化;时频域下的均方根、标准偏差和能量作为特征,通过随机森林分类器对10名截肢患者17类手势动作识别达到了75.16%。Cene等人[17]采用广义逆矩阵和脊回归的方法,通过sEMG信号处理对截肢受试者的17种不同手势进行分类,达到了平均识别率63.1%的结果。上述研究虽然采用不同的方法均较好地解决了截肢者手势识别的难题,但是对于截肢者手势识别率提高空间依然很大。

    为了更好地运用表面肌电信号解决截肢者识别准确率不高、特征提取复杂的问题,使其能够运用到实际的人机交互中去,本文提出了一种基于灰度理论模型的手势识别分类算法。本文采用NinaPro实验室公开数据库中经桡动脉截肢患者数据,针对信号的特点采用不同滤波的方法得到高质量的肌电信号与加速度信号,利用时域统计特征绝对值均值(Mean Absolute Value, MAV)、均值(Mean)、灰度模型的驱动系数作为信号的特征值,实现了对截肢者17类手势动作的分类识别,本文的方法具有计算复杂度小、准确率高的特点。

    灰度模型[18]具有解决数据混乱,但数据之间存在相关性这一类问题的特性。将灰度模型应用于手势识别领域主要从以下3个方面考虑:

    (1)灰度模型具有计算工作量小的特性:手势识别技术绝大部分时间需要花费在特征提取上,若投入实际使用,必须要满足特征提取计算量小的特性,否则该系统是无法被接受的。尤其是对于截肢患者,肢体剩余空间有限,需要采用多个电极对残肢进行信号采集,这就意味着采集过程将有多个通道,若是特征提取复杂,将会耗费更多的时间。

    (2)可生成强相关数列:灰度模型可以解决一部分已知,一部分未知的问题,即可通过相关性分析各个因素之间的发展规律,将原始数据生成规律性更强的数列[19]。针对这一特性,可以类比到手势识别过程中,手势是通过多块肌肉收缩复杂组合后的共同结果[20],虽然无法得知肌肉电信号之间深层次联系,但可通过相关性来建立联系,使得在提取其特征值时更加优质、准确。

    (3)样本不需要规律性分布:对于手势识别技术来说,相同手势期望得到规律性的分布,这样可带来较好的分类效果。但是对于截肢者来说,由于生理因素以及截肢者手臂的缺损程度不一等,需要从限定肌肉中获取信号源进行识别,在贫信息源的条件下揭示系统运行的规律,而灰度模型具有解决整体功效问题的能力,因此适用于截肢者识别不同的手势。

    通过灰度模型的可生成强相关数列、计算量小、样本不需要规律性分布等主要的特性,可以有效针对手势识别过程中需要的实时性、特征不明显等截肢者手势识别难题进行解决。

    已知数据的特征数列与相关因素特征序列如式(1)所示,其中n为数据长度;

    x(0)1=(x(0)1(1),x(0)1(2),···,x(0)1(n))x(0)2=(x(0)2(1),x(0)2(2),···,x(0)2(n))x(0)N=(x(0)N(1),x(0)N(2),···,x(0)N(n))} (1)

    x(0)i(i=1,2,···,N)累加生成序列x(1)i,这里将数列x(1)i的时刻k=1,2,···,n看作连续的变量t,那么数列x(1)i可看成时间t的函数,即x(1)i=x(1)i(t)

    x(1)i=(x(0)i(1),2m=1x(0)i(m),···,nm=1x(0)i(m)) (2)

    x(1)i序列满足1阶线性微分方程模型

    dx(1)1dt+ax(1)1=b1x(1)2+b2x(1)3+···+bN1x(1)N (3)

    根据导数定义,有

    dx(1)1dt=limΔt0x(1)1(t+Δt)x(1)1(t)Δt=x(0)1(k+1) (4)

    生成紧邻均值序列Z(1),即x(1)1kk+1时刻的平均值,如式(5)所示;

    Z(1)(k)=12[x(1)1(k)+x(1)1(k+1)],k=1,2,···,n1 (5)

    式(3)的离散形式可表示为如式(6)所示;其中,a为发展系数,bi1为驱动系数。bi1x(1)1(k+1)为驱动项。

    x(0)1(k+1)+aZ(1)(k)=Ni=2bi1x(1)i(k+1) (6)

    B=[Z(1)(1)x(1)2(2)···x(1)N(2)Z(1)(2)x(1)2(3)···x(1)N(3)Z(1)(n1)x(1)2(n)···x(1)N(n)] (7)
    Y=[x(0)1(2),x(0)1(3),···,x(0)1(n)]T (8)
    β=[a,b1,b2,···,bN1]T (9)

    式(6)简记为如式(10)所示

    Y=Bβ (10)

    YB为已知量,β为待定参数,根据最小二乘估计得到近似解如式(11)所示,ˆβ表示求得的解

    ˆβ=(BTB)1BTY=[ˆa,ˆb1,···,ˆbN1]T (11)

    ˆβ代回式(3)时,解得GM(1,N)时间响应函数模型如(12)所示

    ˆx(1)1(k+1)=[x(0)1(1)1ˆaNi=2ˆbi1x(1)i(k+1)]eˆak+1ˆaNi=2ˆbi1x(1)i(k+1) (12)

    对式(12)做累减还原式,得到原始数列x(0)1的灰色预测模型如式(13)所示

    ˆx(0)1(k+1)=ˆx(1)1(k+1)ˆx(1)1(k) (13)

    另外,为了分析滑动窗的积分值,更加真实地反映出加速度信号的物理意义,采用了时域绝对值均值(MAV)[21],其定义如(14)所示

    MAV=1NNi=1|xi| (14)

    支持向量机(Support Vector Machines, SVM)是一个针对二分类问题提出的分类模型,在分多类问题时,需采用多个SVM,但随着SVM数量的增加,带来的时间损耗增长,算法也会越复杂[22]。本文考虑的是假肢手能够实时识别出用户的意图,同时经实验验证得到径向基核函数在解决该问题上具有较好的收敛性,因此本文采用径向基作为SVM核函数,其表达式如式(15)所示

    k(xi,xj)=exp( (15)

    综上所述,本文提出了基于灰度模型的手势分类算法流程框图如图1所示,该方法很好地模拟了现实中实时采集信息进行连续识别的过程。

    图 1  手势分类算法流程框图

    本文用于手势识别的实验数据来源于NinaPro(Non invasive adaptive Prosthetics)[23]实验室公开的官方数据库——DB3截肢患者数据,其采样频率为2000 Hz,通过12个通道采集肌电数据:电极摆放在桡肱关节附近、指伸肌、指屈肌、肱二头肌、肱三头肌,如图2所示。标识1处(桡肱关节附近)将电极等距排列摆放8个电极,标识2分别为指伸肌、指屈肌、肱二头肌、肱三头肌各摆放一个电极;并在每一路的电极上集成一个采样频率为148 Hz三轴加速度计用于采集XYZ轴的加速度。

    图 2  电极位置摆放说明图

    NinaPro实验室是将11名男性经桡动脉截肢患者作为受试者进行数据采集,其中由于编号6号受试者与编号7号受试者肢体剩余不多,采集电极放置空间较少的问题,没有佩戴指伸肌、指屈肌两个活动点的检测电极;17种动作指的是常用的手指与手腕的动作,如图3所示;采集时每个动作重复持续5 s,然后休息3 s,每个动作重复6次,在本文中从6次相同动作中选取4次作为训练样本,2次作为测试样本。

    图 3  17种动作手势说明

    为了评价整个算法的有效性,本文采用了时间轴错误率和动作错误率(MER)[24]两个指标,其中时间轴错误率指的是在用户连续性做出动作时,按时间轴识别出来的错误率。造成该错误率的原因包括(1)滑动窗口大小固定而不可避免地识别延迟或者加快;(2)手势动作识别错误率因素。因此用来衡量整个算法不是很贴切,但是考虑到实时性,也在本文给出;动作错误率是指当算法在将信号源识别为某样手势动作时,错识别为其他手势的衡量指标,具体算法如下所示。

    已知样本的真实标签序列为{\boldsymbol{q}} = [{q_1},{q_2},··· ,{q_n}],预测标签的序列为{{\hat {\boldsymbol{q}}}} = [{\hat q_1},{\hat q_2},···,{\hat q_n}],首先去掉真实标签序列中相邻重复标签构成新序列r,其次去掉预测标签序列重复标签形成新序列\hat r,令真实标签序列{\boldsymbol{q}}与预测标签序列\hat {\boldsymbol{q}}的编辑距离为{l_1},构成新序列r的编辑距离为{l_2},可得出动作错误率,如式(16)所示。

    {\rm{MER}} = \frac{{{l_1}}}{{{l_2}}} (16)

    其中,编辑距离(Edit Distance)又称为Levenshtein距离[24]:指两个序列之间,从某一个序列转换成另一个序列所需要的最少的编辑操作次数。编辑操作是指一个字符替换成另一个字符,在本文中,编辑距离越小,表明两个串的相似度越大,表明其动作错误率越低,动作的正确率越高。

    动作正确率能够反映出算法是否能够正确传达人的意图的概率,同时也能够反映当用户做出某一手势动作时,错识别为其他手势执行非期望命令的概率。动作错误率在实际需求上来说用于衡量整个系统比较合理,所以本文将动作正确率作为衡量整个算法的核心指标。

    根据表面肌电信号有用信号的频率范围在10~500 Hz之间,主要能量集中于50~220 Hz以内这一研究结果[25],采用8阶巴特沃斯带通滤波器对采集的信号进行10~1000 Hz的滤波,滤波器滤波前后对比如图4(a)所示;为了减小和消除分析信号中随机起伏的信号,采用邻域平均法对预处理后的肌电信号进行平滑滤波,通过该方式可以提高整体表面肌电信号的信噪比,其中RMS平滑窗信号长度为64,RMS平滑滤波前后对比如图4(b)所示。

    图 4  sEMG信号预处理

    加速度信号频域如图5所示,可见加速度信号的能量集中在0 Hz附近。因此采用巴特沃斯低通滤波器进行滤波,截止频率为60 Hz,阻带截止频率设置为100 Hz。

    图 5  加速度信号滤波前后对比

    为了消除瞬态跳变,产生平滑输出,本文采用了重叠滑动窗数据处理方法,窗口大小取250[26],窗口的步进大小取50,滑动窗截取如图6所示。经滑动窗进行截取信号,在窗内分别提取加速度信号与肌电信号的特征值,其中加速度信号对于完整臂受试者或截肢受试者差异不大,因此仅提取时域绝对值均值作为特征值;对于截肢者来说,由于采集肌电信号的空间有限、生理因素等导致信号不是很稳定,因此搭建灰度模型、提取均值挖掘肌电信号的特征。

    图 6  滑动窗单一通道截取说明图

    将提取的特征向量进行分类,分类结果如图7所示:其中图中红色实线表示实际序列样本标签,蓝色虚线部分是通过算法识别后预测序列样本标签。纵坐标表示类别数,即0–17类,其中0表示放松状态;横坐标表示有间歇地执行动作的时间轴。

    图 7  分类结果示意图

    为了更好地分析窗长的影响,仅改变滑动窗长度的情况下对其分析,结果如表1所示。长度在100, 150时趋于稳定,但是增大到300时,平均识别结果仅达到84.37%,急剧下降。有一些手势动作,在动作开始时,被误判为休息标签。原因是滑动窗口的大小一定,休息阶段与动作开始发力阶段比较相似,很容易误判,这种问题在文献[13]被称作动作选择时间,文献[27]认为对于该问题由于无法处理进行了忽略。

    表 1  9位残疾人实验者在不同窗大小下的分类结果
    窗口长度受试者编号平均值
    12345891011
    10079.7186.9695.6594.273.9194.210079.7195.6588.89
    15085.5189.8692.7586.9675.3695.6510075.3692.7588.25
    25092.7588.4191.391.382.6197.110079.7197.191.14
    30076.8178.2682.6188.4172.4698.5510069.5792.7584.38
    下载: 导出CSV 
    | 显示表格

    表2分别给出了9位残疾人受试者手势分类结果,平均动作正确率可达到91.14%。其中受试者9识别率最高为100%,受试者10的识别率偏低为79.71%。平均时间轴错误率为0.2405。

    表 2  9位残疾人实验者分类结果
    受试者编号平均值
    12345891011
    动作正确率(%)92.7588.4191.3091.382.6197.110079.7197.191.14
    MER0.07250.11590.0870.0870.17390.02900.20290.0290.0886
    时间轴错误率0.26960.18610.14170.23680.45080.15850.15150.43640.13350.2405
    下载: 导出CSV 
    | 显示表格

    本文的实验结果与近几年的文献结果进行了比较:从表3可知,本文方法的平均分类准确率略高于其他方法,并且采用较少的特征值、训练样本,达到了快速、高准确率识别的效果。

    表 3  本文与其他文献参数对比
    文献电极数分类数窗口大小特征值分类器平均准确率(%)受试者数量受试者类型
    [13]1210150/50[1*]4种时域特征LDA84.405单截肢
    [21]87250/50MAVKNN79.005截肢者
    [28]68100/NM[2*]CSSP[3*]LDA80.301截肢者
    [15]617NM功率谱密度ANN83.0012截肢者
    [29]1217250/50WPT+MAVPCASVM88.809截肢者
    [16]1217256/10TD+TFD特征RF75.169截肢者
    [17]1617300/106种特征RVFL+ELM63.1010截肢者
    本文1217250/50灰度模型+Mean+MAVSVM91.149截肢者
    小标说明: [1*]滑动窗口大小为150,增量为10,表3内窗口大小一列均为同格式。
    [2*]NM(Not Mention):没有提到;
    [3*]Common Spatio-Spectral Pattern
    下载: 导出CSV 
    | 显示表格

    为了说明本文特征的有效性,本文方法采用表3文献中提到的分类器进行横向对比,即采用不同特征、相同的分类器时进行对比来验证本文算法的有效性。如文献[16],提取了时域与时频域特征,将随机森林(Random Forest, RF)作为分类器进行分类得到了75.16%的识别结果;本文方法结合RF分类器分类得到了平均识别率86.42%,最高准确率97.1%的识别结果;又如文献[21],采用了绝对值均值作为特征,将K最邻近算法(K-Nearest Neighbor, KNN)作为分类器,取得了平均识别率79%的实验结果,本文方法采用KNN作为分类器进行分类取得了平均识别率82.12%,最高准确率92.75%的实验结果;文献[29]提取了小波包变换下的绝对值均值为特征,通过主成分分析方法(PCA)降维,将SVM作为分类器得到了平均识别率88.8%的实验结果;而本文方法为提取灰度模型、均值及绝对值均值作为特征,采用SVM分类器得到了平均识别率91.14%的实验结果,同时本文方法相比于小波包变换具有提取简单、快速的优点。

    从不同分类器的角度分析对本文算法的影响:本文采用均值、灰度模型、绝对值均值作为特征,采用不同分类器进行了横向对比,结果如图8所示;可以观察到SVM性能比较稳定,无大起大落趋势,在处理截肢人群特征分类时,展现了分类准确率高、识别效果稳定的特性。

    图 8  分类器分类效果比较

    另外,为了分析实时性方面的要求,本文对特征时间复杂度进行了分析,如图9所示;由于训练样本时间与训练窗口的多少有一定的关系,不能直观地反映出算法的复杂度。因此,本文以滑动窗口为单位,统计提取1次特征平均所需的时间(ms)来衡量计算复杂度是否满足实时性的要求,本文选取了表3文献中提到的时域、频域、时频域特征作对比。根据实验结果可知,提取灰度模型特征所需平均时间为0.52 ms,时域均值特征平均所需时间为0.02 ms,绝对值均值的平均所需时间为0.1 ms,小于时域特征(AR4),远远小于频域特征、时频域特征提取所需的时间。同时根据滑动窗口步进距离为50 ms可知,本文提取的特征能够满足实时性的要求,产生连续的输出。

    图 9  特征时间复杂度分析

    本文通过对NinaPro实验室公开的官方数据集DB3库9名截肢受试者的手指姿态、手腕运动等17种动作进行连续识别,取得了平均识别率91.14%的较好结果。实验结果表明,本文方法中的灰度模型、均值与绝对值均值结合能够较好地表征肌电信号与加速度信号的特征,在截肢患者手势识别中展现了良好的性能,通过灰度模型较好地克服了截肢受试者肌电信号特征提取困难的难题,同时保持了算法复杂度低的特点,为整个算法实现实时性提供了技术支持,为智能假肢实现提供了一种思路。

    考虑到本文采用的是离线数据集,下一步工作将需要结合本实验室现有设备,研究在线采集肌电、加速度信号,实时对用户所发出的指令进行识别。

  • 图  1  本文模型总结构框架

    图  2  RGB-IR及RHCA模块强化实例演示图

    图  3  随机擦除数据增强实例演示图

    图  4  SAFF模块结构图

    图  5  SAFF模块单支FAA结构图

    图  6  不同stage下SAFF 模块嵌入效果对比

    表  1  SYSU-MM01数据集在单摄设置下的实验对比结果(%)

    方法全搜索室内搜索
    单摄单摄
    MethodRank-1Rank-10Rank-20mAPRank-1Rank-10Rank-20mAP
    AlignGAN[5]42.485.093.740.735.987.694.454.3
    AGW[20]47.584.492.147.754.291.196.063.0
    DDAG[12]54.890.495.853.061.094.198.468.0
    MID[21]60.392.959.464.996.170.1
    SFANET[19]60.591.895.253.964.894.798.175.2
    cm-SSFT[6]61.689.293.963.270.594.997.772.6
    SPOT[22]65.392.797.062.369.496.299.174.6
    MCLNet[26]65.493.397.162.072.697.099.276.6
    FMCNet[23]66.362.568.274.1
    本文方法71.296.398.968.177.498.099.681.1
    下载: 导出CSV

    表  2  RegDB数据集上的实验对比结果(%)

    方法可见光图像查询红外图像红外图像查询可见光图像
    Rank-1Rank-10Rank-20mAPRank-1Rank-10Rank-20mAP
    MAC[24]36.462.471.637.0
    AlignGAN[5]57.953.656.353.4
    DDAG[12]69.386.291.563.568.185.290.361.8
    LbA[25]74.267.672.465.5
    MCLNet[26]80.392.796.073.175.990.994.669.5
    DCLNet[27]81.274.378.070.6
    本文方法86.397.298.779.885.597.098.378.1
    下载: 导出CSV

    表  3  SYSU-MM01数据集上的消融实验(%)

    RHCA TRE-DA SAFF EJ-Loss SYSU-MM01
    Rank-1 mAP
    48.8 46.6
    57.4 55.1
    60.6 57.3
    64.2 60.9
    68.2 64.3
    71.2 68.1
    下载: 导出CSV

    表  4  SAFF模块嵌入位置研究结果(%)

    SAFF SYSU-MM01 RegDB
    Rank-1 mAP Rank-1 mAP
    stage0 70.7 67.8 86.2 79.7
    stage1 71.1 67.9 86.3 79.8
    stage2 71.2 68.1 86.0 79.3
    stage3 66.3 63.5 83.9 72.1
    stage4 59.4 55.1 81.4 68.0
    下载: 导出CSV

    表  5  \gamma 参数不同取值下的训练实验结果(%)

    \gamma SYSU-MM01
    Rank-1Rank-10Rank-20mAP
    066.794.697.164.7
    0.168.495.297.865.9
    0.369.995.898.567.3
    0.570.896.298.767.9
    0.759.391.195.457.7
    0.955.489.094.253.1
    0.4771.296.398.968.1
    下载: 导出CSV
  • [1] HUANG Yukun, FU Xueyang, LI Liang, et al. Learning degradation-invariant representation for robust real-world person Re-identification[J]. International Journal of Computer Vision, 2022, 130(11): 2770–2796. doi: 10.1007/s11263-022-01666-w.
    [2] YANG Lei. Continuous epoch distance integration for unsupervised person Re-identification[C]. The 5th International Conference on Communications, Information System and Computer Engineering, Guangzhou, China, 2023: 464–469. doi: 10.1109/cisce58541.2023.10142496.
    [3] XUAN Shiyu and ZHANG Shiliang. Intra-inter domain similarity for unsupervised person Re-identification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022: 1. doi: 10.1109/tpami.2022.3163451.
    [4] DAI Pingyang, JI Rongrong, WANG Haibin, et al. Cross-modality person Re-identification with generative adversarial training[C]. Twenty-Seventh International Joint Conference on Artificial Intelligence, Stockholm, Sweden, 2018: 677–683. doi: 10.24963/ijcai.2018/94.
    [5] WANG Guan’an, ZHANG Tianzhu, CHENG Jian, et al. RGB-infrared cross-modality person Re-identification via joint pixel and feature alignment[C]. The IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 3622–3631. doi: 10.1109/ICCV.2019.00372.
    [6] LU Yan, WU Yue, LIU Bin, et al. Cross-modality person Re-identification with shared-specific feature transfer[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 13376–13386. doi: 10.1109/CVPR42600.2020.01339.
    [7] LI Xulin, LU Yan, LIU Bin, et al. Counterfactual intervention feature transfer for visible-infrared person Re-identification[C]. 17th European Conference on Computer Vision, Tel Aviv, Israel, 2022: 381–398. doi: 10.1007/978-3-031-19809-0_22.
    [8] 王凤随, 闫涛, 刘芙蓉, 等. 融合子空间共享特征的多尺度跨模态行人重识别方法[J]. 电子与信息学报, 2023, 45(1): 325–334. doi: 10.11999/JEIT211212.

    WANG Fengsui, YAN Tao, LIU Furong, et al. Multi-scale cross-modality person Re-identification method based on shared subspace features[J]. Journal of Electronics & Information Technology, 2023, 45(1): 325–334. doi: 10.11999/JEIT211212.
    [9] LIANG Tengfei, JIN Yi, LIU Wu, et al. Cross-modality transformer with modality mining for visible-infrared person Re-identification[J]. IEEE Transactions on Multimedia, 2023: 1–13. doi: 10.1109/tmm.2023.3237155.
    [10] 徐胜军, 刘求缘, 史亚, 等. 基于多样化局部注意力网络的行人重识别[J]. 电子与信息学报, 2022, 44(1): 211–220. doi: 10.11999/ JEIT201003.

    XU Shengjun, LIU Qiuyuan, SHI Ya, et al. Person Re-identification based on diversified local attention network[J]. Journal of Electronics & Information Technology, 2022, 44(1): 211–220. doi: 10.11999/JEIT201003.
    [11] JIA Mengxi, SUN Yifan, ZHAI Yunpeng, et al. Semi-attention partition for occluded person Re-identification[C]. The 37th AAAI Conference on Artificial Intelligence, Washington, USA, 2023: 998–1006. doi: 10.1609/aaai.v37i1.25180.
    [12] YE Mang, SHEN Jianbing, CRANDALL D J, et al. Dynamic dual-attentive aggregation learning for visible-infrared person Re-identification[C]. 16th European Conference on Computer Vision, Glasgow, UK, 2020: 229–247. doi: 10.1007/978-3-030-58520-4_14.
    [13] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770–778. doi: 10.1109/CVPR.2016.90.
    [14] WANG Qilong, WU Banggu, ZHU Pengfei, et al. ECA-Net: Efficient channel attention for deep convolutional neural networks[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 11531–11539. doi: 10.1109/CVPR42600.2020.01155.
    [15] WU Ancong, ZHENG Weishi, YU Hongxing, et al. RGB-infrared cross-modality person Re-identification[C]. The IEEE International Conference on Computer Vision, Venice, Italy, 2017: 5390–5399. doi: 10.1109/ICCV.2017.575.
    [16] NGUYEN D T, HONG H G, KIM K W, et al. Person recognition system based on a combination of body images from visible light and thermal cameras[J]. Sensors, 2017, 17(3): 605. doi: 10.3390/s17030605.
    [17] KRIZHEVSKY A, SUTSKEVER I, and HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84–90. doi: 10.1145/3065386.
    [18] SONG Shuang, CHAUDHURI K, and SARWATE A D. Stochastic gradient descent with differentially private updates[C]. Global Conference on Signal & Information Processing, Austin, USA, 2014: 245–248. doi: 10.1109/globalsip.2013.6736861.
    [19] LIU Haojie, MA Shun, XIA Daoxun, et al. SFANet: A spectrum-aware feature augmentation network for visible-infrared person reidentification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(4): 1958–1971. doi: 10.1109/tnnls.2021.3105702.
    [20] YE Mang, SHEN Jianbing, LIN Gaojie, et al. Deep learning for person Re-identification: A survey and outlook[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(6): 2872–2893. doi: 10.1109/TPAMI.2021.3054775.
    [21] HUANG Zhipeng, LIU Jiawei, LI Liang, et al. Modality-adaptive mixup and invariant decomposition for RGB-infrared person Re-identification[C/OL]. The 36th AAAI Conference on Artificial Intelligence, 2022: 1034–1042. doi: 10.1609/aaai.v36i1.19987.
    [22] CHEN Cuiqun, YE Mang, QI Meibin, et al. Structure-aware positional transformer for visible-infrared person Re-identification[J]. IEEE Transactions on Image Processing, 2022, 31: 2352–2364. doi: 10.1109/tip.2022.3141868.
    [23] ZHANG Qiang, LAI Changzhou, LIU Jianan, et al. FMCNet: Feature-level modality compensation for visible-infrared person Re-identification[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 7339–7348. doi: 10.1109/cvpr52688.2022.00720.
    [24] YE Mang, LAN Xiangyuan, and LENG Qingming. Modality-aware collaborative learning for visible thermal person Re-identification[C]. The 27th ACM International Conference on Multimedia, Nice, France, 2019: 347–355. doi: 10.1145/3343031.3351043.
    [25] PARK H, LEE S, LEE J, et al. Learning by aligning: Visible-infrared person Re-identification using cross-modal correspondences[C]. The IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 12026–12035. doi: 10.1109/iccv48922.2021.01183.
    [26] HAO Xin, ZHAO Sanyuan, YE Mang, et al. Cross-modality person Re-identification via modality confusion and center aggregation[C]. The IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 16383–16392. doi: 10.1109/ICCV48922.2021.01609.
    [27] SUN Hanzhe, LIU Jun, ZHANG Zhizhong, et al. Not all pixels are matched: Dense contrastive learning for cross-modality person Re-identification[C]. The 30th ACM International Conference on Multimedia, Lisbon, Portugal, 2022: 5333–5341. doi: 10.1145/3503161.3547970.
  • 期刊类型引用(3)

    1. 邹灵果,张美花. 基于数理统计特征的人机交互图像手势识别. 黑龙江工业学院学报(综合版). 2024(01): 97-104 . 百度学术
    2. 李欣馨. 改进小组合作学习模式在高职院校动漫专业课程中的应用. 陕西教育(高教). 2024(04): 76-78 . 百度学术
    3. 刘强,吴德佩. 高帧频虚拟图像无损防失真压缩算法仿真. 计算机仿真. 2023(12): 252-255+352 . 百度学术

    其他类型引用(0)

  • 加载中
图(6) / 表(5)
计量
  • 文章访问数:  786
  • HTML全文浏览量:  220
  • PDF下载量:  102
  • 被引次数: 3
出版历程
  • 收稿日期:  2023-06-21
  • 修回日期:  2023-11-03
  • 录用日期:  2023-11-14
  • 网络出版日期:  2023-11-17
  • 刊出日期:  2024-02-29

目录

/

返回文章
返回