高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于鲁棒视觉变换和多注意力的全景图像显著性检测

陈晓雷 张鹏程 卢禹冰 曹宝宁

陈晓雷, 张鹏程, 卢禹冰, 曹宝宁. 基于鲁棒视觉变换和多注意力的全景图像显著性检测[J]. 电子与信息学报, 2023, 45(6): 2246-2255. doi: 10.11999/JEIT220684
引用本文: 陈晓雷, 张鹏程, 卢禹冰, 曹宝宁. 基于鲁棒视觉变换和多注意力的全景图像显著性检测[J]. 电子与信息学报, 2023, 45(6): 2246-2255. doi: 10.11999/JEIT220684
CHEN Xiaolei, ZHANG Pengcheng, LU Yubing, CAO Baoning. Saliency Detection of Panoramic Images Based on Robust Vision Transformer and Multiple Attention[J]. Journal of Electronics & Information Technology, 2023, 45(6): 2246-2255. doi: 10.11999/JEIT220684
Citation: CHEN Xiaolei, ZHANG Pengcheng, LU Yubing, CAO Baoning. Saliency Detection of Panoramic Images Based on Robust Vision Transformer and Multiple Attention[J]. Journal of Electronics & Information Technology, 2023, 45(6): 2246-2255. doi: 10.11999/JEIT220684

基于鲁棒视觉变换和多注意力的全景图像显著性检测

doi: 10.11999/JEIT220684
基金项目: 国家自然科学基金(61967012)
详细信息
    作者简介:

    陈晓雷:男,博士,副教授,研究方向为人工智能、计算机视觉、虚拟现实

    张鹏程:男,硕士生,研究方向为图像显著性检测

    卢禹冰:男,硕士生,研究方向为图像处理、姿态估计

    曹宝宁:男,硕士生,研究方向为虚拟现实、图像处理、人工智能

    通讯作者:

    陈晓雷 chenxl703@lut.edu.cn

  • 中图分类号: TN911.73; TP391

Saliency Detection of Panoramic Images Based on Robust Vision Transformer and Multiple Attention

Funds: The National Natural Science Foundation of China (61967012)
  • 摘要: 针对当前全景图像显著性检测方法存在检测精度偏低、模型收敛速度慢和计算量大等问题,该文提出一种基于鲁棒视觉变换和多注意力的U型网络(URMNet)模型。该模型使用球形卷积提取全景图像的多尺度特征,减轻了全景图像经等矩形投影后的失真。使用鲁棒视觉变换模块提取4种尺度特征图所包含的显著信息,采用卷积嵌入的方式降低特征图的分辨率,增强模型的鲁棒性。使用多注意力模块,根据空间注意力与通道注意力间的关系,有选择地融合多维度注意力。最后逐步融合多层特征,形成全景图像显著图。纬度加权损失函数使该文模型具有更快的收敛速度。在两个公开数据集上的实验表明,该文所提模型因使用了鲁棒视觉变换模块和多注意力模块,其性能优于其他6种先进方法,能进一步提高全景图像显著性检测精度。
  • 图像显著性检测的目的是模拟人的视觉特点,提取图像中人类更加关注的区域[1]。进行全景图像显著性检测,不仅可以提高全景图像的压缩效率,减少传输带宽,而且对全景图像编辑起着至关重要的作用。此外还有力支撑了图像分割、图像检索、目标追踪识别和机器人导航[2]等计算机视觉任务。

    全景图像的显著性检测中,对图像特征的提取效果直接影响最终的显著性检测效果。Zhang等人[3]提出了一种球形卷积,并验证了球形U型网络对全景视频显著性检测的有效性。Coors等人[4]提出了一种可以避免极点过采样的球形卷积。Martin等人[5]提出的显著性检测的方法,主观检测结果好,收敛较缓慢。

    全景图像显著性检测时,有多种投影方式,如等矩形投影和立方体投影等。Dai等人[6]将全景图像以立方体的格式输入扩展卷积神经网络,同时处理立方体的6个面进行全景图像的显著性检测。Monroy等人[7]提出了对卷积神经网络(Convolutional Neural Network, CNN)的架构扩展,以端到端的方式对全景图像进行显著性检测。以上方法将全景图像投影成2D图像的过程会造成不同程度的信息缺失,因此最终显著性检测结果的性能指标也会受其影响。

    Dahou等人[8]提出用于全景视频显著性检测的基于新注意力的显著性模型(a novel ATtention based Saliency model, ATSal),该模型对全局视觉静态注意力进行显式编码。Zhu等人[9]针对显著性检测过程中,全景图像数据集规模小的问题,提出注意力感知特征融合网络。上述方法凭借注意力机制提高了全景图像显著性检测结果的性能指标得分,但这些指标还有上升的空间。

    为了提高检测结果的精度,Chao等人[10]提出从全景图像的3个不同视场(Field of Views, FoV)的每个视口提取特征再融合的显著性检测方法。该方法在性能指标上能取得较好的结果,但是具有很高的计算量。

    综上所述,以上方法都有各自的优势,但存在模型收敛速度慢、实际使用受限、全景图像投影成2D图像造成失真以及高计算量等问题。为了解决上述问题,本文提出一种新的全景图像显著性检测网络:基于鲁棒视觉变换和多注意力的U型网络(U-Net with Robust vision transformer and Multiple attention modules, URMNet)。主要贡献如下:

    (1) 提出URMNet网络模型,与目前主流全景图像显著性检测模型相比,进一步提升了全景图像显著性检测评价指标。

    (2) 提出鲁棒视觉变换模块 (Robust Vision Transformer, RVT ),采用卷积嵌入的方式,通过调整特征图的空间和通道维度,降低了分辨率,解决了网络准确度饱和与性能退化的问题,增强了模型的鲁棒性;提出多注意力模块 (Multiple Attention, MA),通过融合多维度注意力,提升网络的特征提取能力,提高显著性检测精确度。

    (3) 提出更简洁的纬度加权损失函数Loss,加快模型收敛速度,提升全景图像显著性检测效果。

    (4) 对原始全景图像显著性检测数据集,即全景图像注意(Attention on Omnidirectional Images, AOI)[11]、Salient360[12]分别进行数据增强得到新的数据集,即增强全景图像注意(Augment AOI, AAOI)、增强显著360(Augment Salient360, ASalient360),大幅增多数据集图像数量。本文模型在两种类型的数据集上达到了预期的效果,证明了模型的有效性和泛化能力。

    本文提出一种基于鲁棒视觉变换(RVT)和多注意力(MA)的全景图像显著性检测网络URMNet,如图1所示。URMNet是类U型结构,由编码器、解码器、RVT模块和MA模块组成。URMNet的工作流程如下:输入全景图像到编码模块,首先用球形卷积(sphere convolution)[4]进行特征提取,然后进行批归一化(Batch Normalization, BN)和修正线性单元(Rectified Linear Unit, ReLU)激活操作,得到第1尺度特征图,再进行球形池化。如此循环4次可得到5种尺度的特征图,这些特征图包含浅层的细节信息和深层的语义信息。将前4种尺度的特征图送入由4个rvt子模块组成的RVT模块,RVT模块可以提取4种尺度特征图所包含的显著信息。同时,最小尺度的特征图通过MA模块的多注意力机制有选择地融合空间和通道显著信息。融合后的显著信息经过上采样后送入解码器首先与RVT模块对应尺度的输出进行拼接,然后经过球形卷积、批归一化BN以及ReLU激活操作进一步细化生成的聚合特征,按此过程一共重复4次逐渐生成精确的显著图。

    图 1  URMNet示意图

    为了提高特征的提取速度并兼顾全景图像的全局特征,本文采用包含了多通道自注意力机制的变换器(图1中变换器1)。经过实验,随着RVT-Block(见图2)块数的增多,模型的检测精度会提高,同时在变换器后期降低空间分辨率有利于提高模型的鲁棒性[13]。因此在变换器1之后,进行空间池化,如图1中rvt所示。变换器1与2中分别包含12个与4个RVT-Block。为了匹配解码器输出维度,对变换器2的输出进行卷积及上采样。为了解决随着网络的加深,模型准确度饱和以及性能退化的问题,将rvt子模块的输入与上采样后的特征图相加,得到rvt的输出。

    图 2  变换器模块示意图
    2.2.1   特征图预处理

    本文采用卷积嵌入的方法进行特征图重构。特征图预处理过程如图3所示。首先对输入的特征图进行卷积操作再归一化。然后通过平均池化提取特征图的局部信息,同时通过最大池化提取特征图峰值信息。

    图 3  特征图预处理示意图

    将经过两种池化操作的特征图融合,再进行卷积操作。预处理的输出Ype可表示为

    Ype=Conv2(Pool(BN(Conv5(Xpe))))
    (1)

    其中,Xpe为输入特征图,Convi()表示i×i卷积操作,BN()表示归一化,Pool()表示池化。

    2.2.2   变换器(Transformer)

    本文提出变换器子模块根据像素间的关系提取预处理后特征图的全局特征,其结构如图2所示。受自注意力机制[14]的启发,本文将多个通道同时进行自注意力计算,如图4所示。把尺度(c,h,w)的特征图压缩维度后变成(h×w,c),再变成(6,h×w,c/6),本文对x1x6同时进行自注意力机制计算,这大大提高了特征的提取速度。以全连接的方式将3个可训练权重WQ, WKWV分别作用于每个通道中的特征图xi,得到对应的q (query),k (key)和v (value) 3个值。利用qk的乘积表示特征图的相关性,为了利于网络训练,需要对qk的乘积做线性缩放,缩放因子为c/c66wi,j经Softmax操作得到对应位置的注意力权重Ai,j ,再与相应的vi相乘,得到一个通道下的注意力结果bi,最后将6个通道的注意力结果以通道维度拼接。这里的注意力机制可表示为式(2)。变换器对特征图处理时,将输入的特征图先压缩维度,经过重新排列(Rearrange)把形状为(c,h,w)的特征图变为(h×w,c)。压缩后的2维序列XRB作为RVT-Block模块的输入,RVT-Block模块的输出记为YRBYRBXRB的关系如式(3)所示

    图 4  多通道自注意力示意图
    attention=Softmax(QIKITc/c66)VI
    (2)
    YRB=D(mlp(LN(X1)))D(attnRB(XRB))XRB
    (3)

    其中,attnRB()表示图4所示的注意力机制,D()表示失活,表示像素级相加,LN()表示归一化,mlp()表示多层感知。经过L个RVT-Block模块运算得到2维特征图,最后将特征图恢复到(c,h,w)。为了解决随着网络加深,模型性能退化的问题,本文使用了残差机制;为了更准确地检测图像显著性在模型中加入了多层感知机(MultiLayer Perceptron, MLP),通道扩张率设为4。

    本文提出空间注意力模块(Spatial Attention Module, SAM)和通道注意力模块(Channel Attention Module, CAM),首先从空间和通道两个维度提取特征,再对SAM设置加权因子β,CAM设置加权因子1β。两者求和的结果经1×1卷积有选择地融合显著信息,如图1中MA模块所示。β[0,0.2,0.4,0.5,0.6,0.8,1.0],本文将在实验部分给出SAM与CAM的最佳比重。

    2.3.1   SAM

    SAM子模块负责获得空间注意力,示意图如图5所示。输入尺度为(c ,h ,w)的特征图,经过3次1×1卷积,将3个不同的可学习权重作用于特征图,并压缩维度(Rearrange),便于计算空间中任一特征像素与其他像素之间的关系,得到尺度为(c,h×w)的query值Qskey值Ks和value值Vs。在特征图的空间维度有h×w个像素,计算所有像素两两之间的注意力关系得到(h×w,h×w)的空间注意力得分矩阵,即QTSKScc为缩放因子。特征图Vs的像素与对应位置的注意力权重相乘,即VS×Att,得到空间注意力结果。然后将注意力结果经线性变换再提升维度,加入多层感知机MLP,通道扩张率设为4。所得结果与输入特征图加和,解决了模型性能退化的问题。计算流程用公式可表示为

    图 5  SAM示意图
    YS=mlp(Ω(attnS(ConvS(XS))))XS
    (4)

    其中,XS表示SAM模块的输入图像,ConvS()表示1×1卷积与重新排列操作,attnS()表示SAM模块的空间注意力机制,Ω()操作由线性变化、失活以及重新排列组成,mlp()表示多层感知,表示像素级相加。

    2.3.2   CAM

    CAM子模块用来获得通道注意力,如图6所示。将尺寸为(c ,h ,w)的输入特征图经过球形卷积,再压缩(Flatten)成(c,h×w)的尺寸。对特征矩阵进行转置(Transpose),再将一组尺寸为(h×w,c)的可学习参数加到转置后的特征图上进行位置编码[15]。以相同的固定权重得到query值Qckey值Kc和value值Vc,计算特征图通道之间的注意力关系,hw为缩放因子。将所得通道注意力得分矩阵与Vc相乘,加入通道扩张率为4的MLP。串联4个CAM-Block(Lc=4)。使用残差机制,得到CAM的输出。CAM-Block的计算流程如式(5)所示

    图 6  CAM示意图
    YC=Φ(attnC(LN(XC)))mlp(Φ(attnC(LN(XC))))
    (5)

    其中,LN()表示归一化,attnC()表示CAM模块的通道注意力机制,Φ()表示由归一化、失活以及转置组成的操作,mlp()表示多层感知,表示像素级相加。

    本文设计一种新的损失函数,使赤道部分的损失权重最高,向两极的损失权重递减。由于同一纬度的像素失真程度相同,随着纬度的变化,相应纬度位置的像素其失真程度也发生变化,因此以像素点的纬度值来确定不同位置像素的损失权重。设全景图像的高为h,宽为w,把整幅图像分成h个纬度带。 则第i个纬度带的损失权重Wi与损失函数Loss可表示为

    Wi=sin(iπh)+1,Loss=1Ni,jWi(Si,jGi,j)2
    (6)

    其中,Si,j表示预测的显著图中位于第i个纬度带的第j个像素灰度值,Gi,j表示基准显著图中位于第i个纬度带的第j个像素的灰度值,N表示图像的像素个数。

    AOI有600张全景图像和基准显著图。Salient360有85张全景图像和基准显著图。由于原始数据集的图像数量较少,本文采用垂直翻转、水平翻转和双向翻转进行数据增强。此外,基于噪声的数据增强,能够提高模型在全景图像包含噪声情境下的鲁棒性能[5],因此本文对全景图像添加了高斯、泊松、椒盐和斑点噪声。上述所有的数据增强操作,不会改变全景图像像素之间的依赖关系,因此不会影响图像的显著性。最终构建的AAOI, ASalient360数据集分别包含4800张、680张全景图像。

    本文使用Pytorch架构以及150个epoch训练模型,4张图像为一组进行批处理。学习率设置为0.0001,动量参数为0.9的随机梯度下降(Stochastic Gradient Descent, SGD)优化器,权重衰减0.00001。设置检查点,参考文献[5]中训练图像与测试图像的比例,AAOI数据集中4752张图像用于训练,48张图像用于测试;ASalient360数据集中640张图像用于训练,40张图像用于测试。训练集中训练部分与验证部分图像数量比例为17:3。本文所有实验均在配备RTX3060 GPU和AMD I5 3600 CPU的台式机上完成。

    表1列出了MA模块中SAM与CAM子模块不同权重的实验结果。Grade如式(7)所示

    表 1  不同加权因子的实验结果
    SMA βCAM 1βCC↑SIM↑KLDiv↓NSS↑AUC_Judd↑AUC_Borji↑Grade
    01.00.90050.77870.19703.53460.99140.97553.3809
    0.20.80.88030.77850.44033.49640.98610.96180.7047
    0.40.60.90080.79210.50703.71900.99360.97953.4726
    0.50.50.90670.81190.21983.28490.98980.97723.5050
    0.60.40.89120.78710.23503.22120.98400.96551.2312
    0.80.20.87710.75610.23173.28930.98640.97561.1757
    1.000.90230.78900.37753.67370.99190.97743.4871
    下载: 导出CSV 
    | 显示表格
    Grade=CC+SIMKLDiv+NSS+AUC\_Judd+AUC_Borji
    (7)

    其中,CC,SIM,KLDiv,NSS,AUC_Judd以及AUC_Borji分别是6种评价指标标准化后的结果。由式(7)可知,Grade同等考虑了6个评价指标的作用,得分越高,模型的性能越好。由表1中Grade结果可知,当β=0.5时,即SAM与CAM具有相同权重时,模型性能在列出的所有权重组合中达到最优。本文模型取β=0.5。

    本文将URMNet模型与目前先进的方法进行比较,包括U型网络(U-Net)[16]、注意力U型网络(Attention U-Net, AttU-Net)[17]、球形U型网络(Spherical U-Net)[3]、全景卷积神经网络(panoramic Convolutional Neural Network, panoramic CNN)[5]、四方注意力U型网络(Quartet Attention U-Net, QAU-Net)[18]以及从通道和变换器角度考虑U-Net的跳跃连接网络(rethinking the skip connections in U-Net from a Channel-wise perspective with transformer, UCTransNet)[19]。不同对比方法都是在相同的实验环境中运行测试。

    表2给出了6个评价指标在AAOI数据集上的定量比较结果。明显可知,6个评价指标下,本文模型的性能超过所有对比方法的性能。具体来说,本文模型在指标相关系数(Correlation Coefficien, CC)、相似度(SIMilarity, SIM)、KL散度(KL-Divergence, KLDiv)、标准化扫描路径显著性(Normalized Scanpath Saliency, NSS)以及分别经Judd和Borji优化后的ROC曲线下面积(Area Under the Curve,AUC)AUC_Judd和AUC_Borji上,与对比的6种优秀算法中最好的指标(表2中用红色标出)相比,优化幅度分别是3.13%, 2.42%, 17.80%, 11.75%, 0.52%和0.68%。表3列出了6个评价指标在ASalient360数据集上的定量比较结果。本文模型在指标CC, SIM, NSS, AUC_Judd和AUC_Borji上,与对比的6种优秀算法中最好的指标(表3中用红色标出)相比,优化幅度分别是7.36%, 1.15%, 8.41%, 0.69%和1.67%。在KLDiv指标上,本文模型比文献算法最佳结果低0.1785。这是由于为了使综合性能更优,本文模型在设计上平衡了准确性、泛化性以及复杂度。总地来说,两个数据集下的实验结果证明了本文所提出模型的先进性。

    表 2  AAOI数据集上各模型客观指标对比
    方法CC↑SIM↑KLDiv↓NSS↑AUC_Judd↑AUC_Borji↑
    URMNet0.89340.79180.17873.71130.98650.9707
    U-Net(2015)[16]0.85500.76940.26472.96390.97410.9582
    AttU-Net(2018)[17]0.86630.76750.23593.32120.97960.9632
    Spherical U-Net(2018)[3]0.78320.73040.31672.47950.94670.9295
    panoramic CNN(2020)[5]0.85200.75330.24123.19990.97780.9641
    QAU-Net(2021)[18]0.73140.65300.42031.86780.92260.8926
    UCTransNet(2021)[19]0.86190.77310.21053.02040.98140.9625
    下载: 导出CSV 
    | 显示表格
    表 3  ASalient360数据集上各模型客观指标对比
    方法CC↑SIM↑KLDiv↓NSS↑AUC_Judd↑AUC_Borji↑
    URMNet0.66830.66020.58342.98740.94490.9336
    U-Net(2015)[16]0.60610.64040.43972.62280.91800.8973
    AttU-Net(2018)[17]0.55890.62620.48921.98400.88710.8644
    Spherical U-Net(2018)[3]0.60280.64120.67142.58340.93840.9183
    panoramic CNN(2020)[5]0.62250.65270.40492.03240.89750.8482
    QAU-Net(2021)[18]0.56410.62800.51382.75560.88890.8859
    UCTransNet(2021)[19]0.54290.61650.52462.00410.89900.8683
    下载: 导出CSV 
    | 显示表格

    为了进一步验证本文模型的性能,与6种先进方法进行可视化对比,结果如图7图8所示。图9是为了便于观察,将图7第2行放大。结果表明,本文方法能够较为准确地检测出图像的显著性区域,包括远景全景图像(图7第1,3,6行)和近景全景图像(图7第2,4,5行,图8第4,5行)。远景图像中图7第6行,背景为图像左侧的大树以及蓝色天空,显著区域为图像中间红色树以及右侧白色天空对应区域,从结果上看,本文算法更好地抑制了背景对显著性区域检测的干扰,使得检测结果与人工标注的真实值之间更为接近。近景图像中图7第5行,显著性区域有3处,分别是图像中间的雕像以及雕像两边的书法作品所在区域。对比模型由于背景的干扰,检测的显著性区域明显大于真实值。本文模型的检测结果有效地改善了这一现象,使显著性区域定位更准确。另外,本文模型对噪声干扰(图7第2行,图8第2行)更为鲁棒。图9中显著区域包括图像中间较大的两幅画所在区域,以及包括所有画在内左右方向的带状区域。受噪声干扰,对比模型中U-Net, AttU-Net, Spherical U-Net以及QAU-Net,检测的显著性区域明显大于真实值。与检测较为准确的panoramic CNN和UCTransNet相比,本文模型检测结果更接近于真实值。

    图 7  本文方法与其他方法在AAOI数据集上的可视化对比
    图 8  本文方法与其他方法在ASalient360数据集上的可视化对比
    图 9  添加噪声后的显著性检测图像放大可视化对比
    3.5.1   URMNet网络和损失函数Loss的消融实验

    表4中,Baseline表示具有球形卷积的U-Net网络、L1表示文献[10]提出的自适应加权损失函数、L2表示文献[20]提出的固定权重损失函数、L3表示结合文献[6]和文献[21]给CC,NSSKLDiv相同比例权重构造的损失函数。将两种网络(Baseline和URMNet)与4种损失函数(L1,L2,L3和Loss)分别组合进行消融实验,实验结果如表4所示。可知URMNet与Loss组合时,模型性能最好,说明采用损失函数Loss训练URMNet网络对获得最佳显著性检测性能是必要的和有效的。

    表 4  网络和损失函数的消融实验
    模型损失函数CC↑SIM↑KLDiv↓NSS↑AUC_Judd↑AUC_Borji↑
    BaselineURMNetL1L2L3Loss
    0.73890.69352.20791.51070.86340.8310
    0.73000.68862.26141.50020.86360.8169
    0.66290.66041.29391.23690.81840.7806
    0.86040.76180.39063.04630.98460.9614
    0.74560.70072.20681.50430.86270.8304
    0.75650.68452.94971.68480.89090.8166
    0.75570.69093.10001.66070.88300.8465
    0.90670.81190.21983.28490.98980.9772
    下载: 导出CSV 
    | 显示表格
    3.5.2   RVT模块和MA模块的消融实验

    实验结果如表5所示。同时加入RVT和MA模块,6个性能指标较表4第1行指标增幅分别为7.0%,5.6%,22.7%,11.7%,1.3%和1.96%,能够明显提高各项性能指标得分,增强网络显著性检测性能,这表明同时加入RVT和MA模块对本文模型获得最佳显著性检测效果是必要的和有效的。

    表 5  RVT和MA模块消融实验结果
    RVTMACC↑SIM↑KLDiv↓NSS↑AUC_Judd↑AUC_Borji↑
    ××0.83350.73920.29472.96390.97790.9604
    ×0.86640.77880.36823.08850.98210.9702
    ×0.85530.71180.33173.42910.98480.9576
    0.89220.78050.22783.31000.99100.9786
    下载: 导出CSV 
    | 显示表格

    为了检测本文模型的泛化能力,与优秀模型进行泛化性能对比,结果如表6所示。模型在AAOI数据集上进行训练,在ASalient360数据集上进行测试,可以看出URMNet在指标CC, SIM, NSS, AUC_Judd以及AUC_Borji上,较优秀算法中最好指标(红色标出)优化幅度分别为9.04%, 2.02%, 5.97%, 0.89%和0.48%。说明URMNet模型在保证显著性检测精度前提下,有较好的泛化能力。

    表 6  不同模型泛化性能对比
    方法CC↑SIM↑KLDiv↓NSS↑AUC_Judd↑AUC_Borji↑
    URMNet0.58990.61161.07081.83950.91810.8917
    U-Net(2015)[16]0.54020.57331.96221.69750.90220.8750
    AttU-Net(2018)[17]0.49060.55721.95611.46680.88960.8556
    panoramic CNN(2020)[5]0.51460.57701.12451.44860.88650.8504
    QAU-Net(2021)[18]0.50440.59890.53731.55220.88540.8362
    UCTransNet(2021)[19]0.54100.57601.81891.73590.91000.8874
    下载: 导出CSV 
    | 显示表格

    复杂度实验结果如表7所示。可知URMNet计算量较U-Net, QAU-Net和UCTransNet优化幅度分别为62.35%, 96.07%和97.24%。参数量较QAU-Net和UCTransNet优化幅度分别为34.28%和60.93%。表明本文模型在保证较高检测精度的同时,相对较好地控制了模型的复杂度。

    表 7  不同模型复杂度对比
    复杂度指标U-Net[16]QAU-Net[18]UCTransNet[19]URMNet
    GFLOPs(G)4.134539.589356.41131.5567
    Params(M)23.265541.855970.411827.5091
    下载: 导出CSV 
    | 显示表格

    针对当前全景图像显著性检测方法存在检测精度偏低、模型收敛速度慢和计算量大的问题,本文提出一种基于鲁棒视觉变换和多注意力的U型网络URMNet,用于全景图像的显著性检测。通过RVT用来提取4种尺度特征图所包含的显著信息,MA模块融合多维度注意力,提高中间层特征提取能力,纬度加权损失函数Loss提高检测精度并减少模型训练时间,使用球形卷积,最大限度上降低图像失真。实验结果表明,该模型收敛速度快,检测结果精度高于目前主流方法的检测结果精度,同时该模型具有较好的泛化性能和较低的复杂度。后续工作将进一步优化全景图像显著性检测方法,提高显著性检测效率。

  • 图  1  URMNet示意图

    图  2  变换器模块示意图

    图  3  特征图预处理示意图

    图  4  多通道自注意力示意图

    图  5  SAM示意图

    图  6  CAM示意图

    图  7  本文方法与其他方法在AAOI数据集上的可视化对比

    图  8  本文方法与其他方法在ASalient360数据集上的可视化对比

    图  9  添加噪声后的显著性检测图像放大可视化对比

    表  1  不同加权因子的实验结果

    SMA βCAM 1βCC↑SIM↑KLDiv↓NSS↑AUC_Judd↑AUC_Borji↑Grade
    01.00.90050.77870.19703.53460.99140.97553.3809
    0.20.80.88030.77850.44033.49640.98610.96180.7047
    0.40.60.90080.79210.50703.71900.99360.97953.4726
    0.50.50.90670.81190.21983.28490.98980.97723.5050
    0.60.40.89120.78710.23503.22120.98400.96551.2312
    0.80.20.87710.75610.23173.28930.98640.97561.1757
    1.000.90230.78900.37753.67370.99190.97743.4871
    下载: 导出CSV

    表  2  AAOI数据集上各模型客观指标对比

    方法CC↑SIM↑KLDiv↓NSS↑AUC_Judd↑AUC_Borji↑
    URMNet0.89340.79180.17873.71130.98650.9707
    U-Net(2015)[16]0.85500.76940.26472.96390.97410.9582
    AttU-Net(2018)[17]0.86630.76750.23593.32120.97960.9632
    Spherical U-Net(2018)[3]0.78320.73040.31672.47950.94670.9295
    panoramic CNN(2020)[5]0.85200.75330.24123.19990.97780.9641
    QAU-Net(2021)[18]0.73140.65300.42031.86780.92260.8926
    UCTransNet(2021)[19]0.86190.77310.21053.02040.98140.9625
    下载: 导出CSV

    表  3  ASalient360数据集上各模型客观指标对比

    方法CC↑SIM↑KLDiv↓NSS↑AUC_Judd↑AUC_Borji↑
    URMNet0.66830.66020.58342.98740.94490.9336
    U-Net(2015)[16]0.60610.64040.43972.62280.91800.8973
    AttU-Net(2018)[17]0.55890.62620.48921.98400.88710.8644
    Spherical U-Net(2018)[3]0.60280.64120.67142.58340.93840.9183
    panoramic CNN(2020)[5]0.62250.65270.40492.03240.89750.8482
    QAU-Net(2021)[18]0.56410.62800.51382.75560.88890.8859
    UCTransNet(2021)[19]0.54290.61650.52462.00410.89900.8683
    下载: 导出CSV

    表  4  网络和损失函数的消融实验

    模型损失函数CC↑SIM↑KLDiv↓NSS↑AUC_Judd↑AUC_Borji↑
    BaselineURMNetL1L2L3Loss
    0.73890.69352.20791.51070.86340.8310
    0.73000.68862.26141.50020.86360.8169
    0.66290.66041.29391.23690.81840.7806
    0.86040.76180.39063.04630.98460.9614
    0.74560.70072.20681.50430.86270.8304
    0.75650.68452.94971.68480.89090.8166
    0.75570.69093.10001.66070.88300.8465
    0.90670.81190.21983.28490.98980.9772
    下载: 导出CSV

    表  5  RVT和MA模块消融实验结果

    RVTMACC↑SIM↑KLDiv↓NSS↑AUC_Judd↑AUC_Borji↑
    ××0.83350.73920.29472.96390.97790.9604
    ×0.86640.77880.36823.08850.98210.9702
    ×0.85530.71180.33173.42910.98480.9576
    0.89220.78050.22783.31000.99100.9786
    下载: 导出CSV

    表  6  不同模型泛化性能对比

    方法CC↑SIM↑KLDiv↓NSS↑AUC_Judd↑AUC_Borji↑
    URMNet0.58990.61161.07081.83950.91810.8917
    U-Net(2015)[16]0.54020.57331.96221.69750.90220.8750
    AttU-Net(2018)[17]0.49060.55721.95611.46680.88960.8556
    panoramic CNN(2020)[5]0.51460.57701.12451.44860.88650.8504
    QAU-Net(2021)[18]0.50440.59890.53731.55220.88540.8362
    UCTransNet(2021)[19]0.54100.57601.81891.73590.91000.8874
    下载: 导出CSV

    表  7  不同模型复杂度对比

    复杂度指标U-Net[16]QAU-Net[18]UCTransNet[19]URMNet
    GFLOPs(G)4.134539.589356.41131.5567
    Params(M)23.265541.855970.411827.5091
    下载: 导出CSV
  • [1] 刘政怡, 段群涛, 石松, 等. 基于多模态特征融合监督的RGB-D图像显著性检测[J]. 电子与信息学报, 2020, 42(4): 997–1004. doi: 10.11999/JEIT190297

    LIU Zhengyi, DUAN Quntao, SHI Song, et al. RGB-D image saliency detection based on multi-modal feature-fused supervision[J]. Journal of Electronics &Information Technology, 2020, 42(4): 997–1004. doi: 10.11999/JEIT190297
    [2] WEN Anzhou. Real-time panoramic multi-target detection based on mobile machine vision and deep learning[J]. Journal of Physics:Conference Series, 2020, 1650: 032113. doi: 10.1088/1742-6596/1650/3/032113
    [3] ZHANG Ziheng, XU Yanyu, YU Jingyi, et al. Saliency detection in 360° videos[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 504–520.
    [4] COORS B, CONDURACHE A P, and GEIGER A. SphereNet: Learning spherical representations for detection and classification in omnidirectional images[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 525–541.
    [5] MARTÍN D, SERRANO A, and MASIA B. Panoramic convolutions for 360° single-image saliency prediction[C/OL]. The Fourth Workshop on Computer Vision for AR/VR, 2020: 1–4.
    [6] DAI Feng, ZHANG Youqiang, MA Yike, et al. Dilated convolutional neural networks for panoramic image saliency prediction[C]. 2020 IEEE International Conference on Acoustics, Speech and Signal Processing, Barcelona, Spain, 2020: 2558–2562.
    [7] MONROY R, LUTZ S, CHALASANI T, et al. SalNet360: Saliency maps for omni-directional images with CNN[J]. Signal Processing:Image Communication, 2018, 69: 26–34. doi: 10.1016/j.image.2018.05.005
    [8] DAHOU Y, TLIBA M, MCGUINNESS K, et al. ATSal: An attention Based Architecture for Saliency Prediction in 360° Videos[M]. Cham: Springer, 2021: 305–320.
    [9] ZHU Dandan, CHEN Yongqing, ZHAO Defang, et al. Saliency prediction on omnidirectional images with attention-aware feature fusion network[J]. Applied Intelligence, 2021, 51(8): 5344–5357. doi: 10.1007/s10489-020-01857-3
    [10] CHAO Fangyi, ZHANG Lu, HAMIDOUCHE W, et al. A multi-FoV viewport-based visual saliency model using adaptive weighting losses for 360° images[J]. IEEE Transactions on Multimedia, 2020, 23: 1811–1826. doi: 10.1109/tmm.2020.3003642
    [11] XU Mai, YANG Li, TAO Xiaoming, et al. Saliency prediction on omnidirectional image with generative adversarial imitation learning[J]. IEEE Transactions on Image Processing, 2021, 30: 2087–2102. doi: 10.1109/tip.2021.3050861
    [12] GUTIÉRREZ J, DAVID E J, COUTROT A, et al. Introducing un salient360! Benchmark: A platform for evaluating visual attention models for 360° contents[C]. The 2018 Tenth International Conference on Quality of Multimedia Experience, Cagliari, Italy, 2018: 1–3.
    [13] MAO Xiaofeng, QI Gege, CHEN Yuefeng, et al. Towards robust vision transformer[J]. arXiv: 2105.07926, 2021.
    [14] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]. The 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 6000–6010.
    [15] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[C/OL]. The 9th International Conference on Learning Representations, 2021.
    [16] RONNEBERGER O, FISCHER P, and BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]. The 18th International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, Germany, 2015: 234–241.
    [17] OKTAY O, SCHLEMPER J, LE FOLGOC L, et al. Attention u-net: Learning where to look for the pancreas[J]. arXiv: 1804.03999, 2018.
    [18] HONG Luminzi, WANG Risheng, LEI Tao, et al. Qau-Net: Quartet attention U-Net for liver and liver-tumor segmentation[C]. 2021 IEEE International Conference on Multimedia and Expo, Shenzhen, China, 2021: 1–6.
    [19] WANG Haonan, CAO Peng, WANG Jiaqi, et al. UCTransNet: Rethinking the skip connections in U-Net from a channel-wise perspective with transformer[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(3): 2441–2249. doi: 10.1609/aaai.v36i3.20144
    [20] CORNIA M, BARALDI L, SERRA G, et al. Predicting human eye fixations via an LSTM-based saliency attentive model[J]. IEEE Transactions on Image Processing, 2018, 27(10): 5142–5154. doi: 10.1109/tip.2018.2851672
    [21] LOU Jianxun, LIN Hanhe, MARSHALL D, et al. TranSalNet: Towards perceptually relevant visual saliency prediction[J]. arXiv: 2110.03593, 2021.
  • 期刊类型引用(0)

    其他类型引用(1)

  • 加载中
图(9) / 表(7)
计量
  • 文章访问数:  876
  • HTML全文浏览量:  389
  • PDF下载量:  146
  • 被引次数: 1
出版历程
  • 收稿日期:  2022-05-26
  • 修回日期:  2022-08-18
  • 网络出版日期:  2022-08-23
  • 刊出日期:  2023-06-10

目录

/

返回文章
返回