基于特征值苑配的变比特率相关矢量量化图像编码算法
AN IMAGE ENCODING ALGORITHM USING VARIABLE-RATE CORRELATION VECTOR QUANTIZER BASED ON THE MATCHING OF CHARACTERISTIC VALUES
-
摘要: 该文提出了一种用于图像编码的新颖的变比特率相关矢量量化器。在编码之前,首先计算各码字的四个特征值,然后根据各特征值的升序排列得到相应的四个排序码书。在对当前输入矢量(当前处理图像块)进行编码的过程中,充分考虑当前处理图像块与其相邻图像块之间的相关性以及各码字特征值与该输入矢量特征值之间的匹配性。测试结果表明,该算法与传统矢量量化(VQ)器相比,虽然在编码质量上有少许下降,但降低了比特率并加快了编码速度。
-
关键词:
- 图像编码; 矢量量化
Abstract: A novel variable-rate correlation vector quantizer is presented for image encoding in this paper. Before encoding, four characteristic values of each codeword are computed, then four corresponding sorted codebooks are obtained according to the ascending order of the four characteristic values of codewords respectively. During the encoding, high correlation of the adjacent image blocks and characteristic values of the current processing vector and codewords are considered to encode the current processing vector. Experimental results show that, although the encoding quality of the proposed algorithm is a little worse than that of the conventional VCS, the bit rate of the proposed algorithm is tower than that of the conventional VQ, and the encoding time of the proposed algorithm is much shorter than that of the conventional VCS. -
1. 引言
图像显著性检测的目的是模拟人的视觉特点,提取图像中人类更加关注的区域[1]。进行全景图像显著性检测,不仅可以提高全景图像的压缩效率,减少传输带宽,而且对全景图像编辑起着至关重要的作用。此外还有力支撑了图像分割、图像检索、目标追踪识别和机器人导航[2]等计算机视觉任务。
全景图像的显著性检测中,对图像特征的提取效果直接影响最终的显著性检测效果。Zhang等人[3]提出了一种球形卷积,并验证了球形U型网络对全景视频显著性检测的有效性。Coors等人[4]提出了一种可以避免极点过采样的球形卷积。Martin等人[5]提出的显著性检测的方法,主观检测结果好,收敛较缓慢。
全景图像显著性检测时,有多种投影方式,如等矩形投影和立方体投影等。Dai等人[6]将全景图像以立方体的格式输入扩展卷积神经网络,同时处理立方体的6个面进行全景图像的显著性检测。Monroy等人[7]提出了对卷积神经网络(Convolutional Neural Network, CNN)的架构扩展,以端到端的方式对全景图像进行显著性检测。以上方法将全景图像投影成2D图像的过程会造成不同程度的信息缺失,因此最终显著性检测结果的性能指标也会受其影响。
Dahou等人[8]提出用于全景视频显著性检测的基于新注意力的显著性模型(a novel ATtention based Saliency model, ATSal),该模型对全局视觉静态注意力进行显式编码。Zhu等人[9]针对显著性检测过程中,全景图像数据集规模小的问题,提出注意力感知特征融合网络。上述方法凭借注意力机制提高了全景图像显著性检测结果的性能指标得分,但这些指标还有上升的空间。
为了提高检测结果的精度,Chao等人[10]提出从全景图像的3个不同视场(Field of Views, FoV)的每个视口提取特征再融合的显著性检测方法。该方法在性能指标上能取得较好的结果,但是具有很高的计算量。
综上所述,以上方法都有各自的优势,但存在模型收敛速度慢、实际使用受限、全景图像投影成2D图像造成失真以及高计算量等问题。为了解决上述问题,本文提出一种新的全景图像显著性检测网络:基于鲁棒视觉变换和多注意力的U型网络(U-Net with Robust vision transformer and Multiple attention modules, URMNet)。主要贡献如下:
(1) 提出URMNet网络模型,与目前主流全景图像显著性检测模型相比,进一步提升了全景图像显著性检测评价指标。
(2) 提出鲁棒视觉变换模块 (Robust Vision Transformer, RVT ),采用卷积嵌入的方式,通过调整特征图的空间和通道维度,降低了分辨率,解决了网络准确度饱和与性能退化的问题,增强了模型的鲁棒性;提出多注意力模块 (Multiple Attention, MA),通过融合多维度注意力,提升网络的特征提取能力,提高显著性检测精确度。
(3) 提出更简洁的纬度加权损失函数Loss,加快模型收敛速度,提升全景图像显著性检测效果。
(4) 对原始全景图像显著性检测数据集,即全景图像注意(Attention on Omnidirectional Images, AOI)[11]、Salient360[12]分别进行数据增强得到新的数据集,即增强全景图像注意(Augment AOI, AAOI)、增强显著360(Augment Salient360, ASalient360),大幅增多数据集图像数量。本文模型在两种类型的数据集上达到了预期的效果,证明了模型的有效性和泛化能力。
2. 本文模型
2.1 URMNet网络概述
本文提出一种基于鲁棒视觉变换(RVT)和多注意力(MA)的全景图像显著性检测网络URMNet,如图1所示。URMNet是类U型结构,由编码器、解码器、RVT模块和MA模块组成。URMNet的工作流程如下:输入全景图像到编码模块,首先用球形卷积(sphere convolution)[4]进行特征提取,然后进行批归一化(Batch Normalization, BN)和修正线性单元(Rectified Linear Unit, ReLU)激活操作,得到第1尺度特征图,再进行球形池化。如此循环4次可得到5种尺度的特征图,这些特征图包含浅层的细节信息和深层的语义信息。将前4种尺度的特征图送入由4个rvt子模块组成的RVT模块,RVT模块可以提取4种尺度特征图所包含的显著信息。同时,最小尺度的特征图通过MA模块的多注意力机制有选择地融合空间和通道显著信息。融合后的显著信息经过上采样后送入解码器首先与RVT模块对应尺度的输出进行拼接,然后经过球形卷积、批归一化BN以及ReLU激活操作进一步细化生成的聚合特征,按此过程一共重复4次逐渐生成精确的显著图。
2.2 rvt子模块
为了提高特征的提取速度并兼顾全景图像的全局特征,本文采用包含了多通道自注意力机制的变换器(图1中变换器1)。经过实验,随着RVT-Block(见图2)块数的增多,模型的检测精度会提高,同时在变换器后期降低空间分辨率有利于提高模型的鲁棒性[13]。因此在变换器1之后,进行空间池化,如图1中rvt所示。变换器1与2中分别包含12个与4个RVT-Block。为了匹配解码器输出维度,对变换器2的输出进行卷积及上采样。为了解决随着网络的加深,模型准确度饱和以及性能退化的问题,将rvt子模块的输入与上采样后的特征图相加,得到rvt的输出。
2.2.1 特征图预处理
本文采用卷积嵌入的方法进行特征图重构。特征图预处理过程如图3所示。首先对输入的特征图进行卷积操作再归一化。然后通过平均池化提取特征图的局部信息,同时通过最大池化提取特征图峰值信息。
将经过两种池化操作的特征图融合,再进行卷积操作。预处理的输出Ype可表示为
Ype=Conv2(Pool(BN(Conv5(Xpe)))) (1) 其中,
Xpe 为输入特征图,Convi(⋅) 表示i×i卷积操作,BN(⋅) 表示归一化,Pool(⋅) 表示池化。2.2.2 变换器(Transformer)
本文提出变换器子模块根据像素间的关系提取预处理后特征图的全局特征,其结构如图2所示。受自注意力机制[14]的启发,本文将多个通道同时进行自注意力计算,如图4所示。把尺度
(c,h,w) 的特征图压缩维度后变成(h×w,c) ,再变成(6,h×w,c/6) ,本文对x1~x6同时进行自注意力机制计算,这大大提高了特征的提取速度。以全连接的方式将3个可训练权重WQ, WK和WV分别作用于每个通道中的特征图xi,得到对应的q (query),k (key)和v (value) 3个值。利用q和k的乘积表示特征图的相关性,为了利于网络训练,需要对q和k的乘积做线性缩放,缩放因子为√c/c66 。wi,j经Softmax操作得到对应位置的注意力权重Ai,j ,再与相应的vi相乘,得到一个通道下的注意力结果bi,最后将6个通道的注意力结果以通道维度拼接。这里的注意力机制可表示为式(2)。变换器对特征图处理时,将输入的特征图先压缩维度,经过重新排列(Rearrange)把形状为(c,h,w) 的特征图变为(h×w,c) 。压缩后的2维序列XRB 作为RVT-Block模块的输入,RVT-Block模块的输出记为YRB 。YRB 与XRB 的关系如式(3)所示attention=Softmax(QIKIT√c/c66)VI (2) YRB=D(mlp(LN(X1)))⊕D(attnRB(XRB))⊕XRB (3) 其中,
attnRB(⋅) 表示图4所示的注意力机制,D(⋅) 表示失活,⊕ 表示像素级相加,LN(⋅) 表示归一化,mlp(⋅) 表示多层感知。经过L个RVT-Block模块运算得到2维特征图,最后将特征图恢复到(c,h,w)。为了解决随着网络加深,模型性能退化的问题,本文使用了残差机制;为了更准确地检测图像显著性在模型中加入了多层感知机(MultiLayer Perceptron, MLP),通道扩张率设为4。2.3 MA模块
本文提出空间注意力模块(Spatial Attention Module, SAM)和通道注意力模块(Channel Attention Module, CAM),首先从空间和通道两个维度提取特征,再对SAM设置加权因子
β ,CAM设置加权因子1−β 。两者求和的结果经1×1卷积有选择地融合显著信息,如图1中MA模块所示。β∈[0,0.2,0.4,0.5,0.6,0.8,1.0] ,本文将在实验部分给出SAM与CAM的最佳比重。2.3.1 SAM
SAM子模块负责获得空间注意力,示意图如图5所示。输入尺度为(c ,h ,w)的特征图,经过3次
1×1 卷积,将3个不同的可学习权重作用于特征图,并压缩维度(Rearrange),便于计算空间中任一特征像素与其他像素之间的关系,得到尺度为(c,h×w) 的query值Qs、key值Ks和value值Vs。在特征图的空间维度有h×w 个像素,计算所有像素两两之间的注意力关系得到(h×w,h×w) 的空间注意力得分矩阵,即QTSKS√c ,√c 为缩放因子。特征图Vs的像素与对应位置的注意力权重相乘,即VS×Att ,得到空间注意力结果。然后将注意力结果经线性变换再提升维度,加入多层感知机MLP,通道扩张率设为4。所得结果与输入特征图加和,解决了模型性能退化的问题。计算流程用公式可表示为YS=mlp(Ω(attnS(ConvS(XS))))⊕XS (4) 其中,
XS 表示SAM模块的输入图像,ConvS(⋅) 表示1×1卷积与重新排列操作,attnS(⋅) 表示SAM模块的空间注意力机制,Ω(⋅) 操作由线性变化、失活以及重新排列组成,mlp(⋅) 表示多层感知,⊕ 表示像素级相加。2.3.2 CAM
CAM子模块用来获得通道注意力,如图6所示。将尺寸为(c ,h ,w)的输入特征图经过球形卷积,再压缩(Flatten)成
(c,h×w) 的尺寸。对特征矩阵进行转置(Transpose),再将一组尺寸为(h×w,c) 的可学习参数加到转置后的特征图上进行位置编码[15]。以相同的固定权重得到query值Qc、key值Kc和value值Vc,计算特征图通道之间的注意力关系,√hw 为缩放因子。将所得通道注意力得分矩阵与Vc相乘,加入通道扩张率为4的MLP。串联4个CAM-Block(Lc=4)。使用残差机制,得到CAM的输出。CAM-Block的计算流程如式(5)所示YC=Φ(attnC(LN(XC)))⊕mlp(Φ(attnC(LN(XC)))) (5) 其中,
LN(⋅) 表示归一化,attnC(⋅) 表示CAM模块的通道注意力机制,Φ(⋅) 表示由归一化、失活以及转置组成的操作,mlp(⋅) 表示多层感知,⊕ 表示像素级相加。2.4 纬度加权损失函数
本文设计一种新的损失函数,使赤道部分的损失权重最高,向两极的损失权重递减。由于同一纬度的像素失真程度相同,随着纬度的变化,相应纬度位置的像素其失真程度也发生变化,因此以像素点的纬度值来确定不同位置像素的损失权重。设全景图像的高为h,宽为w,把整幅图像分成h个纬度带。 则第i个纬度带的损失权重
Wi 与损失函数Loss可表示为Wi=sin(iπh)+1,Loss=1N∑i,jWi(Si,j−Gi,j)2 (6) 其中,
Si,j 表示预测的显著图中位于第i个纬度带的第j个像素灰度值,Gi,j 表示基准显著图中位于第i个纬度带的第j个像素的灰度值,N表示图像的像素个数。3. 实验
3.1 数据集与预处理
AOI有600张全景图像和基准显著图。Salient360有85张全景图像和基准显著图。由于原始数据集的图像数量较少,本文采用垂直翻转、水平翻转和双向翻转进行数据增强。此外,基于噪声的数据增强,能够提高模型在全景图像包含噪声情境下的鲁棒性能[5],因此本文对全景图像添加了高斯、泊松、椒盐和斑点噪声。上述所有的数据增强操作,不会改变全景图像像素之间的依赖关系,因此不会影响图像的显著性。最终构建的AAOI, ASalient360数据集分别包含4800张、680张全景图像。
3.2 实验设置
本文使用Pytorch架构以及150个epoch训练模型,4张图像为一组进行批处理。学习率设置为0.0001,动量参数为0.9的随机梯度下降(Stochastic Gradient Descent, SGD)优化器,权重衰减0.00001。设置检查点,参考文献[5]中训练图像与测试图像的比例,AAOI数据集中4752张图像用于训练,48张图像用于测试;ASalient360数据集中640张图像用于训练,40张图像用于测试。训练集中训练部分与验证部分图像数量比例为17:3。本文所有实验均在配备RTX3060 GPU和AMD I5 3600 CPU的台式机上完成。
3.3 MA模块中
β 取值对模型性能的影响表1列出了MA模块中SAM与CAM子模块不同权重的实验结果。Grade如式(7)所示
表 1 不同加权因子的实验结果SMA β CAM 1−β CC↑ SIM↑ KLDiv↓ NSS↑ AUC_Judd↑ AUC_Borji↑ Grade 0 1.0 0.9005 0.7787 0.1970 3.5346 0.9914 0.9755 3.3809 0.2 0.8 0.8803 0.7785 0.4403 3.4964 0.9861 0.9618 0.7047 0.4 0.6 0.9008 0.7921 0.5070 3.7190 0.9936 0.9795 3.4726 0.5 0.5 0.9067 0.8119 0.2198 3.2849 0.9898 0.9772 3.5050 0.6 0.4 0.8912 0.7871 0.2350 3.2212 0.9840 0.9655 1.2312 0.8 0.2 0.8771 0.7561 0.2317 3.2893 0.9864 0.9756 1.1757 1.0 0 0.9023 0.7890 0.3775 3.6737 0.9919 0.9774 3.4871 Grade=CC+SIM−KLDiv+NSS+AUC\_Judd+AUC_Borji (7) 其中,CC,SIM,KLDiv,NSS,AUC_Judd以及AUC_Borji分别是6种评价指标标准化后的结果。由式(7)可知,Grade同等考虑了6个评价指标的作用,得分越高,模型的性能越好。由表1中Grade结果可知,当
β =0.5时,即SAM与CAM具有相同权重时,模型性能在列出的所有权重组合中达到最优。本文模型取β =0.5。3.4 实验对比
本文将URMNet模型与目前先进的方法进行比较,包括U型网络(U-Net)[16]、注意力U型网络(Attention U-Net, AttU-Net)[17]、球形U型网络(Spherical U-Net)[3]、全景卷积神经网络(panoramic Convolutional Neural Network, panoramic CNN)[5]、四方注意力U型网络(Quartet Attention U-Net, QAU-Net)[18]以及从通道和变换器角度考虑U-Net的跳跃连接网络(rethinking the skip connections in U-Net from a Channel-wise perspective with transformer, UCTransNet)[19]。不同对比方法都是在相同的实验环境中运行测试。
表2给出了6个评价指标在AAOI数据集上的定量比较结果。明显可知,6个评价指标下,本文模型的性能超过所有对比方法的性能。具体来说,本文模型在指标相关系数(Correlation Coefficien, CC)、相似度(SIMilarity, SIM)、KL散度(KL-Divergence, KLDiv)、标准化扫描路径显著性(Normalized Scanpath Saliency, NSS)以及分别经Judd和Borji优化后的ROC曲线下面积(Area Under the Curve,AUC)AUC_Judd和AUC_Borji上,与对比的6种优秀算法中最好的指标(表2中用红色标出)相比,优化幅度分别是3.13%, 2.42%, 17.80%, 11.75%, 0.52%和0.68%。表3列出了6个评价指标在ASalient360数据集上的定量比较结果。本文模型在指标CC, SIM, NSS, AUC_Judd和AUC_Borji上,与对比的6种优秀算法中最好的指标(表3中用红色标出)相比,优化幅度分别是7.36%, 1.15%, 8.41%, 0.69%和1.67%。在KLDiv指标上,本文模型比文献算法最佳结果低0.1785。这是由于为了使综合性能更优,本文模型在设计上平衡了准确性、泛化性以及复杂度。总地来说,两个数据集下的实验结果证明了本文所提出模型的先进性。
表 2 AAOI数据集上各模型客观指标对比方法 CC↑ SIM↑ KLDiv↓ NSS↑ AUC_Judd↑ AUC_Borji↑ URMNet 0.8934 0.7918 0.1787 3.7113 0.9865 0.9707 U-Net(2015)[16] 0.8550 0.7694 0.2647 2.9639 0.9741 0.9582 AttU-Net(2018)[17] 0.8663 0.7675 0.2359 3.3212 0.9796 0.9632 Spherical U-Net(2018)[3] 0.7832 0.7304 0.3167 2.4795 0.9467 0.9295 panoramic CNN(2020)[5] 0.8520 0.7533 0.2412 3.1999 0.9778 0.9641 QAU-Net(2021)[18] 0.7314 0.6530 0.4203 1.8678 0.9226 0.8926 UCTransNet(2021)[19] 0.8619 0.7731 0.2105 3.0204 0.9814 0.9625 表 3 ASalient360数据集上各模型客观指标对比方法 CC↑ SIM↑ KLDiv↓ NSS↑ AUC_Judd↑ AUC_Borji↑ URMNet 0.6683 0.6602 0.5834 2.9874 0.9449 0.9336 U-Net(2015)[16] 0.6061 0.6404 0.4397 2.6228 0.9180 0.8973 AttU-Net(2018)[17] 0.5589 0.6262 0.4892 1.9840 0.8871 0.8644 Spherical U-Net(2018)[3] 0.6028 0.6412 0.6714 2.5834 0.9384 0.9183 panoramic CNN(2020)[5] 0.6225 0.6527 0.4049 2.0324 0.8975 0.8482 QAU-Net(2021)[18] 0.5641 0.6280 0.5138 2.7556 0.8889 0.8859 UCTransNet(2021)[19] 0.5429 0.6165 0.5246 2.0041 0.8990 0.8683 为了进一步验证本文模型的性能,与6种先进方法进行可视化对比,结果如图7和图8所示。图9是为了便于观察,将图7第2行放大。结果表明,本文方法能够较为准确地检测出图像的显著性区域,包括远景全景图像(图7第1,3,6行)和近景全景图像(图7第2,4,5行,图8第4,5行)。远景图像中图7第6行,背景为图像左侧的大树以及蓝色天空,显著区域为图像中间红色树以及右侧白色天空对应区域,从结果上看,本文算法更好地抑制了背景对显著性区域检测的干扰,使得检测结果与人工标注的真实值之间更为接近。近景图像中图7第5行,显著性区域有3处,分别是图像中间的雕像以及雕像两边的书法作品所在区域。对比模型由于背景的干扰,检测的显著性区域明显大于真实值。本文模型的检测结果有效地改善了这一现象,使显著性区域定位更准确。另外,本文模型对噪声干扰(图7第2行,图8第2行)更为鲁棒。图9中显著区域包括图像中间较大的两幅画所在区域,以及包括所有画在内左右方向的带状区域。受噪声干扰,对比模型中U-Net, AttU-Net, Spherical U-Net以及QAU-Net,检测的显著性区域明显大于真实值。与检测较为准确的panoramic CNN和UCTransNet相比,本文模型检测结果更接近于真实值。
3.5 消融实验
3.5.1 URMNet网络和损失函数Loss的消融实验
表4中,Baseline表示具有球形卷积的U-Net网络、L1表示文献[10]提出的自适应加权损失函数、L2表示文献[20]提出的固定权重损失函数、L3表示结合文献[6]和文献[21]给
CC ,NSS 和KLDiv 相同比例权重构造的损失函数。将两种网络(Baseline和URMNet)与4种损失函数(L1,L2,L3和Loss)分别组合进行消融实验,实验结果如表4所示。可知URMNet与Loss组合时,模型性能最好,说明采用损失函数Loss训练URMNet网络对获得最佳显著性检测性能是必要的和有效的。表 4 网络和损失函数的消融实验模型 损失函数 CC↑ SIM↑ KLDiv↓ NSS↑ AUC_Judd↑ AUC_Borji↑ Baseline URMNet L1 L2 L3 Loss √ √ 0.7389 0.6935 2.2079 1.5107 0.8634 0.8310 √ √ 0.7300 0.6886 2.2614 1.5002 0.8636 0.8169 √ √ 0.6629 0.6604 1.2939 1.2369 0.8184 0.7806 √ √ 0.8604 0.7618 0.3906 3.0463 0.9846 0.9614 √ √ 0.7456 0.7007 2.2068 1.5043 0.8627 0.8304 √ √ 0.7565 0.6845 2.9497 1.6848 0.8909 0.8166 √ √ 0.7557 0.6909 3.1000 1.6607 0.8830 0.8465 √ √ 0.9067 0.8119 0.2198 3.2849 0.9898 0.9772 3.5.2 RVT模块和MA模块的消融实验
实验结果如表5所示。同时加入RVT和MA模块,6个性能指标较表4第1行指标增幅分别为7.0%,5.6%,22.7%,11.7%,1.3%和1.96%,能够明显提高各项性能指标得分,增强网络显著性检测性能,这表明同时加入RVT和MA模块对本文模型获得最佳显著性检测效果是必要的和有效的。
表 5 RVT和MA模块消融实验结果RVT MA CC↑ SIM↑ KLDiv↓ NSS↑ AUC_Judd↑ AUC_Borji↑ × × 0.8335 0.7392 0.2947 2.9639 0.9779 0.9604 √ × 0.8664 0.7788 0.3682 3.0885 0.9821 0.9702 × √ 0.8553 0.7118 0.3317 3.4291 0.9848 0.9576 √ √ 0.8922 0.7805 0.2278 3.3100 0.9910 0.9786 3.6 泛化性能对比实验
为了检测本文模型的泛化能力,与优秀模型进行泛化性能对比,结果如表6所示。模型在AAOI数据集上进行训练,在ASalient360数据集上进行测试,可以看出URMNet在指标CC, SIM, NSS, AUC_Judd以及AUC_Borji上,较优秀算法中最好指标(红色标出)优化幅度分别为9.04%, 2.02%, 5.97%, 0.89%和0.48%。说明URMNet模型在保证显著性检测精度前提下,有较好的泛化能力。
表 6 不同模型泛化性能对比方法 CC↑ SIM↑ KLDiv↓ NSS↑ AUC_Judd↑ AUC_Borji↑ URMNet 0.5899 0.6116 1.0708 1.8395 0.9181 0.8917 U-Net(2015)[16] 0.5402 0.5733 1.9622 1.6975 0.9022 0.8750 AttU-Net(2018)[17] 0.4906 0.5572 1.9561 1.4668 0.8896 0.8556 panoramic CNN(2020)[5] 0.5146 0.5770 1.1245 1.4486 0.8865 0.8504 QAU-Net(2021)[18] 0.5044 0.5989 0.5373 1.5522 0.8854 0.8362 UCTransNet(2021)[19] 0.5410 0.5760 1.8189 1.7359 0.9100 0.8874 3.7 复杂度对比实验
复杂度实验结果如表7所示。可知URMNet计算量较U-Net, QAU-Net和UCTransNet优化幅度分别为62.35%, 96.07%和97.24%。参数量较QAU-Net和UCTransNet优化幅度分别为34.28%和60.93%。表明本文模型在保证较高检测精度的同时,相对较好地控制了模型的复杂度。
4. 结束语
针对当前全景图像显著性检测方法存在检测精度偏低、模型收敛速度慢和计算量大的问题,本文提出一种基于鲁棒视觉变换和多注意力的U型网络URMNet,用于全景图像的显著性检测。通过RVT用来提取4种尺度特征图所包含的显著信息,MA模块融合多维度注意力,提高中间层特征提取能力,纬度加权损失函数Loss提高检测精度并减少模型训练时间,使用球形卷积,最大限度上降低图像失真。实验结果表明,该模型收敛速度快,检测结果精度高于目前主流方法的检测结果精度,同时该模型具有较好的泛化性能和较低的复杂度。后续工作将进一步优化全景图像显著性检测方法,提高显著性检测效率。
-
A. Gersho, R. M. Gray, Vector Quantization and Signal Compression, Boston, MA, Kluwer, 1992,307-688.[2]Y. Linde, A. Buzo, R. M. Gray, An algorithm for vector quantizer design, IEEE Trans. onCoinmun., 1980, COM-28(1), 84-95.[3]C.D. Bei, R. M. Gray, An improvement of the minimum distortion encoding algorithm for vector quantization, IEEE Trans. on Commun., 1985, COM-33(10), 1132-1133.[4]T. Kim, Side natch and overlap match vector quantizers for images, IEEE Trans. on Image Processing, 1992, IP-1(2), 170-185. 期刊类型引用(0)
其他类型引用(1)
-
计量
- 文章访问数: 2108
- HTML全文浏览量: 117
- PDF下载量: 448
- 被引次数: 1