Study of Coarse-to-Fine Class Activation Mapping Algorithms Based on Contrastive Layer-wise Relevance Propagation
-
摘要: 以卷积神经网络为代表的深度学习算法高度依赖于模型的非线性和调试技术,在实际应用过程中普遍存在黑箱属性,严重限制了其在安全敏感领域的进一步发展。为此,该文提出一种由粗到细的类激活映射算法(CF-CAM),用于对深度神经网络的决策行为进行诊断。该算法重新建立了特征图和模型决策之间的关系,利用对比层级相关性传播理论获取特征图中每个位置对网络决策的贡献生成空间级的相关性掩码,找到影响模型决策的重要性区域,再与经过模糊化操作的输入图像进行线性加权重新输入到网络中得到特征图的目标分数,从空间域和通道域实现对深度神经网络进行由粗到细的解释。实验结果表明,相较于其他方法该文提出的CF-CAM在忠实度和定位性能上具有显著提升。此外,该文将CF-CAM作为一种数据增强策略应用于鸟类细粒度分类任务,对困难样本进行学习,可以有效提高网络识别的准确率,进一步验证了CF-CAM算法的有效性和优越性。Abstract: Deep learning algorithms represented by Convolutional Neural Networks (CNN) are highly dependent on the nonlinearity of the model and debugging techniques, which have generally black-box properties during practical applications, limiting severely their further development in security-sensitive fields. To this end, a Coarse-to-Fine Class Activation Mapping (CF-CAM) algorithm is proposed for diagnosing the decision-making behaviors of deep neural networks. The algorithm re-establishes the relationship between the feature map and the model decision, uses the contrastive layer-wise relevance propagation theory to obtain the contribution of each position in the feature map to the network decision, generates a spatial-level correlation mask and finds the important area that affects the model decision. After that, the mask is linearly weighted with the fuzzed input image and re-input into the network to obtain the target score of the feature map, and the deep neural network is explained from the coarse stage to the fine stage in the spatial domain and the channel domain. The experimental results show that the CF-CAM proposed in this paper has obvious advantages in terms of faithfulness and localization performance compared to other methods. In addition, this paper applies CF-CAM as a data enhancement strategy for the task of fine-grained classification of birds, which can effectively improve the accuracy of network recognition by learning difficult samples, further verify the effectiveness and superiority of this method.
-
1. 引言
随着深度学习技术的发展,复杂的神经网络系统在图像、声音和自然语言处理等领域取得了卓越成就,并广泛应用于公共安全[1]、医学辅助诊断[2]、环境保护[3]和农业监控[4]等现实任务,具有巨大的潜在应用空间。然而,深度神经网络模型由若干个非线性函数嵌套而成,在具有出色学习能力和泛化性能的同时,普遍存在黑箱属性,导致研究人员难以理解网络的内部知识表示,严重制约了其在安全性要求较高领域的进一步应用和发展。
当前主流的卷积神经网络可解释性研究方法借助图像数据的天然优势,通过可视化技术突出显示影响模型决策的重要特征和区域。这些方法从广义的定义来看,可以分为基于扰动的方法、基于反向传播的方法和基于类激活映射的方法。基于扰动的方法可以看作归因过程,通过修改输入探测表征向量对系统输出的重要性。典型的基于扰动的方法可以分为简单扰动[5-7]、有意义的扰动[8]和生成式扰动[9,10]3种方式。Zeiler等人[5]使用固定尺寸的像素块,按照从左到右、从上到下的顺序依次遮挡输入图像的各区域,从而获得被遮挡区域对模型决策的重要性。Fong等人[8]使用优化方式生成扰动掩码,可以有效遮挡重要像素,使得目标类别分数达到局部最低。文献[9,10]使用生成式扰动方法,在视觉上得到更加自然的扰动图像。虽然这些方法可以获得较好的视觉解释,但需要对模型进行多次迭代,所需时间长,计算成本高。基于反向传播的方法主要分为基于梯度传播的方法和基于层级相关性传播的方法。文献[11,12]分别提出了普通梯度传播方法和导向梯度传播方法,但这两种方法在深层网络传播过程中存在梯度消失和难以完全反映输入特征的重要性等问题。Bach等人[13]认为基于梯度方法利用输入空间所有像素的梯度之和表示输入层的相关性分数总和,属于深度泰勒分解(Deep Taylor Decomposition, DTD)的一种特殊情形,并提出层级相关性传播理论(Layer-wise Relevance Propagation, LRP),该理论对于破碎梯度问题具有鲁棒性。基于类激活映射的方法[14-18]通过对最后特征图进行加权调整,可以生成与指定类别最相关的显著图,对卷积神经网络关注的区域进行可视化。其中,Wang等人[18]摆脱了对梯度的依赖,通过网络的前向传递获取每个特征图的目标分数作为通道级权重,虽然在一定程度上增加了算法的执行时间,但相比于文献[14-17]等基于梯度的类激活映射方法,产生的类激活图具有更加出色的忠实度和目标定位性能。
为实现对深度卷积神经网络进行可靠的解释,找到影响网络决策的重要区域,受Wang等人[18]和对比层级相关性传播理论(Contrastive Layer-wise Relevance Propagation, CLRP)[19]的启发,本文重新思考了特征图和模型决策之间的关系,提出了一种新颖的由粗到细的类激活映射算法(Coarse to Fine grained Class Activation Mapping, CF-CAM)。该算法的计算过程分为两个阶段,在第1个阶段中,本文利用对比层级相关性传播理论获取特征图中每个位置对网络决策的贡献生成空间级的相关性掩码,从细节上对模型的决策进行解释。然而,该阶段产生的相关性掩码粗糙且包含了大量的背景噪声。为此,在第2个阶段中,本研究将获取的相关性掩码进行上采样,并与输入图像进行加权,经过有意义的扰动后重新输入到网络中,以网络预测的目标分数作为通道级权重,最终将产生的空间级相关性掩码与通道级权重进行加权求和,突出显示指定目标类别的信息,降低背景噪声的影响,实现从空间域和通道域对深度神经网络进行由粗到细的解释。
基于上述讨论,本文的主要贡献总结如下:
(1)针对卷积神经网络可解释性问题,本文提出了一种新颖有效的类激活映射算法CF-CAM,该算法利用对比层级相关性传播理论和网络预测的目标分数从空间域和通道域实现对深度神经网络进行由粗到细的解释。
(2)CF-CAM视觉解释算法推导直观易懂,并且相比于其他方法,CF-CAM在平均下降、平均增长和基于能量的指向游戏3个评价指标上具有显著提升,能够生成更加忠实可靠的类激活图。
(3)本文将CF-CAM作为一种数据增强策略,应用于鸟类细粒度分类任务,对困难样本进行学习,指导模型的训练过程,可以有效提高模型的检测性能。
本文其余部分安排如下:第2节从对比层级相关性传播理论和类激活映射算法两个方面对本文相关工作进行介绍。第3节从理论上对本文所提出的CF-CAM卷积神经网络解释算法进行介绍。第4节对本文所提出的方法进行实验分析,并给出实验结果。第5节总结全文。
2. 相关工作
2.1 对比层级相关性传播理论
Bach等人[13]提出LRP算法重新定义了新的反向传播规则,使用相关性函数R来衡量某个输入变量对函数值的贡献,该方法对于破碎梯度问题具有鲁棒性,但在初始情况下仅考虑了与目标类别相关的神经元,忽略了其他神经元的作用,导致LRP对特定目标类别的特征不敏感,可视化结果不具有区分性。为此,Gu等人[19]提出CLRP算法,该方法区分了初始相关性分数中目标类别神经元和非目标类别神经元的比例,即
R(l)n={z(l)i,n=i−z(l)iN−1,其他 (1) 其中,
z(l)i 表示Softmax操作之前第l层中第i个神经元对应的分值,N表示第l层中神经元的总个数。CLRP的计算过程分为网络前向计算和相关性分数反向传递两个阶段,在第1个阶段中,假设x(l)表示第l+1层的输入向量,ϕ为激活函数,w(l)i 表示该层网络共享的权值,b(l)i 表示第l+1层中第i个神经元的偏差,则该层第i个神经元的输出值如式(2)所示x(l+1)i=φ(x(l)w(l)i+b(l)i) (2) 在相关性分数反向传递阶段,网络的输出值可按照指定的层级相关性传播规则,从输出值一直分解到输入空间的每个变量上,从而度量每个变量和网络输出值之间的相关性分数R。常用的层级相关性传播规则是z+规则和zβ规则,其定义分别如式(3)和式(4)所示
R(l)i=∑jx(l)iw+(l)ij∑i′x(l)i′w+(l)i′jR(l+1)j (3) R(l)i=∑jx(l)iw(l)ij−U(l)iw+(l)ij−V(l)iw−(l)ij∑i′x(l)i′w(l)i′j−U(l)i′w+(l)i′j−V(l)i′w−(l)i′jR(l+1)j (4) 其中,
w+(l)ij 和w−(l)ij 分别表示连接第l层和第l+1层神经元的正、负权值;[U,V]表示神经元激活值的取值区间。在CF-CAM算法设计过程中,本文将利用对比层级相关性传播获取特征图中每个位置对网络决策的贡献。2.2 类激活映射
Zhou等人[14]认为随着卷积神经网络层数的加深,网络提取图像中的语义信息越丰富,并依此提出了类激活映射(Class Activation Mapping, CAM)算法。但该方法对网络结构敏感,并不适用于AlexNet[20], VggNet[21]和GoogLeNet[22]等常见的网络,极大地限制了其应用场景。为此,Selvaraju等人[15]提出Grad-CAM算法,利用网络反向传播中获取的梯度均值作为激活图的通道级权重,使基于类激活映射的方法更具有一般性。Grad-CAM形式化表示如式(5)和式(6)所示
LcGrad - CAM=ReLU(n∑k=1αckAk) (5) αck=GP(∂yc∂Ak) (6) 其中,
αck 表示最后一个卷积层中第k个特征图Ak关于目标类别c的通道级权重,yc表示网络对目标类别c的预测分值,GP(⋅)表示全局平均池化函数。其他类激活映射方法[16-18,23-25]与Grad-CAM过程计算过程相似,只是αck 的计算方式存在差异。3. CF-CAM类激活映射算法
为实现对深度卷积神经网络进行可靠的解释,找到影响模型决策的重要区域,本文提出了一种名为CF-CAM的类激活映射算法,该算法对卷积神经网络解释的过程如图1所示。从图中可以看出,CF-CAM算法可以分为空间级相关性掩码的获取和通道级权重的计算两个阶段。在本节中,本文将分别对上述两个过程进行详细的介绍和说明。
3.1 CF-CAM的空间级相关性掩码
在第1阶段,对于给定的输入图像
I∈R3×H×W ,本研究将网络对目标类别c的预测分值作为对比层级相关性传播的起点,该分值的计算如式(7)所示yc=fc(I,θ) (7) 其中,H和W分别表示图像的高度和宽度,θ为模型参数,yc表示模型f(x)对目标类别c预测的分值。
模型f(x)对图像I的分类结果,经过式(1)、式(3)和式(4),逐层向目标层进行反向传递,获取目标层所有特征图中每个位置对模型决策的相关性分数。为避免由于特征图中每个位置对模型决策贡献不同,导致生成的类别相关性掩码缺乏连续性,本文在生成类别相关性掩码之前,首先对特征图的类别相关性分数进行标准化,使其取值在[0,1]之间,用来生成平滑的类别相关性掩码。其计算过程如式(8)和式(9)所示。
Rc=Rc−min(Rc)max(Rc)−min(Rc) (8) Mck=upsample(RckAk) (9) 其中,Rc表示生成的类别相关性分数,
Rck 表示Rc中第k个特征图每个位置关于目标类别c的相关性分数的空间集合,Mck 为目标层l中第k个特征图关于目标类别c的空间级相关性掩码。值得说明的是,该过程可以从细节上对网络进行解释,但受背景噪声的影响严重,生成的显著图粗糙。为此,本文将在第2个阶段使用网络预测的目标分数,降低背景噪声对类激活图的影响,突出目标区域。3.2 CF-CAM的通道级权重
在第2阶段,本文将生成的空间级相关性掩码与输入图像逐元素相乘,用来保留图像中与模型决策相关的像素。然而,保留的像素区域和未保留的像素区域之间存在尖锐的边界,容易在网络预测过程中产生对抗性的影响。为缓解这一负面影响,本文将被相关性掩码屏蔽的区域使用模糊的输入图像信息进行代替,用来生成掩码图像。该掩码图像的计算过程如式(10)和式(11)所示
Ib=Guassian_blur2d(I,ksize,sigma) (10) I′=I⊙Mck+Ib⊙(1−Mck) (11) 其中,Ib表示使用高斯模糊函数模糊化的输入图像,ε表示逐元素相乘,ksize和sigma分别表示高斯模糊函数的核大小和方差。Zhang等人[25]指出,ksize和sigma分别设置为51和50时,模糊化的效果最佳。之后,本文将生成的掩码图像输入到网络中,并将网络输出的目标分数作为特征图的通道级权重,用于测量对应相关性掩码的重要性,突出目标区域,降低背景噪声的影响。通道级权重计算如式(12)所示
αck=fc(I′)−fc(Ib) (12) 最终,本文将产生的通道级权重
αck 与空间级激活掩码Mck 进行线性加权求和,实现对网络进行由粗到细的解释,生成忠实可靠的类激活图,该过程如式(13)所示LcCF - CAM=L∑k=1αckMck (13) 算法1描述了CF-CAM对卷积神经网络进行解释的实现细节。
算法1 CF-CAM算法 输入: Image I, Baseline Image Ib, Class c, Model f(x), target
layer l, Gaussian blur parameters: ksize, sigma.(1) Initialization: Initial Lc CF-CAM←0, αc←[ ], Baseline
Input Ib=Guassian\_blur2d(I,ksize,sigma);(2) Get feature maps of target layer Ak, C is the number of
channels in Ak, Relevance weights Rc;(3) for k in [0, 1, ···, C–1] do Mck=upsample(RckAk); I′=I⊙Mck+Ib⊙(1−Mck); αck=fc(I′)−fc(Ib); LcCF - CAM=LcCF - CAM+αckMck; end (4) Return Lc CF-CAM 输出:Saliency map Lc CF-CAM 表 1 CF-CAM忠实度评估结果(%)RISE Grad-CAM Grad-CAM++ Score-CAM Relevance-CAM CF-CAM A.D. 57.4 46.3 43.9 41.4 45.2 39.8 A.I. 8.7 15.2 18.6 20.5 17.5 21.3 4. 仿真实验和分析
为验证本文所提出方法的有效性,本文在实验的4.1节和4.2节分别从定性和定量两个角度对CF-CAM进行评估,并与其他具有代表性的方法进行比较。在4.3节中,本文将CF-CAM作为一种数据增强策略,应用于鸟类细粒度分类任务。值得说明的是,除4.3节使用Wah等人[26]公开的CUB-200-2011鸟类数据集以外,其他实验均选择计算机视觉中常用的ILSVRC2012 val[27]数据集作为实验数据。为了保证实验的公平性,本文将数据集中所有图像的尺寸通过resize的方式调整为3×224×224,然后转化为张量并归一化到[0,1],且所生成的类激活图全部使用双线性插值上采样到224×224。
4.1 CF-CAM算法的定性评估
4.1.1 CF-CAM算法的类别可分性
在本节中,本文首先将提出的CF-CAM算法与8种最先进的卷积神经网络可解释性方法在Pytorch提供的vgg19预训练模型中进行定性比较,这些方法包括基于扰动的方法、基于梯度的方法和基于类激活映射的方法,其对比结果如图2所示。从图中展示的结果可以看出,本文所提出的CF-CAM方法能够生成更具视觉解释性的显著图。相比于基于扰动的方法RISE[7],本文生成的显著图能够更加关注目标所在的区域。与基于梯度反向传播的方法VanillaBP[11], GuidedBP[12], SmoothGrad[28]和IntegrateGrad[29]相比,CF-CAM生成的显著图要更加平滑。与基于类激活映射的方法Grad-CAM[15]、Score-CAM[18]和Relevance-CAM[23]相比,本文生成的显著图具有更低的随机噪声,能够更加准确地反映目标位置区域。
为证明CF-CAM算法可以对图像中不同类别的目标进行区分,本文选取了ILSVRC2012 val数据集中部分包含不同类别目标的图片,在Pytorch提供的VGG19和Resnet50预训练模型中进行了进一步的实验,其中使用VGG19模型的部分实验结果如图3所示。例如图3(a)中,该图像在被分类为“牛獒”的置信度为62.18%,“虎猫”的置信度为3.62%。尽管“虎猫”的置信度远远小于“牛獒”的置信度,但本文所提出的CF-CAM仍能准确地定位两个目标的位置区域,可以合理地表明CF-CAM具有区分图像中不同目标类别的能力。
4.1.2 CF-CAM算法的多目标可视化
在本节中,为证明本文所提CF-CAM卷积神经网络可解释性研究方法不仅可以准确地定位图像中单个目标对象的位置区域,在包含多个同类目标图像中同样具有比先前方法更佳的定位性能和更少的背景噪声。为此,本文在Pytorch提供的VGG19预训练模型的基础上,使用CF-CAM算法对包含多目标的图像进行可视化,并与Grad-CAM, Relevance-CAM和Score-CAM算法进行比较。部分实验结果如图4所示。从图中可以看出,本文所提出的CF-CAM算法相比于Grad-CAM, Relevance-CAM和Score-CAM算法含有更低的背景噪声,能够有效地关注目标区域,符合人类在注释目标是具有的注意力焦点这一视觉特点。
4.1.3 CF-CAM算法参数敏感性检查
在本节中,为验证本文所提出的CF-CAM算法是否对网络参数具有敏感性,本文逐层随机化网络的参数,用以对CF-CAM的可靠性和敏感性进行评估。如图5所示是逐步对VGG16网络从Logit层到Conv21层的模型参数进行随机化的实验结果。为保证实验的客观性,Grad-CAM, Score-CAM, Relevance-CAM和本文所提出的CF-CAM在相同的模型参数条件下进行实验。从图中可以看出,本文所提出的CF-CAM和Grad-CAM, Score-CAM和Relevance-CAM一样,通过了健全性检查,可以证明CF-CAM方法对模型参数具有敏感性,能够对网络生成可靠的解释。
4.2 CF-CAM算法的定量评估
4.2.1 CF-CAM算法的忠实度评估
在本节中,本文按照Chattopadhay等人[16]所提出的平均下降和平均增长两个评价指标对本文所提出方法的忠实度进行定量评估。这两个指标是指通过将产生的类激活图作为指示掩码用来突出显示与目标类别最相关的像素或区域,以观察模型输出该目标类别的分数变化来衡量类激活图对模型解释的忠实度。在本实验中,前50%的类激活图像素被用作指示掩码。平均下降(A.D.)和平均增长(A.I.)两个指标的计算过程如式(14)和式(15)所示
A.D.=Z∑i=1max(0,Yci−Oci)Yci×100Z (14) A.I.=Z∑i=1Sign(Yci<Oci)Z (15) 其中,Z表示数据集中图像的数量,
Yci 表示模型对图像中目标类别c的预测分数,Oci 表示模型以显著图指示的目标区域作为输入,输出关于目标类别c的预测分数,Sign(⋅)为一个指示函数,如果输入为正值则输出为1,否则输出为0。从计算过程可知,平均下降分值越低,平均增长分值越高则说明方法的忠实度越好。基于上述讨论,本文随机选取了ILSVRC2012 val数据集上的2 000张图像作为测试样本,并使用Pytorch提供的vgg19预训练模型进行定量实验,以衡量本文所提出的CF-CAM方法生成的显著图对网络进行解释的忠实度和可靠性。本文的实验结果如表1所示。从实验结果可以看出,CF-CAM要明显优于其他方法,这表明本文所提出CF-CAM可以有效地找出影响模型作出决策的重要区域,能够更加忠实地揭示模型的决策过程。4.2.2 CF-CAM的定位性能评估
在本节实验中,本文使用基于能量的指向游戏指标[18]对所提出的CF-CAM的定位能力进行评估。基于能量的指向游戏是指将显著图的像素值视为能量,通过查看显著图落入目标对象边界框中能量大小来衡量本文所提出的CF-CAM的定位能力。基于能量的指向游戏指标计算过程为
P=∑Lc(i,j)∈bbox∑Lc(i,j)∈bbox+∑Lc(i,j)∉bbox (16) 其中,
Lc(i,j) 表示显著图中关于目标类别c的像素位置,P是指显著图中落入目标对象边界框的像素数量与总像素数量的比例。Wang等人[18]指出目标对象占据图像大部分区域的图像并不适合作为实验数据,为此本文按照Wang等人[18]的实验要求对ILSVRC2012 val数据集的图像进行筛选,随机选择了500张目标对象只占整个图像50%以下区域的图像进行实验。实验结果如表2所示。从实验的结果可以看出,本文所提出的CF-CAM相比于之前的方法能够更加有效地对图像中的目标进行定位。表 2 CF-CAM的定位性能评估结果方法 RISE Grad-CAM Grad-CAM++ Score-CAM Relevance-CAM CF-CAM 比例 40.5 52.3 54.6 61.8 53.9 62.7 4.3 CF-CAM的应用
性能优秀的卷积神经网络可解释性研究方法,应不仅能够帮助研究人员和用户理解网络在训练过程中学习到了何种特征,找到模型作出决策的依据,还应实现对网络模型进行诊断和优化,避免网络在训练过程中盲目的参数调优。为此,本文使用Resnet50[30]网络对CUB-200-2011鸟类数据集进行训练,并利用CF-CAM算法帮助诊断模型作出错误分类的原因,这对机场驱鸟任务具有重要的实际意义和应用价值。图6显示了部分诊断的实验结果,从图中的上半部分可以看出,西部海鸥和加利福尼亚海鸥仅在腿、眼睛和嘴巴裂口处存在细节上的差异,通过CF-CAM生成的显著图可以发现,训练的鸟类识别网络同样可以有效地关注这些重要区域。然而,如图6下半部分所示,当两个海鸥在图像中所占的区域不足50%时,网络难以捕捉鸟类的细节信息,易造成错误的预测结果。为此,本文认为在细粒度分类任务中拍摄距离的远近对模型的性能具有重要的影响。
进一步地,本文将CF-CAM作为一种数据增强策略,利用网络对鸟类目标生成的显著图对图像进行剪裁,然后将剪裁后的图像进行上采样操作,恢复至输入图像大小后再重新输入到网络中,用来突出图像中影响模型决策的关键性区域。值得说明的是,为保证实验的客观性和公平性,本文除使用CF-CAM作为一种数据增强策略外,并未使用其他数据增强手段。为提高剪裁的容错率,本文通过显著图计算出掩码区域后,并不直接进行剪裁,而是在计算出最小边界框后,适当地保留类激活图所指示区域周边20 px部分。图7反映了基于CF-CAM算法进行数据增强的过程,具体包括输入图像、类激活图、由类激活图确定的掩码区域和上采放大的结果。此外,本文在实验中发现,当损失函数的输出值趋于收敛时,模型的激活值并未收敛,还在继续变化,这一发现与Wu等人[31]的研究结论相同,为此本文将CF-CAM生成显著图的质量作为网络是否收敛的指示,当生成的显著图不再发生变化时则说明网络可能已经收敛,本文停止对网络进行训练,并记录当前的迭代次数作为对比网络训练的迭代次数。就Top-1的准确率而言,对比网络对鸟类分类的准确率为76.42%,而使用CF-CAM进行数据增强的网络对鸟类识别的准确率达到了77.46%,模型检测的性能提升了1.04%,进一步验证了CF-CAM算法的有效性和优越性。
5. 结束语
本文利用对比层级相关性传播提出了一个新颖的类激活映射方法CF-CAM,该方法重新思考了特征图和模型决策之间的关系,可以从空间域和通道域实现对深度神经网络进行由粗到细的解释,对梯度的破碎问题具有更高的鲁棒性。实验表明,CF-CAM比现有的方法具有更好的忠实度和目标定位能力。此外,本文还将CF-CAM作为一种数据增强策略应用于鸟类细粒度分类任务,有效地提高了网络的检测性能。在未来的工作中,本文将进一步对深度神经网络可解释性方法进行研究,探索效率更高、解释效果更好的方法,并将其应用于其他视觉任务,提升算法的性能。
致谢:感谢天津滨海国际机场王羽玥、郭爱强工程师在本文工作中鸟类识别任务的指导和支持。
-
算法1 CF-CAM算法 输入: Image I, Baseline Image Ib, Class c, Model f(x), target
layer l, Gaussian blur parameters: ksize, sigma.(1) Initialization: Initial Lc CF-CAM←0, αc←[ ], Baseline
Input Ib=Guassian\_blur2d(I,ksize,sigma);(2) Get feature maps of target layer Ak, C is the number of
channels in Ak, Relevance weights Rc;(3) for k in [0, 1, ···, C–1] do Mck=upsample(RckAk); I′=I⊙Mck+Ib⊙(1−Mck); αck=fc(I′)−fc(Ib); LcCF - CAM=LcCF - CAM+αckMck; end (4) Return Lc CF-CAM 输出:Saliency map Lc CF-CAM 表 1 CF-CAM忠实度评估结果(%)
RISE Grad-CAM Grad-CAM++ Score-CAM Relevance-CAM CF-CAM A.D. 57.4 46.3 43.9 41.4 45.2 39.8 A.I. 8.7 15.2 18.6 20.5 17.5 21.3 表 2 CF-CAM的定位性能评估结果
方法 RISE Grad-CAM Grad-CAM++ Score-CAM Relevance-CAM CF-CAM 比例 40.5 52.3 54.6 61.8 53.9 62.7 -
[1] 时增林, 叶阳东, 吴云鹏, 等. 基于序的空间金字塔池化网络的人群计数方法[J]. 自动化学报, 2016, 42(6): 866–874. doi: 10.16383/j.aas.2016.c150663SHI Zenglin, YE Yangdong, WU Yunpeng, et al. Crowd counting using rank-based spatial pyramid pooling network[J]. Acta Automatica Sinica, 2016, 42(6): 866–874. doi: 10.16383/j.aas.2016.c150663 [2] 付晓薇, 杨雪飞, 陈芳, 等. 一种基于深度学习的自适应医学超声图像去斑方法[J]. 电子与信息学报, 2020, 42(7): 1782–1789. doi: 10.11999/JEIT190580FU Xiaowei, YANG Xuefei, CHEN Fang, et al. An adaptive medical ultrasound images despeckling method based on deep learning[J]. Journal of Electronics &Information Technology, 2020, 42(7): 1782–1789. doi: 10.11999/JEIT190580 [3] PU Fangling, DING Chujiang, CHAO Zeyi, et al. Water-quality classification of inland lakes using Landsat8 images by convolutional neural networks[J]. Remote Sensing, 2019, 11(14): 1674. doi: 10.3390/rs11141674 [4] SAMBASIVAM G and OPIYO G D. A predictive machine learning application in agriculture: Cassava disease detection and classification with imbalanced dataset using convolutional neural networks[J]. Egyptian Informatics Journal, 2021, 22(1): 27–34. doi: 10.1016/j.eij.2020.02.007 [5] ZEILER M D and FERGUS R. Visualizing and understanding convolutional networks[C]. The 13th European Conference on Computer Vision, Zurich, Switzerland, 2014: 818–833. [6] ZHOU Bolei, KHOSLA A, LAPEDRIZA A, et al. Object detectors emerge in deep scene CNNs[C]. The 3rd International Conference on Learning Representations, San Diego, USA, 2015. [7] PETSIUK V, DAS A, and SAENKO K. RISE: Randomized input sampling for explanation of black-box models[C]. British Machine Vision Conference 2018, Newcastle, UK, 2018. [8] FONG R C and VEDALDI A. Interpretable explanations of black boxes by meaningful perturbation[C]. The IEEE International Conference on Computer Vision, Venice, Italy, 2017: 3449–3457. [9] AGARWAL C, SCHONFELD D, and NGUYEN A. Removing input features via a generative model to explain their attributions to an image classifier's decisions[EB/OL]. https://arxiv.org/abs/1910.042562019, 2019. [10] CHANG Chunhao, CREAGER E, GOLDENBERG A, et al. Explaining image classifiers by counterfactual generation[C]. The 7th International Conference on Learning Representations, New Orleans, USA, 2019. [11] SIMONYAN K, VEDALDI A, and ZISSERMAN A. Deep inside convolutional networks: Visualising image classification models and saliency maps[C]. The 2nd International Conference on Learning Representations, Banff, Canada, 2014. [12] SPRINGENBERG J T, DOSOVITSKIY A, BROX T, et al. Striving for simplicity: The all convolutional net[C]. The 3rd International Conference on Learning Representations, San Diego, USA, 2015. [13] BACH S, BINDER A, MONTAVON G, et al. On pixel-wise explanations for non-linear classifier decisions by layer-wise relevance propagation[J]. PloS One, 2015, 10(7): e0130140. doi: 10.1371/journal.pone.0130140 [14] ZHOU Bolei, KHOSLA A, LAPEDRIZA A, et al. Learning deep features for discriminative localization[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 2921–2929. [15] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[C]. The IEEE International Conference on Computer Vision, Venice, Italy, 2017: 618–626. [16] CHATTOPADHAY A, SARKAR A, HOWLADER P, et al. Grad-cam++: Generalized gradient-based visual explanations for deep convolutional networks[C]. 2018 IEEE Winter Conference on Applications of Computer Vision, Lake Tahoe, USA, 2018: 839–847. [17] OMEIZA D, SPEAKMAN S, CINTAS C, et al. Smooth grad-cam++: An enhanced inference level visualization technique for deep convolutional neural network models[EB/OL]. https://arxiv.org/abs/1908.01224, 2019. [18] WANG Haofan, WANG Zifan, DU Mengnan, et al. Score-CAM: Score-weighted visual explanations for convolutional neural networks[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Seattle, USA, 2020: 111–119. [19] GU Jindong, YANG Yinchong, and TRESP V. Understanding individual decisions of CNNs via contrastive backpropagation[C]. The 14th Asian Conference on Computer Vision, Perth, Australia, 2018: 119–134. [20] KRIZHEVSKY A, SUTSKEVER I, and HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84–90. doi: 10.1145/3065386 [21] SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. The 3rd International Conference on Learning Representations, San Diego, USA, 2015. [22] SZEGEDY C, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, 2015: 1–9. [23] LEE J R, KIM S, PARK I, et al. Relevance-CAM: Your model already knows where to look[C]. The IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 14939–14948. [24] SATTARZADEH S, SUDHAKAR M, PLATANIOTIS K N, et al. Integrated Grad-CAM: Sensitivity-aware visual explanation of deep convolutional networks via integrated gradient-based scoring[C]. ICASSP 2021–2021 IEEE International Conference on Acoustics, Speech and Signal Processing, Toronto, Canada, 2021: 1775–1779. [25] ZHANG Qinglong, RAO Lu, and YANG Yubin. Group-CAM: Group score-weighted visual explanations for deep convolutional networks[EB/OL]. https://arxiv.org/abs/2103.13859, 2021. [26] WAH C, BRANSON S, WELINDER P, et al. The Caltech-UCSD birds-200-2011 dataset[R]. CNS-TR-2011-001, 2011. [27] RUSSAKOVSKY O, DENG Jia, SU Hao, et al. Imagenet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211–252. doi: 10.1007/s11263-015-0816-y [28] SMILKOV D, THORAT N, KIM B, et al. SmoothGrad: Removing noise by adding noise[EB/OL]. https://arxiv.org/abs/1706.03825, 2017. [29] SUNDARARAJAN M, TALY A, and YAN Qiqi. Axiomatic attribution for deep networks[C]. The 34th International Conference on Machine Learning, Sydney, Australia, 2017: 3319–3328. [30] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770–778. [31] WU Pingyu, ZHAI Wei, and CAO Yang. Background activation suppression for weakly supervised object localization[EB/OL]. https://arxiv.org/abs/2112.00580, 2022. 期刊类型引用(1)
1. 孙辉,史玉龙,张健一,王蕊,王羽玥. 基于高分辨率类激活映射算法的弱监督目标实时检测. 电子与信息学报. 2024(03): 1051-1059 . 本站查看
其他类型引用(1)
-