A Dual-path Network Chest Film Disease Classification Method Combined with a Triple Attention Mechanism
-
摘要: 近年来,利用CNN进行医学图像处理,在胸片疾病分类任务中取得显著研究进展。然而,与单一结构CNN相比,双路径网络可结合不同CNN特点,从而提高疾病分类能力。其次,对于不同疾病,其位置、大小、形态、密度、纹理等特征均有不同,而注意力机制有助于模型提取不同病理特征,提升分类精度。因此针对胸片疾病分类问题,该文提出一种结合三重注意力机制的双路径卷积神经网络(TADPN),TADPN将ResNet和DenseNet结合的双路径网络DPN作为骨干网络,并利用3种不同形式的注意力机制改进DPN,在维持参数量稳定的同时提高网络复杂度,进而提升对胸片疾病的分类精度。在ChestXray14数据集上实验,并与目前较为先进的6种算法对比,14种疾病的平均AUC值达到0.8185,较前人提升1.1%,表明双路径CNN及三重注意力机制对胸片疾病分类的有效性及TADPN的先进性。Abstract: In recent years, medical image processing with CNN has made remarkable research progress in the task of chest film disease classification. However, compared with single structure CNN, dual-path network can combine the characteristics of different CNN to improve the ability of disease classification. Secondly, for different diseases, their location, size, shape, and texture are different, the attention mechanism helps the model to extract different pathological features and improve the classification accuracy. Therefore, focusing on the chest film disease classification problem, a dual path convolution neural network TADPN(Triple Attention Dual Path Network) combined with a triple attention mechanism is proposed. TADPN takes the dual-path network combined with ResNet and DenseNet as the backbone network and uses three different forms of attention mechanisms to improve the backbone network. The network complexity and classification accuracy are improved while maintaining the stability of the parameters. In this paper, the validity of TADPN is compared with the six advanced algorithms on the ChestXray14 dataset. The experiments show the progressiveness of the dual-path CNN and the triple attention mechanism, as well as the effectiveness of TADPN. The average AUC value of 14 diseases reaches 0.8185, which is 1.1% higher than that of previous generations.
-
Key words:
- Medical image processing /
- Chest film classification /
- CNN /
- Attention mechanism
-
1. 引言
风格迁移是一幅图像的语义内容用力一幅图像的风格纹理进行表示[1]。深度神经网络凭借其强大的图像表示能力[2],推动了神经风格转移方法的发展。然而,近几年风格迁移都主要关注风格迁移的速度和多样性,在保证迁移速度和多样性的前提下,怎样更好地表现出风格化图像的细节是需要急需解决的问题。开创性的神经风格迁移方法[3,4]使用卷积神经网络将图像的内容和风格特征表示进行分离,并独立处理高层特征来实现图像风格迁移,获得了非常可观的艺术效果。Luan等人[5]将语义分割和风格迁移相结合实现了更逼真地真实图像风格转换。Huang等人[6]提出了自适应实例标准化(AdaIN)层与迭代优化相结合的前馈方法快速地实现任意样式的实时转换。Li等人[7]提出了能够捕获马尔可夫碎片的特征统计信息的马尔可夫生成对抗网络,该网络直接将内容图像转换成艺术画作。Dumoulin等人[8]搭建了可扩展的深层网络实现了任意风格的图像风格转换。Chen等人[9]提出的卡通化生成对抗网络生成高质量的卡通图像。Johnson等人[10]从预训练网络中提取的高级特征来定义和优化感知损失函数提升风格转换的速度。
风格迁移中,当输入图像具有复杂空间布局时,迁移结果将样式元素均匀地分布在整个图像中,使整体结构不可识别。对于结构变形敏感的输入,纹理均匀分布模糊了细节,破坏了原结构。因此,本文提出了细节细化的风格迁移方法,将检测网络的卷积层进行输出,设置不同步长,获得多尺度多层次的边缘特征图,再选取不同特征图进行加权融合,获得边缘特征图,用边缘特征图对迁移过程进行纹理分布的控制;在转换网络中,在非残差卷积层后面引入AdaIN层,AdaIN将特征图在对应的通道中匹配均值和方差,计算仿射参数,以此保留内容图像的空间结构;用小卷积核替代大卷积核能保证相同的感受野,增加非线性,减少参数和计算量。本文搭建的网络模型能够实现多种风格迁移,风格化图像空间结构能够得到细化。
2. 风格迁移模型
图像风格迁移主要通过以下两个方面实现:(1)对不同的色彩通道进行不同的处理实现对颜色的控制。(2)为了对内容图像先进行语义分割再对其进行风格转换或者对不同的区域先进行标记再进行不同纹理迁移,使迁移后的图像符合自然图像的语义内容。风格迁移产生不合理的空间布局会使生成图像的语义内容扭曲,从而无法识别出目标。因此,本文对风格迁移的纹理分布进行了细化,网络模型如图1所示。
2.1 边缘检测网络
多尺度是对信号不同程度采样[11],具有不同参数和接受域大小,将数据输入到多个流中,然后将各个流产生串联的特征响应输入到全局输出层中,获得不同尺度下的不同特征。常见的多尺度特征融合网络有并行多分支网络[12]和串行跳跃连接结构[13],两者都是在不同的感受野下进行特征提取。本文采用并行多分支网络结构[14],将边缘检测中将边缘映射组合在一起,结构如图2 所示。本文的边缘检测网络基于VGG-19网络,并做了如下改进:(1)将Conv1和Conv2的第2个卷积层的边缘特征图与Conv3, Conv4和Conv5的后两个卷积层的边缘特征图进行输出。(2)本文不使用第5个池化层和3个全连接层。因为随着段卷积步长增大,产生的边缘检测图太模糊,不利于生成更精确的边缘特征图。(3)添加加权融合层,对多尺度多层次的特征图进行融合,获得整体边缘特征图,并运用多路径反向传播优化获得最终误差最小的边缘特征图。
本文的边缘检测网络分为5个阶段,每个阶段设置不同的卷积步长(表1所示),能够获得多层次多尺度的边缘特征图,选取不同阶段的8层边缘特征输出进行加权融合,不同融合程度的边缘检测效果如图3所示。边缘检测精度使用固定轮廓阈值(ODS)、图像最佳阈值(OIS)和平均精度(AP)进行评估,如表2所示。本文的边缘检测图融合了更多的细节信息,全局结构边缘更加清晰,客观指标均取得较好的结果。
表 1 步长和感受野参数设置Layer Conv1_2 Conv2_2 Conv3_3 Conv3_4 Conv4_3 Conv4_4 Conv5_3 Conv5_4 步长 1 2 4 4 8 8 16 16 接受域 5 14 40 44 92 100 196 212 表 2 在BSDS500数据集上的客观评价指标指标 ODS OIS AP 5层融合边缘检测图 0.760 0.784 0.800 6层融合边缘检测图 0.774 0.797 0.798 7层融合边缘检测图 0.777 0.788 0.814 8层融合边缘检测图 0.786 0.802 0.822 2.2 迁移网络
本文搭建的风格迁移网络分为编码器、转换网络和解码器3个部分。编解码器是用VGG-19网络来实现对输入图像的特征提取。转换网络主体由5个残差块组成,为了在特征通道中检测样式图像的笔触并产生较高的平均激活度,在非残差卷积层后增加AdaIN和ReLU层,从而实现纹理合成和色彩迁移,网络主体如图4所示。在转换网络中,本文在Conv1和Conv4中以两个5×5和一个1×1的卷积核代替9×9的卷积核,其他卷积层都使用3×3的卷积核。1×1的卷积核能够在不影响输入输出维数的情况下实现跨通道的信息交互整合,还可以进行通道数的升维和降维。两个5×5卷积核堆叠,则能够增加多层非线性组合,提高网络学习复杂内容的能力,并且使判决函数更具判决性,起到隐式正则化的作用。
网络训练的实质是学习各种参量的过程,其参数量由网络深度、卷积核尺寸以及通道数决定。在单个卷积层中,使用两个5×5卷积核的参数量为
2×5×5×C×C=50×C2 ,使用9×9卷积核的参数量为9×9×C×C=81×C2 (C 为通道数)。由此可见,随着卷积层增多与特征图通道数增加,使用2个5×5卷积核的参数量只有9×9的一半左右,前者有2个非线性操作,后者有1个非线性操作,其网络具有更强的特征学习能力。转换网络的整体参数量如表3所示,卷积核替换前后,转换网络整体的参数量减少了31.1%,当使用计算能力为7.5的GeForce RTX 2080 Ti进行训练时,改进后的网络比改进前节省了1.61%的计算资源。表 3 迁移网络改进前后参数量对比对应卷积层参数量 特征图通道数 步长 卷积核尺寸,参数量 卷积核尺寸,参数量 Conv1 32 1 9×9, 159418368 2×5×5, 98406400 Conv2 64 2 3×3, 8856576 3×3, 8856576 Conv3 128 2 3×3, 4428288 3×3, 4428288 Resblock1-Resblock5 128 23454552 23454552 Nearest_Conv1 64 1/2 3×3, 57600 3×3, 57600 Nearest_Conv2 32 1/2 3×3, 73728 3×3, 73728 Conv4 3 1 9×9, 15552 2×5×5, 9600 总参数量 196.30×106 135.29×106 大卷积核具有更大的感受野,生成较大的特征图,经过池化去除冗余信息的同时也会损失很多细节信息,使得生成图像损失了很多细节,如图5(c)所示。本文用小卷积核代替大卷积核,能够保证相同的感受野,产生更加准确的特征响应,并且能够增加网络深度,使得网络中的函数能够更好地逼近输入图像的特征。捕捉自然图像的统计属性,让目标轮廓更加清晰,细节纹理更精细,提升视觉效果(图5(d)所示)。
3. 风格迁移误差
3.1 损失函数
假设网络的第
l 层有Nl 不同的滤波器,每个特征响应的大小为Hl×Wl ,该层的响应为Ml∈ R(Hl×Wl)×Nl ,Hl 和Wl 分别为特征映射的高度和宽度,Ml(i,j),k 为l 层(i,j) 出第k 个滤波器的激活函数值。内容图像
x 与风格图像y 和风格化图像ˆy 在第l 层的损失函数为Llc(x,ˆy)=1HlWlNl‖Ml(x)−Ml(ˆy)‖22 (1) Lls(y,ˆy)=‖Gl(y)−Gl(ˆy)‖2F (2) 其中
Gl 是格莱姆矩阵,一个Nl×Nl 的对称矩阵,Gli,j 是第l 层的第i 个和第j 个矢量化特征图的归一化内积Gli,j(y)=(1/HlWlNl)Fl(h,w),i(x)Fl(h,w),j(x) ,Fli,j 表示第l 层第j 个位置的第i 个滤波器的激活值。神经风格化产生的整体损失函数为
Lt=αL∑l=1Llc(x,ˆy)+βL∑l=1Lls(y,ˆy) (3) 其中,
α,β 分别为内容损失和风格损失占的权重。3.2 改进的损失函数
本文在转换网络的常规卷积层后增加了AdaIN[5],修改特征匹配参数,AdaIN通过学习仿射参数,自动地对内容图像和风格图像的特征统计信息进行匹配。图像通过编码器
d 映射在特征空间中,将同一层的内容特征映射的均值和方差与风格特征映射的均值和方差对齐,生成目标特征映射hh=AdaIN(d(x),d(y))=σ(d(y))/σ(d(x))(d(x)−μ(d(x)))+|μ(d(x))−μ(d(y))| (4) 其中,
μ(d(x)),σ(d(x))∈RC 分别为各特征通道的批处理大小和空间维数的平均值和标准差,μ(x)=1HWH∑h=1W∑w=1d(x) ,σ(x)=√1HWH∑h=1W∑w=1(d(x)−μ(d(x)))2+ε 。解码器
g 将生成的特征映射转换到图像空间,经归一化操作后产生的内容损失和风格损失分别为LC,AdaIN=‖d(g(h)−h‖2 (5) LS,AdaIN=‖μ(G(ˆy))−μ(G(y))‖2+‖σ(G(ˆy))−σ(G(y))‖2 (6) 则图像风格化产生的总体的内容感知损失函数和风格感知损失分别为
LC(x,ˆy)=L∑l=11HlWlNl‖Ml(x)−Ml(ˆy)‖22+l∑l=1‖d(ˆyl)−hl‖2+Ledge(Q,q,p) (7) LS(y,ˆy)=L∑l=1‖Gl(y)−Gl(ˆy)‖2F+L∑l=1(‖μ(Gl(ˆy))−μ(Gl(y))‖2+‖σ(Gl(ˆy))−σ(Gl(y))‖2) (8) 其中,
Ledge(Q,q,p) 为边缘检测[15]优化后的损失函数。网络学习通过随机梯度下降来优化损失函数
L=αLC+βLS+γLR (9) 其中,
LR 是正则化[4],γ 表示正则化项的权重,以增加生成图像的平滑性。在风格迁移模型中,每一层的参数更新导致上层的输入数据分布发生变化,使用AdaIN,把数据分布映射到一个确定的区间,并在整体损失函数中增加了边缘检测损失和归一化损失,与经典算法Gatys[4]进行对比,网络性能更好,准确率更高,收敛速度更快(图6)。特征图各通道的均值和方差会影响最终生成图像的风格,通过式(4)实现风格图像和内容图像均值和方差的匹配,并在编解码时分别进行归一化与去归一化获得目标图像的风格,最终实现风格迁移。通过式(9)中内容损失和风格损失的权重比来控制样式转移的程度。图7中
η 表示内容损失和风格损失的权重比,可以看出,η=0.5 时,两组图像风格化不完全,语义扭曲。η=1 时,风格化程度较大,语义内容和风格纹理很好地结合。归一化前纹理笔触较大,细节太平滑,前后景边缘轮廓模糊;归一化后生成图像的笔触较小,纹理精细,边缘轮廓得以增强,使得风格化后的图像整体视觉效果更有层次感。4. 实验与结果分析
4.1 实验设置
本文使用MS-COCO[16]作为内容图像,WikiArt[17]的绘画数据集作为风格图像来训练网络。在训练过程中,利用VGG-19网络中Relu4_2和Relu5_2层的激活计算
Lcontent , Relu1_2, Relu2_2, Relu3_4, Relu4_4和Relu5_4层计算Lstyle ,在生成网络的常规卷积后计算LC,AdaIN 和LS,AdaIN 。式(9)中默认参数α,β,γ 分别为1× 10−2,1×10−4, 1×10−3 。本文使用Adam优化器进行优化,内容样式图像对批处理大小为16,学习率为1×10−4 ,迭代次数为40000。实验设备为搭载Win10系统的台式机,CPU 为Intel I9 9900K 5.0GHz, RAM为64G,实验环境为PyCharm+TensorFlow,使用NVIDIA RTX 2080Ti进行GPU加速。4.2 结果分析
4.2.1 主观评价分析
本文改进的算法在检测的边缘图的引导与约束下以及经AdaIN处理,迁移效果如图8所示,图8(a)为风格图像,图8(b)为内容图像,图8(c)为边缘检测图,图8(d)为迁移效果图。将本文算法与文献 [4],文献[6],文献[10],文献[18]的算法对比,风格迁移效果如图9,图10所示。在图9(c)中部分迁移结果风格均匀分布(图9(c)(1)),覆盖了语义内容,结构复杂的输入迁移结果出现原结构轻微破坏,细节信息模糊(图9(c)(2))。图9(d)普遍存在细小的颗粒覆盖在迁移结果上,弱化了迁移图像的某些细节,也使得主要目标变得模糊(图9(d)(2))。图10(c)语义信息覆盖较为严重,主要目标无法识别,前后景对比度低。图10(d)存在少量的多余纹理分布(图10(d)(4)和(6)),部分迁移结果出现白晕(图10(d)(5)),弱化了内容的细节。图9(e)和图10(e)为本文算法的迁移结果,可以看出,不论是风格化图像的结构还是语义信息保留程度都较出色,迁移结果无纹理分布覆盖语义信息的现象,并且前背景的边界也很清晰,主要目标清晰可辨,风格化图像结构保持较好,结构细节损失较小,细节信息得以表达,没有光斑。因此,从视觉效果上看,本文的迁移方法产生的结果更加出色。
4.2.2 主观评价分析
在客观评价中,本文从峰值信噪比、内容和风格的平均结构相似(MSSIM)进行比较。PSNR由图像信号峰值与均方误差决定,表示图像风格迁移质量的好坏;SSIM将图像的亮度、对比度和结构3个因素进行组合。以均值估计亮度,标准差估计对比度,协方差估计结构相似程度。客观数据对比如图11所示。
由图11可知,本文方法在峰值信噪比与平均结构相似度都有较好的表现,说明本文算法风格化图像质量较好,内容结构保留程度高,风格化图像迁移了更多的纹理信息。
4.2.3 运行时间比较
本文将本文算法的运行时间与表4中的文献[4],文献[6],文献[10],文献[18]的不同尺寸的图像进行了对比。总体上看,本文通过增加自适应实例归一化层在一定程度上提升了风格迁移的迁移效率。
5. 结论
本文将基于神经网络的边缘检测网络添加到神经风格迁移模型上,通过对边缘检测网络的多层输出进行融合获得内容图像的边缘轮廓图,并将其输入风格转换网络引导约束风格迁移;在迁移网络中,本文将其常规卷积层的大卷积核进行了替换,减少了网络模型的参数,提升了运行的速度;在常规卷层后添加了AdaIN层,修改了特征匹配参数,增强了风格化结果的轮廓,一定程度上保留了图像的结构布局。本文算法解决了纹理均匀分布破坏结果图像的结构布局,造成细节信息丢失和前后景边界模糊的问题。通过客观数据表明,本文算法在能更好地保留内容结构,细化语义信息,结合风格纹理。
-
表 1 TADPN网络结构
层 操作 输出尺寸 卷积层 7×7卷积,步长为2 112×112 池化层 3×3最大池化,步长为2 56×56 TADPN块(1) {1×1卷积、3×3 SK卷积、1×1卷积 CAM、SAM}×3 56×56 TADPN块(2) {1×1卷积、3×3 SK卷积、1×1卷积 CAM、SAM}×4 28×28 TADPN块(3) {1×1卷积、3×3 SK卷积、1×1卷积 CAM、SAM}×20 14×14 TADPN块(4) {1×1卷积、3×3 SK卷积、1×1卷积 CAM、SAM}×3 7×7 分类层 14维全连接 1×14 表 2 14种胸片疾病的影像学诊断依据
疾病 影像学依据 肺不张 肺野呈均匀致密影,气管、纵隔向患侧移位,肋间隙变窄 心脏肥大 心影增大 积液 肋膈角变钝或消失,纵隔向健侧移位,体液上缘呈外高内低凹面向上弧形影 浸润 患侧浸润性阴影 肿块 肺实质内呈高密度阴影(直径大于3 cm) 结节 肺实质内呈高密度阴影(直径小于3 cm) 肺炎 肺纹理增多、密度增高,呈毛玻璃影,片状模糊,边界不清 气胸 肺被压缩向肺门部收缩,呈均匀无肺纹理走形透亮影 肺实变 呈空气支气管征、肺泡充气征、阴影不透明、血管模糊 水肿 肺纹理以及肺门区血管增粗,肺透亮度降低、肋膈角改变或消失 肺气肿 肺体积增加、纹理增粗、透过度增大 纤维化 肺中下野呈毛玻璃状、典型性改变弥漫性线条状、结节状、云絮样、网状阴影 胸膜增厚 肋隔角变浅、变钝,呈不规则条状钙化 疝气 呈高透光度膨出,与肺组织相连 表 3 ChestXray14数据集疾病种类及数量
疾病名称 数量(张) 疾病名称 数量(张) 疾病名称 数量(张) 肺不张(Atelectasis) 11 559 气胸(Pneumothorax) 5 302 无病 60 361 心脏肥大(Cardiomegaly) 2 776 肺实变(Consolidation) 4 667 积液(Effusion) 13 317 水肿(Edema) 2 303 浸润(Infiltration) 19 894 肺气肿(Emphysema) 2 516 肿块(Mass) 5 782 纤维化(Fibrosis) 1 686 结节(Nodule) 6 331 胸膜增厚(Pleural Thickening) 3 385 肺炎(Pneumonia) 1 431 疝气(Hernia) 227 患病合计 51 759 总计 112 120 表 4 混淆矩阵
预测类别 真实类别 1(患病) 0(无病) 1(患病) 真阳 (TP) 伪阳(FP) 0(无病) 伪阴 (FN) 真阴(TN) 表 5 不同模型在ChestX-ray14数据集上的结果比较
基于ResNet模型 基于DenseNet模型 TADPN 文献[14] 文献[35] 文献[21] 文献[36] 文献[37] 文献[28] 本文 肺不张 0.755 7 0.80 0.800 4 0.762 7 0.795 0.785 0 0.794 5 心脏肥大 0.886 5 0.87 0.879 8 0.883 5 0.887 0.876 6 0.901 2 积液 0.819 1 0.87 0.872 0.815 9 0.875 0.862 8 0.882 3 浸润 0.689 2 0.70 0.712 2 0.678 6 0.703 0.673 0 0.693 5 肿块 0.813 6 0.83 0.795 3 0.801 2 0.83 5 0.804 0 0.822 2 结节 0.754 5 0.75 0.720 5 0.729 3 0.716 0.729 9 0.728 0 肺炎 0.729 2 0.67 0.734 7 0.709 7 0.742 0.742 3 0.742 8 气胸 0.849 9 0.87 0.842 2 0.837 7 0.863 0.842 6 0.874 5 肺实变 0.728 3 0.80 0.801 0.744 3 0.786 0.784 6 0.802 9 水肿 0.847 5 0.88 0.878 7 0.841 4 0.892 0.872 7 0.895 9 肺气肿 0.907 5 0.91 0.853 6 0.883 6 0.875 0.858 0 0.880 9 纤维化 0.817 9 0.78 0.798 0.807 7 0.756 0.775 4 0.794 3 胸膜增厚 0.764 7 0.76 0.743 1 0.753 6 0.774 0.775 6 0.774 2 疝气 0.874 7 0.77 0.871 1 0.876 3 0.836 0.864 5 0.872 4 平均 0.802 7 0.804 0.807 3 0.794 1 0.809 7 0.802 0 0.818 5 表 6 3种骨干网络分类结果对比
肺不张 心脏肥大 积液 浸润 肿块 结节 肺炎 ResNet-101 0.790 0 0.907 7 0.870 5 0.688 2 0.8074 0.720 8 0.706 9 DenseNet-121 0.787 2 0.903 0 0.872 4 0.685 3 0.802 5 0.709 6 0.722 2 DPN-92 0.791 3 0.910 6 0.873 4 0.684 2 0.807 6 0.713 8 0.730 1 气胸 肺实变 水肿 肺气肿 纤维化 胸膜增厚 疝气 平均 ResNet-101 0.860 4 0.794 8 0.890 0 0.868 2 0.777 4 0.761 1 0.864 5 0.807 7 DenseNet-121 0.861 6 0.799 4 0.886 3 0.866 0 0.773 9 0.763 2 0.895 1 0.809 1 DPN-92 0.861 5 0.797 9 0.888 8 0.867 7 0.782 7 0.774 6 0.897 4 0.813 0 表 7 消融结果对比
肺不张 心脏肥大 积液 浸润 肿块 结节 肺炎 骨干模型 0.791 3 0.910 6 0.873 4 0.684 2 0.807 6 0.713 8 0.730 1 移除SK 0.787 4 0.910 2 0.878 9 0.690 8 0.808 7 0.720 4 0.743 5 移除CAM 0.791 9 0.907 4 0.875 0 0.684 6 0.815 3 0.722 3 0.736 9 移除SAM 0.786 4 0.907 4 0.875 8 0.688 7 0.816 4 0.721 7 0.738 6 TADPN 0.794 5 0.901 2 0.882 3 0.693 5 0.822 2 0.728 0 0.742 8 气胸 肺实变 水肿 肺气肿 纤维化 胸膜增厚 疝气 平均 骨干模型 0.861 5 0.797 9 0.888 8 0.867 7 0.782 7 0.774 6 0.897 4 0.813 0 移除SK 0.865 9 0.804 6 0.897 1 0.879 3 0.783 4 0.770 2 0.875 0 0.815 4 移除CAM 0.867 2 0.802 7 0.894 2 0.881 2 0.775 8 0.774 4 0.890 0 0.815 6 移除SAM 0.873 2 0.803 4 0.887 5 0.876 1 0.783 6 0.780 5 0.872 0 0.815 1 TADPN 0.874 5 0.802 9 0.895 9 0.880 9 0.794 3 0.774 2 0.872 4 0.818 5 表 8 SK卷积参数设置对比
分支1 分支2 平均AUC Parameters(M) FLOPs(G) 卷积核1 膨胀系数D1 卷积核2 膨胀系数D2 3×3 1 3×3 2 0.818 5 4.565 1 20.579 4 3×3 1 3×3 3 0.817 9 4.565 1 20.579 4 3×3 2 3×3 3 0.817 7 4.565 1 20.579 4 3×3 1 5×5 1 0.817 1 4.973 0 22.534 7 3×3 1 7×7 1 0.815 5 5.584 8 25.467 7 5×5 1 5×5 2 0.814 0 5.380 8 24.490 1 5×5 1 7×7 1 0.812 2 5.992 7 27.423 1 表 9 注意力模块组合结果对比
模型 平均AUC Parameters(M) FLOPs(G) DPN-92 0.813 0 17.109 5 4.315 1 DPN-92+SK 0.814 4 19.257 1 4.560 8 DPN-92+CAM||SAM 0.815 0 18.431 8 4.319 3 DPN-92+CAM+SAM 0.815 4 18.431 8 4.319 3 DPN-92+SAM+CAM 0.814 8 18.431 8 4.319 3 TADPN 0.818 5 20.579 4 4.565 1 -
[1] BALA D. Childhood pneumonia recognition using convolutional neural network from chest X-ray images[J]. Journal of Electrical Engineering, Electronics, Control and Computer Science, 2021, 7(26): 33–40. [2] World Health Organization. Causes of death among children[EB/OL]. https://www.who.int/maternal_child_adolescent/data/causes-death-children/en/.2018.1. [3] KHOBRAGADE S, TIWARI A, PATIL C Y, et al. Automatic detection of major lung diseases using Chest Radiographs and classification by feed-forward artificial neural network[C]. 2016 IEEE 1st International Conference on Power Electronics, Intelligent Control and Energy Systems, Delhi, India, 2016: 1–5. [4] QIN Chunli, YAO Demin, SHI Yonghong, et al. Computer-aided detection in chest radiography based on artificial intelligence: A survey[J]. Biomedical Engineering Online, 2018, 17(1): 113. doi: 10.1186/s12938-018-0544-y [5] AYESHA H, IQBAl S, TARIQ M, et al. Automatic medical image interpretation: State of the art and future directions[J]. Pattern Recognition, 2021, 114: 107856. doi: 10.1016/j.patcog.2021.107856 [6] PEZZANO G, RIPOLL V R, and RADEVA P. CoLe-CNN: Context-learning convolutional neural network with adaptive loss function for lung nodule segmentation[J]. Computer Methods and Programs in Biomedicine, 2021, 198: 105792. doi: 10.1016/j.cmpb.2020.105792 [7] 赵奕名, 李锵, 关欣. 组卷积轻量级脑肿瘤分割网络[J]. 中国图象图形学报, 2020, 25(10): 2159–2170. doi: 10.11834/jig.200247ZHAO Yiming, LI Qiang, and GUAN Xin. Lightweight brain tumor segmentation algorithm based on a group convolutional neural network[J]. Journal of Image and Graphics, 2020, 25(10): 2159–2170. doi: 10.11834/jig.200247 [8] 明涛, 王丹, 郭继昌, 等. 基于多尺度通道重校准的乳腺癌病理图像分类[J]. 浙江大学学报:工学版, 2020, 54(7): 1289–1297. doi: 10.3785/j.issn.1008-973X.2020.07.006MING Tao, WANG Dan, GUO Jichang, et al. Breast cancer histopathological image classification using multi-scale channel squeeze-and-excitation model[J]. Journal of Zhejiang University:Engineering Science, 2020, 54(7): 1289–1297. doi: 10.3785/j.issn.1008-973X.2020.07.006 [9] TEIXEIRA V, BRAZ L, PEDRINI H, et al. DuaLAnet: Dual lesion attention network for thoracic disease classification in chest X-rays[C]. 2020 International Conference on Systems, Signals and Image Processing, Niteroi, Brazil, 2020: 69–74. [10] LUO Luyang, YU Lequan, CHEN Hao, et al. Deep mining external imperfect data for chest X-ray disease screening[J]. IEEE Transactions on Medical Imaging, 2020, 39(11): 3583–3594. doi: 10.1109/TMI.2020.3000949 [11] PANT H, LOHANI M C, BHATT A K, et al. Thoracic disease detection using deep learning[C]. 2021 5th International Conference on Computing Methodologies and Communication, Erode, India, 2021: 1197–1203. [12] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. The 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770–778. [13] OUYANG Xi, KARANAM S, WU Ziyan, et al. Learning hierarchical attention for weakly-supervised chest X-ray abnormality localization and diagnosis[J]. IEEE Transactions on Medical Imaging, 2021, 40(10): 2698–2710. doi: 10.1109/TMI.2020.3042773 [14] TANG Yuxing, WANG Xiaosong, HARRISON A P, et al. Attention-guided curriculum learning for weakly supervised classification and localization of thoracic diseases on chest radiographs[C]. The 9th International Workshop on Machine Learning in Medical Imaging, Granada, Spain, 2018: 249–258. [15] HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 2261–2269. [16] WANG Hao, YANG Yuanyuan, PAN Yang, et al. Detecting thoracic diseases via representation learning with adaptive sampling[J]. Neurocomputing, 2020, 406: 354–360. doi: 10.1016/j.neucom.2019.06.113 [17] GÜNDEL S, SETIO A A A, GHESU F C, et al. Robust classification from noisy labels: Integrating additional knowledge for chest radiography abnormality assessment[J]. Medical Image Analysis, 2021, 72: 102087. doi: 10.1016/j.media.2021.102087 [18] GUAN Qingji, HUANG Yaping, LUO Yawei, et al. Discriminative feature learning for thorax disease classification in chest X-ray images[J]. IEEE Transactions on Image Processing, 2021, 30: 2476–2487. doi: 10.1109/TIP.2021.3052711 [19] 黄欣, 方钰, 顾梦丹. 基于卷积神经网络的X线胸片疾病分类研究[J]. 系统仿真学报, 2020, 32(6): 1188–1194. doi: 10.16182/j.issn1004731x.joss.18-0712HUANG Xin, FANG Yu, and GU Mengdan. Classification of chest X-ray disease based on convolutional neural network[J]. Journal of System Simulation, 2020, 32(6): 1188–1194. doi: 10.16182/j.issn1004731x.joss.18-0712 [20] GÜNDEL S, GRBIC S, GEORGESCU B, et al. Learning to recognize abnormalities in chest x-rays with location-aware dense networks[C]. The 23rd Iberoamerican Congress on Pattern Recognition, Madrid, Spain, 2018: 757–765. [21] YANG Xiaoyilei, XU Shuaijing, WANG Jian, et al. Attention mechanism in radiologist-level thorax diseases detection[J]. Procedia Computer Science, 2020, 174: 524–529. doi: 10.1016/j.procs.2020.06.120 [22] HU Jie, SHEN Li, and SUN Gang. Squeeze-and-excitation networks[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 7132–7141. [23] GUAN Qingji and HUANG Yaping. Multi-label chest X-ray image classification via category-wise residual attention learning[J]. Pattern Recognition Letters, 2020, 130: 259–266. doi: 10.1016/j.patrec.2018.10.027 [24] CHEN Yunpeng, LI Jianan, XIAO Huaxin, et al. Dual path networks[C]. The 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 4470–4478. [25] LI Xiang, WANG Wenhai, HU Xiaolin, et al. Selective kernel networks[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 510–519. [26] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 3–19. [27] WANG Xiaosong, PENG Yifan, LU Le, et al. ChestX-Ray8: Hospital-scale chest X-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 3462–3471. [28] 张智睿, 李锵, 关欣. 密集挤压激励网络的多标签胸部X光片疾病分类[J]. 中国图象图形学报, 2020, 25(10): 2238–2248. doi: 10.11834/jig.200232ZHANG Zhirui, LI Qiang, and GUAN Xin. Multilabel chest X-ray disease classification based on a dense squeeze-and-excitation network[J]. Journal of Image and Graphics, 2020, 25(10): 2238–2248. doi: 10.11834/jig.200232 [29] 王粉花, 赵波, 黄超, 等. 基于多尺度和注意力融合学习的行人重识别[J]. 电子与信息学报, 2020, 42(12): 3045–3052. doi: 10.11999/JEIT190998WANG Fenhua, ZHAO Bo, HUANG Chao, et al. Person re-identification based on multi-scale network attention fusion[J]. Journal of Electronics &Information Technology, 2020, 42(12): 3045–3052. doi: 10.11999/JEIT190998 [30] 尹梦晓, 林振峰, 杨锋. 基于动态感受野的自适应多尺度信息融合的图像转换[J]. 电子与信息学报, 2021, 43(8): 2386–2394. doi: 10.11999/JEIT200675YIN Mengxiao, LIN Zhenfeng, and YANG Feng. Adaptive multi-scale information fusion based on dynamic receptive field for image-to-image translation[J]. Journal of Electronics &Information Technology, 2021, 43(8): 2386–2394. doi: 10.11999/JEIT200675 [31] 王睿川, 王岩飞. 基于半监督空间-通道选择性卷积核网络的极化SAR图像地物分类[J]. 雷达学报, 2021, 10(4): 516–530. doi: 10.12000/JR21080WANG Ruichuan and WANG Yanfei. Terrain classification of polarimetric SAR images using semi-supervised spatial-channel selective kernel network[J]. Journal of Radars, 2021, 10(4): 516–530. doi: 10.12000/JR21080 [32] XIE Saining, GIRSHICK R, DOLLÁR P, et al. Aggregated residual transformations for deep neural networks[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 5987–5995. [33] 黎英, 宋佩华. 迁移学习在医学图像分类中的研究进展[J]. 中国图象图形学报, 2022, 27(3): 672–686. doi: 10.11834/jig.210814LI Ying and SONG Peihua. Review of transfer learning in medical image classification[J]. Journal of Image and Graphics, 2022, 27(3): 672–686. doi: 10.11834/jig.210814 [34] 赵晓晴, 李慧盈, 苏安炀, 等. 基于加权损失函数的粘连白细胞分割算法[J]. 吉林大学学报:理学版, 2021, 59(1): 85–91. doi: 10.13413/j.cnki.jdxblxb.2020003ZHAO Xiaoqing, LI Huiying, SU Anyang, et al. Adhesive leukocyte segmentation algorithm based on weighted loss function[J]. Journal of Jilin University:Science Edition, 2021, 59(1): 85–91. doi: 10.13413/j.cnki.jdxblxb.2020003 [35] LI Zhe, WANG Chong, HAN Mei, et al. Thoracic disease identification and localization with limited supervision[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 8290–8299. [36] MA Yanbo, ZHOU Qiuhao, CHEN Xuesong, et al. Multi-attention network for thoracic disease classification and localization[C]. ICASSP 2019–2019 IEEE International Conference on Acoustics, Speech and Signal Processing, Brighton, UK, 2019: 1378–1382. [37] HO T K K and GWAK J. Multiple feature integration for classification of thoracic disease in chest radiography[J]. Applied Sciences, 2019, 9(19): 4130. doi: 10.3390/app9194130 [38] PRASHANT P. Chest X-ray (Covid-19 & Pneumonia)[EB/OL]. https://www.kaggle.com/datasets/prashant268/chest-xray-covid19-pneumonia. [39] CHOWDHURY M E H, RAHMAN T, KHANDAKAR A, et al. Can AI help in screening viral and COVID-19 pneumonia?[J]. IEEE Access, 2020, 8: 132665–132676. doi: 10.1109/ACCESS.2020.3010287 [40] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 618–626. -