1.
引言
女性乳腺癌已成为全球发病率第1的癌症[1 ] ,其死亡率居女性癌症首位,通过早期诊断和干预治疗,可以有效提高患者生存率[2 ] 。动态对比度增强磁共振成像(Dynamic Contrast-Enhanced Magnetic Resonance Imaging, DCE-MRI)具有较高的时间分辨率和更高的灵敏度,越来越多地用于检测和诊断乳腺癌[3 ] 。对乳腺DCE-MRI中肿瘤区域的准确分割是肿瘤定量分析和特征提取的必要前提,是肿瘤诊断和治疗的决定性步骤,但目前一些半自动的分割方法操作复杂,准确性低,很难在临床上实际应用,因此开发准确可靠且全自动的乳腺肿瘤分割方法,具有很强的临床意义和科研价值[4 ,5 ] 。
近年来,针对乳腺肿瘤分割问题国内外学者进行了许多研究,主要集中在超声和X射图像上,对乳腺DCE-MRI肿瘤区域分割的研究相对较少[6 ] ,主要方法包括早期分割方法、传统机器学习方法和深度学习方法。早期分割方法主要有基于区域生长的形态学方法[7 ] 和基于阈值的方法[8 ] ,这些方法思想简单,容易实现,但其对人工设定的初始化参数非常敏感,需要依赖较多的人工参与。后来一些经典的机器学习算法被用于乳腺肿瘤分割,主要包括基于聚类的方法[9 ] 、基于能量泛函的方法[10 ] 和基于图割的方法[11 ] 等,这些半自动的分割方法,人工干预的环节过多,高度依赖肿瘤的预定义切片或区域,分割结果并不理想。随着算法算力和大数据技术的发展,深度学习算法在图像分割领域取得了巨大进展[12 ] ,卷积神经网络成为医学影像分析的主流计算模型和分割任务的强大工具,基于卷积神经网络的乳腺肿瘤自动分割方法无需人工干预,但网络结构过深、参数量过多,造成网络训练困难,且对多尺度的肿瘤目标无法有效识别,导致分割精度较低。
针对目前研究中存在的问题,本文提出一种多尺度残差双域注意力融合网络和混合自适应权重损失函数用于乳腺DCE-MRI肿瘤区域的分割。网络以多尺度卷积构成的多尺度残差块作为基本搭建模块,提高网络对不同尺寸尤其是小尺寸目标的识别与提取能力,同时提高模型鲁棒性。网络中融入双域注意力单元,引导网络更加有效地识别有利特征,更好地实现关键信息提取和边界保持。混合自适应权重损失函数用来改善网络迭代方向,缓解类不平衡问题同时平衡难易样本,提高网络的分割性能和泛化能力。另外本文针对乳腺DCE-MRI的图像特点,在数据预处理阶段提出一种可调节的自适应归一化方法,并采用通道合并的方法来保持数据的动态丰富度。通过对比实验和多角度对比分析,验证了本文所提方法较主流图像分割网络具有更优的分割性能,且具有更小的参数量,可为后续网络的模块化和轻量化设计提供思路。
2.
相关工作
早期对乳腺图像中的肿瘤进行分割的方法主要包括基于区域生长的形态学方法[7 ] 和基于阈值的方法[8 ] 。Al-Faris等人[13 ] 提出了一种改进的自动种子区域生长的分割方法,该方法基于粒子群优化和图像聚类算法,用于实现乳腺肿瘤的分割。Chakraborty等人[14 ] 提出了一种由梯度和强度控制的多级阈值方法用于检测质量焦点区域,使用梯度和强度信息检测潜在的质量位点,以此实现乳腺肿瘤的分割。早期分割方法相对简单,但需要大量的人工参与,非常依赖图像增强,缺乏从原始数据直接提取特征的能力,会产生较大的空间和时间开销,难以大规模应用。随着机器学习在图像分割任务上的广泛应用,有研究提出基于聚类的方法[9 ] 、基于能量泛函的方法[10 ] 和基于图割的方法[11 ] 等用于对乳腺图像中的肿瘤进行分割。Sharma等人[15 ] 提出整合K-means聚类和分水岭变换的方法,根据可疑区域的关键纹理特征进行乳腺病灶判别。冯宝等人[16 ] 提出一种结合马尔可夫随机场和模糊速度函数的活动轮廓模型(Active Contour Model, ACM)对乳腺癌灶进行半自动的分割。传统机器学习的方法提高了乳腺肿瘤的分割效率,但由于乳腺病变区域MRI图像对比度低、灰度不均且边界模糊,通常需要手动选取感兴趣区域(Region Of Interest, ROI),往往会导致分割边界不连续[17 ] ,分割结果在某种程度上并没有达到理想效果。
目前深度学习算法已经广泛应用在医学图像处理领域,Ronneberger等人[18 ] 在对称的编码-解码结构上加入长跳连接提出U形网络(U-shaped Network, UNet)模型,在医学图像分割任务中取得了很好的效果,以UNet为代表的深度学习模型已成为该领域最大的研究热点。Zhou等人[19 ] 在UNet的基础上加入多级长跳连接,提出改进U形网络(nested U-shaPed Network, UNetPP)结构,通过深度监督融合了多个不同尺寸的UNet进行医学图像分割。Schlemper等人[20 ] 在UNet中加入一种新型注意力门限模块对目标进行定位,提出U型注意力机制网络(Attention-UNet, AUNet)模型在医学图像上表现出较好的分割结果。Huang等人[21 ] 提出一种UNet3+模型,利用全尺度跳跃连接和深度监督提高精度,并设计分类引导模块和混合损失函数增强边界信息,减少过分割。Feng等人[22 ] 组合两个金字塔模块来融合全局多尺度上下文信息,提出了一种新的上下文金字塔融合网络(Context Pyramid Fusion Network, CPFNet),取得了较好的效果。在乳腺DCE-MRI肿瘤区域的分割任务中,Benjelloun等人[23 ] 构建了一个基于UNet的全卷积神经网络来自动分割DCE-MRI数据中的乳腺肿瘤,训练好的模型可以处理单个乳房切片的检测和分割。Jiao等人[24 ] 提出了一种两阶段的深度学习算法,首先构建基于改进U形网络(UNetPP)的全卷积神经网络,从身体剩余部位分割出乳房区域,然后使用基于快速区域的卷积神经网络(Faster Region-based Convolutional Neural Networks, Faster RCNN)对分割乳房图像进行肿块检测,确定乳房肿块的位置和大小。
在最近的研究中,注意力机制、残差结构以及多尺度上下文信息的特征融合被认为在医学图像分割中能够获得更好的效果。Wang等人[25 ] 提出了一种具有多尺度上下文信息的混合2D和3D卷积网络(Mixed 2D and 3D convolutional network with Multi-scale Context, M2D3D-MC),整合了2D和3D网络的优势,用于对扫描中具有有限数量轴向切片的乳腺DCE-MRI中的病变进行分割。Singh等人[26 ] 提出了一种基于上下文信息的深度对抗性学习框架用于乳腺肿瘤分割,同时提出了一种结构相似指数和L1范数相结合的损失函数以捕获源自肿瘤周围区域的局部上下文信息。基于深度学习的全自动乳腺肿瘤分割方法无需人工干预,大大提高了乳腺肿瘤的分割速度和精度,但往往深度学习模型的网络结构较深,参数量较大,造成模型训练和网络优化相对困难,导致在低对比度和类不平衡的乳腺DCE-MRI中进行肿瘤区域分割的精度较低。
3.
本文方法
针对目前乳腺DCE-MRI肿瘤区域分割中存在的问题,本文提出一种多尺度残差双域注意力融合网络(fusion Network with Multi-Scale Residual connection and Dual-domain Attention, MSRDANet)模型,该模型以单阶段分割模式进行肿瘤提取,在提升分割精度的基础上,大幅度降低了模型参数量。
图1 给出了该模型整体框架,该模型以编码-解码结构为网络的主干架构,包含编码器(Conv1~5)、融合解码器(AConv5, AFNet4~1)和用于输送编码路径特征图的长跳连接。网络以4通道图像作为输入,通过多尺度残差块(Multi-Scale Residual Block, MSRB)进行5级特征提取和4次编码下采样,对最终提取到的特征图先经过1次双域注意力单元,之后通过反置卷积进行上采样恢复分辨率和缩减通道数,同时通过解码器将编码路径特征图和上采样特征图在双域注意力单元的引导下进行特征融合,经过4次上采样,最后将上采样后的特征图经过1×1卷积进一步缩减通道数,并通过混合自适应权重损失函数不断迭代优化网络,最终输出2通道的肿瘤分割图。
3.1
多尺度残差块
多尺度特征提取有助于网络对图像中不同大小尺寸的目标进行分割。本文设计了两种不同结构的多尺度残差块( Multi-Scale Residual Block, MSRB),图2 给出了其结构图。以图2(b) 为例,其中“MSRB-X /b /Y ”表示输入为X 通道,过渡为b 通道,输出为Y 通道的多尺度残差块,“[X , 1×1, b ]”表示输入为X 通道,输出为b 通道的1×1卷积操作。X 通道的特征图首先通过1×1卷积进行通道下降变为b 通道,然后通过多尺度卷积(Multi-Scale Convolution, MSC)进行特征提取,以上卷积之后都会经过一个修正线性单元(Rectified Linear Unit, ReLU)进行非线性激活和一次分组数为4的组归一化(Group Normalization, GN)操作,经过 1×1卷积进行通道改变(输出为Y 通道),最后通过捷径连接将输入和经过特征提取后的特征图进行求和输出。
本文设计3种不同形式的多尺度卷积(Multi-Scale Convolution, MSC)用于特征提取,图3 给出其结构图。图3(a) 为“concat”形式,“MSC_C-b ”表示通道数为b 的“concat”形式的多尺度卷积,首先将通道数为b 的输入特征图分别进行1×1, 3×3, 5×5和7×7的逐通道卷积以及3×3的最大池化,然后将得到的5b 个特征图以及输入特征图在通道维度上进行级联,级联后特征图的通道数为6b ,之后将级联后的特征图进行ReLU和分组数为6的GN操作,最后通过1×1卷积将6b 的通道数恢复为原通道数b ,作为多尺度卷积的输出。图3(b) 为“sum”形式,将输入特征图经过1×1卷积和3×3, 5×5, 7×7的深度可分离卷积以及3×3的最大池化,然后将5组特征图和输入特征图进行逐点相加,将求和后的特征图进行ReLU和分组数为4的GN操作,最后通过1×1卷积进一步将特征图进行融合,作为多尺度卷积的输出。图3(c) 为“small-sum”形式,是在“sum”形式的基础上进一步缩小参数量和结构复杂度,去掉了求和之后的ReLU, GN和1×1卷积操作,将求和后的特征图直接作为输出。
3.2
双域注意力单元
为了实现对有效特征的充分利用和无效特征的削减抑制,本文设计了在高级特征引导下对低级特征进行注意力机制的双域注意力单元(Dual-domain Attention Unit, DAU)。图4 为双域注意力单元结构图。图4(a) 中“DAU1-X /α”表示输入通道数为X ,权重系数为α 的双输入双域注意力单元,下方输入为解码器进行上采样的高一级别特征图,上方输入为同一层编码器经长跳连接传递来的低一级别特征图,两级特征图求和后经过一个1×1的卷积、ReLU, GN(4)、通道注意力模块和空间注意力模块的操作,在与上方输入进行求和,最后与下方输入进行级联,得到通道数为2X 的输出。图4(b) 为单输入双域注意力单元,用于对编码路径中最底层特征图施加注意力,去掉了用于两组特征图融合的求和、1×1卷积、ReLU, GN和级联的操作,直接将获取了双域注意力权重的特征图与原始特征图进行求和作为输出。
通道注意力模块(Channel Attention module, CA)实现如图5(a) ,其中“CA-X /r ”表示通道数为X ,衰减系数为r 的通道注意力模块,“B ×X ×H ×W ”表示特征图尺寸,B 为Batch_size,X 为通道数,H ,W 表示特征图的高和宽。尺寸为B ×X ×H ×W 的特征图经过空间维度上的全局最大池化(P-MaxPool)和平均池化(P-AvgPool),将池化后的特征向量在空间维度上进行级联。经过一个1×2的非对称卷积进行瓶颈操作,将通道数由X 变为X /r 。之后经过ReLU和GN操作后,再经过一个1×1的卷积,将通道数恢复为X ,最后经过Sigmoid函数激活将通道维度的权重模板输出。图5(c) 所示,“GCN-K /X /Y ”表示输入为X 通道,输出为Y 通道,卷积核尺寸为K 的全域卷积。空间注意力模块(Position Attention module, PA)实现如图5(b) ,输入特征图经过通道维度上的最大池化(C-MaxPool)和平均池化(C-AvgPool)、1个卷积核尺寸为7的GCN、ReLU和GN(1)、1个GCN,最后通过Sigmoid函数获取空间位置权重模板作为输出。
3.3
混合自适应权重损失函数
本文设计了混合自适应权重损失函数(HadapLoss)。式(1)给出了其表达式,HadapLoss由调整的平均CE损失(mrCE)和调整的DICE损失(${\rm{rDICE}}$ )两部分组成,本文在网络训练时参数设置$ \alpha $ 和$ \beta $ 都为1
式(2)为调整的CE损失,在原始二分类CE损失的基础上添加了自适应权重函数$ 1 - {p^\gamma } $ ,其中${{{g}}_{{\rm{t}}0}}$ , $ {{{{g}}}_{{{\rm{t}}1}}} $ 分别表示标签进行One-hot编码后的0通道和1通道张量,${{{{p}}}_{{{\rm{t}}0}}}$ , ${{{{p}}}_{{{\rm{t}}1}}}$ 分别表示网络预测输出的0通道和1通道的概率张量,$1 - {{{p}}^\gamma }$ 是定义域和值域皆为$ \left[ {0,1} \right] $ 的依概率减函数。对于$1 - {{{p}}^\gamma }$ ,当$ \gamma > 1 $ 的时候呈凸函数下降,且在${{p}} < 0.5$ 时下降速度较慢,即对正确分类概率较大的样本点损失压制大于对正确分类概率较小的样本点损失压制,本文实验时设置$ \gamma = 2 $ 。另外由于图像中背景像素点数量更多且更易被分类正确,所以添加自适应权重也在一定程度上减小了背景损失,缓解了类不平衡的影响。式(3)给出了调整的平均CE损失的表达式,其对调整的CE损失(rCE)进行了全像素点平均。
为减小Dice损失波动,式(4)和式(5)对前景和背景分别求取DSC,式(6)对前景和背景的DSC求取平均值,作为最终的DSC,以此缓解小目标DSC的波动。为防止混合损失最终退化为DICE损失,本文将DSC的负对数作为DICE损失,使之与CE损失在同等数量级上,同时为了平衡难分割图像和易分割图像的损失,在DICE损失前添加了自适应权重。最终调整的DICE损失如式(7)所示
4.
实验与分析
4.1
实验数据及参数设置
实验数据来源于上海交通大学医学院附属瑞金医院,有207例患者乳腺DCE-MRI数据,共得到2583例切片样本,切片大小为512×512,每例样本都拥有4个不同时间节点的断层图像。本文将每例样本的4张图像进行了通道合并,数据经过裁剪、自适应直方图均衡化等预处理操作和通道合并之后,全部的切片样本以4通道形式作为独立样本,即共2583例尺寸大小为4×192×384的独立样本。本文针对数据灰度范围广、动态灰度范围大的情况,提出一种样本自适应归一化方法,实现如式(8)—式(10)所示,其中$ {x_d} $ 表示d 通道所有像素点的灰度值,$ {\alpha _m} $ 表示最小灰度保持率,$ {\beta _M} $ 表示最大灰度保持率,归一化的最小和大灰度值分别为$ {m_d} $ 和$ {M_d} $ ,然后对每张图像设置样本归一化,数据区间全部为$ \left[ {0 - 1} \right] $ 。数据集按照7:1:2比例随机划分为独立的训练集、验证集和测试集。本文对训练集数据进行了2倍数据扩增,增广后的训练集共有3616例样本
实验的具体参数为:输入图像大小为4×192×384,Batch_size为4,初始学习率为1×10–4 ,模型优化器为自适应矩估计(Adaptive moment estimation, Adam),设置训练的最大Epoch数为200。在训练过程中,如果训练集上每个Epoch中的最后一个Batch的平均损失连续5轮Epoch没有下降,则学习率会下降至之前的0.2,当验证集的DSC连续15次不再上升时,模型将提前结束训练。实验的硬件环境为Intel (R) Xeon(R) 4216@2.10 GHz,2张GeForce RTX 3070显卡,操作系统为Ubuntu 20.04,编程语言为Python 3.8,所有程序在Pytorch框架下实现,实验最终结果取5次交叉验证的平均结果。
4.2
评价指标
本文通过评价指标对分割准确性进行比较,指标包括Dice相似系数(Dice Similariy Coefficient, DSC)、重叠度(Intersection Of Union, IOU)、真阳性率(True Positive Rate, TPR)、阳性预测值(Positive Predictive Value, PPV)、准确度(ACCuracy, ACC)、豪斯多夫距离(Hausdorff Distance, HD)、模型总参数量(total params)和参数量比例(params ratio)。式(11)—式(16)给出了指标的具体表达式,其中TP, TN, FP, FN 分别为真阳性、真阴性、假阳性、假阴性,式(16)中$ d( \cdot ) $ 表示两个点集间的距离范式
4.3
结果分析
4.3.1
多尺度残差块实验结果分析
本文首先对多尺度残差块(MSRB)通过有效提取多尺度信息提升肿瘤分割性能方面进行了实验验证,选取了医学图像分割中具有代表性的主流模型作为实验基线,包括UNet[18 ] ,UNetPP[19 ] 两个模型,在以上网络的基础结构上改变了卷积形式,将原始3×3卷积替换为多尺度残差块,并对3种不同形式的多尺度卷积进行了实验对比。以表1 为例,UNet为原始网络,MSRUNet为将3×3卷积替换为MSRB的网络,_C, _S, _SS分别表示MSRB中采取MSC_C, MSC_S和MSC_SS的形式。
由表1 、表2 可以看出,UNet和UNetPP使用多尺度残差块均能带来分割指标的提升和参数量的下降,参数量基本降为原网络结构的1/4或以下,并且MSRUNet获得的分割指标对比于UNetP有所提升,表明多尺度残差块能够提升网络的分割性能,并且优于单独的多级特征复用所带来的性能提升。综合以上实验结果,MSC_SS形式降低参数量最为显著,在UNetPP实验组中性能提升最明显,且结构上比MSC_C和MSC_S简单,本文在后续实验时多尺度残差块将全部采取MSC_SS形式。
4.3.2
双域注意力单元实验结果分析
本文将MSRUNet_SS(后文表示为MSRNet)和使用普通注意力门机制的MSRAUNet以及使用双域注意力单元的MSRDANet进行了对比实验。实验的结果如表3 所示,可以看出,MSRDANet在各项指标上均优于MSRAUNet,说明双域注意力单元较注意力门控更好地发挥了注意力作用,带来了更好的性能提升。
4.3.3
损失函数实验结果分析
本文将交叉熵与DICE损失函数加权叠加(CELoss+DICELoss, CDLoss)、混合自适应权重损失函数(HadapLoss)进行了实验对比,UNet, MSRNet和MSRDANet作为实验模型。表4 给出了对比结果,表中最好的结果是采用HadapLoss进行训练的MSRDANet网络,DSC达到了0.8063,说明多尺度残差网络(MSRNet)融合双域注意力单元(DAU)配合使用HadapLoss进行训练,模型会表现出最佳的分割性能。
4.3.4
分割网络对比结果分析
本文将MSRDANet与常用的具有编码-解码结构的分割网络进行了比较,包括SegNet, UNet[18 ] , UNetPP[19 ] , AUNet[20 ] , UNet3+[21 ] 和CPFNet[22 ] 。图6 给出了不同网络部分测试样本的分割图,其中第1行为原始图像,第2行是专家标注的肿瘤标签,第3~10行依次是使用交叉熵损失函数(CELoss)的SegNet, UNet, CPFNet, AUNet, UNetPP, UNet3+, MSRNet, MSRDANet的分割结果,第11行是使用HadapLoss的MSRDANet (MSRDANet_HL)的分割结果。其中对每个样本黄色方框内的组织进行了局部放大,并对有误分割的区域同等比例放大以白色边框放在了“局部”列右下角。从中可以看到,由于待分割的乳腺肿瘤目标较小,大部分网络表现出欠分割现象,对于更小的肿瘤甚至无法识别和提取出现了漏分割的现象,对于多肿瘤的样本(样本3和样本5),基础网络很难全部识别分割出来,对于具有肿瘤相似性的乳腺组织(样本4),SegNet, UNet, CPFNet, AUNet, UNetPP和UNet3+均表现出误分割的现象,对比发现MSRNet较前面网络分割效果有所提升,MSRDANet欠分割现象进一步降低,分割效果进一步提升。从图片结果来看,MSRDANet_HL分割效果最好,分割结果边缘轮廓能够保持在专家标注的附近区域,并且肿瘤大小和数量都没有出现较大的误差,较小肿瘤也能够识别分割,这在后续医疗诊断工作中是非常重要的。
表 5 给出了本文网络与对比网络在测试集上进行分割的相关指标,可以看出MSRNet和MSRDANet在6个分割指标上均优于其他网络,其中MSRDANet_HL表现出最好的分割性能。DSC较基线网络UNet提高了5.3%,IOU提高了6.66%,TPR提高了7.29%,ACC提高了0.05%,HD下降了36.7582。参数量仅为UNet的26.64%,下降了约3/4,模型容量大大降低。MSRNet得到的分割指标中DSC, IOU, TPR和HD均高于AUNet和UNetPP,说明多尺度残差块通过获取不同感受野信息和优化梯度传播通道所带来的性能提升优于由单纯的注意力机制和多级特征复用带来的效果提升。
图7 给出了9个网络在全体样本上进行测试获得的DSC和IOU的累积分布曲线,可以看到MSRDANet_HL的累积分布曲线下的面积是最大的,在DSC为0处的下降是最小的,说明测试样本中分割DSC为0的样本数量是最少的,曲线的平缓度优于其他网络,在DSC的各值点上累积值基本都是最高的,说明测试样本中的高DSC样本较多,IOU的累积分布曲线同样表现出MSRDANet_HL的分割效果是最好的,居于曲线第2位的是MSRDANet,说明混合自适应权重损失函数带来的分割性能的提升体现在大多数的测试样本上。图8 给出了9个网络在全体样本上进行测试获得的DSC和IOU的箱线图,由图8 可以看到,从SegNet到MSRDANet_HL箱体逐渐变小,下边缘线和Q1线逐渐提高,说明DSC和IOU值越来越集中且集中于较高值,分割得到小DSC和IOU的测试样本数量逐渐减少,MSRDANet_HL的Q3线和上边缘线是最高的,说明在测试样本中获得了更多的高DSC值和高IOU值,IOU的箱线图表现较为发散,但对比可以看出MSRDANet_HL的表现依然是最佳的。
5.
结束语
本文提出一种多尺度残差双域注意力融合网络(MSRDANet)用于对乳腺DCE-MRI肿瘤区域进行分割,网络以多尺度卷积构成的多尺度残差块作为基本搭建模块,通过提取多尺度特征和优化梯度传播通道提高了网络对不同尺寸尤其是小尺寸目标的识别与提取能力,同时提高了模型鲁棒性,网络中融入了双域注意力单元,引导网络更有效地利用有利特征,更好地实现关键信息提取和边界保持。同时本文设计了一种新的混合自适应权重损失函数,通过改善类不平衡问题和平衡难易样本,帮助网络更好地优化,提高了网络的分割性能。通过对比实验和多角度对比分析,验证了本文所提方法较其他方法拥有更好的分割效果,对不同尺寸的肿瘤都能进行较好的分割和边界保持。另外本文模型具有更小的模型容量,能够对后续网络的模块化和轻量化设计提供思路。受限于硬件资源,本文未在3D图像上验证模型的性能,探讨设计具有更强泛化能力和普适性的医学图像分割网络模型并应用于3D医学图像分割任务是下一步的研究方向。