Loading [MathJax]/jax/output/HTML-CSS/jax.js
Advanced Search
Volume 45 Issue 5
May  2023
Turn off MathJax
Article Contents
ZHOU Tao, HOU Senbao, LU Huiling, LIU Yuncan, DANG Pei. C2 Transformer U-Net: A Medical Image Segmentation Model for Cross-modality and Contextual Semantics[J]. Journal of Electronics & Information Technology, 2023, 45(5): 1807-1816. doi: 10.11999/JEIT220445
Citation: ZHOU Tao, HOU Senbao, LU Huiling, LIU Yuncan, DANG Pei. C2 Transformer U-Net: A Medical Image Segmentation Model for Cross-modality and Contextual Semantics[J]. Journal of Electronics & Information Technology, 2023, 45(5): 1807-1816. doi: 10.11999/JEIT220445

C2 Transformer U-Net: A Medical Image Segmentation Model for Cross-modality and Contextual Semantics

doi: 10.11999/JEIT220445
Funds:  The National Natural Science Foundation of China (62062003), The Key Research and Development Projects of Ningxia Autonomous Region (2020BEB04022), The National Natural Science Foundation of Ningxia (2022AAC03149), The Introduction of Talents and Scientific Research Start-up Project of Northern University for Nationalities (2020KYQD08)
  • Received Date: 2022-04-14
  • Accepted Date: 2022-08-25
  • Rev Recd Date: 2022-08-24
  • Available Online: 2022-08-30
  • Publish Date: 2023-05-10
  • Cross-modal medical images can provide more semantic information at the same lesion. In view of the U-Net network uses mainly single-modal images for segmentation, the cross-modal and contextual semantic correlations are not fully considered. Therefore, a cross-modal and contextual semantic-oriented medical image segmentation C2 Transformer U-Net model is proposed. The main idea of this model is: first, a backbone and auxiliary U-Net network structure is proposed in the encoder part to extract semantic information of different modalities; Then, the Multi-modal Context semantic Awareness Processor (MCAP) is designed to extract effectively the semantic information of the same lesion across modalities. After adding the two modal images using the backbone network in the skip connection, it is passed to the Transformer decoder. This enhances the expression ability of the model to the lesion; Secondly, the pre-activated residual unit and Transformer architecture are used in the encoder-decoder. On the one hand, the contextual feature information of the lesion is extracted, and on the other hand, the network pays more attention to the location information of the lesion when making full use of low-level and high-level features; Finally, the effectiveness of the algorithm is verified by using a clinical multi-modal lung medical image dataset. Comparative experimental results show that the Acc, Pre, Recall, Dice, Voe and Rvd of the proposed model for lung lesion segmentation are: 97.95%, 94.94%, 94.31%, 96.98%, 92.57% and 93.35%. For the segmentation of lung lesions with complex shapes, it has high accuracy and relatively low redundancy. Overall, it outperforms existing state-of-the-art methods.
  • 医学图像分割的目的是将医学图像中具有特殊含义的部分单独分割出来,医学图像分割是病灶区量化、选择治疗手段和放射治疗的重要技术前提,分割结果的准确性直接影响后续治疗效果[1]。PET/CT是其中一种重要的多模态医学图像,它既有电子计算机断层扫描(Computed Tomography, CT)图像的高对比度、高分辨率的优点,可以准确检测到病灶的大小和位置[2],又有正电子发射型计算机断层显像(Positron Emission computed Tomography, PET)图像的特点,能够反映组织细胞的代谢和生理信息,使得融合后的图像既拥有病灶的病理生理变化信息又保留有病灶的形态结构,从而了解全身整体状况,为临床疾病诊断与科学研究提供了丰富的信息,可以有效辅助医生对病灶进行诊断。

    近年来,多模态成像技术如:PET/CT, 单光子发射计算机断层成像术/磁共振成像(Single-Photon Emission Computed Tomography/Magnetic Resonance Imaging, MRI/SPECT), MRI/PET和MRI/CT,这些技术不仅为观察肿瘤提供了不同的物理或生物学方面角度的研究,也用于肿瘤疾病诊断和治疗评估[3]。对于肿瘤分割,合理利用不同模态图像之间的互补信息可以提高肿瘤分割的准确性,在过去的十年中,已经提出一些多模态图像结合的方法分割疾病。Li等人[4]提出DenseX-Net,该架构在自动排除肝脏和肾脏引起的误报方面更加稳健,但有时它也可能在淋巴瘤边界被划定时表现不佳;Hussein等人[5]通过PET/CT成像方式提出皮下脂肪组织-内脏脂肪组织(Subcutaneous Adipose Tissue-Visceral Adipose Tissue, SAT-VAT)模型来分割白色脂肪组织;Mu等人[6]根据PET和CT定义的组织特异性,实现子宫颈肿瘤的自动分割;Zhou等人[7]提出用于PET/CT肺肿瘤分割的并行U-Net架构;Cui等人[8]提出用于PET/CT中肿瘤分割的标签信息传播模型,该模型将CT的局部强度变化与PET的空间拓扑信息相关联。上述所有这些研究表明,结合多模态图像的信息可以获得更准确的疾病信息。

    但是在多模态的医学图像中,由于成像机理的不同,不同模态图像之间存在很多不一致的信息,这些不一致信息的不合理使用会降低分割精度,因此在医学图像分割任务中,如何有效利用跨模态的医学图像的语义相关性来提高分割精度成为一个难点。本文针对上述问题提出了面向跨模态和上下文语义的医学图像分割C2 Transformer U-Net算法,其主要贡献是:(1)提出跨模态和上下文语义的Transformer U-Net(Cross-modal and Context Semantically Transformer U-Net, C2 Transformer U-Net)医学图像分割网络,CT与PET/CT作为主干网络,PET作为辅助网络,将3种模态同时输入到网络;(2)提出多模态上下文感知处理器(Multi-modal Cotext Aware Precessor, MCAP)模块,互补的成像方式可以结合功能和解剖信息以提高分割性能提取病灶特征,增强网络对病灶的聚焦能力;(3)在编-解码中使用Transformer自注意力机制的策略用于医学图像分割,其主要目标是解决上下文交互和空间依赖性的问题,利用主干网络的图像叠加操作,使Transformer在解码器中捕获远程相关信息来提高分割质量。

    本文基于U-Net提出跨模态和语义相关的C2 Transformer U-Net网络。首先从整体图像数据集中将3种模态图像裁剪出来,接着从不同模态的样本空间中提取出各个模态图像的感兴趣区域;然后使用图像增强与数据增广的方法将各个模态图像数据扩充;接着利用多分支编码的思想,将PET/CT, CT作为主干网络,PET作为辅助网络,3种模态图像进行结合精确定位肿瘤病灶;将3种模态图像在瓶颈层相加后传入解码器,还原病灶图像语义特征得到最终分割结果。

    跨模态上下文语义U-Net网络结构如图1所示,编码器包括主干、辅助网络,主干网络为PET/CT, CT两种模态图像,辅助网络为PET图像,主干网络和辅助网络在瓶颈层做叠加操作后传入解码器。在编码器中包括5个阶段,第1阶段为预激活残差模块,其余阶段为预激活残差单元、MCAP模块与Transformer编码器模块,来提取不同模态病灶有关的上下文语义信息;在解码器中也包括5个阶段,最后一个阶段为预激活残差模块,其余阶段为预激活残差单元和Transformer解码器模块,来恢复不同模态病灶有关的上下文语义信息,设计的Transformer解码器模块利用主干网络和解码器传来的信息汇合,更好地恢复病灶图像细粒度信息。在跨模态的过程中,本文包括:多模态图像的编码输入、MCAP与主干网络两种模态图像分别经过空间注意力相加后传入Transformer解码器的跳跃连接,设计的3种方法在不同模态的图像间得到相同病灶的信息互补,实现了跨模态的语义相关性。

    图  1  C2 Transformer U-Net网络架构

    尽管原始卷积层在分割网络中作用很大,但这种模式缺乏捕获长距离(全局)依赖关系的能力[9],因此本文使用的卷积层包含预激活残差单元与Transformer机制,这样的使用方式被证明是有效的[10],不仅可以利用卷积图像的感应偏差来避免大规模的预训练,而且使用Transformer捕获远程关系的能力。由于误分割区域通常位于感兴趣区域的边界,高分辨率的上下文信息在分割中起着至关重要的作用。因此,本文将Transformer模块应用于编码器与解码器的每一级,以多种模态的方式收集长期依赖性与上下文语义信息,使其能够有效地处理图像边界信息与高分辨率特征的医学图像。由于网络浅层特征更注重于关注纹理细节,而Transformer在网络浅层无法提供更有效的信息,并且会引入额外的计算量,所以本文没有在第1个特征提取阶段采用Transformer。

    在网络中,多次的池化操作造成输入特征中大量的细节信息丢失,深层特征包含更多的语义和位置信息,因此多层次特征对优化分割结果,补充损失的细节信息十分重要,为了更好地利用浅层的特征强化分割结果的细节信息,这里采用了Transformer解码器,使用主干网络中的PET/CT与CT图像叠加后传入到解码器中,与解码器的Transformer结构进行整合,为深层特征补充更多的细节信息。

    由于单种模态图像对病灶信息的缺失,本文设计了跨模态多编码网络的结构。为了更好地使用多模态图像中的互补信息,且专注于跨多个模态图像中病灶的位置信息,本文提出MCAP模块来实现3种模态图像的信息互补。该模块能产生一个多模态上下文感知特征图,来学习每种模态图像的特征信息。在跳跃连接中,使用编码器中主干网络涉及的两种模态图像特征图的相加输入到Transformer的解码器,为了强调特征图病灶区域,更好地对应不同ROI的特征。

    C2 Transformer U-Net编码器部分的主干网络中引入了带有空间注意力的MCAP模块,空间注意力非常适合于主干、辅助网络在编码器语义信息相对不足的情况[11]。MCAP模块使3种模态的信息紧密的结合,更精准地定位待分割图像的内部病灶细节。首先对输入的两种特征图分别进行空间注意力,接着把两种图像空间注意力的结果相加;然后将相加的结果与输入的PET图像相乘得到多模态上下文感知特征图;最后将原始输入图像的CT, PET/CT分别与感知特征图相乘,作为下一层图像信息的输入。此模块能利用模态间的特征信息交互捕捉模态间的特征关系,将生成的多模态上下文感知特征图与原输入图像两两相乘进行不同模态间信息交互,捕获不同模态特征关系,使得不同模态特征相互加强。图2为MCAP模块示意图。

    图  2  多模态上下文感知处理器

    具体如式(1)所示,其中α为输出CT图像,β为输出PET/CT图像,χl1χl2分别为当前层输入CT与PET/CT图像,表示相加,表示相乘,χ3表示输入PET图像。

    α={[SA(χl1)SA(χl2)]χ3}χl1β={[SA(χl1)SA(χl2)]χ3}χl2} (1)

    由于医学图像是高度结构化的数据,除图像边界外的局部高分辨率特征图中的大多数像素都具有相似性,因此所有像素之间的成对注意力计算是非常低效和冗余的。受文献[12]启发使用一种有效的多头自注意力机制(Multi-Head Self-Attention, MHSA),分别应用网络在编、解码中。如图3所示,图3(a)为Transformer模块,图3(b)图3(c)为多头自注意力编-解码分支。多头自注意力编-解码输入特征分为5个支路,前3个分支通过自注意力机制,建立Q, K, V共3个向量,分别代表Query, Key和Value,而解码器分支采用主干网络相加后再传给Q,为计算特征图中每个像素与所有其他像素之间的相关性,并增加特征提取的感受野;同时,最后两个分支仅为输入图像的高度和宽度,按照高度与宽度将输入图像的特征与自注意力机制进行加权,通过不同特征之间的关系,使用相对位置信息来学习医学图像中的内容、位置关系。本文可以为有用的目标特征建立特征映射,从而抑制不重要的特征。

    图  3  Transformer多头注意力编-解码分支

    自注意力机制计算如下,给定输入张量IRH×W×d, Query, Key与Value进行1×1卷积,3个1×1卷积用于投影特征图,以进行查询、键和值嵌入:Query, Key, Value∈Rd×H×W,其中d是嵌入每个头部的尺寸。然后将Query, Key与Value进行flatten与transposed操作,并转换成大小为n×d的序列,其中n=HW。再与可学习矩阵相乘,得到3个张量Q, K, V(其中Q,K,VRHW×d),QK执行点积,以获得当前两个目标的相似性。同时,为了解决模型的退化问题,然后使用等式(2)获得相似矩阵X

    X=QKT (2)

    其中,XRHW×hw。在等式(2)中Q, K的转置执行点乘操作获得像素之间的相似性,同理将自注意力与输入图像的R的转置相乘得到QRTQRT是输入图像中的上下文位置确定,QKT根据位置确定后丰富上下文的内容,将其相加以根据位置获得上下文的内容信息。而之后,权重注意力特征图A计算如等式(3)。在等式(3)中,X是相似矩阵,dK的维数,P为相似矩阵。通过X除以d是执行对X一个特征缩放操作,以防止其方差过大,导致梯度消失。通过Softmax对其进行归一化,以获得注意权重。最后将其结果加权在张量V上得到特征A,其中AHW×hw。在本文提出的解码器中引入了Transformer[13]的思想,跳跃连接中传入解码器的信息称为高级残差编码信息,而解码器自身传入的信息称为低级信息,将Transformer分支中编码器相同通道数的PET/CT图像与CT图像相加,再传入相同通道数的解码器Q中。

    A(Q,K,V) = Softmax(Xd)Vk×dP:n×k (3)

    通过文献[14]证明标准的自注意力模型完全丢弃了位置信息,这使得高度结构化的医学图像在内容上建模是无效的。以往的研究中的正弦嵌入[15]在卷积层中不具有减少训练过程中的位置偏差,使得模型难以从特征空间中恢复目标的位置。因此,本文在Softmax之前使用2维相对位置编码[14]进行成对注意的logit(i,j)来增加相对高度和宽度信息,在像素i=(ix, iy)与像素j=(jx, jy)之间使用式(4)

    li,j=qTid(kj+rWjxix+rHjyiy) (4)

    其中,qi是像素i的Query向量,kj是像素j的Key向量,rWjxixrHjyiy是相对宽度jxix,相对高度jyiy的学习嵌入。与提出的自注意机制类似,相对宽度和高度是在低维投影后计算完成的,则相对位置嵌入的自注意力公式为

    A(Q,K,V) = Softmax(QKT+SrelH+SrelWd)Vk×dP:n×k (5)

    此时,SrelH,SrelWRHW×hw是沿高度和宽度两个维度的相对位置对数矩阵,满足SrelH[i,j]=qiTrHjyiySrelW[i,j]=qTirHjxix。当本文分别考虑高度和宽度的信息时SrelHSrelW也满足SrelH[i,j]=SrelH[i+H,j]SrelW[i,j]=SrelW[i,j+W],这样有效地避免了计算所有成对的logit(i,j)

    实验室硬件环境服务器Intel(R) Xeon(R) Gold 6154 CPU,内存256 GByte,显卡NVIDIA TITAN V, Python3.7, PyTorch1.7.0, CUDA版本为11.1.106。本文采用了Adagrad优化器,使得参数空间更为平缓,从而加快训练速度。在参数的设置上,为保障模型参数更新较快和在全局最优特点进行收敛,训练周期为200,学习率为0.00001,批处理大小为3。损失函数可以很好地反映模型预测值与实际值之间的差距,损失函数越小,模型性能就越好。

    肺部肿瘤病灶仅占肺部的一小部分,不平衡的前景(病灶点)和背景(肺)通常会导致预测偏差,并使分割结果偏向于具有更多体素的背景。考虑到不平衡问题和类权重参数调整问题,针对损失函数使用Dice损失函数,具体形式为

    LDice=12ypredytruepixy2pred+pixy2true (6)

    其中,ypred为预测像素的概率值,ytrue为实际的标签值。Dice的取值范围为[0,1],其值越大表示预测得越准。

    为了客观且全面地评价网络的分割性能,同时便于与其他算法进行比较,本文基于模型预测结果采用准确率(Accuracy, Acc)评估预测结果的正确率,通过正确分割的样本数除以所有样本数;利用精确率(Precision, Pre)评估所分割出的疾病准确率,通过计算正确预测为正的占所有预测为正的比例;使用戴斯相似系数(Dice similarity coefficient, Dice)来评估模型预测与标签值目标像素的相似度;使用召回率(Recall)评估网络可以成功分割出疾病的效率,通过计算正确预测为正的占所有实际为正的比例;采用体积重叠误差(Volumetric Overlap Error, Voe)来评估预测模型与标签值的错误率;使用相对体积差异(Relative volume difference, Rvd)来计算模型预测的目标像素与标签目标像素两者之间的体积差异,体积重叠误差Voe和相对体积差异Rvd越小说明分割误差少,分割效果好。为了统一6个评价指标,Voe和Rvd两个评价指标的值是取1与这两个指标的差值,差值较大说明效果越好,反之说明效果欠佳,表1为评价指标定义。

    表  1  评价指标定义
    评价指标定义评价指标定义
    AccAcc = TP + TNTP + FP + FN + TNPrePre = TPTP + FP
    DiceDice=2×|PG||P|+|G|RecallRecall = TPTP + FN
    VoeVoe=abs(1|PGPG|)RvdRvd=abs(PG)G
    下载: 导出CSV 
    | 显示表格

    病灶区域被正确分割的定义为真阳性(True Positive, TP),正常组织区域被正确分割定义为真阴性(True Negative, TN),正常组织区域被分割为病灶区域定义为假阳性(False Positive, FP),病灶区域分割为正常区域定义为假阴性(False Negative, FN)。P表示模型预测的目标像素,G表示标签值(ground truth)中的目标像素。

    数据集选用2018年1月-2020年6月,宁夏某三甲医院核医学进行PET/CT全身检查的95例肺部肿瘤临床患者,包括女性46例,男性49例;年龄39~76岁,平均年龄(50.63±5.11)岁。吸烟40例,烟龄2~25年,平均烟龄(12.11±2.44)年。静脉注射氟[18F]脱氧葡萄糖注射液(18F-FDG)3.7 mBq·kg–1,注射完显像剂1 h后在安静、避光的房间平卧45~60 min进行肺部及躯干部PET/CT图像采集,扫描完成取横断面、矢状面与冠状面图像。为确保对病变进行正确标注,本次数据经过两位影像科专业医师评估。数据集图像标准化摄取值≥2.5为阳性,仪器为Discovery MI,由GE公司生产,放射化学纯度>95.0%。数据集经过旋转、镜像的数据增强与数据增广处理,3种模态图像数据集的最终样本数分别为2430张,其中3种模态各2025张PET/CT, CT与PET图像作为训练集,405张PET/CT, CT和PET作为测试集,图像标签由临床医师手动绘制。

    通过3组实验来说明C2 Transformer U-Net的多编码器与自注意力机制的先进性,第1组实验证明跨模态多编码器对网络分割结果的影响;第2组实验是与一些先进的分割网络进行比较,因为本次提出的网络有预激活残差单元与Transformer架构,所以此次对比实验选取了在U-Net中加入残差连接机制与Transformer的网络;第3组实验在主干、辅助网络的U-Net基础上,证明上下文语义信息对模型性能的有效性。

    3.3.1   跨模态语义相关性的不同编码器分割网络

    本文通过3组实验来验证本文跨模态多编码网络的优势,首先与基本的U-Net[16]网络进行对比,它所使用的是单编码器输入图像,输入图像设置为CT单模态图像,使用2025张CT图像作为训练集,405张CT图像作为测试集;实验2所采用的是两编码器的Y-Net[17],输入图像采用CT与PET两种模态图像,每种模态训练集各为2025张,测试集各为405张。本文所提出的网络C2 Transformer U-Net所凭借主干、辅助编码器网络,主干网络所采用PET/CT与CT双模态图像,辅助网络采用PET单模态网络,3种模态数据集各用2025张作为训练,405张作为测试。CT图像的灰度图如图4(b)所示,在灰度图中能清晰地看出不同病灶点通过坐标轴显示出的严重情况。不同编码器网络分割结果如表2所示,图4(b)为不同编码器架构分割结果。通过表2,不同编码器的分割结果可以清楚地看出,Y-Net前4项指数与U-Net相比,分别低了0.07%, 0.29%, 0.15%, 0.19%,而Voe与Rvd的效果却比U-Net相对较好。由于PET图像在内部结构中提供的信息相对丰富,但边界图像信息不足,所以仅有部分指标高于U-Net。而本文提出的C2 Transformer U-Net,清楚地呈现出主干、辅助网络编码器高于单编码器、双编码器。从6项指数看出,跨模态互补的分割架构对肺部病灶图像分割性能有一定的提升。从图4(b)分割可视化界面也可以看出,由于肺部病灶错综复杂且与正常组织相连,Y-Net两种模态分割处理时确实存在明显的缺陷,如第3行;U-Net在分割复杂的病灶形状时不如其他两种网络,如第1行、第2行与第7行显示出的效果。而本文提出的架构,在3种模态互补的情况下,不仅各项指数均得到了明显的提升,而且在可视化界面的分割结果中也看到了边界以及内部很好的分割效果;在雷达图4(a)中,C2 Transformer U-Net各项评价指数的坐标轴情况覆盖范围最大,更加直观地显示出3种跨模态互补的效果优于单模态以及双模态。

    图  4  跨模态语义相关性的不同编码器分割网络的雷达图和可视化分割结果图
    表  2  跨模态语义相关性的不同编码器分割结果(%)
    模型AccPreRecallDiceVoeRvd
    U-Net[16]90.2390.3890.3390.2890.9792.09
    Y-Net[17]90.1690.0990.1890.0991.4292.45
    本文97.9594.9494.3196.9892.5793.35
    下载: 导出CSV 
    | 显示表格
    3.3.2   与不同分割网络的比较

    本文提出的方法包括:预激活残差单元、自注意力机制与MCAP模块,为了证明本方法的有效性,本次实验与编-解码器网络、注意力的分割网络、加入残差的分割网络以及最近提出的UTNet网络进行对比。

    表3可以看出,SegNet[18]网络仅利用肺部CT单模态图像进行病灶分割,对于病灶的分割效果欠佳。如图5(b)的SegNet可视化的分割结果不难看出第2行、第4行的病灶组织出现了欠分割的状况,第5行、第6行由于单种模态图像的输入,病灶内部结构的分割效果出现弊端。WNet[19]的6项评价指数略高于SegNet,该方法的第1个网络输入为CT图像,将输出的特征与第2个网络输入的PET图像结合,充分利用CT图像的特征细节信息,而PET提供了病灶内部的代谢信息,在内部细节分割的效果比SegNet效果好。Attention UNet[20]架构将注意力机制应用于跳跃连接中,可以较好地实现对显著性区域的关注,以及对背景区域的抑制。而ResUNet[21]架构同样也存在Attention模块,但是与Attention UNet相比,ResUNet本质上是hard-attention,而Attention Unet本质上是soft-attention。从注意力的效果上看,ResUNet的注意力关注的是整个病灶部分,并没有病灶本身部分(局部ROI)进行attention操作,而Attention Unet是对局部ROI进行的操作。从应对复杂场景来看,ResUNet的注意力在较复杂的场景中很难通过二值化操作得到正确的掩码。但是反观Attention UNet,通过hard-attention的方法可以逐步加强局部ROI的权重,有效抑制无关区域中的激活。从这方面看,Attention UNet拥有更为广阔的应用范围,所以Attention UNet的各项评价指数要比ResUNet略高。如图5(b)所示,在第7行中,ResUNet在正常组织与病灶间出现了分割白点,可视化效果明显不如Attention UNet。但是Attention UNet中之加入了单模态CT图像,没有其他图像的内部组织信息,如图5(b)第2行,在病灶末梢未能作出很好的处理。SEResUNet[22]架构将ResNet模块嵌入U-Net来提高准确率,同时加入了挤压激励模块作为注意力机制去学习权重信息。而UTNet[23]模型在编码器与解码器中集成了自注意力机制,SEResUNet与UTNet效果与本文提出的C2 Transformer U-Net在图5(b)中可视效果很相似,但是由于这两种网络输入为单模态CT图像,很难在模态上产生优势,对病灶不能进行完全的分割,如图5(b)第3行所示,SEResUNet未能将图像进行连续的分割,在分割可视化结果上产生轻微断裂,而UTNet在第3行出现了欠分割效果,导致分割系数的下降。可视化分割效果图与分割表格中为不同方法的对比,从中可以看出,C2 Transformer U-Net不仅分割效果好,而且各项指数也高于其他网络。由于其他网络未使用多模态CT, PET, PET/CT医学图像特征,仅利用单模态医学图像,忽略多模态医学图像之间对相同病灶信息进行互补的优势,由此证明C2 Transformer U-Net提取多模态医学图像特征是可行的,自注意力机制有效地聚焦在特征图的病灶中,分割的可视化结果更接近于标签值。从雷达图中也可以更加直观地感受到C2 Transformer U-Net在各项分割指数值中达到最大,所占比例也明显大于其他网络。

    表  3  不同分割网络的分割结果(%)
    模型ACCPreRecallDiceVOERVD
    SegNet[18]89.2389.3888.3387.2879.9781.13
    WNet[19]90.1689.4991.2888.5982.0883.45
    Attention UNet[20]91.3090.9491.3189.9884.5784.35
    ResUNet[21]91.2390.0890.3289.0183.4584.02
    SEResUNet[22]92.3892.1792.0792.2090.9391.04
    UTNet[23]94.5893.8693.4492.8392.0793.20
    本文97.9594.9494.3196.9892.5793.35
    下载: 导出CSV 
    | 显示表格
    图  5  不同分割网络的雷达图和可视化分割结果图
    3.3.3   上下文语义相关性的实验

    本组实验基于主干、辅助编码器U-Net,评估上下文语义的性能,共5次实验来证明上下文语义相关性的特性,使用3种模态的数据集各2025张作为训练集,405张CT, PET/CT和PET图像作为测试集。实验1,在模型中使用3模态输入并且加入了预激活残差单元称为残差多模态U-Net(Residual Multi-modal, RMUNet)。实验2,在RMUNet中加入了Transformer编码自注意力机制,即为残差多模态自注意力U-Net(Residual Transformer MUlti-modal, RTMUNet)。实验3,在实验2的基础上加入了MCAP模块,此模块中没有空间注意力机制,模型为残差Transformer模态MCAP分割网络(Residual Transformer Multi-modal MCAP, RTMMUNet)。实验4,在实验3的MCAP模块的基础上加入了空间注意力机制,称作RTMMSUNet。实验5,在实验4中加入了解码器的Transformer机制称为C2 Transformer U-Net。图6(b)为CT图像灰度图、图6(a)为雷达图和上下文语义相关性的可视化分割结果。

    图  6  上下文语义相关的雷达图和可视化分割结果图

    表4可以看出,6项评价指标是逐渐提升的,最终达到本文提出的C2 Transformer U-Net各项评价指标。从可视化分割结果中也能清晰地看出分割效果越来越好,如图6(b)的第1行中的分割结果的病灶左下角区域在慢慢出现,也在逐渐接近于标签值;从第5行可以看出随着模块的不断加入,分割结果的Voe与Rvd也在逐渐与标签值相似,分割错误的结果与未分割的边界正在逐渐显现,无限接近于标签值。在MCAP块中,由于空间注意力聚焦特征图中的病灶部分,抑制背景等无关信息,从表4图6中,更能坚信本文所提上下文语义相关方法的正确性。所提出的自注意力解码器中,将主干网络的编码器中CT与PET/CT图像叠加,再传输到解码器的Transformer结构,从各项数据的结果中更加体现了跨模态互补与上下文语义传输的优势。

    表  4  上下文语义相关的分割结果(%)
    模型AccPreRecallDiceVoeRvd
    RMUNet93.2690.6991.1492.6889.4591.10
    RTMUNet94.5992.8092.5593.5089.8791.37
    RTMMUNet95.1893.1392.6994.0190.0292.04
    RTMMSUNet96.6293.6093.1594.4090.0992.05
    本文97.9594.9494.3196.9892.5793.35
    下载: 导出CSV 
    | 显示表格

    本文充分考虑不同设备的不同成像模式,以及CT, PET与PET-CT 3种模态对于相同病灶信息的互补,提出一种跨模态和上下文语义的医学图像分割模型。本文使用了预激活残差单元来增强模型的泛化能力;使用Transformer自注意力机制寻求结合卷积与自注意力机制的优势,以及Transformer捕获远程关系与上下文语义信息的能力;提出多模态上下文感知处理器,通过3种模态图像之间的互补来增强网络对病灶的聚焦能力。使用临床数据集对本文提出的方法进行验证,实验结果表明C2 Transformer U-Net的Acc, Pre, Recall, Dice, Voe与Rvd分别为97.95%, 94.94%, 94.31%, 96.98%, 92.57%与93.35%。3组对比试验表明本文所提出模型能充分使用肺部相同病灶的不同模态的图像特征,有效提升分割精度与降低漏诊率,为医生的辅助诊断,提高术前准备工作效率提供了有效的帮助。

  • [1]
    DALCA A V, GUTTAG J, and SABUNCU M R. Anatomical priors in convolutional networks for unsupervised biomedical segmentation[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake, USA, 2018: 9290–9299.
    [2]
    ZHOU Tao, LU Huiling, YANG Zaoli, et al. The ensemble deep learning model for novel COVID-19 on CT images[J]. Applied Soft Computing, 2021, 98: 106885. doi: 10.1016/j.asoc.2020.106885
    [3]
    JAMES A P and DASARATHY B V. Medical image fusion: A survey of the state of the art[J]. Information Fusion, 2014, 19: 4–19. doi: 10.1016/j.inffus.2013.12.002
    [4]
    LI Haoming, JIANG Huiyan, LI Siqi, et al. DenseX-Net: An end-to-end model for lymphoma segmentation in whole-body PET/CT Images[J]. IEEE Access, 2020, 8: 8004–8018. doi: 10.1109/ACCESS.2019.2963254
    [5]
    HUSSEIN S, GREEN A, WATANE A, et al. Automatic segmentation and quantification of white and brown adipose tissues from PET/CT Scans[J]. IEEE Transactions on Medical Imaging, 2017, 36(3): 734–744. doi: 10.1109/TMI.2016.2636188
    [6]
    MU Wei, CHEN Zhe, SHEN Wei, et al. A segmentation algorithm for quantitative analysis of heterogeneous tumors of the cervix with 18F-FDG PET/CT[J]. IEEE Transactions on Biomedical Engineering, 2015, 62(10): 2465–2479. doi: 10.1109/TBME.2015.2433397
    [7]
    ZHOU Tao, DONG YaLi, LU HuiLing, et al. APU-Net: An attention mechanism parallel U-Net for lung tumor segmentation[J]. BioMed Research International, 2022, 2022: 5303651. doi: 10.1155/2022/5303651
    [8]
    CUI Hui, WANG Xiuying, LIN W, et al. Primary lung tumor segmentation from PET-CT volumes with spatial-topological constraint[J]. International Journal of Computer Assisted Radiology and Surgery, 2016, 11(1): 19–29. doi: 10.1007/s11548-015-1231-0
    [9]
    ZHAO Hengshuang, SHI Jianping, QI Xiaojuan, et al. Pyramid scene parsing network[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 6230–6239.
    [10]
    HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Identity mappings in deep residual networks[C]. The 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 630–645.
    [11]
    HAN Guang, ZHU Mengcheng, ZHAO Xuechen, et al. Method based on the cross-layer attention mechanism and multiscale perception for safety helmet-wearing detection[J]. Computers and Electrical Engineering, 2021, 95: 107458. doi: 10.1016/j.compeleceng.2021.107458
    [12]
    WANG Sinong, LI B Z, KHABSA M, et al. Linformer: Self-attention with linear complexity[EB/OL]. https://arxiv.org/abs/2006.04768, 2020.
    [13]
    VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]. The 31st International Conference on Neural Information Processing Systems (NIPS'17), Long Beach, USA, 2017: 6000–6010.
    [14]
    BELLO L, ZOPH B, LE Q, et al. Attention augmented convolutional networks[C]. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 2019: 3285–3294.
    [15]
    PARMAR N, VASWANI A, USZKOREIT J, et al. Image transformer[C]. The 35th International Conference on Machine Learning, Stockholm, Sweden, 2018: 4052–4061.
    [16]
    RONNEBERGER O, FISCHER P, and BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]. The 18th International Conference on Medical Image Computing and Computer-assisted Intervention, Munich, Germany, 2015: 234−241.
    [17]
    LAN Hengrong, JIANG Daohuai, YANG Changchun, et al. Y-Net: Hybrid deep learning image reconstruction for photoacoustic tomography in vivo[J]. Photoacoustics, 2020, 20: 100197. doi: 10.1016/j.pacs.2020.100197
    [18]
    BADRINARAYANAN V, KENDALL A, and CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481–2495. doi: 10.1109/TPAMI.2016.2644615
    [19]
    XU Lina, TETTEH G, LIPKOVA J, et al. Automated whole-body bone lesion detection for multiple myeloma on 68Ga-pentixafor PET/CT imaging using deep learning methods[J]. Contrast Media & Molecular Imaging, 2018, 2018: 2391925. doi: 10.1155/2018/2391925
    [20]
    OKTAY O, SCHLEMPER J, LE FOLGOC L, et al. Attention U-Net: Learning where to look for the pancreas[EB/OL]. https://arxiv.org/abs/1804.03999, 2018.
    [21]
    LIU Jin, KANG Yanqin, QIANG Jun, et al. Low-dose CT imaging via cascaded ResUnet with spectrum loss[J]. Methods, 2022, 202: 78–87. doi: 10.1016/j.ymeth.2021.05.005
    [22]
    CAO Zheng, YU Bohan, LEI Biwen, et al. Cascaded SE-ResUnet for segmentation of thoracic organs at risk[J]. Neurocomputing, 2021, 453: 357–368. doi: 10.1016/j.neucom.2020.08.086
    [23]
    GAO Yunhe, ZHOU Mu, and METAXAS D. UTNet: A hybrid transformer architecture for medical image segmentation[EB/OL]. https://arxiv.org/abs/2107.00781, 2021.
  • Cited by

    Periodical cited type(2)

    1. 尹艺晓,马金刚,张文凯,姜良. 从U-Net到Transformer:混合模型在医学图像分割中的应用进展. 激光与光电子学进展. 2025(02): 11-33 .
    2. 陈严. 基于物联网技术的跨模态图像修改方法研究. 电视技术. 2024(11): 17-19 .

    Other cited types(9)

  • 加载中

Catalog

    通讯作者: 陈斌, bchen63@163.com
    • 1. 

      沈阳化工大学材料科学与工程学院 沈阳 110142

    1. 本站搜索
    2. 百度学术搜索
    3. 万方数据库搜索
    4. CNKI搜索

    Figures(6)  / Tables(4)

    Article Metrics

    Article views (1359) PDF downloads(250) Cited by()
    Proportional views
    Related

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return