基于协同注意力的小样本的手机屏幕缺陷分割

许国良; 毛骄

doi:10.11999/JEIT210054

基于协同注意力的小样本的手机屏幕缺陷分割

doi: 10.11999/JEIT210054

许国良^2, ,,
毛骄^{1, 2}

1.
重庆邮电大学通信与信息工程学院重庆 400065
2.
重庆邮电大学电子信息与网络工程研究院重庆 400065

基金项目: 重庆市技术创新与应用示范(产业类重点研发)项目(cstc2018jszx-cyzdX0124)

详细信息

作者简介:
许国良：男，1973年生，教授，硕士生导师，研究方向为光电传感与检测、通信网络设计与规划、大数据分析挖掘

毛骄：女，1997年生，硕士生，研究方向为深度学习、图像处理

通讯作者:
许国良　xugl@cqupt.edu.cn

中图分类号: TN911.73; TP391.4
计量
- 文章访问数: 1187
- HTML全文浏览量: 730
- PDF下载量: 129
- 被引次数: 11
出版历程
- 收稿日期: 2021-01-18
- 修回日期: 2021-05-28
- 网络出版日期: 2021-08-26
- 刊出日期: 2022-04-18

Few-Shot Segmentation on Mobile Phone Screen Defect Based on Co-Attention

XU Guoliang^{2
, ,},
MAO Jiao^{1, 2}

1.
Institute of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
2.
Electronic Information and Networking Research Institute, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

Funds: The Chongqing Technology Innovation and Application Demonstration Special Project -- Key Industrial R&D Projects (cstc2018jszx-cyzdX0124)

摘要

摘要: 在手机屏幕工业化生产过程中，缺陷检测的好坏直接影响手机屏幕的合格率。少量的缺陷样本不足以完成数据驱动的分割网络的训练，因此如何利用少量的缺陷图像完成缺陷分割成为关键问题。该文针对此问题提出一种基于协同注意力的小样本手机屏幕缺陷分割网络(Co-ASNet)。该网络使用交叉注意力块在特征提取时获取更加丰富的上下文缺陷特征信息，同时引入了协同注意力的方式来加强支持图像与查询图像相同缺陷目标之间的特征信息交互，增强缺陷特征表示，另外，使用了改进的联合损失函数来完成网络的训练。该文采用手机屏幕缺陷数据集进行实验，实验结果表明，Co-ASNet能够使用少量的缺陷样本完成良好的缺陷分割效果。
- 手机屏幕缺陷 /
- 小样本分割 /
- 协同注意力 /
- 交叉注意力
Abstract: In the commercial process of mobile phone screens, the quality of defect detection affects directly the qualified rate of mobile phone screens. A few defect samples are not enough to complete the training of data-driven segmentation networks, so how to use a few defect samples to complete the defect segmentation is a key problem. In view of this problem, a Co-Attention Segmentation Network (Co-ASNet) is proposed. This network uses Criss-cross attention blocks to capture contextual defect feature information during feature extraction. At the same time, the Co-attention method is applied to enhance the defect feature information interaction between the same defect target in the support image and query image, and then the defect feature representation is reinforced. Also, the improved joint loss function is used to complete the network training. The experimental results show that Co-ASNet can use a few defect samples to achieve an excellent effect of defect segmentation.
- Mobile phone screen defects /
- Few-shot segmentation /
- Co-attention /
- Criss-cross attention

HTML全文

1. 引言

手机屏幕的生产过程极为复杂，在生产的过程中容易出现各种各样的缺陷，因此要保证手机屏幕高质量的要求，对其进行质量检测是生产过程中必不可少的一道工序。人工检测容易受到主/客观因素的影响，使得检测速度慢、效率低、漏检率高，不适应手机屏幕的快速生产模式。基于机器学习的缺陷检测方法很大程度上依赖缺陷特征提取算法，针对特定缺陷的检测效果较好，然而并不适用于种类繁多复杂的手机屏幕缺陷的检测。近年来，语义分割网络的出现不仅克服了传统检测方法特征提取的问题，还提供缺陷的定位和分类，在缺陷检测领域广泛应用。Tabernik等人^[1]使用双分支网络来实现图像的缺陷检测，但输出的分割图像分辨率为原始输入图像的1/8，这会丢失尺寸较小缺陷的相关信息。一些缺陷分割方法^[2,3]利用多阶段的全卷积网络对输入图像的粗略预测与精细分割，以完成较好的分割效果。另外，一系列基于无监督的缺陷检测方法^[4-7]通过正样本完成对重构网络的训练，然后将输入样本与修复后的图像进行比较，以得到输入样本的分割区域，这类方法很好地解决了大量标注样本的需求问题。不同的是，文献[4]的重构网络是一个卷积去噪自编码器，文献[5]的重构网络则结合了生成对抗网络(Generative Adversarial Network, GAN)和自动编码器，文献[6]融合多个全卷积自编码器重建纹理图像。而文献[7]在深度卷积生成对抗网络(Deep Convolution Generative Adversarial Networks, DCGAN)的基础上，引入一个额外的编码器，以此完成对纹理图像的重建。

然而，上述的分割网络需要大规模的缺陷图像样本来训练网络以获取较好的分割效果。但随着手机屏幕生产技术的提高，能采集到的缺陷类别、数量都是有限的，构建的手机屏幕缺陷图像数据集不足以完成大数据驱动的分割网络的训练。因此，如何利用少量的手机屏幕缺陷图像来很好地完成手机屏幕缺陷分割成为亟待解决的问题。

在很多场景下，收集大量的有标签的数据是非常昂贵、困难甚至不可能的。受这一事实的影响，小样本学习就应运而生，这种方法能够利用先验知识，通过泛化和类比从少量样本中获取知识，同时能快速适应于新任务中。而小样本分割网络旨在利用少量的具有分割标签的样本图像来指导测试图像的分割过程，以此获得测试图像的分割结果。目前，刘宇轩等人^[8]提出了一个注意力谱生成器来融合全局相似性和局部相似性以实现小样本分割。董阳等人^[9]提出基于U-net的原型网络模型完成MR脑瘤图像的分割。罗善威等人^[10]构建孪生残差网络，通过融合空域相似度和频域相似度获得分割结果。

针对手机屏幕缺陷，本文设计了一种基于协同注意力的小样本手机屏幕缺陷分割网络(Co-Attention Segmentation Network, Co-ASNet)。整个网络采用编码器-解码器的架构，在编码阶段引入交叉注意力块(Criss-Cross Attention Block, CC-block)来提取不同尺寸缺陷的特征信息，同时引入的协同注意力更多地用来交换支持图像和查询图像的特征信息以减少类内差距，以此来增强缺陷的特征表示。此外，本文采用了支持图像和查询图像联合损失函数来训练网络，以此来获得更好的分割效果。本文的贡献如下：

(1)设计一种基于协同注意力的小样本手机屏幕缺陷分割网络，用于手机屏幕缺陷分割。在编码模块引入交叉注意力模块来学习上下文信息以更好地表征不同尺寸、不同位置的缺陷信息；

(2)本文引入了协同注意力来增强支持图像与查询图像之间的信息交互，使支持图像更好地指导查询图像的缺陷分割，同时利用支持图像和查询图像的联合损失函数来提升缺陷分割效果；

(3)本文网络的训练采用的是小样本学习中的 $C$ -way $K$ -shot( $C > 1$ )的训练策略，而不是其他小样本分割网络所使用的对于每一类的1-way $K$ -shot策略。

针对手机屏幕缺陷图像数据集，本文所提出的小样本分割网络模型可以取得较好的缺陷分割效果，相较于其他分割网络，该模型能够使用较少的缺陷样本完成较好的缺陷分割。

2. 相关内容

2.1 语义分割

语义分割网络是在目标检测网络的基础上，对输入图像的每个像素进行分类，标注出图像中每个像素的所属的对象类别。2014年，Shelhamer等人^[11]提出的全卷积网络(Fully Convolutional Networks, FCN)去掉了卷积神经网络的全连接层，用卷积层代替得到分割图像。随后，Ronneberger等人^[12]在全卷积网络的基础上设计了U-net，该网络采用编码器-解码器的架构完成分割。SegNet^[13]使用池化索引，即记录下最大像素值的位置，以便于解码时的上采样。DeepLab系列^[14-17]则是引入了空洞卷积来增大感受野，以捕获不同尺度特征的上下文信息。然而，以上分割网络还是依赖大量标签数据来完成分割，针对少量的标签数据，其分割效果较差。本文在少量的手机屏幕缺陷图像的基础上，完成屏幕缺陷的分割。

2.2 小样本学习

小样本学习是一种利用少量有监督信息的机器学习问题，其重点在于在标签数据有限的情况下，网络能够快速地进行学习，并能够泛化到其他新任务中。目前，小样本学习大致分为3类：一是迁移学习^[18]，其将预训练模型迁移到新的模型中，通过少量样本使得模型适应新的应用场景。二是元学习^[19,20]，其模型利用以往的知识经验来指导新任务的学习，具有学会学习的能力。三是基于度量学习的方法^[21-23]，通过学习样本间的距离来减少同类样本距离，增大异类样本距离。孪生网络利用两个并行网络来衡量输入的成对图像的相似程度。匹配网络提出一种小样本学习的通用模型，通过将支持图像和查询图像映射到同一个嵌入空间，利用余弦相似度度量两者的相关性以完成分类。而原型网络在匹配网络的基础上，学习每一个类别的原型表示以计算测试图像与每一类别的相似性。关系网络则是基于小样本学习的网络框架，将相似性度量模型化，利用网络学习两者的相关性。现实中，许多场景样本采集的数量有限或者标注数据的成本太大，针对这些问题，小样本学习能够很好地解决。

2.3 小样本分割

小样本分割主要利用少量标签样本来训练模型，使得模型能泛化新的分割任务。文献[24]和文献[25]利用条件分支对查询图像进行加权生成分割图像。相似性引导网络(Similarity Guidance network for ONE-shot semantic segmentation, SG-ONE)^[26]提出了掩膜平均池化来提取支持图像的表征向量，提高分割效果。文献[27]利用了原型计算相似度，文献[28]则是引入了迭代优化的方法改进模型，以迭代方式优化分割效果。Nguyen等人^[29]改进了SG-One网络。Liu等人^[30]提出了用于小样本分割的交叉参考网络(Cross-Reference Network, CRNet)，该网络利用交叉参考机制可以更好地在两幅图像中找到相同的目标。为了更好地实现在少量样本下的手机屏幕缺陷分割效果，本文采用小样本分割网络框架进行改进。

3. 基于协同注意力的小样本手机屏幕缺陷分割网络

3.1 网络提出

在小样本分割任务中，本文所构建的手机屏幕缺陷图像数据集分为训练集(training set)和测试集(test set)，训练集和测试集不共享手机屏幕缺陷图像。对于每一个训练任务，需要从训练集中抽取 $C$ 个类别，每个类别抽取 $K$ 个样本作为这个任务的支持集(support set) $S = \{ ({I_i},{M_i})\} _{i = 1}^{CK}$ ，当 $K{\rm{ = 1}}$ 时，为1-shot，当 $K > {\rm{1}}$ 时，为 $K$ -shot。而这 $C$ 个类别的其他t个样本则作为此次训练任务的查询集(query set) $Q = \{ ({I_j},{M_j})\} _{j = 1}^{tC}$ ，以此来模拟测试时的标注图像和测试图像。在支持集与查询集中， $I$ 代表了手机屏幕缺陷图像， $M$ 代表了标注的手机屏幕缺陷图像的分割掩码图像。

3.2 网络架构

针对手机屏幕缺陷，本文提出了一种基于协同注意力的小样本手机屏幕缺陷分割网络(Co-ASNet)用于手机屏幕缺陷分割。与其他小样本分割网络架构相似，所提出的Co-ASNet为编码器-解码器的架构，不同的是编码器是由特征提取模块和特征增强模块构成的，如图1所示。在特征提取模块中，为了能够更好地提取到不同尺寸缺陷的特征信息，本文在特征提取模块引入交叉注意力块来有效地获取缺陷图像的上下文信息；而在特征增强模块中，本文沿用了SG-One网络中利用掩码平均池化生成支持图像的代表特征，通过余弦相似度量来指导查询图像的分割过程，同时引入协同注意力来加强查询图像与支持图像之间的信息交互，增强两者在分割过程中的相关性，以此更好地完成查询图像的缺陷分割。在解码器部分，本文采用了U-net的反卷积部分，最后利用联合的支持/查询图像损失函数来训练网络。另外，虚线部分只在训练过程中使用，测试过程只使用实线部分。

图 1 基于协同注意力的小样本手机屏幕缺陷分割网络的网络架构图

下载: 全尺寸图片幻灯片

3.2.1 缺陷图像特征提取模块

针对手机屏幕缺陷的大小、位置灵活等特点，本文在特征提取模块中引入交叉注意力块来获取缺陷图像的上下文信息以有效获取不同尺寸缺陷的特征信息，增强缺陷图像的特征表示。特征提取模块如图2所示，其包含了5个卷积块和两个交叉注意力块，每个卷积块包含一个3×3的卷积层，一个归一化层，一个ReLU激活层以及一个2×2的最大池化层。

图 2 特征提取模块示意图

下载: 全尺寸图片幻灯片

交叉注意力块由Huang等人^[31]用来有效并高效地获取全图像的上下文信息，这对语义分割的效果有显著提高。本文为了能够更好地提取到不同尺寸手机屏幕缺陷的特征信息，在特征提取模块中引入了交叉注意力块，如图3所示。前4层卷积得到的特征图 ${\boldsymbol{F}} \in {\mathbb{R}^{b \times r \times r}}$ 输入到交叉注意力块中，首先分别通过3个1×1的卷积获得3个特征图 ${{\boldsymbol{F}}_1} \in {\mathbb{R}^{{b'} \times r \times r}}$ , ${{\boldsymbol{F}}_2} \in {\mathbb{R}^{{b'} \times r \times r}}$ , ${{\boldsymbol{F}}_3} \in {\mathbb{R}^{b \times r \times r}}$ ，其中 ${b'} = b/8$ 。对于特征图 ${{\boldsymbol{F}}_1}$ 的每一个位置的像素 $i$ ，得到这个像素的特征向量 $\boldsymbol{F}_1^i \in {\mathbb{R}^{{b'}}}$ ，同时，也可以从特征图 ${{\boldsymbol{F}}_2}$ 中获得与位置 $i$ 相同行和列的其他像素(共 $2r - 1$ 个像素)的特征集合 ${{\boldsymbol{\varPhi}} ^i} \in {\mathbb{R}^{(r + r - 1) \times {b'}}}$ ，其中 ${\varPhi }^{i,j}\in {\mathbb{R}}^{{b}^{\rm{'}}}, j=[1,2,\cdots,2r-1]$ , ${\varPhi ^{i,j}}$ 为 ${\varPhi ^i}$ 的第 $j$ 个元素。然后通过关联操作如式(1)，生成特征图 ${{\boldsymbol{F}}_1}$ 和特征图 ${{\boldsymbol{F}}_2}$ 的关联特征图 ${\boldsymbol{G}} \in {\mathbb{R}^{(2r - 1) \times (r \times r)}}$ ，并将其通过softmax来生成注意力图 ${{\boldsymbol{F}}_a} = {\mathbb{R}^{(2r - 1) \times (r \times r)}}$ 。

图 3 交叉注意力块示意图

下载: 全尺寸图片幻灯片

${g^{i,j}} = {\boldsymbol{F}}_1^i{({\varPhi ^{i,j}})^{\rm{T}}},i = 1,2, \cdots ,r \times r,\;j = 1,2, \cdots ,2r - 1$

(1)

${{\boldsymbol{F}}_a} = {\rm{softmax}} ({\boldsymbol{G}})$

(2)

其中， ${g^{i,j}}$ 属于关联特征图G的元素， $i$ 为特征图中一个位置， $j$ 为与位置 $i$ 行和列相同的其他位置。同样可以获得特征图 ${{\boldsymbol{F}}_3}$ 上的位置 $i$ 的特征向量 $\boldsymbol{F}_3^i \in {\mathbb{R}^b}$ ，以及与位置 $i$ 相同行和列的其他位置的特征向量 ${\boldsymbol{\varGamma} ^{i,j}} \in {\mathbb{R}^b},j = 1,2,\cdots ,2r - 1$ ，形成特征集合 ${\boldsymbol{\varGamma} ^i} \in$ ${\mathbb{R}^{(2r - 1) \times b}}$ 。通过聚合操作生成具有上下文信息的新的特征图 ${\bf{FF}} = {\mathbb{R}^{b \times r \times r}}$ 如式(3)

${\bf{F}}{{\bf{F}}^i} = \sum\limits_{j = 0}^{2r - 1} {{{\boldsymbol{F}}_a}^{i,j}} {{\boldsymbol{\varGamma}} ^{i,j}} + {{\boldsymbol{F}}^i},i = 1,2, \cdots ,r \times r$

(3)

对于位置 $i$ ， ${{\boldsymbol{F}}^i}$ 为原输入特征 ${\boldsymbol{F}}$ 对于位置 $i$ 的特征向量。

虽然每一个交叉注意力块可以聚合某个位置上的水平和垂直方向上的特征信息，但这个位置周围其他不在同一行/列的位置之间的相关性无法获得。而文献[31]连续采用两个交叉注意力块可以从所有像素中获取全图像的上下文信息，生成具有密集和丰富的上下文信息的新特征，在很大程度上节约了时间和GPU内存。本文采用两个交叉注意力块来获取手机屏幕缺陷的丰富的特征信息。

3.2.2 特征增强模块

在小样本分割网络中，为了使查询图像的分割效果更好，通常使用支持图像及其分割掩膜图像对查询图像进行条件处理，指导完成查询图像分割过程。本文利用SG-One网络所提出掩膜平均池化来获取支持图像的代表特征，并利用相似度度量的方式来建立支持图像特征和查询图像特征之间的关系；同时为了使查询图像与支持图像的信息交互得更加充分，本文还引入了协同注意力来强调查询图像与支持图像的相同目标的相关性。图4所展示的是特征增强模块的整体架构。

图 4 特征增强模块架构图

下载: 全尺寸图片幻灯片

(1)掩膜平均池化。在网络每一次的训练任务中，支持/查询集都是以 $({\boldsymbol{I}},{\boldsymbol{M}})$ 成对的方式出现，其中 ${\boldsymbol{I}} \in {\mathbb{R}^{1 \times m \times m}}$ 为缺陷图像， ${\boldsymbol{M}} \in {\mathbb{R}^{m \times m}}$ 为该缺陷图像的掩膜图像。支持缺陷图像在经过特征提取模块后获得其特征图 ${{\boldsymbol{f}}_s} \in {\mathbb{R}^{c \times n \times n}}$ 。相同地，也获得查询缺陷图像的特征图 ${{\boldsymbol{f}}_q} \in {\mathbb{R}^{c \times n \times n}}$ ，然后将 ${{\boldsymbol{f}}_s}$ 通过双线性插值法恢复到与掩膜图像相同大小的特征图 ${{\boldsymbol{f}}_{s1}} \in {\mathbb{R}^{c \times m \times m}}$ ，然后结合掩膜图像通过式(4)计算得到支持图像的代表特征 ${\boldsymbol{V}} \in {\mathbb{R}^{1 \times c}}$

${{\boldsymbol{V}}_i} = \frac{{\displaystyle\sum\limits_{x = 1,y = 1}^{m,m} {{{\boldsymbol{M}}_s}{{^{}}_{x,y}} \times {{\boldsymbol{f}}_{s1}}{{^i}_{x,y}}} }}{{\displaystyle\sum\limits_{x = 1,y = 1}^{m,m} {{{\boldsymbol{M}}_s}{{^{}}_{x,y}}} }}$

(4)

其中， ${{\boldsymbol{M}}_s}{^{}_{x,y}}$ 是指支持图像的掩膜图像的第 $x$ 行第 $y$ 列的位置， $i$ 是指支持图像的特征图 ${{\boldsymbol{f}}_{s1}}$ 的第 $i$ 个通道， $m$ 为掩膜图像大小， ${V_i}$ 则是支持图像的代表向量 ${\boldsymbol{V}}$ 的第 $i$ 个元素。接下来，使用相似度度量的方式来计算支持图像的代表特征 ${\boldsymbol{V}}$ 与查询缺陷图像特征 ${{\boldsymbol{f}}_q}$ 之间的相似矩阵 ${\boldsymbol{S}} \in {\mathbb{R}^{n \times n}}$ ，如式(5)所示

${{\boldsymbol{S}}_{x,y}} = \frac{{{\boldsymbol{V}} \times {{\boldsymbol{f}}_q}{{^{}}_{x,y}}}}{{{{\left\| {\boldsymbol{V}} \right\|}_2} \times {{\left\| {{{\boldsymbol{f}}_q}{{^{}}_{x,y}}} \right\|}_2}}}$

(5)

其中， ${{\boldsymbol{f}}_q}{^{}_{x,y}} \in {\mathbb{R}^{c \times 1}}$ 为查询图像特征图 ${{\boldsymbol{f}}_q}$ 第 $x$ 列第 $y$ 行位置， ${\boldsymbol{V}}$ 是支持图像的代表特征。最后通过像素相乘的方式来融合查询缺陷图像特征图 ${{\boldsymbol{f}}_q}$ 和相似矩阵 ${\boldsymbol{S}}$ 来生成新的查询缺陷图像特征图 ${\boldsymbol{f}}''_{q}\in {\mathbb{R}}^{c\times n\times n}$ 。

(a)1-shot。对于 $K = 1$ 时，表示在支持集中，每种类别的缺陷图像只有1个。本文将特征提取模块输入的支持图像特征直接作为这类缺陷的缺陷图，结合这个缺陷图像的分割掩膜图像，来指导查询图像的分割过程。

(b) $K$ -shot。 $K > 1$ ，即对于每一类缺陷，支持集中包含着 $K$ 个缺陷样本。本文将这 $K$ 个支持样本的特征图进行加权平均来作为这类缺陷的特征图，同时对这 $K$ 个缺陷样本对应的掩膜图像也进行加权平均得到一个新的掩膜图像，使用新特征图和新的掩膜图像来完成掩膜平均池化过程。

(2)协同注意力。在掩膜平均池化时，虽然利用支持图像及其掩膜图像生成的代表特征来进一步指导查询图像的特征的形成，但两者信息的交互是单方面从支持图像对查询图像。但在小样本分割网络训练过程中，缺陷图像在不同的训练任务中扮演着不同的角色，可能作为支持图像，可能作为查询图像，这说明在训练时，支持集和测试集是可以相互影响的。为了进一步加强支持集与查询集的相同目标之间的信息交互，本文引入协同分割的机制来对查询缺陷图像特征进行细化，如图4所示。

具体来说，本文将前期所得到的支持缺陷图像特征图 ${{\boldsymbol{f}}_s} \in {\mathbb{R}^{c \times n \times n}}$ 和查询缺陷图像特征图 ${\boldsymbol{f}}''_{q}\in {\mathbb{R}}^{c\times n\times n}$ 作为协同分割机制的输入。然后分别对 ${{\boldsymbol{f}}_s}$ 和 ${{\boldsymbol{f}}}''_{q}{}$ 进行全局平均池化，然后通过两个全连接层，上采样，得到两个权重矩阵 ${{\boldsymbol{W}}_s},{{\boldsymbol{W}}_q} \in {\mathbb{R}^{c \times n \times n}}$ ，最后将得到的权重向量 ${{\boldsymbol{W}}_s}$ 与 ${{\boldsymbol{f}}}_{q}''$ 进行通道相乘得到查询图像的注意力特征图 ${{\boldsymbol{f}}}''_{q}{}^{a}\in {\mathbb{R}}^{c\times n\times n}$ ，同样将 ${{\boldsymbol{W}}_q}$ 与 ${{\boldsymbol{f}}_s}$ 相乘得到支持图像的注意力特征图 ${{\boldsymbol{f}}^a_s} \in {\mathbb{R}^{c \times n \times n}}$ ，公式化表达如式(6)—式(9)所示。其中， $\sigma$ 代表了两个全连接层和上采样过程。

${{\boldsymbol{W}}_s} = \sigma ({\rm{AvgPoo}}{{\rm{l}}_{{\rm{channel}}}}({{\boldsymbol{f}}_s}))$

(6)

${{\boldsymbol{W}}}_{q}=\sigma ({\rm{AvgPool}}_{\rm{channel}}({\boldsymbol{f}}''_{q}))$

(7)

${\boldsymbol{f}}_s^a = {{\boldsymbol{W}}_q} \times {{\boldsymbol{f}}_s}$

(8)

${\boldsymbol{f}}''^a_{q}={\boldsymbol{W}}_{s} \times {\boldsymbol{f}}''_{q}$

(9)

3.2.3 解码器

类似U-net，本文在解码的过程中，采用跳跃连接的方式对提取到的特征生成缺陷分割图像，如图5所示。本文将特征提取模块中的第3个卷积层和第4个卷积层与解码器中第一个反卷积层的输出和第2个卷积层的输出相加，共同作为下一层的输入，最终解码器输出的分割图像与掩膜图像一样大。在本文中，由于在特征加强模块中引入了协同分割机制，这不管是对支持图像的特征还是对查询图像的特征都会有更加丰富的特征表示，所以在训练阶段，训练网络的损失的函数也做一定的改进。不管是支持图像还是查询图像，对两者的特征进行恢复得到的分割图像都会有利于网络的训练，增强缺陷分割的效果。本文联合了支持图像和查询图像的交叉熵损失函数，共同训练网络，如式(10)所示。

图 5 编码-解码过程示意图

下载: 全尺寸图片幻灯片

$L{\rm{ }} = {l_{{\rm{support}}}} + {l_{{\rm{query}}}}$

(10)

4. 实验与分析

4.1 手机屏幕缺陷图像数据集

本文是针对手机屏幕缺陷所提出的小样本分割方法，为了验证所提出的网络的性能，构建手机屏幕缺陷数据集，如表1所示。整个数据集从手机屏幕工厂生产线采集到的3750×2098高分辨率手机屏幕缺陷图像通过剪切成160×160大小的缺陷图像构成。其中，960张缺陷图像用于整个网络的训练，140张缺陷图像用于测试。由于构建的手机屏幕缺陷数据集的数据量较少，在对缺陷进行分类时，缺陷分成了3个类别：点缺陷、线缺陷以及面缺陷，以此来完成手机屏幕缺陷分割。

表 1 手机屏幕缺陷图像数据集

类别	点	线	面
缺陷图像
掩膜图像

下载: 导出CSV

| 显示表格

4.2 实验细节

本文的全部实验均在PyTorch深度学习框架下实现，使用了动量为0.7的SGD优化器来优化所有的网络模型，初始学习率设置为0.01，每训练10000次，学习率降低一半，网络总共训练100000次。最后采用联合的交叉熵损失函数来完成网络的训练。

在训练时，跟之前小样本分割网络所采用的策略不同，它们的每一次训练任务只有一种类型的 $K$ 个样本参与训练，相当于1-way $K$ -shot的训练策略。本文采用了通过小样本学习类似的训练策略 $C$ -way $K$ -shot的方式来训练本文构建的Co-ASNet。具体地，在实验过程中，设置了3-way 1-shot和3-way 5-shot两种训练模式，也就是说，在每一次的训练任务中，参与训练的缺陷类别包括了点、线、面3类，每一类缺陷的支持样本分别为1和5，以此来完成网络的整体训练。在测试时，采用了与训练相同的策略，但不同的是，在训练时，不论是支持样本还是查询样本都是从训练集中选取的，而测试过程是从训练集中获取支持集，从测试集中抽取测试样本，这些测试样本是在训练过程中未被网络训练过的样本。

4.3 实验结果及分析

为了评估网络对手机屏幕缺陷检测的效果，使用的评判指标是像素准确率(Pixel Accuracy, PA)、平均像素准确率(Mean Pixel Accuracy, MPA)、平均交并比(Mean Intersection over Union, MIoU)以及频率加权交并比(Frequency Weighted Intersection over Union, FWIoU)，具体的定义如式(11)—式(14)。

${\rm{PA}} = \frac{{\displaystyle\sum\limits_{i = 0}^k {{p_{_{ii}}}} }}{{\displaystyle\sum\limits_{i = 0}^k {\sum\limits_{j = 0}^k {{p_{ij}}} } }}$

(11)

${\rm{MPA}} = \frac{1}{{k + 1}}\sum\limits_{i = 0}^k {\frac{{{p_{_{ii}}}}}{{\displaystyle\sum\limits_{j = 0}^k {{p_{ij}}} }}}$

(12)

${\rm{MIoU}} = \frac{1}{{k + 1}}\sum\limits_{i = 0}^k {\frac{{{p_{_{ii}}}}}{{\displaystyle\sum\limits_{j = 0}^k {{p_{ij}} + \displaystyle\sum\limits_{j = 0}^k {{p_{ji}} - {p_{ii}}} } }}}$

(13)

${\rm{FWIoU}} = \frac{1}{{\displaystyle\sum\limits_{i = 0}^k {\displaystyle\sum\limits_{j = 0}^k {{p_{ij}}} } }}\sum\limits_{i = 0}^k {\frac{{{p_{_{ii}}}}}{{\displaystyle\sum\limits_{j = 0}^k {{p_{ij}} + \sum\limits_{j = 0}^k {{p_{ji}} - {p_{ii}}} } }}}$

(14)

其中， ${p_{ii}}$ 为像素真实类别为 $i$ 被预测为类别 $i$ 的数量， ${p_{ij}}$ 为像素真实类别为 $i$ 却被预测为类别 $j$ 的数量， $k$ 为分类的类别数。

在本文的实验验证过程中，除了实现本文所提出的网络，还对比了传统的语义分割网络U-net以及小样本分割网络SG-One，具体的实验结果如表2所示，可以看出，本文所提出的网络在评判指标上均取得比较好的结果。具体来说，U-net对于只有少量的手机屏幕缺陷样本来说，其分割的效果不是很理想，而SG-One网络不论是在1-shot还是在5-shot, MIoU值相较于U-net有所提高。当 $K = 5$ 时，本文所提出的网络在SG-One的基础上，MPA和MIoU值达到了最大，MPA为0.6711, MIoU为0.5771，对手机屏幕缺陷语义分割的效果进一步提高。另外，图6也给出了各种网络对手机屏幕缺陷的分割效果图，在测试1-shot时，本文使用表1的缺陷图像作为支持集，在5-shot测试时，支持集也包含表1的缺陷图像。

表 2 不同分割网络模型在手机屏幕缺陷数据集的性能比较

模型	PA	MPA	MIoU	FWMIoU
U-net	0.9610	0.4635	0.4074	0.9334
SG-One(1-shot)	0.9658	0.5392	0.4647	0.9412
SG-One(5-shot)	0.9669	0.5199	0.4622	0.9432
Co-ASNet(1-shot)	0.9712	0.6435	0.5588	0.9489
Co-ASNet(5-shot)	0.9709	0.6711	0.5771	0.9482

下载: 导出CSV

| 显示表格

图 6 不同分割网络对手机屏幕缺陷图像的分割效果可视化

下载: 全尺寸图片幻灯片

除此之外，对于本文所提出的网络自身，引入了协同分割机制来增强缺陷特征的表达，也改进了损失函数来提升网络的性能。为了能够更好地展示引入的交叉注意力、协同分割机制和改进的损失函数对手机屏幕缺陷语义分割的影响，本文也做了相关消融实验，如表3所示。在只将支持图像的注意力特征图来细化查询图像特征信息，这虽然在SG-One的基础上分割的效果有一定的提升，但对于支持图像特征与查询图像特征之间的相互交互来讲，分割的效果有待提高。而当改进损失函数，联合查询图像和支持图像一起来训练，加强了两者相同目标之间的信息的交互，使得支持图像更好地指导查询图像的分割过程，提升了分割效果。不管是在1-shot，还是在5-shot的设置下，本文所提出的网络取得的分割效果更好。在1-shot下，MIoU值达到0.5588，而在5-shot设置下，MIoU值达到最大0.5771。

表 3 在手机屏幕缺陷图像数据集上的分割结果(MIoU)

模型	1-shot	5-shot
SG-One	0.4647	0.4622
SG-One + cc-block	0.5244	0.5592
SG-One + co-a ( $L{\rm{ }} = {l_{{\rm{query}}}}$ )	0.4563	0.4584
SG-One + co-a	0.5476	0.5701
Co-ASNet( $L{\rm{ }} = {l_{{\rm{query}}}}$ )	0.4988	0.5380
Co-ASNet	0.5588	0.5771

下载: 导出CSV

| 显示表格

最后，对于Co-ASNet所引入的交叉注意力以及联合训练的协同注意力机制在分割结果上带来的效果上的提升，本文在图7、图8分别针对1-shot和5-shot的设置，不同的消融实验对手机屏幕缺陷分割效果的可视化展示。

图 7 1-shot下的手机屏幕缺陷图像的分割效果可视化

下载: 全尺寸图片幻灯片

图 8 5-shot下的手机屏幕缺陷图像的分割效果可视化

下载: 全尺寸图片幻灯片

5. 结束语

本文针对手机屏幕缺陷，提出了基于协同注意力的小样本的手机屏幕缺陷分割网络。整个网络由特征提取模块、特征增强模块以及解码器3个部分构成。在特征提取模块中，引入交叉注意力模块以获取更加丰富的特征信息；其次，为了加强支持图像与查询图像特征的相同目标的特征信息交互，在特征增强模块采用了协同注意力来处理；最后在解码器中，逐步生成缺陷图像的分割图像。在网络的训练过程中，联合支持图像与查询图像损失函数共同训练网络，增强网络分割效果。虽然所提出的网络缓解了工业上手机屏幕缺陷样本较少的问题，但在缺陷分割场景中的分割效果还达不到工业化缺陷检测的标准，对分割的效果还有待提升。因此，未来的研究还要着重提升网络的分割效果，以实现精确的定位与分类。

图 1 基于协同注意力的小样本手机屏幕缺陷分割网络的网络架构图

下载: 全尺寸图片幻灯片

图 2 特征提取模块示意图

下载: 全尺寸图片幻灯片

图 3 交叉注意力块示意图

下载: 全尺寸图片幻灯片

图 4 特征增强模块架构图

下载: 全尺寸图片幻灯片

图 5 编码-解码过程示意图

下载: 全尺寸图片幻灯片

图 6 不同分割网络对手机屏幕缺陷图像的分割效果可视化

下载: 全尺寸图片幻灯片

图 7 1-shot下的手机屏幕缺陷图像的分割效果可视化

下载: 全尺寸图片幻灯片

图 8 5-shot下的手机屏幕缺陷图像的分割效果可视化

下载: 全尺寸图片幻灯片

表 1 手机屏幕缺陷图像数据集

类别	点	线	面
缺陷图像
掩膜图像

下载: 导出CSV

表 2 不同分割网络模型在手机屏幕缺陷数据集的性能比较

模型	PA	MPA	MIoU	FWMIoU
U-net	0.9610	0.4635	0.4074	0.9334
SG-One(1-shot)	0.9658	0.5392	0.4647	0.9412
SG-One(5-shot)	0.9669	0.5199	0.4622	0.9432
Co-ASNet(1-shot)	0.9712	0.6435	0.5588	0.9489
Co-ASNet(5-shot)	0.9709	0.6711	0.5771	0.9482

下载: 导出CSV

表 3 在手机屏幕缺陷图像数据集上的分割结果(MIoU)

模型	1-shot	5-shot
SG-One	0.4647	0.4622
SG-One + cc-block	0.5244	0.5592
SG-One + co-a ( $L{\rm{ }} = {l_{{\rm{query}}}}$ )	0.4563	0.4584
SG-One + co-a	0.5476	0.5701
Co-ASNet( $L{\rm{ }} = {l_{{\rm{query}}}}$ )	0.4988	0.5380
Co-ASNet	0.5588	0.5771

下载: 导出CSV

参考文献(31)

[1]	TABERNIK D, ŠELA S, SKVARČ J, et al. Segmentation-based deep-learning approach for surface-defect detection[J]. Journal of Intelligent Manufacturing, 2020, 31(3): 759–776. doi: 10.1007/s10845-019-01476-x
[2]	YU Zhiyang, WU Xiaojun, and GU Xiaodong. Fully convolutional networks for surface defect inspection in industrial environment[C]. 11th International Conference on Computer Vision Systems, Shenzhen, China, 2017: 417-426.
[3]	QIU Lingteng, WU Xiaojun, and YU Zhiyang. A high-efficiency fully convolutional networks for pixel-wise surface defect detection[J]. IEEE Access, 2019, 7: 15884–15893. doi: 10.1109/ACCESS.2019.2894420
[4]	张宏伟, 汤文博, 李鹏飞, 等. 基于去噪卷积自编码器的色织衬衫裁片缺陷检测[J]. 纺织高校基础科学学报, 2019, 32(2): 119–125, 132. ZHANG Hongwei, TANG Wenbo, LI Pengfei, et al. Defect detection and location of yarn-dyed shirt piece based on denoising convolutional autoencoder[J]. Basic Sciences Journal of Textile Universities, 2019, 32(2): 119–125, 132.
[5]	ZHAO Zhixuan, LI Bo, DONG Rong, et al. A surface defect detection method based on positive samples[C]. The 15th Pacific Rim International Conference on Artificial Intelligence, Nanjing, China, 2018: 473-481.
[6]	YANG Hua, CHEN Yifan, SONG Kaiyou, et al. Multiscale feature-clustering-based fully convolutional autoencoder for fast accurate visual inspection of texture surface defects[J]. IEEE Transactions on Automation Science and Engineering, 2019, 16(3): 1450–1467. doi: 10.1109/TASE.2018.2886031
[7]	HU Guanghua, HUANG Junfeng, WANG Qinghui, et al. Unsupervised fabric defect detection based on a deep convolutional generative adversarial network[J]. Textile Research Journal, 2020, 90(3/4): 247–270.
[8]	刘宇轩, 孟凡满, 李宏亮, 等. 一种结合全局和局部相似性的小样本分割方法[J]. 北京航空航天大学学报, 2021, 47(3): 665–674. LIU Yuxuan, MENG Fanman, LI Hongliang, et al. A few shot segmentation method combining global and local similarity[J]. Journal of Beijing University of Aeronautics and Astronautics, 2021, 47(3): 665–674.
[9]	董阳, 潘海为, 崔倩娜, 等. 面向多模态磁共振脑瘤图像的小样本分割方法[J]. 计算机应用, 2021, 41(4): 1049–1054. DONG Yang, PAN Haiwei, CUI Qianna, et al. Few-shot segmentation method for multi-modal magnetic resonance images of brain Tumor[J]. Journal of Computer Applications, 2021, 41(4): 1049–1054.
[10]	罗善威, 陈黎. 基于双重相似度孪生网络的小样本实例分割[J]. 武汉科技大学学报, 2020, 43(1): 59–66. LUO Shanwei and CHEN Li. Few-shot instance segmentation based on double similarity Siamese network[J]. Journal of Wuhan University of Science and Technology, 2020, 43(1): 59–66.
[11]	SHELHAMER E, LONG J, and DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640–651. doi: 10.1109/TPAMI.2016.2572683
[12]	RONNEBERGER O, FISCHER P, and BROX T. U-Net: Convolutional networks for biomedical image segmentation[C]. The 18th International Conference on Medical Image Computing and Computer-Assisted Intervention, Munich, Germany, 2015: 234-241.
[13]	BADRINARAYANAN V, KENDALL A, and CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481–2495. doi: 10.1109/TPAMI.2016.2644615
[14]	CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected crfs[J]. arXiv preprint arXiv:1412.7062, 2014.
[15]	CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, , 2017, 40(4): 834–848.
[16]	CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[J]. arXiv preprint arXiv: 1706.05587, 2017.
[17]	CHEN L C, ZHU Yukun, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]. The 15th European Conference on Computer Vision (ECCV), Munich, Germany, 2018: 833-851.
[18]	REN Mengye, TRIANTAFILLOU E, RAVI S, et al. Meta-learning for semi-supervised few-shot classification[J]. arXiv preprint arXiv: 1803.00676, 2018.
[19]	FINN C, ABBEEL P, and LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks[C]. The 34th International Conference on Machine Learning, Sydney, Australia, 2017: 1126-1135.
[20]	NICHOL A and SCHULMAN J. Reptile: A scalable metalearning algorithm[J]. arXiv preprint arXiv: 1803.02999, 2018.
[21]	SNELL J, SWERSKY K, and ZEMEL Z. Prototypical networks for few-shot learning[C]. Proceedings of the 31st International Conference on Neural Information Processing Systems (NIPS), Long Beach, USA, 2017: 4080-4090.
[22]	SUNG F, YANG Yongxin, ZHANG Li, et al. Learning to compare: Relation network for few-shot learning[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 1199-1208.
[23]	VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning[C]. Proceedings of the 30th International Conference on Neural Information Processing Systems (NIPS), Barcelona, Spain, 2016: 3637-3645.
[24]	SHABAN A, BANSAL S, LIU Zhen, et al. One-shot learning for semantic segmentation[J]. arXiv preprint arXiv: 1709.03410, 2017.
[25]	RAKELLY K, SHELHAMER E, DARRELL T, et al. Conditional networks for few-shot semantic segmentation[C]. Sixth International Conference on Learning Representations, Vancouver, Canada, 2018.
[26]	ZHANG Xiaolin, WEI Yunchao, YANG Yi, et al. SG-One: Similarity guidance network for one-shot semantic segmentation[J]. IEEE Transactions on Cybernetics, 2020, 50(9): 3855–3865. doi: 10.1109/TCYB.2020.2992433
[27]	ZHANG Chi, LIN Guosheng, LIU Fayao, et al. CANet: Class-agnostic segmentation networks with iterative refinement and attentive few-shot learning[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, USA, 2019: 5212-5221.
[28]	WANG Kaixin, LIEW J H, ZOU Yingtian, et al. PANet: Few-shot image semantic segmentation with prototype alignment[C]. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, South Korea, 2019: 9196-9205.
[29]	NGUYEN K and TODOROVIC S. Feature weighting and boosting for few-shot segmentation[C]. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, South Korea, 2019: 622-631.
[30]	LIU Weide, ZHANG Chi, LIN Guosheng, et al. CRNet: Cross-reference networks for few-shot segmentation[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, 2020: 4164-4172.
[31]	HUANG Zilong, WANG Xinggang, HUANG Lichao, et al. CCNet: Criss-cross attention for semantic segmentation[C]. 2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, South Korea, 2019: 603-612.

施引文献

期刊类型引用(5)

1.	吴一全，庞雅轩. 手机表面缺陷的机器视觉检测方法研究进展. 智能系统学报. 2025(01): 33-51 . 百度学术
2.	徐兴宇，钟羽中，涂海燕，佃松宜. 基于深度半监督学习的小样本金属工件表面缺陷分割. 计算机应用研究. 2024(08): 2540-2545 . 百度学术
3.	韦婷，李馨蕾，刘慧. 小样本困境下的图像语义分割综述. 计算机工程与应用. 2023(02): 1-11 . 百度学术
4.	王一，龚肖杰，程佳. 基于改进U-net的金属工件表面缺陷分割方法. 激光与光电子学进展. 2023(15): 333-338 . 百度学术
5.	陈德阳，唐智，何牧耕. 基于OCR-UNet的金属表面缺陷分割. 组合机床与自动化加工技术. 2023(11): 169-173 . 百度学术

其他类型引用(6)

资源附件(0)

访问统计

图(8) / 表(3)

计量

文章访问数: 1187
HTML全文浏览量: 730
PDF下载量: 129
被引次数: 11

1. 引言
2. 相关内容
2.1 语义分割
2.2 小样本学习
2.3 小样本分割
3. 基于协同注意力的小样本手机屏幕缺陷分割网络
3.1 网络提出
3.2 网络架构
4. 实验与分析
4.1 手机屏幕缺陷图像数据集
4.2 实验细节
4.3 实验结果及分析
5. 结束语

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于协同注意力的小样本的手机屏幕缺陷分割

doi: 10.11999/JEIT210054

作者简介:
许国良：男，1973年生，教授，硕士生导师，研究方向为光电传感与检测、通信网络设计与规划、大数据分析挖掘

毛骄：女，1997年生，硕士生，研究方向为深度学习、图像处理

通讯作者:
许国良　xugl@cqupt.edu.cn

计量

Few-Shot Segmentation on Mobile Phone Screen Defect Based on Co-Attention

1. 引言

2. 相关内容

2.1 语义分割

2.2 小样本学习

2.3 小样本分割

3. 基于协同注意力的小样本手机屏幕缺陷分割网络

3.1 网络提出

3.2 网络架构

3.2.1 缺陷图像特征提取模块

3.2.2 特征增强模块

3.2.3 解码器

4. 实验与分析

4.1 手机屏幕缺陷图像数据集

4.2 实验细节

4.3 实验结果及分析

5. 结束语

期刊类型引用(5)

其他类型引用(6)

计量

目录

1. 引言

2. 相关内容

2.1 语义分割

2.2 小样本学习

2.3 小样本分割

3. 基于协同注意力的小样本手机屏幕缺陷分割网络

3.1 网络提出

3.2 网络架构

4. 实验与分析

4.1 手机屏幕缺陷图像数据集

4.2 实验细节

4.3 实验结果及分析

5. 结束语

留言板

基于协同注意力的小样本的手机屏幕缺陷分割

doi: 10.11999/JEIT210054

作者简介: 许国良：男，1973年生，教授，硕士生导师，研究方向为光电传感与检测、通信网络设计与规划、大数据分析挖掘 毛骄：女，1997年生，硕士生，研究方向为深度学习、图像处理

通讯作者: 许国良 xugl@cqupt.edu.cn

计量

出版历程

Few-Shot Segmentation on Mobile Phone Screen Defect Based on Co-Attention

1. 引言

2. 相关内容

2.1 语义分割

2.2 小样本学习

2.3 小样本分割

3. 基于协同注意力的小样本手机屏幕缺陷分割网络

3.1 网络提出

3.2 网络架构

3.2.1 缺陷图像特征提取模块

3.2.2 特征增强模块

3.2.3 解码器

4. 实验与分析

4.1 手机屏幕缺陷图像数据集

4.2 实验细节

4.3 实验结果及分析

5. 结束语

期刊类型引用(5)

其他类型引用(6)

计量

出版历程

目录

1. 引言

2. 相关内容

2.1 语义分割

2.2 小样本学习

2.3 小样本分割

3. 基于协同注意力的小样本手机屏幕缺陷分割网络

3.1 网络提出

3.2 网络架构

4. 实验与分析

4.1 手机屏幕缺陷图像数据集

4.2 实验细节

4.3 实验结果及分析

5. 结束语

作者简介:
许国良：男，1973年生，教授，硕士生导师，研究方向为光电传感与检测、通信网络设计与规划、大数据分析挖掘

毛骄：女，1997年生，硕士生，研究方向为深度学习、图像处理

通讯作者:
许国良　xugl@cqupt.edu.cn