基于新词发现的跨领域中文分词方法

张军; 赖志鹏; 李学; 宁更新; 杨萃

doi:10.11999/JEIT210675

基于新词发现的跨领域中文分词方法

doi: 10.11999/JEIT210675

华南理工大学电子与信息学院广州 510641

基金项目: 国家自然科学基金(61871191)，广东省自然科学基金(2020A1515010962)，广州市科技计划(202002030251)

详细信息

作者简介:
张军：男，副教授，研究方向为语音信号处理、水声信号处理

赖志鹏：男，硕士生，研究方向为语音信号处理、自然语言处理

李学：男，硕士，研究方向为自然语言处理

宁更新：男，副教授，研究方向为语音信号处理、水声信号处理

杨萃：女，副教授，研究方向为信号处理、超声机器人

通讯作者:
张军　eejzhang@scut.edu.cn

中图分类号: TP931
计量
- 文章访问数: 965
- HTML全文浏览量: 969
- PDF下载量: 139
- 被引次数: 18
出版历程
- 收稿日期: 2021-07-06
- 修回日期: 2021-09-14
- 录用日期: 2021-09-14
- 网络出版日期: 2021-12-25
- 刊出日期: 2022-09-19

Cross-domain Chinese Word Segmentation Based on New Word Discovery

School of Electronic and Information Engineering, South China University of Technology, Guangzhou 510641, China

Funds: The National Natural Science Foundation of China (61871191), The Natural Science Foundation of Guangdong Province (2020A1515010962), The Natural Science Foundation of Guangzhou (202002030251)

摘要

摘要: 深度神经网络(DNN)是目前中文分词的主流方法，但将针对某一领域训练的网络模型用于其他领域时，会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降，而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题，该文构建了一个基于新词发现的跨领域中文分词系统，可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外，针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题，提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域，结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。
- 中文分词 /
- 新词发现 /
- 跨领域 /
- 向量增强互信息 /
- 对抗式训练
Abstract: Deep Neural Network (DNN) is the major method in current Chinese word segmentation. However, its performance is significantly degraded when the network trained for one domain is used in other domains due to the Out Of Vocabulary (OOV) words and expression gaps. In this paper, a cross domain Chinese word segmentation system based on new word discovery is built to handle the OOV word and expression gap problems. An unsupervised new word discovery algorithm based on vector enhanced mutual information and weighted adjacency entropy, and a Chinese word segmentation model based on adversarial training are also proposed to improve the performance of the baseline system. Experimental results show that the proposed method is superior to the conventional methods in the OOV rates, precisions, recalls and F-scores.
- Chinese word segmentation /
- New word discovery /
- Cross-domain /
- Vector enhancement mutual information /
- Adversarial training

HTML全文

1. 引言

手机屏幕的生产过程极为复杂，在生产的过程中容易出现各种各样的缺陷，因此要保证手机屏幕高质量的要求，对其进行质量检测是生产过程中必不可少的一道工序。人工检测容易受到主/客观因素的影响，使得检测速度慢、效率低、漏检率高，不适应手机屏幕的快速生产模式。基于机器学习的缺陷检测方法很大程度上依赖缺陷特征提取算法，针对特定缺陷的检测效果较好，然而并不适用于种类繁多复杂的手机屏幕缺陷的检测。近年来，语义分割网络的出现不仅克服了传统检测方法特征提取的问题，还提供缺陷的定位和分类，在缺陷检测领域广泛应用。Tabernik等人^[1]使用双分支网络来实现图像的缺陷检测，但输出的分割图像分辨率为原始输入图像的1/8，这会丢失尺寸较小缺陷的相关信息。一些缺陷分割方法^[2,3]利用多阶段的全卷积网络对输入图像的粗略预测与精细分割，以完成较好的分割效果。另外，一系列基于无监督的缺陷检测方法^[4-7]通过正样本完成对重构网络的训练，然后将输入样本与修复后的图像进行比较，以得到输入样本的分割区域，这类方法很好地解决了大量标注样本的需求问题。不同的是，文献[4]的重构网络是一个卷积去噪自编码器，文献[5]的重构网络则结合了生成对抗网络(Generative Adversarial Network, GAN)和自动编码器，文献[6]融合多个全卷积自编码器重建纹理图像。而文献[7]在深度卷积生成对抗网络(Deep Convolution Generative Adversarial Networks, DCGAN)的基础上，引入一个额外的编码器，以此完成对纹理图像的重建。

然而，上述的分割网络需要大规模的缺陷图像样本来训练网络以获取较好的分割效果。但随着手机屏幕生产技术的提高，能采集到的缺陷类别、数量都是有限的，构建的手机屏幕缺陷图像数据集不足以完成大数据驱动的分割网络的训练。因此，如何利用少量的手机屏幕缺陷图像来很好地完成手机屏幕缺陷分割成为亟待解决的问题。

在很多场景下，收集大量的有标签的数据是非常昂贵、困难甚至不可能的。受这一事实的影响，小样本学习就应运而生，这种方法能够利用先验知识，通过泛化和类比从少量样本中获取知识，同时能快速适应于新任务中。而小样本分割网络旨在利用少量的具有分割标签的样本图像来指导测试图像的分割过程，以此获得测试图像的分割结果。目前，刘宇轩等人^[8]提出了一个注意力谱生成器来融合全局相似性和局部相似性以实现小样本分割。董阳等人^[9]提出基于U-net的原型网络模型完成MR脑瘤图像的分割。罗善威等人^[10]构建孪生残差网络，通过融合空域相似度和频域相似度获得分割结果。

针对手机屏幕缺陷，本文设计了一种基于协同注意力的小样本手机屏幕缺陷分割网络(Co-Attention Segmentation Network, Co-ASNet)。整个网络采用编码器-解码器的架构，在编码阶段引入交叉注意力块(Criss-Cross Attention Block, CC-block)来提取不同尺寸缺陷的特征信息，同时引入的协同注意力更多地用来交换支持图像和查询图像的特征信息以减少类内差距，以此来增强缺陷的特征表示。此外，本文采用了支持图像和查询图像联合损失函数来训练网络，以此来获得更好的分割效果。本文的贡献如下：

(1)设计一种基于协同注意力的小样本手机屏幕缺陷分割网络，用于手机屏幕缺陷分割。在编码模块引入交叉注意力模块来学习上下文信息以更好地表征不同尺寸、不同位置的缺陷信息；

(2)本文引入了协同注意力来增强支持图像与查询图像之间的信息交互，使支持图像更好地指导查询图像的缺陷分割，同时利用支持图像和查询图像的联合损失函数来提升缺陷分割效果；

(3)本文网络的训练采用的是小样本学习中的 $C$ -way $K$ -shot( $C > 1$ )的训练策略，而不是其他小样本分割网络所使用的对于每一类的1-way $K$ -shot策略。

针对手机屏幕缺陷图像数据集，本文所提出的小样本分割网络模型可以取得较好的缺陷分割效果，相较于其他分割网络，该模型能够使用较少的缺陷样本完成较好的缺陷分割。

2. 相关内容

2.1 语义分割

语义分割网络是在目标检测网络的基础上，对输入图像的每个像素进行分类，标注出图像中每个像素的所属的对象类别。2014年，Shelhamer等人^[11]提出的全卷积网络(Fully Convolutional Networks, FCN)去掉了卷积神经网络的全连接层，用卷积层代替得到分割图像。随后，Ronneberger等人^[12]在全卷积网络的基础上设计了U-net，该网络采用编码器-解码器的架构完成分割。SegNet^[13]使用池化索引，即记录下最大像素值的位置，以便于解码时的上采样。DeepLab系列^[14-17]则是引入了空洞卷积来增大感受野，以捕获不同尺度特征的上下文信息。然而，以上分割网络还是依赖大量标签数据来完成分割，针对少量的标签数据，其分割效果较差。本文在少量的手机屏幕缺陷图像的基础上，完成屏幕缺陷的分割。

2.2 小样本学习

小样本学习是一种利用少量有监督信息的机器学习问题，其重点在于在标签数据有限的情况下，网络能够快速地进行学习，并能够泛化到其他新任务中。目前，小样本学习大致分为3类：一是迁移学习^[18]，其将预训练模型迁移到新的模型中，通过少量样本使得模型适应新的应用场景。二是元学习^[19,20]，其模型利用以往的知识经验来指导新任务的学习，具有学会学习的能力。三是基于度量学习的方法^[21-23]，通过学习样本间的距离来减少同类样本距离，增大异类样本距离。孪生网络利用两个并行网络来衡量输入的成对图像的相似程度。匹配网络提出一种小样本学习的通用模型，通过将支持图像和查询图像映射到同一个嵌入空间，利用余弦相似度度量两者的相关性以完成分类。而原型网络在匹配网络的基础上，学习每一个类别的原型表示以计算测试图像与每一类别的相似性。关系网络则是基于小样本学习的网络框架，将相似性度量模型化，利用网络学习两者的相关性。现实中，许多场景样本采集的数量有限或者标注数据的成本太大，针对这些问题，小样本学习能够很好地解决。

2.3 小样本分割

小样本分割主要利用少量标签样本来训练模型，使得模型能泛化新的分割任务。文献[24]和文献[25]利用条件分支对查询图像进行加权生成分割图像。相似性引导网络(Similarity Guidance network for ONE-shot semantic segmentation, SG-ONE)^[26]提出了掩膜平均池化来提取支持图像的表征向量，提高分割效果。文献[27]利用了原型计算相似度，文献[28]则是引入了迭代优化的方法改进模型，以迭代方式优化分割效果。Nguyen等人^[29]改进了SG-One网络。Liu等人^[30]提出了用于小样本分割的交叉参考网络(Cross-Reference Network, CRNet)，该网络利用交叉参考机制可以更好地在两幅图像中找到相同的目标。为了更好地实现在少量样本下的手机屏幕缺陷分割效果，本文采用小样本分割网络框架进行改进。

3. 基于协同注意力的小样本手机屏幕缺陷分割网络

3.1 网络提出

在小样本分割任务中，本文所构建的手机屏幕缺陷图像数据集分为训练集(training set)和测试集(test set)，训练集和测试集不共享手机屏幕缺陷图像。对于每一个训练任务，需要从训练集中抽取 $C$ 个类别，每个类别抽取 $K$ 个样本作为这个任务的支持集(support set) $S = \{ ({I_i},{M_i})\} _{i = 1}^{CK}$ ，当 $K{\rm{ = 1}}$ 时，为1-shot，当 $K > {\rm{1}}$ 时，为 $K$ -shot。而这 $C$ 个类别的其他t个样本则作为此次训练任务的查询集(query set) $Q = \{ ({I_j},{M_j})\} _{j = 1}^{tC}$ ，以此来模拟测试时的标注图像和测试图像。在支持集与查询集中， $I$ 代表了手机屏幕缺陷图像， $M$ 代表了标注的手机屏幕缺陷图像的分割掩码图像。

3.2 网络架构

针对手机屏幕缺陷，本文提出了一种基于协同注意力的小样本手机屏幕缺陷分割网络(Co-ASNet)用于手机屏幕缺陷分割。与其他小样本分割网络架构相似，所提出的Co-ASNet为编码器-解码器的架构，不同的是编码器是由特征提取模块和特征增强模块构成的，如图1所示。在特征提取模块中，为了能够更好地提取到不同尺寸缺陷的特征信息，本文在特征提取模块引入交叉注意力块来有效地获取缺陷图像的上下文信息；而在特征增强模块中，本文沿用了SG-One网络中利用掩码平均池化生成支持图像的代表特征，通过余弦相似度量来指导查询图像的分割过程，同时引入协同注意力来加强查询图像与支持图像之间的信息交互，增强两者在分割过程中的相关性，以此更好地完成查询图像的缺陷分割。在解码器部分，本文采用了U-net的反卷积部分，最后利用联合的支持/查询图像损失函数来训练网络。另外，虚线部分只在训练过程中使用，测试过程只使用实线部分。

图 1 基于协同注意力的小样本手机屏幕缺陷分割网络的网络架构图

下载: 全尺寸图片幻灯片

3.2.1 缺陷图像特征提取模块

针对手机屏幕缺陷的大小、位置灵活等特点，本文在特征提取模块中引入交叉注意力块来获取缺陷图像的上下文信息以有效获取不同尺寸缺陷的特征信息，增强缺陷图像的特征表示。特征提取模块如图2所示，其包含了5个卷积块和两个交叉注意力块，每个卷积块包含一个3×3的卷积层，一个归一化层，一个ReLU激活层以及一个2×2的最大池化层。

图 2 特征提取模块示意图

下载: 全尺寸图片幻灯片

交叉注意力块由Huang等人^[31]用来有效并高效地获取全图像的上下文信息，这对语义分割的效果有显著提高。本文为了能够更好地提取到不同尺寸手机屏幕缺陷的特征信息，在特征提取模块中引入了交叉注意力块，如图3所示。前4层卷积得到的特征图 ${\boldsymbol{F}} \in {\mathbb{R}^{b \times r \times r}}$ 输入到交叉注意力块中，首先分别通过3个1×1的卷积获得3个特征图 ${{\boldsymbol{F}}_1} \in {\mathbb{R}^{{b'} \times r \times r}}$ , ${{\boldsymbol{F}}_2} \in {\mathbb{R}^{{b'} \times r \times r}}$ , ${{\boldsymbol{F}}_3} \in {\mathbb{R}^{b \times r \times r}}$ ，其中 ${b'} = b/8$ 。对于特征图 ${{\boldsymbol{F}}_1}$ 的每一个位置的像素 $i$ ，得到这个像素的特征向量 $\boldsymbol{F}_1^i \in {\mathbb{R}^{{b'}}}$ ，同时，也可以从特征图 ${{\boldsymbol{F}}_2}$ 中获得与位置 $i$ 相同行和列的其他像素(共 $2r - 1$ 个像素)的特征集合 ${{\boldsymbol{\varPhi}} ^i} \in {\mathbb{R}^{(r + r - 1) \times {b'}}}$ ，其中 ${\varPhi }^{i,j}\in {\mathbb{R}}^{{b}^{\rm{'}}}, j=[1,2,\cdots,2r-1]$ , ${\varPhi ^{i,j}}$ 为 ${\varPhi ^i}$ 的第 $j$ 个元素。然后通过关联操作如式(1)，生成特征图 ${{\boldsymbol{F}}_1}$ 和特征图 ${{\boldsymbol{F}}_2}$ 的关联特征图 ${\boldsymbol{G}} \in {\mathbb{R}^{(2r - 1) \times (r \times r)}}$ ，并将其通过softmax来生成注意力图 ${{\boldsymbol{F}}_a} = {\mathbb{R}^{(2r - 1) \times (r \times r)}}$ 。

图 3 交叉注意力块示意图

下载: 全尺寸图片幻灯片

${g^{i,j}} = {\boldsymbol{F}}_1^i{({\varPhi ^{i,j}})^{\rm{T}}},i = 1,2, \cdots ,r \times r,\;j = 1,2, \cdots ,2r - 1$

(1)

${{\boldsymbol{F}}_a} = {\rm{softmax}} ({\boldsymbol{G}})$

(2)

其中， ${g^{i,j}}$ 属于关联特征图G的元素， $i$ 为特征图中一个位置， $j$ 为与位置 $i$ 行和列相同的其他位置。同样可以获得特征图 ${{\boldsymbol{F}}_3}$ 上的位置 $i$ 的特征向量 $\boldsymbol{F}_3^i \in {\mathbb{R}^b}$ ，以及与位置 $i$ 相同行和列的其他位置的特征向量 ${\boldsymbol{\varGamma} ^{i,j}} \in {\mathbb{R}^b},j = 1,2,\cdots ,2r - 1$ ，形成特征集合 ${\boldsymbol{\varGamma} ^i} \in$ ${\mathbb{R}^{(2r - 1) \times b}}$ 。通过聚合操作生成具有上下文信息的新的特征图 ${\bf{FF}} = {\mathbb{R}^{b \times r \times r}}$ 如式(3)

${\bf{F}}{{\bf{F}}^i} = \sum\limits_{j = 0}^{2r - 1} {{{\boldsymbol{F}}_a}^{i,j}} {{\boldsymbol{\varGamma}} ^{i,j}} + {{\boldsymbol{F}}^i},i = 1,2, \cdots ,r \times r$

(3)

对于位置 $i$ ， ${{\boldsymbol{F}}^i}$ 为原输入特征 ${\boldsymbol{F}}$ 对于位置 $i$ 的特征向量。

虽然每一个交叉注意力块可以聚合某个位置上的水平和垂直方向上的特征信息，但这个位置周围其他不在同一行/列的位置之间的相关性无法获得。而文献[31]连续采用两个交叉注意力块可以从所有像素中获取全图像的上下文信息，生成具有密集和丰富的上下文信息的新特征，在很大程度上节约了时间和GPU内存。本文采用两个交叉注意力块来获取手机屏幕缺陷的丰富的特征信息。

3.2.2 特征增强模块

在小样本分割网络中，为了使查询图像的分割效果更好，通常使用支持图像及其分割掩膜图像对查询图像进行条件处理，指导完成查询图像分割过程。本文利用SG-One网络所提出掩膜平均池化来获取支持图像的代表特征，并利用相似度度量的方式来建立支持图像特征和查询图像特征之间的关系；同时为了使查询图像与支持图像的信息交互得更加充分，本文还引入了协同注意力来强调查询图像与支持图像的相同目标的相关性。图4所展示的是特征增强模块的整体架构。

图 4 特征增强模块架构图

下载: 全尺寸图片幻灯片

(1)掩膜平均池化。在网络每一次的训练任务中，支持/查询集都是以 $({\boldsymbol{I}},{\boldsymbol{M}})$ 成对的方式出现，其中 ${\boldsymbol{I}} \in {\mathbb{R}^{1 \times m \times m}}$ 为缺陷图像， ${\boldsymbol{M}} \in {\mathbb{R}^{m \times m}}$ 为该缺陷图像的掩膜图像。支持缺陷图像在经过特征提取模块后获得其特征图 ${{\boldsymbol{f}}_s} \in {\mathbb{R}^{c \times n \times n}}$ 。相同地，也获得查询缺陷图像的特征图 ${{\boldsymbol{f}}_q} \in {\mathbb{R}^{c \times n \times n}}$ ，然后将 ${{\boldsymbol{f}}_s}$ 通过双线性插值法恢复到与掩膜图像相同大小的特征图 ${{\boldsymbol{f}}_{s1}} \in {\mathbb{R}^{c \times m \times m}}$ ，然后结合掩膜图像通过式(4)计算得到支持图像的代表特征 ${\boldsymbol{V}} \in {\mathbb{R}^{1 \times c}}$

${{\boldsymbol{V}}_i} = \frac{{\displaystyle\sum\limits_{x = 1,y = 1}^{m,m} {{{\boldsymbol{M}}_s}{{^{}}_{x,y}} \times {{\boldsymbol{f}}_{s1}}{{^i}_{x,y}}} }}{{\displaystyle\sum\limits_{x = 1,y = 1}^{m,m} {{{\boldsymbol{M}}_s}{{^{}}_{x,y}}} }}$

(4)

其中， ${{\boldsymbol{M}}_s}{^{}_{x,y}}$ 是指支持图像的掩膜图像的第 $x$ 行第 $y$ 列的位置， $i$ 是指支持图像的特征图 ${{\boldsymbol{f}}_{s1}}$ 的第 $i$ 个通道， $m$ 为掩膜图像大小， ${V_i}$ 则是支持图像的代表向量 ${\boldsymbol{V}}$ 的第 $i$ 个元素。接下来，使用相似度度量的方式来计算支持图像的代表特征 ${\boldsymbol{V}}$ 与查询缺陷图像特征 ${{\boldsymbol{f}}_q}$ 之间的相似矩阵 ${\boldsymbol{S}} \in {\mathbb{R}^{n \times n}}$ ，如式(5)所示

${{\boldsymbol{S}}_{x,y}} = \frac{{{\boldsymbol{V}} \times {{\boldsymbol{f}}_q}{{^{}}_{x,y}}}}{{{{\left\| {\boldsymbol{V}} \right\|}_2} \times {{\left\| {{{\boldsymbol{f}}_q}{{^{}}_{x,y}}} \right\|}_2}}}$

(5)

其中， ${{\boldsymbol{f}}_q}{^{}_{x,y}} \in {\mathbb{R}^{c \times 1}}$ 为查询图像特征图 ${{\boldsymbol{f}}_q}$ 第 $x$ 列第 $y$ 行位置， ${\boldsymbol{V}}$ 是支持图像的代表特征。最后通过像素相乘的方式来融合查询缺陷图像特征图 ${{\boldsymbol{f}}_q}$ 和相似矩阵 ${\boldsymbol{S}}$ 来生成新的查询缺陷图像特征图 ${\boldsymbol{f}}''_{q}\in {\mathbb{R}}^{c\times n\times n}$ 。

(a)1-shot。对于 $K = 1$ 时，表示在支持集中，每种类别的缺陷图像只有1个。本文将特征提取模块输入的支持图像特征直接作为这类缺陷的缺陷图，结合这个缺陷图像的分割掩膜图像，来指导查询图像的分割过程。

(b) $K$ -shot。 $K > 1$ ，即对于每一类缺陷，支持集中包含着 $K$ 个缺陷样本。本文将这 $K$ 个支持样本的特征图进行加权平均来作为这类缺陷的特征图，同时对这 $K$ 个缺陷样本对应的掩膜图像也进行加权平均得到一个新的掩膜图像，使用新特征图和新的掩膜图像来完成掩膜平均池化过程。

(2)协同注意力。在掩膜平均池化时，虽然利用支持图像及其掩膜图像生成的代表特征来进一步指导查询图像的特征的形成，但两者信息的交互是单方面从支持图像对查询图像。但在小样本分割网络训练过程中，缺陷图像在不同的训练任务中扮演着不同的角色，可能作为支持图像，可能作为查询图像，这说明在训练时，支持集和测试集是可以相互影响的。为了进一步加强支持集与查询集的相同目标之间的信息交互，本文引入协同分割的机制来对查询缺陷图像特征进行细化，如图4所示。

具体来说，本文将前期所得到的支持缺陷图像特征图 ${{\boldsymbol{f}}_s} \in {\mathbb{R}^{c \times n \times n}}$ 和查询缺陷图像特征图 ${\boldsymbol{f}}''_{q}\in {\mathbb{R}}^{c\times n\times n}$ 作为协同分割机制的输入。然后分别对 ${{\boldsymbol{f}}_s}$ 和 ${{\boldsymbol{f}}}''_{q}{}$ 进行全局平均池化，然后通过两个全连接层，上采样，得到两个权重矩阵 ${{\boldsymbol{W}}_s},{{\boldsymbol{W}}_q} \in {\mathbb{R}^{c \times n \times n}}$ ，最后将得到的权重向量 ${{\boldsymbol{W}}_s}$ 与 ${{\boldsymbol{f}}}_{q}''$ 进行通道相乘得到查询图像的注意力特征图 ${{\boldsymbol{f}}}''_{q}{}^{a}\in {\mathbb{R}}^{c\times n\times n}$ ，同样将 ${{\boldsymbol{W}}_q}$ 与 ${{\boldsymbol{f}}_s}$ 相乘得到支持图像的注意力特征图 ${{\boldsymbol{f}}^a_s} \in {\mathbb{R}^{c \times n \times n}}$ ，公式化表达如式(6)—式(9)所示。其中， $\sigma$ 代表了两个全连接层和上采样过程。

${{\boldsymbol{W}}_s} = \sigma ({\rm{AvgPoo}}{{\rm{l}}_{{\rm{channel}}}}({{\boldsymbol{f}}_s}))$

(6)

${{\boldsymbol{W}}}_{q}=\sigma ({\rm{AvgPool}}_{\rm{channel}}({\boldsymbol{f}}''_{q}))$

(7)

${\boldsymbol{f}}_s^a = {{\boldsymbol{W}}_q} \times {{\boldsymbol{f}}_s}$

(8)

${\boldsymbol{f}}''^a_{q}={\boldsymbol{W}}_{s} \times {\boldsymbol{f}}''_{q}$

(9)

3.2.3 解码器

类似U-net，本文在解码的过程中，采用跳跃连接的方式对提取到的特征生成缺陷分割图像，如图5所示。本文将特征提取模块中的第3个卷积层和第4个卷积层与解码器中第一个反卷积层的输出和第2个卷积层的输出相加，共同作为下一层的输入，最终解码器输出的分割图像与掩膜图像一样大。在本文中，由于在特征加强模块中引入了协同分割机制，这不管是对支持图像的特征还是对查询图像的特征都会有更加丰富的特征表示，所以在训练阶段，训练网络的损失的函数也做一定的改进。不管是支持图像还是查询图像，对两者的特征进行恢复得到的分割图像都会有利于网络的训练，增强缺陷分割的效果。本文联合了支持图像和查询图像的交叉熵损失函数，共同训练网络，如式(10)所示。

图 5 编码-解码过程示意图

下载: 全尺寸图片幻灯片

$L{\rm{ }} = {l_{{\rm{support}}}} + {l_{{\rm{query}}}}$

(10)

4. 实验与分析

4.1 手机屏幕缺陷图像数据集

本文是针对手机屏幕缺陷所提出的小样本分割方法，为了验证所提出的网络的性能，构建手机屏幕缺陷数据集，如表1所示。整个数据集从手机屏幕工厂生产线采集到的3750×2098高分辨率手机屏幕缺陷图像通过剪切成160×160大小的缺陷图像构成。其中，960张缺陷图像用于整个网络的训练，140张缺陷图像用于测试。由于构建的手机屏幕缺陷数据集的数据量较少，在对缺陷进行分类时，缺陷分成了3个类别：点缺陷、线缺陷以及面缺陷，以此来完成手机屏幕缺陷分割。

表 1 手机屏幕缺陷图像数据集

类别	点	线	面
缺陷图像
掩膜图像

下载: 导出CSV

| 显示表格

4.2 实验细节

本文的全部实验均在PyTorch深度学习框架下实现，使用了动量为0.7的SGD优化器来优化所有的网络模型，初始学习率设置为0.01，每训练10000次，学习率降低一半，网络总共训练100000次。最后采用联合的交叉熵损失函数来完成网络的训练。

在训练时，跟之前小样本分割网络所采用的策略不同，它们的每一次训练任务只有一种类型的 $K$ 个样本参与训练，相当于1-way $K$ -shot的训练策略。本文采用了通过小样本学习类似的训练策略 $C$ -way $K$ -shot的方式来训练本文构建的Co-ASNet。具体地，在实验过程中，设置了3-way 1-shot和3-way 5-shot两种训练模式，也就是说，在每一次的训练任务中，参与训练的缺陷类别包括了点、线、面3类，每一类缺陷的支持样本分别为1和5，以此来完成网络的整体训练。在测试时，采用了与训练相同的策略，但不同的是，在训练时，不论是支持样本还是查询样本都是从训练集中选取的，而测试过程是从训练集中获取支持集，从测试集中抽取测试样本，这些测试样本是在训练过程中未被网络训练过的样本。

4.3 实验结果及分析

为了评估网络对手机屏幕缺陷检测的效果，使用的评判指标是像素准确率(Pixel Accuracy, PA)、平均像素准确率(Mean Pixel Accuracy, MPA)、平均交并比(Mean Intersection over Union, MIoU)以及频率加权交并比(Frequency Weighted Intersection over Union, FWIoU)，具体的定义如式(11)—式(14)。

${\rm{PA}} = \frac{{\displaystyle\sum\limits_{i = 0}^k {{p_{_{ii}}}} }}{{\displaystyle\sum\limits_{i = 0}^k {\sum\limits_{j = 0}^k {{p_{ij}}} } }}$

(11)

${\rm{MPA}} = \frac{1}{{k + 1}}\sum\limits_{i = 0}^k {\frac{{{p_{_{ii}}}}}{{\displaystyle\sum\limits_{j = 0}^k {{p_{ij}}} }}}$

(12)

${\rm{MIoU}} = \frac{1}{{k + 1}}\sum\limits_{i = 0}^k {\frac{{{p_{_{ii}}}}}{{\displaystyle\sum\limits_{j = 0}^k {{p_{ij}} + \displaystyle\sum\limits_{j = 0}^k {{p_{ji}} - {p_{ii}}} } }}}$

(13)

${\rm{FWIoU}} = \frac{1}{{\displaystyle\sum\limits_{i = 0}^k {\displaystyle\sum\limits_{j = 0}^k {{p_{ij}}} } }}\sum\limits_{i = 0}^k {\frac{{{p_{_{ii}}}}}{{\displaystyle\sum\limits_{j = 0}^k {{p_{ij}} + \sum\limits_{j = 0}^k {{p_{ji}} - {p_{ii}}} } }}}$

(14)

其中， ${p_{ii}}$ 为像素真实类别为 $i$ 被预测为类别 $i$ 的数量， ${p_{ij}}$ 为像素真实类别为 $i$ 却被预测为类别 $j$ 的数量， $k$ 为分类的类别数。

在本文的实验验证过程中，除了实现本文所提出的网络，还对比了传统的语义分割网络U-net以及小样本分割网络SG-One，具体的实验结果如表2所示，可以看出，本文所提出的网络在评判指标上均取得比较好的结果。具体来说，U-net对于只有少量的手机屏幕缺陷样本来说，其分割的效果不是很理想，而SG-One网络不论是在1-shot还是在5-shot, MIoU值相较于U-net有所提高。当 $K = 5$ 时，本文所提出的网络在SG-One的基础上，MPA和MIoU值达到了最大，MPA为0.6711, MIoU为0.5771，对手机屏幕缺陷语义分割的效果进一步提高。另外，图6也给出了各种网络对手机屏幕缺陷的分割效果图，在测试1-shot时，本文使用表1的缺陷图像作为支持集，在5-shot测试时，支持集也包含表1的缺陷图像。

表 2 不同分割网络模型在手机屏幕缺陷数据集的性能比较

模型	PA	MPA	MIoU	FWMIoU
U-net	0.9610	0.4635	0.4074	0.9334
SG-One(1-shot)	0.9658	0.5392	0.4647	0.9412
SG-One(5-shot)	0.9669	0.5199	0.4622	0.9432
Co-ASNet(1-shot)	0.9712	0.6435	0.5588	0.9489
Co-ASNet(5-shot)	0.9709	0.6711	0.5771	0.9482

下载: 导出CSV

| 显示表格

图 6 不同分割网络对手机屏幕缺陷图像的分割效果可视化

下载: 全尺寸图片幻灯片

除此之外，对于本文所提出的网络自身，引入了协同分割机制来增强缺陷特征的表达，也改进了损失函数来提升网络的性能。为了能够更好地展示引入的交叉注意力、协同分割机制和改进的损失函数对手机屏幕缺陷语义分割的影响，本文也做了相关消融实验，如表3所示。在只将支持图像的注意力特征图来细化查询图像特征信息，这虽然在SG-One的基础上分割的效果有一定的提升，但对于支持图像特征与查询图像特征之间的相互交互来讲，分割的效果有待提高。而当改进损失函数，联合查询图像和支持图像一起来训练，加强了两者相同目标之间的信息的交互，使得支持图像更好地指导查询图像的分割过程，提升了分割效果。不管是在1-shot，还是在5-shot的设置下，本文所提出的网络取得的分割效果更好。在1-shot下，MIoU值达到0.5588，而在5-shot设置下，MIoU值达到最大0.5771。

表 3 在手机屏幕缺陷图像数据集上的分割结果(MIoU)

模型	1-shot	5-shot
SG-One	0.4647	0.4622
SG-One + cc-block	0.5244	0.5592
SG-One + co-a ( $L{\rm{ }} = {l_{{\rm{query}}}}$ )	0.4563	0.4584
SG-One + co-a	0.5476	0.5701
Co-ASNet( $L{\rm{ }} = {l_{{\rm{query}}}}$ )	0.4988	0.5380
Co-ASNet	0.5588	0.5771

下载: 导出CSV

| 显示表格

最后，对于Co-ASNet所引入的交叉注意力以及联合训练的协同注意力机制在分割结果上带来的效果上的提升，本文在图7、图8分别针对1-shot和5-shot的设置，不同的消融实验对手机屏幕缺陷分割效果的可视化展示。

图 7 1-shot下的手机屏幕缺陷图像的分割效果可视化

下载: 全尺寸图片幻灯片

图 8 5-shot下的手机屏幕缺陷图像的分割效果可视化

下载: 全尺寸图片幻灯片

5. 结束语

本文针对手机屏幕缺陷，提出了基于协同注意力的小样本的手机屏幕缺陷分割网络。整个网络由特征提取模块、特征增强模块以及解码器3个部分构成。在特征提取模块中，引入交叉注意力模块以获取更加丰富的特征信息；其次，为了加强支持图像与查询图像特征的相同目标的特征信息交互，在特征增强模块采用了协同注意力来处理；最后在解码器中，逐步生成缺陷图像的分割图像。在网络的训练过程中，联合支持图像与查询图像损失函数共同训练网络，增强网络分割效果。虽然所提出的网络缓解了工业上手机屏幕缺陷样本较少的问题，但在缺陷分割场景中的分割效果还达不到工业化缺陷检测的标准，对分割的效果还有待提升。因此，未来的研究还要着重提升网络的分割效果，以实现精确的定位与分类。

图 1 基线系统的结构

下载: 全尺寸图片幻灯片

图 2 基于对抗式训练的中文分词模型

下载: 全尺寸图片幻灯片

表 1 实验中使用的语料大小(Byte)

语料	句子(k)	词语(M)	字符(M)
新闻	53.7	1.3	2.1
医疗	32.0	0.7	1.2
《诛仙》	59.0	2.1	3.0
《斗罗》	40.0	2.0	0.9
发明专利	17.0	0.6	0.9

下载: 导出CSV

表 2 不同方法的未登录词率(%)

算法	无新词发现	MI+BE	本文方法
医疗	25.93	16.31	5.42
《诛仙》	15.52	8.24	1.43
《斗罗》	11.15	7.06	1.23
发明专利	18.39	11.27	3.45

下载: 导出CSV

表 3 前20个最频繁出现词中垃圾词串数(个)

语料	医疗	《诛仙》	《斗罗》	发明专利
MI+BE	4	5	7	6
本文方法	1	1	2	6

下载: 导出CSV

表 4 基于对抗式训练的分词算法效果

性能指标	准确率(%)			召回率(%)			F值
算法	基线	GCNN_CRF	本文方法	基线	GCNN_CRF	本文方法	基线	GCNN_CRF	本文方法
医疗	71.7	80.7	82.4	74.3	82.0	83.7	73.0	81.4	83.0
《诛仙》	77.8	89.3	90.3	75.6	87.5	87.7	76.7	88.4	89.0
《斗罗》	81.7	92.1	92.8	81.7	91.9	92.4	81.0	92.0	92.6
发明专利	84.3	88.1	89.8	81.6	87.1	87.2	82.9	87.6	88.5

下载: 导出CSV

表 5 本文方法与现有方法的性能对比

性能指标	准确率(%)			召回率(%)			F值
算法	基线系统	文献[6]	本文方法	基线系统	文献[6]	本文方法	基线系统	文献[6]	本文方法
医疗	71.7	80.1	82.4	74.3	82.3	83.7	73.0	81.2	83.0
《诛仙》	77.8	86.7	90.3	75.6	88.9	87.7	76.7	87.8	89.0
《斗罗》	81.7	91.9	92.8	81.7	92.1	92.4	81.0	92.0	92.6
发明专利	84.3	85.5	89.8	81.6	86.3	87.2	82.9	85.9	88.5

下载: 导出CSV

参考文献(16)

[1]	陈平, 刘晓霞, 李亚军. 基于字典和统计的分词方法[J]. 计算机工程与应用, 2008, 44(10): 144–146. doi: 10.3778/j.issn.1002-8331.2008.10.042 CHEN Ping, LIU Xiaoxia, and LI Yajun. Chinese word segmentation based on dictionary and statistics[J]. Computer Engineering and Applications, 2008, 44(10): 144–146. doi: 10.3778/j.issn.1002-8331.2008.10.042
[2]	WU Andi and JIANG Zixin. Word segmentation in sentence analysis[C]. 1998 International Conference on Chinese Information Processing, Beijing, China, 1998: 169–180.
[3]	朱聪慧, 赵铁军, 郑德权. 基于无向图序列标注模型的中文分词词性标注一体化系统[J]. 电子与信息学报, 2010, 32(3): 700–704. doi: 10.3724/SP.J.1146.2009.00214 ZHU Conghui, ZHAO Tiejun, and ZHENG Dequan. Joint Chinese word segmentation and POS tagging system with undirected graphical models[J]. Journal of Electronics &Information Technology, 2010, 32(3): 700–704. doi: 10.3724/SP.J.1146.2009.00214
[4]	YUAN Zheng, LIU Yuanhao, YIN Qiuyang, et al. Unsupervised multi-granular Chinese word segmentation and term discovery via graph partition[J]. Journal of Biomedical Informatics, 2020, 110: 103542. doi: 10.1016/j.jbi.2020.103542
[5]	DU Jinlian, MI Wei, and DU Xiaolin. Chinese word segmentation in electronic medical record text via graph neural network-bidirectional LSTM-CRF model[C]. 2020 IEEE International Conference on Bioinformatics and Biomedicine, Seoul, Korea, 2020: 985–989.
[6]	WANG Qi, ZHOU Yangming, RUAN Tong, et al. Incorporating dictionaries into deep neural networks for the Chinese clinical named entity recognition[J]. Journal of Biomedical Informatics, 2019, 92: 103133. doi: 10.1016/j.jbi.2019.103133
[7]	XU Jingjing, MA Shuming, ZHANG Yi, et al. Transfer deep learning for low-resource Chinese word segmentation with a novel neural network[C]. The 6th National CCF Conference on Natural Language Processing and Chinese Computing, Dalian, China, 2017: 721–730.
[8]	BELLEGARDA J R. Statistical language model adaptation: Review and perspectives[J]. Speech Communication, 2004, 42(1): 93–108. doi: 10.1016/j.specom.2003.08.002
[9]	刘伟童, 刘培玉, 刘文锋, 等. 基于互信息和邻接熵的新词发现算法[J]. 计算机应用研究, 2019, 36(5): 1293–1296. doi: 10.19734/j.issn.1001-3695.2017.11.0745 LIU Weitong, LIU Peiyu, LIU Wenfeng, et al. New word discovery algorithm based on mutual information and branch entropy[J]. Application Research of Computers, 2019, 36(5): 1293–1296. doi: 10.19734/j.issn.1001-3695.2017.11.0745
[10]	罗桂琼, 费洪晓, 戴弋. 基于反序词典的中文分词技术研究[J]. 计算机技术与发展, 2008, 18(1): 80–83. LUO Guiqiong, FEI Hongxiao, and DAI Yi. Research of Chinese segmentation based on converse segmentation dictionary[J]. Computer Technology and Development, 2008, 18(1): 80–83.
[11]	YAO Yushi and HUANG Zheng. Bi-directional LSTM recurrent neural network for Chinese word segmentation[C]. The 23rd International Conference on Neural Information Processing, Kyoto, Japan, 2016: 345–353.
[12]	LIU Liyuan, SHANG Jingbo, REN Xiang, et al. Empower sequence labeling with task-aware neural language model[C]. The Thirty-Second AAAI Conference on Artificial Intelligence, New Orleans, United States, 2018.
[13]	KAN Zhigang, QIAO Linbo, YANG Sen, et al. Event arguments extraction via dilate gated convolutional neural network with enhanced local features[J]. IEEE Access, 2020, 8: 123483–123491. doi: 10.1109/ACCESS.2020.3004378
[14]	MIKOLOV T, CHEN Kai, CORRADO G, et al. Efficient estimation of word representations in vector space[C]. The 1st International Conference on Learning Representations, Scottsdale, Arizona, 2013.
[15]	KIM Y. Convolutional neural networks for sentence classification[C]. The 2014 Conference on Empirical Methods in Natural Language Processing, Doha, Qatar, 2014: 1746–1751.
[16]	Beijing Universty, City University of Hong Kong, CKIP, et al. The second international Chinese word segmentation bakeoff data[EB/OL]. http://sighan.cs.uchicago.edu/bakeoff2005/, 2005.

施引文献

期刊类型引用(7)

1.	江利明，杨波，肖鹏，周志伟，汪汉胜. 冰雪探测雷达层析成像技术与应用：现状、挑战与展望. 冰川冻土. 2024(03): 1069-1086 . 百度学术
2.	林赟，张琳，韦立登，张汉卿，冯珊珊，王彦平，洪文. 无先验模型复杂结构设施SAR全方位三维成像方法研究. 雷达学报. 2022(05): 909-919 . 百度学术
3.	申文杰，韩冰，林赟，胡玉新，洪文. 多角度SAR动目标检测技术及其高分三号实验验证研究. 雷达学报. 2020(02): 304-320 . 百度学术
4.	张健丰，付耀文，张文鹏，杨威，黎涛. 圆迹合成孔径雷达成像技术综述. 系统工程与电子技术. 2020(12): 2716-2734 . 百度学术
5.	张珂殊，吴一戎. 距离向扫描合成孔径激光雷达目标三维重建. 红外与激光工程. 2019(03): 133-139 . 百度学术
6.	范庆辉，慕建君，项德良，宋文青. 基于非平稳性和极化相干系数比的PolSAR图像建筑物检测. 电子与信息学报. 2016(12): 3238-3244 . 本站查看
7.	王建峰，林赟，郭胜龙，喻玲娟，洪文. 圆迹SAR的建筑物全方位优化成像方法研究. 雷达学报. 2015(06): 698-707 . 百度学术

其他类型引用(11)

资源附件(0)

访问统计

图(2) / 表(5)

计量

文章访问数: 965
HTML全文浏览量: 969
PDF下载量: 139
被引次数: 18

1. 引言
2. 相关内容
2.1 语义分割
2.2 小样本学习
2.3 小样本分割
3. 基于协同注意力的小样本手机屏幕缺陷分割网络
3.1 网络提出
3.2 网络架构
4. 实验与分析
4.1 手机屏幕缺陷图像数据集
4.2 实验细节
4.3 实验结果及分析
5. 结束语

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于新词发现的跨领域中文分词方法

doi: 10.11999/JEIT210675

通讯作者:
张军　eejzhang@scut.edu.cn

计量

Cross-domain Chinese Word Segmentation Based on New Word Discovery

1. 引言

2. 相关内容

2.1 语义分割

2.2 小样本学习

2.3 小样本分割

3. 基于协同注意力的小样本手机屏幕缺陷分割网络

3.1 网络提出

3.2 网络架构

3.2.1 缺陷图像特征提取模块

3.2.2 特征增强模块

3.2.3 解码器

4. 实验与分析

4.1 手机屏幕缺陷图像数据集

4.2 实验细节

4.3 实验结果及分析

5. 结束语

期刊类型引用(7)

其他类型引用(11)

计量

目录

1. 引言

2. 相关内容

2.1 语义分割

2.2 小样本学习

2.3 小样本分割

3. 基于协同注意力的小样本手机屏幕缺陷分割网络

3.1 网络提出

3.2 网络架构

4. 实验与分析

4.1 手机屏幕缺陷图像数据集

4.2 实验细节

4.3 实验结果及分析

5. 结束语

留言板

基于新词发现的跨领域中文分词方法

doi: 10.11999/JEIT210675

通讯作者: 张军 eejzhang@scut.edu.cn

计量

出版历程

Cross-domain Chinese Word Segmentation Based on New Word Discovery

1. 引言

2. 相关内容

2.1 语义分割

2.2 小样本学习

2.3 小样本分割

3. 基于协同注意力的小样本手机屏幕缺陷分割网络

3.1 网络提出

3.2 网络架构

3.2.1 缺陷图像特征提取模块

3.2.2 特征增强模块

3.2.3 解码器

4. 实验与分析

4.1 手机屏幕缺陷图像数据集

4.2 实验细节

4.3 实验结果及分析

5. 结束语

期刊类型引用(7)

其他类型引用(11)

计量

出版历程

目录

1. 引言

2. 相关内容

2.1 语义分割

2.2 小样本学习

2.3 小样本分割

3. 基于协同注意力的小样本手机屏幕缺陷分割网络

3.1 网络提出

3.2 网络架构

4. 实验与分析

4.1 手机屏幕缺陷图像数据集

4.2 实验细节

4.3 实验结果及分析

5. 结束语

通讯作者:
张军　eejzhang@scut.edu.cn