基于改进YOLOv4-tiny算法的手势识别

卢迪; 马文强

doi:10.11999/JEIT201047

基于改进YOLOv4-tiny算法的手势识别

doi: 10.11999/JEIT201047

卢迪^,,
马文强

哈尔滨理工大学哈尔滨 150080

详细信息

作者简介:
卢迪：女，1971年生，教授，博士，研究方向为数据融合、图像处理

马文强：男，1992年生，硕士生，研究方向为图像处理、手势识别

通讯作者:
卢迪　ludizeng@hrbust.edu.cn

中图分类号: TN911.73
计量
- 文章访问数: 3100
- HTML全文浏览量: 2332
- PDF下载量: 427
- 被引次数: 9
出版历程
- 收稿日期: 2020-12-14
- 修回日期: 2021-04-15
- 网络出版日期: 2021-04-30
- 刊出日期: 2021-11-23

Gesture Recognition Based on Improved YOLOv4-tiny Algorithm

Di LU^,,
Wenqiang MA

Harbin University of Science and Technology, Harbin 150080, China

摘要

摘要: 随着人机交互的发展，手势识别越来越重要。同时，移动端应用发展迅速，将人机交互技术在移动端实现是一个发展趋势。该文提出一种改进YOLOv4-tiny的手势识别算法。首先，在YOLOv4-tiny网络基础上，添加空间金字塔池化(SPP)模块，融合了图像的局部和全局特征，增强网络的准确定位能力。其次，在YOLOv4-tiny原网络的3个最大池化层和新增SPP模块后各添加一个1×1的卷积模块，减少了网络的参数，提高网络的预测速度。在此基础上，利用K-means++算法生成适合检测手势的先验框，加快网络检测手势。在手势数据集NUS-II上，与YOLOv3-tiny算法和YOLOv4-tiny算法进行对比，改进算法平均精度均值(mAP)为100%，每秒传输帧数(fps)为377，可以快速准确地检测识别手势。将该文改进算法部署在安卓(Android)移动端，实现了移动端实时的手势检测与识别，对人机交互的发展有很大的研究意义。
- 手势识别 /
- 人机交互 /
- YOLOv4-tiny /
- 安卓
Abstract: With the development of human-computer interaction, gesture recognition is becoming more and more important. At the same time, mobile terminal applications are developing rapidly, it is a development trend to implement human-computer interaction technology on the mobile terminal. An improved YOLOv4-tiny gesture recognition algorithm is proposed. Firstly, on the basis of YOLOv4-tiny network, the Spatial Pyramid Pooling(SPP) module is added to integrate the local and global features of the image to enhance the accurate positioning ability of the network. Secondly, a 1×1 convolution is added after the 3 maximum pooling layers of the original YOLOv4-tiny network and the newly added SPP module, which reduces the network parameters and improves the prediction speed of the network. On this basis, the K-means++ algorithm is used to generate an anchor box suitable for detecting gestures to speed up the network detection of gestures. In the gesture dataset NUS-II, compared with the YOLOv3-tiny algorithm and the YOLOv4-tiny algorithm, the improved algorithm mean Average Precision(mAP) is 100%, frames per second (fps) is 377, which can detect and recognize gestures quickly and accurately. The improved algorithm of this paper is deployed on the Android mobile terminal to realize the real-time gesture detection and recognition on the mobile terminal, which has great research significance for the development of human-computer interaction.
- Gesture recognition /
- Human computer interaction /
- YOLOv4-tiny /
- Android

HTML全文

1. 引言

由于饮食结构的改变、工作压力增大以及幽门螺杆菌的感染等，胃癌的发病率和死亡率呈现逐年上升趋势，2020年全球胃癌新发病例和新增死亡病例占所有恶性肿瘤的5.6%和7.7%^[1]。在我国，胃癌的发病率和死亡率也呈增长趋势，对我国人民的生命健康造成了严重威胁。胃癌预后是指预测患者的可能病程和结局，准确的预后分析有助于提高胃癌患者的生存机会^[2]。

目前癌症的预后预测方法主要可以分为两类：统计学方法、深度学习方法。统计学方法中具有代表性的有Kaplan-Meier非参数预测模型、Cox回归模型和列线图等^[3]。其中，基于Cox回归模型和列线图的方法是最常见的传统预后预测方法。此类方法通常根据癌症患者的临床随访数据、基因数据等，通过Cox回归分析确定预后的独立预测因素，然后基于这些因素构建列线图预测模型。Gorlia等人^[4]在2008年首次将列线图用于预测新诊断的胶质母细胞瘤患者生存率，自此列线图方法也开始广泛用于癌症预后预测分析。Yu等人^[5]采用单变量和多变量Cox分析筛选显著变量，构建列线图用于评估早发性胃癌的总生存期(Overall Survival, OS)和肿瘤特异性生存期(Cancer Specific Survival, CSS)的预后，其中OS列线图的C-index值为0.688，CSS列线图的C-index值为0.785。然而，基于统计学的预后预测方法的准确率往往不高。近年来，深度学习(Deep Learning, DL)技术获得了快速发展，其中卷积神经网络(Convolutional Neural Networks, CNN)作为一种代表性方法在图像识别领域取得了巨大的成功^[6,7]。CNN能够很好地捕捉图像中的空间结构信息，挖掘出更有价值的深层特征，近几年在医学图像大数据处理中获得了广泛应用^[8]。研究表明^[9,10]，相对于传统的统计学方法，CNN能够挖掘更多独立预测因素，从而提升预后预测的准确率。因此基于深度学习的癌症预后模型已被用来辅助临床医生选择合适的治疗方法与评估治疗效果^[11]。

目前，基于深度学习的预后预测研究大多通过CT, MRI等图像进行分析挖掘建立预后模型。例如Jiang等人^[12]通过整合影像学特征和临床病理因素提出了一种S-net网络，利用胃癌的患者的腹部CT图像来预测患者的预后以及辅助化疗的效益。而随着扫描技术尤其是全视野数字切片技术的发展和推广，病理图像(Whole Slide Images, WSI)在医学病理诊断中得到了广泛的应用。对于癌症患者而言，病理图像能够反映出如肿瘤良恶性、组织病理分级、分化程度等病变情况^[13]。医生可以根据病理图像的病变情况对患者进行预后分析，诊断患者是否有局部复发风险、远处转移风险等。但病理图像往往具有多分辨率差异大、复杂度高、信息量大等特点，从而导致影像医生诊断效率较低、目视阅片诊断结果一致性低等问题。Kather等人^[14]选择使用一个ResNet-18作为肿瘤检测器筛选切片，然后使用另一个Resnet-18用来分类胃肠癌微卫星不稳定性(MicroSatellite Instable, MSI)和微卫星稳定性(MicroSatellite Stability, MSS)，在患者层面的AUC值为0.77。Skrede等人^[15]利用两种分辨率下的病理图像，分别将肿瘤区域随机划分成5个区域，而后利用MobileNetV2共建立了10个子模型对其结果取简单平均后得到预测结果。杨昆等人^[16]提出了一种新的通道注意力模块sECANet，用来对肾透明细胞癌病理图像ISUP分级预测，并通过多数投票法得到患者层面的分类结果，所构建的ISUP分级模型有良好的诊断效能。可以看出，基于病理图像深度学习的预后预测方法已逐步成为辅助癌症诊断和治疗的重要手段。

然而，基于深度学习的癌症预后方法研究仍然面临诸多挑战：(1)病理图像是胃癌临床诊断中的金标准，但目前鲜有基于病理图像的胃癌预后预测研究；(2)现有病理图像深度学习方法往往只考虑单模型结构或者在单分辨率下进行建模，导致模型泛化性不佳、准确率低；(3)由于病理图像信息容量大，难以从原始图像中提取深度特征，而常规方法主要通过随机选取部分切片进行特征提取，切片信息融合方法简单，从而丧失了大部分全局特征信息。为了解决这些问题，本文提出了一种基于病理图像集成深度学习的胃癌预后预测方法，通过使用多种深度学习方法对多分辨率病理图像进行分析处理，引入集成学习思想有效提高了预后预测性能。主要贡献包括：(1)同时考虑了高分辨率下肿瘤区域细粒度特征和低分辨率下的全局特征，有效提升了患者层面的预测准确率；(2)基于集成学习思想，综合不同CNN的特点和优势，构建了集成深度学习胃癌预后预测模型，显著提升了模型的预测可靠性；(3)基于病理图像集成深度学习实现了胃癌远处转移的准确预测。

2. 本文方法

本文提出了一种基于病理图像集成深度学习的胃癌预后预测方法，所提方法在患者层面的整体结构如图1所示。首先通过滑动窗口将多分辨率下的胃癌患者病理图像进行切分处理，得到信息量小且复杂性低的切片，并对每张切片进行染色归一化、尺寸归一化、空白筛选等预处理；而后采用ResNet^[17]，MobileNetV3^[18]，EfficientNetV2^[19]深度学习方法对不同分辨率下的Tile分别完成异质子分类器构建；最后采用双重集成策略对子分类器的结果进行融合。

图 1 基于病理图像集成深度学习的胃癌预后预测方法整体结构图

下载: 全尺寸图片幻灯片

2.1 子分类器构建方法

针对病理图像的多样性及复杂性，本文借鉴集成学习思想通过融合多样性异质子分类器来提高模型的准确性及鲁棒性。针对切片层面的预测，对不同分辨率下的切片分别构建多样性异质子分类器，而后通过多数投票法得到不同分辨率下切片层面的预测结果。而对于患者层面来说，子分类器的构建过程可分为切片特征提取部分和切片信息融合部分两个过程。在特征提取部分，同一患者的两种不同分辨率的切片逐一分别输入不同深度学习网络进行特征提取，并在每个网络的最后去除了其全连接层，只保留其平均池化后的深度特征。在切片信息融合部分，将每个患者经过子分类器提取到的深度特征进行融合，用于提高患者层面的预测准确率。

2.1.1 切片特征提取方法

考虑到模型的训练效率以及预测准确率，本文采用ResNet, MobileNetV3, EfficientNetV2深度神经网络对不同分辨率下的图像分别构建了3个异质子分类器对切片进行特征提取。其中，ResNet的卷积层是由多个结构相同的块堆叠而成的，假设 $x$ 为网络的原始输入，此时其学习到的特征记为 $H{\text{(}}{\boldsymbol{x}}{\text{)}}$ ，而ResNet希望可以学习到残差

$F(\boldsymbol{x})=H(\boldsymbol{x})-\boldsymbol{x}$

(1)

由式(1)可以看出原始的学习特征是 $F(x) + x$ ，当残差为0时，块内仅仅做了恒等映射，这样的残差学习相比原始特征的直接学习更加容易，因此能够有效地加深网络的深度。

在模型训练过程中，每张切片经过ResNet特征提取操作后输入一个全局平均池化层，将特征进行降维处理，在经过特征融合后最终输入一个全连接层得到分类结果，而后利用交叉熵损失函数计算损失

$L=\frac{1}{N}{\displaystyle \sum _{i=1}^{N}-[{y}_{i}\cdot \ln({p}_{i})+(1-{y}_{i})\cdot \ln(1-{p}_{i})]}$

(2)

其中， $N$ 表示样本总数， $y_i$ 表示样本 $i$ 的标签，正类为1，负类为0， $p_i$ 表示样本 $i$ 预测为正类的概率。

MobileNetV3相对之前版本对一些比较耗时的层进行了重新设计，在扩展层使用的滤波器数量及瓶颈层的输出通道数量均使用NetAdapt算法获得最佳数量，引入通道注意力机制(Squeeze-and-Excitation, SE)模块(如图2所示)并将通道数进行了缩减，在没有增加时间消耗的同时还提高了精度。

图 2 SE模块示意图

下载: 全尺寸图片幻灯片

EfficientNetV2可根据训练图像的尺寸动态调节正则化方法，其训练速度更快、参数数量更少，模型的准确率也得到了提升。而且，为了解决在浅层中使用深度可分离卷积会很慢的问题，EfficientNetV2使用NAS技术去搜索MBConv(如所示)和Fused-MBConv(如所示)的最佳组合。对于MBConv：输入变量 $x$ 首先经过一个1×1的卷积层，而后进入一个3×3的深度可分离卷积层，然后进入一个SE模块，最后经过一个1×1卷积层输出；Fused-MBConv将原来的MBConv结构主分支中的和1×1的卷积层和3×3的深度可分离卷积层替换成一个普通的3×3的卷积层。

图 3 MBConv和Fused-MBConv示意图

下载: 全尺寸图片幻灯片

2.1.2 切片信息融合方法

为了得到患者层面的预测结果，需要对每个子分类器的切片信息进行融合。目前传统的切片信息融合算法有和规则、乘积规则、最大值规则、多数投票规则等^[20]。以和规则为例

$\phi = \mathop {{\text{argmax}}}\limits_{m = 1}^M \sum\limits_{i = 1}^N {{p_i}} (m)$

(3)

其中， $M$ 表示分类的总类别数； $N$ 表示总的切片数量； ${p_i}(m)$ 表示第 $i$ 个切片被分为第 $m$ 类的概率。

可以看出和规则即把每张切片的分类概率进行加和，而后取最终类别概率累加最大的作为患者层面的分类结果。但常规的融合算法把每张切片当作单独的个体来处理，而最终对患者层面的预测结果很容易受到少数特征比较明显的切片的影响，从而影响患者层面的预测准确率。

为解决上述问题，本文提出了一种基于深度特征的切片信息融合方法(如图4所示)，其基本思想是：当每一张切片经过特征提取后，将其深度特征在最低维进行特征拼接操作，即将患者的每张切片提取后的特征作为患者层面的一个特征，并对其所有特征逐一进行拼接后得到一张全局特征图，随后再送入一个自适应全局平均池化层进行降维，并将其维度统一化，而后再输入一个全连接层进行分类，最终输入Softmax得到分类结果。

图 4 切片信息融合方法示意图

下载: 全尺寸图片幻灯片

2.2 子分类器融合方法

目前最常用的子分类器结果融合方法为多数投票法，而根据投票计算方式的不同，可分为软投票(soft voting)和硬投票(hard voting)两种。其中软投票方式为将各子分类器的预测概率加和，而后取加和概率最大的一类作为最终的预测结果；硬投票则是对每个子分类器输出的预测标签计数，而后取预测标签最多的一类作为最终的预测结果。本文由于采用异质子分类器，所以选择了硬投票的方式对子分类器结果进行集成。

具体而言，针对切片层面来说，对不同分辨率下的所有切片分别构建3个异质子分类器，而后对子分类器预测结果使用多数投票法融合，从而得到不同分辨率下的Tile层面的预测结果。针对患者层面来说，采用双重集成策略：首先对使用相同深度学习方法在不同分辨率下获得的切片预测结果进行简单平均融合，而后对一次融合结果使用多数投票法再融合，最终得到患者层面的预测结果。

3. 实验结果及分析

3.1 实验数据

本文实验数据来源于云南省肿瘤医院胃癌患者病理数据库，所有图像的标注由4名经验丰富的影像科主任医师给出。从中共挑选了250例胃癌患者采用HE染色的组织病理图像，以远处转移预测为例验证模型的有效性，其中发生了远处转移和未发生远处转移的患者各125例。所用病理图像均为svs格式，包含2, 4, 8, 10, 20, 40倍分辨率，每张图像大小在2～4 GB不等，同时包含了每位患者在5年内的医学随访信息，所有关键信息统计结果如表1所示。

表 1 250例胃癌患者临床随访信息

指标	特征	数量
年龄	≤50	61
	51～70	153
	>70	36
性别	男性	163
性别	女性	87
远处转移	发生转移	125
远处转移	未发生转移	125
病理类型	腺癌	177
	黏液腺癌	11
	印戎细胞癌	56
	其他	6
Lauren分型	肠型	27
	弥漫型	71
	混合型	32
	未标明	120

下载: 导出CSV

| 显示表格

3.2 实验环境及数据预处理

本文中所有实验均在相同实验环境下完成，实验平台配置如下：CPU为Intel I9-10900K；GPU为NVIDIA RTX3090 24 GB显存，CUDA11.3；内存为64 GB。实验环境为Windows 10操作系统，基于Python语言的Pytorch深度学习框架进行编程，其中Python版本为3.8.8；Pytorch版本为1.8.1。实验参数设置如下：模型训练总批次EPOCH设置为150；批尺寸设置为128；学习率LR初始设置为0.001，并采用学习率衰减策略，每经过10个epoch学习率乘以0.9；优化器均使用Adam优化器。在模型训练阶段，本文借鉴迁移学习思想，使用ImageNet数据集上学习到权重作为每个子分类器特征提取层的初始化网络参数，全连接层的参数则进行了随机初始化处理。在模型训练时，冻结了其特征提取层的权重，只更新优化全连接层的权重，从而在保证准确率的同时加快模型训练效率。

本文选用10×和40×分辨率下的病理图像用于方法验证。数据预处理阶段，采用滑动窗口对原始多分辨率病理图像进行切分处理，如图5所示。窗口大小设置为512×512，即将原始的病理图像切分为512×512像素大小的切片并保存为png格式，而后进行染色归一化、尺寸归一化、空白筛选等预处理。

图 5 滑动窗口切分过程

下载: 全尺寸图片幻灯片

由于高分辨率下的单张病理图像的信息量过大，导致在进行切分后每位患者的切片数量过多，这样容易造成信息冗余、特征融合困难、模型难以收敛等问题。因此，针对40×分辨率下的切片进一步地利用预先训练好的肿瘤区域切片识别模型进行筛选，只提取包含肿瘤区域的切片，从而提高模型的训练效率。40×分辨率下不同类型切片典型示意图如图6所示。为了增加模型的泛化性能并减少过拟合的风险，在训练开始前先对训练集的数据进行了如下数据增强处理：(1)将图像进行随机裁剪操作；(2)将图像以0.5的概率进行水平翻转操作；(3)将图像以0.2的概率进行灰度化操作；(4)将图像进行归一化处理。经过处理后总共得到79554张10×分辨率下的切片、611280张40×分辨率下的切片作为后续建模数据。

图 6 不同类型切片典型示意图

下载: 全尺寸图片幻灯片

3.3 模型评价方法

为了检验所提方法的有效性，本文采用了5折交叉验证的方法来衡量模型预测性能，所有实验结果均取5次实验的平均值作为最终结果。这里需要注意的是，数据的标签是按患者层面的标签来赋予的，即每个患者的所有切片的标签与其患者层面的标签相同，并且在划分训练集与测试集时是在患者层面按照8∶2的比例来划分进行分层采样，从而提高患者层面的预测准确率。由于实验中首先将原病理图像进行了滑动窗口切分，因此首先对各子分类器进行了切片层面的预测性能评价，以此挑选出最优子分类器结构，而后进一步得到患者层面的预测性能。

本文选择准确率(ACCuracy, ACC)、敏感度(SENsitivity, SEN)、特异度(SPEcificity, SPE)、马修斯相关系数(Matthews Correlation Coefficient, MCC)、混淆矩阵和梯度加权类激活映射(Gradient-weighted Class Activation Mapping, Grad-CAM)来评价模型的预测性能。其中，ACC, SEN, SPE, MCC可以通过式(4)—式(7)进行计算。

${\text{ACC = }}\frac{{{\text{TP + TN}}}}{{{\text{TP + TN + FN + FP}}}}$

(4)

${\text{SEN = }}\frac{{{\text{TP}}}}{{{\text{TP + FN}}}}$

(5)

${\text{SPE = }}\frac{{{\text{TN}}}}{{{\text{TN + FP}}}}$

(6)

$\begin{split} & {\text{MCC }}=\\ & \frac{{{\text{TP}} \times {{{\rm{TN}} - {\rm{FP}}}} \times {\text{FN}}}}{{\sqrt {{\text{(TP + FP)(TP + FN)(TN + FP)(TN + FN)}}} }} \end{split}$

(7)

其中，TP表示真实为正类预测为正类的样本数，TN表示真实为负类预测为负类的样本数，FP表示真实为负类预测为正类的样本数，FN表示真实为正类预测为负类的样本数。

混淆矩阵是对分类问题中模型性能度量的一个直观体现，其横坐标表示模型的预测类别，纵坐标为真实类别，对角线上的值为分类正确的样本数。Grad-CAM通过计算特征图的权重得到热力图，从而将模型分类时的关注区域可视化，从一定程度上解决了深度学习网络解释性不强的问题^[21]。

3.4 切片层面实验结果与分析

为了选出最优的子分类器结构及验证切片层面的预测准确率，本文对每个子分类器的不同量级的网络首先在切片层面进行训练及测试。考虑到时间复杂度的影响，对于ResNet只取了ResNet-18, ResNet-34, ResNet-50进行验证。每个子分类器不同量级的网络在切片层面的远处转移预测性能如表2、表3所示，其中加粗字体表示在相同子分类器网络中的最优预测结果。

表 2 不同量级子分类器网络在切片(10×分辨率)层面的预测性能(%)对比

方法	ACC	SEN	SPE	MCC
ResNet-18	76.42	76.72	76.10	52.81
ResNet-34	78.37	75.79	81.08	56.90
ResNet-50	79.67	79.43	79.86	59.29
MobileNetV3-small	77.03	71.30	83.04	54.62
MobileNetV3-large	79.21	75.38	82.87	58.46
EfficientNetV2-s	81.18	85.78	76.36	62.49
EfficientNetV2-m	82.94	85.27	80.50	65.88
EfficientNetV2-l	83.69	86.52	80.85	67.48

下载: 导出CSV

| 显示表格

表 3 不同量级子分类器网络在切片(40×分辨率)层面的预测性能(%)对比

方法	ACC	SEN	SPE	MCC
ResNet-18	74.84	73.55	76.19	49.73
ResNet-34	76.33	75.95	76.73	52.66
ResNet-50	78.05	76.78	79.38	56.15
MobileNetV3-small	73.46	74.30	72.58	46.89
MobileNetV3-large	76.24	78.01	74.47	52.52
EfficientNetV2-s	79.58	82.81	76.20	59.19
EfficientNetV2-m	80.23	82.93	77.39	60.45
EfficientNetV2-l	81.16	83.94	78.24	62.32

下载: 导出CSV

| 显示表格

通过整体比较表2和表3不同分辨率下的预测性能可以发现，40×分辨率下的切片预测性能整体比10×分辨率下的预测性能要差，其原因是高分辨率下切片数据量较多，且每张切片包含更细致的细胞结构，特征提取更加困难。但是，通过分析相同子分类器网络在不同分辨率下的SPE和SEN可以发现，在低分辨率下SPE较高的网络，在高分辨率下其SEN反而更高，这也说明通过结合两种不同分辨率下的模型，可以使模型对正负样本的预测更加均衡，提高整体的预测精度和鲁棒性。进而通过比较同一子分类网络在不同量级下的预测性能，可以发现，对于同一网络，更深层的网络结构其预测的ACC往往更高，MCC值也处于最优值，这说明更深层的网络预测性能更佳，但随着网络结构的加深，其关注点可能更聚焦于某一类样本，从而导致其SEN或SPE值有所下降。鉴于此，最终本文选择整体性能更优的ResNet-50, MobileNetV3-large, EfficientNetV2-l作为后续建模网络。

进一步地，通过比较同一分辨率下的不同子分类器预测性能可以发现，EfficientNetV2模型相比于ResNet, MobileNetV3拥有更高的ACC与SEN，但其SPE值较低，说明其对发生了远处转移的正样本预测性能较好，而对负样本的预测性能欠佳，从而通过集成的方式可以使3个子分类器的预测结果起到优势互补的效果，提高整体的预测精度。为了进一步验证集成模型的有效性，本文比较了不同分辨率下子分类器网络与集成模型在切片层面的预测性能，预测性能对比如表4所示。

表 4 不同分辨率下子分类器网络与集成模型在切片层面的预测性能(%)对比

方法	ACC	SEN	SPE	MCC
ResNet-50(10×)	79.67	79.43	79.86	59.29
MobileNetV3-large(10×)	79.21	75.38	82.87	58.46
EfficientNetV2-l(10×)	83.69	86.52	80.85	67.48
集成模型(10×)	86.16	87.64	84.66	72.34
ResNet-50(40×)	78.05	76.78	79.38	56.15
MobileNetV3-large(40×)	76.24	78.01	74.47	52.52
EfficientNetV2-l(40×)	81.16	83.94	78.24	62.32
集成模型(40×)	84.64	86.42	82.80	69.29

下载: 导出CSV

| 显示表格

从表4可以看出，集成模型整体预测准确率最高，其中10×分辨率下集成模型的ACC, SEN, SPE, MCC较单模型下的最优值(83.69%, 86.52%, 82.87%, 67.48%)分别提升了2.47%, 1.12%, 1.79%, 4.86%；40×分辨率下集成模型的ACC, SEN, SPE, MCC较单模型下的最优值(81.16%, 83.94%, 79.38%, 62.32%)分别提升了3.48%, 2.48%, 3.42%, 6.94%。集成模型在整体上提高了对胃癌患者远处转移的预测性能，40×分辨率下集成模型的提升更加明显，其原因可能是高分辨下的数据量过大，集成模型很好地提升了整体的鲁棒性，预测性能更加均衡，所以整体准确率也提升更大。进而通过分析两个分辨率下集成模型的敏感度和特异度可以发现，在不同分辨率下模型均对正样本的预测性能更佳，其原因可能是在该实验中正样本为发生远处转移的样本，其特征较未发生转移的负样本更加明显，从而更容易预测。

为了进一步了解每个子分类器网络在预测时着重关注的感兴趣区域，本文绘制了不同网络在相同输入图像下的Grad-CAM图像(如图7所示)，呈现了每个网络对切片进行预测时的关注区域。通过整体分析两个不同分辨率下的输入图像可知，无论是对于10×分辨率下的输入图像还是40×分辨率下的输入图像，3种深度神经网络的感兴趣区域更多地集中在肿瘤细胞的细胞核位置，从而能够提取更有效的深度特征。对比3个网络的Grad-CAM图可知，EfficinentNetV2-l网络关注的区域比其他两个网络更加明确集中在细胞核区域，所以其预测准确率整体较高。而对于ResNet-50而言，其关注区域也较明确，但其整体的感兴趣区域相比其他两个网络更广，可以学习到更多的特征。MobileNetV3-large网络整体关注区域较为散乱，并且关注了一些其他两个网络没有关注的图像边缘区域。所以通过集成学习的方式，一定程度上降低了单模型的预测不可靠性，在对最终预测结果做决断时同时考虑了3个网络的预测结果，从而有效提升了模型的预测准确率。

图 7 不同网络在相同输入图像下的Grad-CAM图

下载: 全尺寸图片幻灯片

3.5 患者层面实验结果与分析

为了验证所提方法在患者层面的有效性，本文在相同数据集上对比了3种单模型及两种单分辨率下的集成模型与所提方法的性能。不同模型在患者层面的预测性能对比如表5所示。不同模型在患者层面的预测混淆矩阵如图8所示，其中主对角线的值即为各类的SEN值。

表 5 不同模型在患者层面的预测性能(%)对比

方法	ACC	SEN	SPE	MCC
ResNet-50	83.78	83.06	84.53	67.57
MobileNetV3-large EfficientNetV2-l	80.21 85.64	76.27 87.86	84.35 83.31	60.74 71.29
10×分辨率集成模型	87.54	88.96	86.08	75.09
40×分辨率集成模型	86.19	87.23	85.44	72.70
本文	89.10	89.57	88.61	78.19

下载: 导出CSV

| 显示表格

图 8 不同模型在患者层面远处预测混淆矩阵

下载: 全尺寸图片幻灯片

通过比较可以发现所提方法的预测ACC, SEN, SPE, MCC较对比方法下的最优值(87.54%, 88.96%, 86.08%, 75.09%)分别提升了1.56%, 0.61%, 2.53%, 3.10%，所提方法对胃癌患者远处转移整体预测准确率最高，并且对正负样本的预测性能更均衡。进一步地，可以发现在对比方法中，集成模型的预测准确率整体显著高于单模型下的准确率，这也说明了通过集成的方式提高了模型的鲁棒性，解决了单模型在训练时过多关注某一类的特征导致整体准确率不高的问题。

为了更好地评估本文所提方法在患者层面的有效性，本文与文献[14,15,20]中所提方法在相同数据集下进行了比较，不同方法在患者层面的预测性能对比结果如表6所示，预测混淆矩阵如图9所示。可以看出，本文所提方法在患者层面的预测性能均优于对比文献所提方法。相对于文献[14]中使用一个ResNet-18作为肿瘤检测器筛选切片，然后使用另一个Resnet-18对预后结果进行预测的方法，本文所提方法提高了7.77%的预测准确率。相对于文献[15]中利用两种分辨率下的病理图像，分别将肿瘤区域随机划分成5个区域，而后利用MobileNetV2共建立了10个子模型对其结果取简单平均后得到预测结果的方法，本文所提方法提高了3.93%的预测准确率。相对于文献[20]中基于Inceptionv3架构的卷积神经网络模型和迁移学习算法进行病理图像特征提取，而后将切片的分类概率通过加和、乘积、取最大值3种算法进行整合的方法，本文所提方法提高了5.97%的预测准确率。这主要得益于本文同时考虑了高分辨率下肿瘤区域细粒度特征和低分辨率下的全局特征，并且基于集成学习思想，综合了不同CNN的特点和优势，有效提升了患者层面的预测准确率，而文献[14]与文献[20]只考虑了单模型单分辨率的方法，文献[15]虽然考虑了多分辨率下的信息，但只使用了单个CNN进行预测，导致预测性能不佳。

表 6 不同方法在患者层面的预测性能(%)对比

方法	ACC	SEN	SPE	MCC
文献[14] 文献[15]	81.33 85.17	80.70 86.79	81.99 83.54	62.66 70.38
文献[20]	83.13	82.63	83.65	66.26
本文	89.10	89.57	88.61	78.19

下载: 导出CSV

| 显示表格

图 9 不同方法在患者层面远处预测混淆矩阵

下载: 全尺寸图片幻灯片

4. 结论

本文针对病理图像信息容量大、多分辨率差异大等挑战，以及单模型预后预测方法准确率低且泛化性不佳等问题，提出了一种基于病理图像集成深度学习的胃癌预后预测方法。首先，将不同分辨率下的组织病理图像进行切分、筛选等预处理；而后，采用ResNet, MobileNetV3, EfficientNetV2建立异质子分类器；最终，将不同分辨率下子分类器的预测结果进行融合得到患者层面的预测结果。实验结果表明，相较于单模型和单分辨率预后预测方法，所提方法预测性能获得了显著提升，这主要得益于集成思想的引入和多分辨率信息的挖掘。本研究中仅考虑了标记数据，尚有大量的未标记数据未能利用，在下一步研究中将考虑如何利用半监督学习的方式进一步提高预后预测的准确率。

图 1 YOLOv4-tiny网络结构图

下载: 全尺寸图片幻灯片

图 2 空间金字塔池化

下载: 全尺寸图片幻灯片

图 3 改进YOLOv4-tiny算法手势识别结构图

下载: 全尺寸图片幻灯片

图 4 NUS-II手势数据集

下载: 全尺寸图片幻灯片

图 5 手势检测模型的mAP和损失曲线

下载: 全尺寸图片幻灯片

图 6 手势检测识别结果

下载: 全尺寸图片幻灯片

图 7 YOLOv3-tiny算法手势检测识别结果

下载: 全尺寸图片幻灯片

图 8 YOLOv4-tiny算法手势检测识别结果

下载: 全尺寸图片幻灯片

图 9 改进YOLOv4-tiny算法手势检测识别结果

下载: 全尺寸图片幻灯片

图 10 移动端手势识别

下载: 全尺寸图片幻灯片

表 1 实验结果对比

算法	精确率 (%)	mAP@0.5 (%)	mAP@0.9 (%)	mAP@0.5:0.95 (%)	fps
文献[16]	90.08	–	–	–	–
文献[18]	99.89	–	–	–	–
YOLOv3-tiny	98.87	99.97	22.13	77.05	420
YOLOv4-tiny	99.09	100.00	61.87	86.10	382
YOLOv4-tiny1	99.10	100.00	69.39	87.10	384
YOLOv4-tiny2	99.33	100.00	66.66	86.96	387
YOLOv4-tiny3	99.10	100.00	73.99	88.20	353
本文算法	99.77	100.00	71.36	88.01	377

下载: 导出CSV

参考文献(24)

[1]	夏朝阳, 周成龙, 介钧誉, 等. 基于多通道调频连续波毫米波雷达的微动手势识别[J]. 电子与信息学报, 2020, 42(1): 164–172. doi: 10.11999/JEIT190797 XIA Zhaoyang, ZHOU Chenglong, JIE Junyu, et al. Micro-motion gesture recognition based on multi-channel frequency modulated continuous wave millimeter wave radar[J]. Journal of Electronics &Information Technology, 2020, 42(1): 164–172. doi: 10.11999/JEIT190797
[2]	OYEDOTUN O K and KHASHMAN A. Deep learning in vision-based static hand gesture recognition[J]. Neural Computing and Applications, 2017, 28(12): 3941–3951. doi: 10.1007/s00521-016-2294-8
[3]	王龙, 刘辉, 王彬, 等. 结合肤色模型和卷积神经网络的手势识别方法[J]. 计算机工程与应用, 2017, 53(6): 209–214. doi: 10.3778/j.issn.1002-8331.1508-0251 WANG Long, LIU Hui, WANG Bin, et al. Gesture recognition method combining skin color models and convolution neural network[J]. Computer Engineering and Applications, 2017, 53(6): 209–214. doi: 10.3778/j.issn.1002-8331.1508-0251
[4]	MOHANTY A, RAMBHATLA S S, and SAHAY R R. Deep gesture: Static hand gesture recognition using CNN[C]. International Conference on Computer Vision and Image Processing, Singapore, 2017: 449–461. doi: 10.1007/978-981-10-2107-7_41.
[5]	REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 779–788. doi: 10.1109/CVPR.2016.91.
[6]	REDMON J and FARHADI A. YOLO9000: Better, faster, stronger[C]. IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 6517–6525. doi: 10.1109/CVPR.2017.690.
[7]	REDMON J and FARHADI A. YOLOv3: An incremental improvement[EB/OL]. http://arxiv.org/abs/1804.02767, 2018.
[8]	BOCHKOVSKIY A, WANG C Y, and LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detector[EB/OL]. https://arxiv.org/abs/2004.10934v1, 2020.
[9]	LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector[C]. 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 21–37. doi: 10.1007/978-3-319-46448-0_2.
[10]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[C]. The IEEE Transactions on Pattern Analysis and Machine Intelligence, Venice, Italy, 2017: 2999–3007. doi: 10.1109/TPAMI.2018.2858826.
[11]	LAW H and DENG Jia. CornerNet: Detecting objects as paired keypoints[C]. The 15th European Conference on Computer Vision (ECCV), Munich, Germany, 2018: 765–781. doi: 10.1007/978-3-030-01264-9_45.
[12]	GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. IEEE Conference on Computer Vision and Pattern Recognition, Columbus, USA, 2014: 580–587. doi: 10.1109/CVPR.2014.81.
[13]	GIRSHICK R. Fast R-CNN[C]. IEEE International Conference on Computer Vision, Santiago, Chile, 2015: 1440–1448. doi: 10.1109/ICCV.2015.169.
[14]	REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. doi: 10.1109/TPAMI.2016.2577031
[15]	DAI Jifeng, LI Yi, HE Kaiming, et al. R-FCN: Object detection via region-based fully convolutional networks[C]. The 30th International Conference on Neural Information Processing Systems, Barcelona, Spain, 2016: 379–387. doi: 10.5555/3157096.3157139.
[16]	SOE H M and NAING T M. Real-time hand pose recognition using faster region-based convolutional neural network[C]. The First International Conference on Big Data Analysis and Deep Learning, Singapore, 2019: 104–112. doi: 10.1007/978-981-13-0869-7_12.
[17]	PISHARADY P K, VADAKKEPAT P, and LOH A P. Attention based detection and recognition of hand postures against complex backgrounds[J]. International Journal of Computer Vision, 2013, 101(3): 403–419. doi: 10.1007/s11263-012-0560-5
[18]	常建红. 基于改进Faster RCNN算法的手势识别研究[D]. [硕士论文], 河北大学, 2020. doi: 10.27103/d.cnki.ghebu.2020.001315. CHANG Jianhong. The gesture recognition research based on the improved faster RCNN algorithm[D]. [Master dissertation], Hebei University, 2020. doi: 10.27103/d.cnki.ghebu.2020.001315.
[19]	张勋, 陈亮, 胡诚, 等. 一种基于深度学习的静态手势实时识别方法[J]. 现代计算机, 2017(34): 6–11. doi: 10.3969/j.issn.1007-1423.2017.34.002 ZHANG Xun, CHEN Liang, HU Cheng, et al. A real-time recognition method of static gesture based on depth learning[J]. Modern Computer, 2017(34): 6–11. doi: 10.3969/j.issn.1007-1423.2017.34.002
[20]	彭玉青, 赵晓松, 陶慧芳, 等. 复杂背景下基于深度学习的手势识别[J]. 机器人, 2019, 41(4): 534–542. doi: 10.13973/j.cnki.robot.180568 PENG Yuqing, ZHAO Xiaosong, TAO Huifang, et al. Hand gesture recognition against complex background based on deep learning[J]. Robot, 2019, 41(4): 534–542. doi: 10.13973/j.cnki.robot.180568
[21]	王粉花, 黄超, 赵波, 等. 基于YOLO算法的手势识别[J]. 北京理工大学学报, 2020, 40(8): 873–879. doi: 10.15918/j.tbit1001-0645.2019.030 WANG Fenhua, HUANG Chao, ZHAO Bo, et al. Gesture recognition based on YOLO algorithm[J]. Transactions of Beijing Institute of Technology, 2020, 40(8): 873–879. doi: 10.15918/j.tbit1001-0645.2019.030
[22]	JIANG Zicong, ZHAO Liquan, LI Shuaiyang, et al. Real-time object detection method based on improved YOLOv4-tiny[EB/OL]. https://arxiv.org/abs/2011.04244, 2020.
[23]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904–1916. doi: 10.1109/TPAMI.2015.2389824
[24]	GitHub, Inc. NIHUI. ncnn[EB/OL]. https://github.com/Tencent/ncnn, 2021.

施引文献

期刊类型引用(5)

1.	廖茂杉，黄江华，杨涛，宋娟. 不同中医证型胃癌患者外周血miR-21、miR-122水平变化及临床意义. 四川中医. 2024(04): 100-103 . 百度学术
2.	姬汉书，王鹏，顾小红. 循环肿瘤细胞联合血清标志物检测对胃癌患者术后复发的预测价值. 实用中西医结合临床. 2024(14): 4-6+57 . 百度学术
3.	王超，郭英，崔磊，闫庆国. 深度学习辅助病理诊断领域的研究进展. 现代肿瘤医学. 2024(19): 3791-3795 . 百度学术
4.	袁筱祺，高玮，董笑. 灰色GM(1, 1)预测模型在单病种运营管理中的应用——以胃癌为例. 中国医疗设备. 2024(09): 76-81+87 . 百度学术
5.	周泓宇，陶海波，薛飞跃，王彬，金怀平，李振辉. 基于多分辨率特征融合与上下文信息的胃癌复发预测方法. 生物医学工程学杂志. 2024(05): 886-894 . 百度学术

其他类型引用(4)

资源附件(0)

访问统计

图(10) / 表(1)

计量

文章访问数: 3100
HTML全文浏览量: 2332
PDF下载量: 427
被引次数: 9

1. 引言
2. 本文方法
2.1 子分类器构建方法
2.2 子分类器融合方法
3. 实验结果及分析
3.1 实验数据
3.2 实验环境及数据预处理
3.3 模型评价方法
3.4 切片层面实验结果与分析
3.5 患者层面实验结果与分析
4. 结论

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于改进YOLOv4-tiny算法的手势识别

doi: 10.11999/JEIT201047

作者简介:
卢迪：女，1971年生，教授，博士，研究方向为数据融合、图像处理

马文强：男，1992年生，硕士生，研究方向为图像处理、手势识别

通讯作者:
卢迪　ludizeng@hrbust.edu.cn

计量

Gesture Recognition Based on Improved YOLOv4-tiny Algorithm

1. 引言

2. 本文方法

2.1 子分类器构建方法

2.1.1 切片特征提取方法

2.1.2 切片信息融合方法

2.2 子分类器融合方法

3. 实验结果及分析

3.1 实验数据

3.2 实验环境及数据预处理

3.3 模型评价方法

3.4 切片层面实验结果与分析

3.5 患者层面实验结果与分析

4. 结论

期刊类型引用(5)

其他类型引用(4)

计量

目录

1. 引言

2. 本文方法

2.1 子分类器构建方法

2.2 子分类器融合方法

3. 实验结果及分析

3.1 实验数据

3.2 实验环境及数据预处理

3.3 模型评价方法

3.4 切片层面实验结果与分析

3.5 患者层面实验结果与分析

4. 结论

留言板

基于改进YOLOv4-tiny算法的手势识别

doi: 10.11999/JEIT201047

作者简介: 卢迪：女，1971年生，教授，博士，研究方向为数据融合、图像处理 马文强：男，1992年生，硕士生，研究方向为图像处理、手势识别

通讯作者: 卢迪 ludizeng@hrbust.edu.cn

计量

出版历程

Gesture Recognition Based on Improved YOLOv4-tiny Algorithm

1. 引言

2. 本文方法

2.1 子分类器构建方法

2.1.1 切片特征提取方法

2.1.2 切片信息融合方法

2.2 子分类器融合方法

3. 实验结果及分析

3.1 实验数据

3.2 实验环境及数据预处理

3.3 模型评价方法

3.4 切片层面实验结果与分析

3.5 患者层面实验结果与分析

4. 结论

期刊类型引用(5)

其他类型引用(4)

计量

出版历程

目录

1. 引言

2. 本文方法

2.1 子分类器构建方法

2.2 子分类器融合方法

3. 实验结果及分析

3.1 实验数据

3.2 实验环境及数据预处理

3.3 模型评价方法

3.4 切片层面实验结果与分析

3.5 患者层面实验结果与分析

4. 结论

作者简介:
卢迪：女，1971年生，教授，博士，研究方向为数据融合、图像处理

马文强：男，1992年生，硕士生，研究方向为图像处理、手势识别

通讯作者:
卢迪　ludizeng@hrbust.edu.cn