Small-scale Pedestrian Detection Based on Feature Enhancement Strategy
-
摘要: 行人检测中,小尺度行人时常被漏检、误检。为了提升小尺度行人的检测准确率并且降低其漏检率,该文提出一个特征增强模块。首先,考虑到小尺度行人随着网络加深特征逐渐减少的问题,特征融合策略突破特征金字塔层级结构的约束,融合深层、浅层特征图,保留了大量小尺度行人特征。然后,考虑到小尺度行人特征容易与背景信息发生混淆的问题,通过自注意力模块联合通道注意力模块建模特征图空间、通道关联性,利用小尺度行人上下文信息和通道信息,增强了小尺度行人特征并且抑制了背景信息。最后,基于特征增强模块构建了一个小尺度行人检测器。所提方法在CrowdHuman数据集中小尺度行人的检测准确率为19.8%,检测速度为22帧/s,在CityPersons数据集中小尺度行人的误检率为13.1%。结果表明该方法对于小尺度行人的检测效果优于其他对比算法且实现了较快的检测速度。Abstract: In pedestrian detection, small-scale pedestrians are often missed and mistakenly detected. In order to improve detection precision and reduce miss detection rate of small-scale pedestrians, a feature enhancement module is proposed. First, considering the problem that small-scale pedestrians feature gradually decreases as network goes deeper, feature fusion strategy breaks through the constraints of feature pyramid structure and fuses deep and shallow feature maps to retain lots of small-scale pedestrian features. Then, considering the problem that small-scale pedestrian features are easily confused with background information, self-attention module combined with channel attention module models the spatial and channel correlation of feature maps, using small-scale pedestrian contextual information and channel information to enhance small-scale pedestrian features and suppress background information. Finally, a small-scale pedestrian detector is constructed based on the feature enhancement module. For small-scale pedestrians, the proposed algorithm has 19.8% detection accuracy, 22 frames per second speed on CrowdHuman dataset and 13.1% miss rate on CityPersons dataset. The results show that the proposed algorithm performs better than other compared algorithms for small-scale pedestrian detection and achieves faster detection speed.
-
Key words:
- Pedestrian detection /
- Small-scale pedestrian /
- Feature enhancement module
-
1. 引言
近年来,随着计算机硬件性能的急速提升,计算机视觉受到研究人员的关注。行人检测中作为计算机视觉一个热点方向,被研究人员广泛应用于各种现实场景,比如:车辆驾驶辅助系统[1]、智能监控[2]等。然而,现实场景中背景环境复杂,小尺度行人包含像素少,容易被背景噪声干扰,导致检测中时常出现漏检、误检的情况。
针对小尺度行人的检测问题,目前的研究主要分为图像金字塔方法、特征金字塔方法和其他方法。首先,图像金字塔方法最常见的有两种分别是高斯金字塔和拉普拉斯金字塔。其次,特征金字塔方法利用多层卷积层产生的不同分辨率特征图用于检测。Liu等人[3]提出单发多框检测器(Single Shot multibox Detector, SSD),利用浅层高分辨率特征图检测小物体,深层低分辨率特征图检测大物体。Lin等人[4]提出特征金字塔网络(Feature Pyramid Networks, FPN),对每一层的特征图采用自上向下的方法将深层特征图上采样后与下一个特征图融合,保证了每一层都有合适的分辨率以及语义信息。最后,除了图像和特征金字塔方法,研究人员还提出了一些新检测的解决思路[5,6]。Li等人[7]提出了一种新的感知生成对抗网络,该模型通过缩小小目标和大目标之间的表示差距,实现了小目标的特性更接近大目标特性,最终使得小目标的检测更具有识别性。Cai等人[8]提出了多阶段的结构,可不断提高交并比(Intersection over Union, IoU)的阈值,使得在保证样本数量的同时也能使得样本的质量不下降,最后训练出高质量的检测器。Hu等人[9]通过设计的注意力机制权重,利用图像中目标之间的相互关系,使小物体有更多的周边信息来帮助识别,从而提高检测准确率。Krishna等人[10]将模糊的小目标通过超分辨率清晰化后再进行分类和回归,提升小目标的特征质量,这样更有利于小目标的检测。
针对小尺度行人的检测问题,本文认为应该关注小尺度行人在卷积神经网络中的特点,增强小尺度行人的特征。对此,通过自注意力模块联合通道注意力模块建模特征图空间、通道关联性,利用小尺度行人上下文信息和通道信息,增强了小尺度行人特征并且抑制了背景信息,基于特征增强模块构建了一个小尺度行人检测器。
2. 算法原理设计
图1为本文所提模型。该模型由4个关键部分组成,对于输入图像,特征提取模块首先提取行人特征,获得由浅至深不同分辨率的多层特征图;其次采用特征金字塔对浅层、深层特征图进行融合,实现高层和浅层特征信息的流动;然后,特征增强模块增强小尺度行人特征,引导网络关注小尺度行人;最后,检测模块完成对特征点的分类、回归、位置信息的预测,得到预测边界框。
2.1 特征提取模块
本文将CSPDarknet网络[11]作为主干网络对输入图像特征进行提取。首先,Focus模块对输入图片进行切片和卷积操作,得到没有信息丢失情况下的2倍下采样特征图。其次,Dark2, Dark3, Dark4模块对特征图依次卷积,其中Dark3, Dark4模块的输出{C2,C3}作为下一模块特征金字塔的输入。3个Dark模块结构相似,主要由CSPResNet构建,其模块结构如图2(b)所示。该模块中主干部分进行残差模块的堆叠,残差部分则经过
1×1 卷积后,直接与主干部分连接并且再次卷积。最后,从Dark4模块出来的特征图,进入Dark5模块输出{C4}作为特征金字塔的输入。与前3个Dark模块不一样的地方在于,Dark5模块加入了空间金字塔池化(Spatial Pyramid Pooling, SPP)[12],如图2(c)所示。因为随着网络的深入,特征图分辨率逐步下降,深层特征图容易丢失特征信息。SPP结构通过并联3个膨胀率分别为5, 9, 13的最大池化,扩大了网络的感受野。2.2 特征金字塔模块
本文使用双向特征金字塔实现{C2, C3, C4}特征图的信息流动。其中,浅层特征图{C2}的分辨率大能够提供较准确的位置信息以及边缘形状等特征,而深层特征图{C4}的分辨率较小却拥有更强的语义信息。双向特征金字塔将深层特征上采样增大分辨率与浅层特征图进行融合后,再将浅层特征图下采样减小分辨率与深层特征图进行融合。这样的特征金字塔有效地保留了浅层特征图的行人信息,并且弥补了自上而下特征融合过程中信息流单向传递的缺陷,为下一步的小尺度行人特征增强奠定了良好的基础。
2.3 特征增强模块
基于卷积神经网络的小尺度行人特征有两个特点。第一,特征少并且多数聚集在浅层特征图。通过特征提取网络得到的{C2, C3, C4}特征图中,只有{C2, C3}包含部分小尺度行人特征。虽然双向特征金字塔通过自顶向下、自底向上的方式促进了深层与浅层特征图的信息流动,但是金字塔结构的层级结构对于小尺度行人特征仍有着极大的抑制。第二,特征不明显容易被淹没在背景噪声信息中。{C2, C3}特征图中虽然包含小尺度行人信息,但不可避免的是很多背景环境信息也被包含其中。如何使检测网络更加关注小尺度行人信息,并且抑制背景噪声,对小尺度行人检测也至关重要。
为了提升检测器对小尺度行人的检测能力,本文设计了一个特征增强模块嵌入到特征金字塔和预测网络之间,其模块结构如图3所示。首先,对于特征金字塔模块输出的{P2, P3, P4}特征图,特征融合策略突破特征金字塔的层级结构,以同样的重要性融合浅层、深层多个不同分辨率的特征图,保留了大量浅层特征图中的小尺度行人特征。其次,自注意力模块探究融合后特征图{Pm}中单个特征点与其他特征点之间的关联性,以单个像素点的上下文信息增强了目标特征并且抑制噪声特征。然后,将特征图{Pms}恢复到原始{P2, P3, P4}特征图大小后,{P2', P3', P4'}特征图分别利用通道注意力模块进一步建模特征图通道关联性,以特征图通道重要性的响应引导了网络关注小尺度行人。最后,特征增强模块输出的{P2'', P3'', P4''}3个特征图分别进入3个结构完全相同的检测模块,预测3个特征图中目标类别、回归、位置等信息。
2.3.1 特征融合策略
特征融合策略通过缩放融合浅层到深层的特征图,使每个分辨率特征图从其他分辨率特征图中获得相同的信息。如图3所示,从双向特征金字塔输出的特征图{P2, P3, P4}通过最大池化操作、上采样操作、卷积操作分别将{P2, P4}特征图缩放到{P3}特征图大小。然后,3个大小完全一致的特征图相加求平均,得到混合信息的{Pm}特征图。式(1)为{Pm}特征图的计算式。
Pm=(Fm(Conv(P2)+P3+Fu(Conv(P4))) (1) 其中,
Fm(⋅) 是最大池化操作,Fu(⋅) 是上采样操作,用于调整{P2, P4}特征图的分辨率。Conv(⋅) 是卷积操作,用于调整{P2, P4}特征图通道数。2.3.2 自注意力模块
卷积神经网络利用卷积操作实现特征的提取、融合过程时都是局部连接,忽略了行人检测对全局信息的依赖。特别是小尺度行人,因为其在特征图中表示较弱需要上下文信息的帮助使网络关注小尺度行人特征并且抑制背景噪声。自注意力模块通过建立{Pm}特征图中每个特征点与其他特征点的相似性,得到了表示特征图空间关联性的描述符,其模块结构如图4所示。
为了建立{Pm}特征图的空间关联性模型,首先,自注意力模块将{Pm}特征图大小重塑为
C×HW ,表示{Pm}特征图中C×HW 个特征点;其次,1×1 卷积将{Pm}特征图进行线性映射,分别得到g(Pm) ,θ(Pm) ,ϕ(Pm) ;然后,θ(Pm)T∈RHW×C/2 与g(Pm)∈RC/2×HW 矩阵相乘,得到了特征图空间关联性矩阵Vs∈RHW×HW ,该矩阵中的每一个值表示每两个像素之间的相似性。最后,归一化后的特征图空间关联性矩阵Vs 与原始特征映射ϕ(Pm) 矩阵相乘,得到了{Pm}特征图的自注意力响应zs ,式(2)为自注意力响应zs 的计算公式。zs=softmax (2) \begin{split} \qquad {\rm{soft}}\max ({{\boldsymbol{V}}_{\boldsymbol{s}}}) & = \frac{{{{\rm{e}}^{{{\boldsymbol{V}}_{{\boldsymbol{s (i,j)}}}}}}}}{{\displaystyle\sum\limits_{i = 1}^{HW} {\sum\limits_{j = 1}^{HW} {{{\rm{e}}^{{{\boldsymbol{V}}_{{\boldsymbol{s (i,j)}}}}}}} } }} \\ & = \frac{{{{\rm{e}}^{(\theta {{({\bf{P}}{{\text{m}}_{\text{i}}})}^{\rm{T}}}\cdot g({\bf{P}}{{\text{m}}_{\text{j}}}))}}}}{{\displaystyle\sum\limits_{i = 1}^{HW} {\sum\limits_{j = 1}^{HW} {{{\rm{e}}^{(\theta {{({\bf{P}}{{\text{m}}_{\text{i}}})}^{\rm{T}}}\cdot g({\bf{P}}{{\text{m}}_{\text{j}}}))}}} } }} \end{split} (3) \phi ({\bf{P}}{\text{m}}) = {W_\phi }({\bf{P}}{\text{m}}) (4) g({\bf{P}}{\text{m}}) = {W_g}({\bf{P}}{\text{m}}) (5) {\text{ }}\theta ({\bf{P}}{\text{m}}) = {W_\theta }({\bf{P}}{\text{m}}) (6) 其中,
{W_\phi } ,{W_g} ,{W_\theta } 分别是1 \times 1 卷积核中的可学习参数。自注意力响应
{{\boldsymbol{z}}_{\boldsymbol{s}}} 以残差块的形式体现,式(7)为自注意力模块最终输出的计算式。{\bf{P}}{\text{ms}} = {W_z}{{\boldsymbol{z}}_{\boldsymbol{s}}} + {\bf{P}}{\text{m}} (7) 其中,
{W_z} 表示1 \times 1 卷积核中的可学习参数。2.3.3 通道注意力模块
自注意力模块将全局信息以注意力的形式赋给了特征图,使得小尺度行人区域可以利用上下文信息获得网络的关注。为了进一步增强小尺度行人的特征,通道注意力模块通过建模特征通道的关联性,得到可以表达通道重要程度的描述符,自适应的校正了通道特征,其模型结构如图5所示。
为了建立特征图的通道关联性模型,通道注意力模块首先通过平均池化操作将输入特征图每个通道的全局空间信息压缩,以构成特征图通道信息统计描述向量
{{\boldsymbol{z}}_{{\rm{ch}}}} \in {R^{{\boldsymbol{C}} \times 1 \times 1}} ;其次,{{\boldsymbol{z}}_{{\rm{ch}}}} 作为两个串联的全连接层的输入,对每个通道重要性进行预测;其中,全连接层是相邻两层神经元完全相互连接的结构。它的作用是对{{\boldsymbol{z}}_{{\rm{ch}}}} 进行全局分析并以非线性方式组合其通道特征。在通道注意力模型中,全连接层捕获了{{\boldsymbol{z}}_{{\rm{ch}}}} 各个通道之间的非线性关系,使{{\boldsymbol{z}}_{{\rm{ch}}}} 能够自适应地调整各通道重要性描述。最后,sigmoid激活函数输出不同通道的重要性,及特征通道注意力向量{{\boldsymbol{V}}_{{\rm{ch}}}} \in {R^{{\boldsymbol{C}} \times 1 \times 1}} ,该向量每个元素的值反映了对应特征通道的重要程度,式(8)为通道注意力向量{{\boldsymbol{V}}_{{\rm{ch}}}} 的计算公式。\qquad\quad {{\boldsymbol{V}}_{{\rm{ch}}}} = \sigma ({W_2}(\delta ({W_1}{{\boldsymbol{z}}_{{\rm{ch}}}}))) (8) \qquad\quad \sigma (x) = \frac{1}{{1 + {{\rm{e}}^ - }^x}}{{\boldsymbol{z}}_{{\rm{ch}}}} (9) \qquad\quad \delta (x) = \max (0,x) (10) 其中,
{W_1} 和{W_2} 为两个全连接层的参数。特征通道注意力向量
{{\boldsymbol{V}}_{{\rm{ch}}}} ,对输入特征进行逐通道加权,式(11)为通道注意力模块最终输出的计算公式。{F_{{\rm{chn}}}} = {{\boldsymbol{V}}_{{\rm{ch}}}} \otimes F (11) 其中,
\otimes 为逐像素相乘。2.4 预测模块
特征增强模块后3个不同分辨率{P2'', P3'', P4''}特征图输入预测模块用于获取检测结果。预测网络包括类别、回归、位置3个部分。位置预测和类别预测被简化为一个二分类问题,采用交叉熵损失作为损失函数。式(12),式(13)为类别、位置部分的损失函数计算公式。
\begin{split} {L_{{\text{cls}}}} =& \frac{1}{N}\sum\limits_i {{L_i}} = \frac{1}{N}\sum\limits_i - [g{t_i} \cdot \lg ({p_i}) \\ & + (1 - g{t_i})\lg (1 - {p_i})] \end{split} (12) 其中,
{p_i} 为特征点类别预测结果,g{t_i} 为真实框的类,N 为样本总数。\begin{split} {L_{{\text{obj}}}} =& \frac{1}{M}\sum\limits_j {{L_j}} = \frac{1}{M}\sum\limits_j - [g{t_j} \cdot \lg ({p_j}) \\ & + (1 - g{t_j})\lg (1 - {p_j})] \end{split} (13) 其中,
{p_j} 为特征点是否包含物体的预测结果,g{t_j} 为真实框的类,M 为样本总数。回归部分在获取特征点的预测框后,采用IoU损失作为损失函数。式(14)为回归部分的损失函数计算公式。
{L_{{\rm{reg}}}} = \frac{1}{Z}\sum\limits_k {{L_k}} = \frac{1}{Z}\sum\limits_k {1 - {{({\rm{IoU}})}^2}} (14) {\text{IoU}} = \frac{{\max ({x_1} - {x_2},0) \cdot \max ({x_3} - {x_4},0)}}{{({x_l} - {x_t}) \cdot ({x_r} - {x_b}) + ({{\tilde x}_l} - {x_t}) \cdot ({{\tilde x}_r} - {{\tilde x}_b}) - \max ({x_1} - {x_2},0) \cdot \max ({x_3} - {x_4},0)}} (15) {x_1} = \min ({x_l},{\tilde x_l}) (16) {x_2} = \max ({x_t},{\tilde x_t}) (17) {x_3} = \min ({x_r},{\tilde x_r}) (18) {x_4} = \max ({x_{\text{b}}},{\tilde x_b}) (19) 其中,
Z 为样本总数,({x_l},{x_t},{x_r},{x_{\text{b}}}) 和({\tilde x_l},{\tilde x_t},{\tilde x_r},{\tilde x_{\text{b}}}) 分别为预测框和真实框的左上角与右下角的坐标。最终,本文的损失函数由这3个部分组合为多任务损失函数联合优化训练网络。式(20)是本文的损失函数公式。
L(\theta ) = {\lambda _{\text{c}}}{L_{{\text{reg}}}} + {L_{{\rm{cls}}}} + {L_{{\rm{obj}}}} (20) 其中,
\theta 为网络学习参数,{\lambda _{\text{c}}} 为权重因子,参照文献[13]设置为5。3. 实验与分析
3.1 实验平台
本文所做实验基于Pytorch深度学习框架。硬件配置为Intel Xeon E5 CPU, 4个Nvidia GTX1080Ti GPU和64GB内存。软件环境为python3.6, cuda10.1, pytorch3.6和numpy 1.17.0等。
3.2 数据集与评估标准
实验采用数据集为专门用于行人检测的CrowdHuman[14]和CityPersons[15]数据集。对于CrowdHuman数据集,采用平均准确率(Average Precision, AP)、每秒传递的帧数(frames per second, fps)进行评估。越高的AP值表示检测模型的性能越好。为了体现所提模型检测效果,分别对以下6种情况下的AP值进行了讨论。(1)AP:表示在IoU阈值为0.5到0.95时平均准确率的平均值;(2)AP50:表示IoU阈值为0.5时的平均准确率;(3)AP75:表示IoU阈值为0.75时的平均准确率;(4)Small AP:表示对小尺度行人检测的平均准确率;(5)Middle AP:表示对中尺度行人检测的平均准确率;(6)Large AP:表示对大尺度行人检测的平均准确率。本文依据COCO数据集对不同尺度目标的划分标准,如表1所示。在同一硬件条件下,越高的fps值表示1 s内检测模型可以处理的图片数量越多,检测模型的速度越快。对于CityPersons数据集,采用官方评价标准的漏检率(Miss Rate, MR)进行评估,该数值越低说明检测性能越好。同理为了体现所提模型检测效果,本文分别对7种情况下的MR值进行了讨论,划分的标准主要是不同的遮挡程度以及尺度。本文依据CityPersons数据集对不同遮挡程度的划分标准,如表2所示。
表 1 COCO数据集中目标尺度划分标准区域 目标尺度 {\rm{area}} < {32^2}个像素点 small {32^2} < {\rm{area}} < {96^2}个像素点 middle {96^2} < {\rm{area}}个像素点 large 表 2 CityPersons[13]数据集中部分子集划分标准子集 行人高度 遮挡程度 Bare >50 PXs 0.1≤occlusion Reasonable >50 PXs occlusion<0.35 Partial >50 PXs 0.1<occlusion≤0.35 Heavy >50 PXs 0.35<occlusion≤0.8 3.3 训练设置
训练阶段,CrowdHuman数据集图片分辨率设置为
640 \times 640 ,每个训练批次大小设置为4张图片,迭代次数设置为150。通过色域扭曲、翻转图像、缩放图像等操作随机预处理输入图像,使用自适应矩估计(Adaptive moment estimation, Adam)优化器,初始学习率为1 \times {10^{ - 4}} 。测试阶段,CrowdHuman数据集、CityPersons数据集图片分辨率设置为1280 \times 1280 ,2048 \times 1024 ,不使用任何图片预处理操作。3.4 实验设计
3.4.1 模块验证实验
为了验证特征增强模块的有效性,将去除特征增强模块的检测器作为测试基准(Baseline)进行实验对比。该实验在CrowdHuman数据集上进行,采用的评价指标是6种情况下AP值,实验结果如表3所示。
表 3 模块验证实验结果(%)方法 AP ↑ AP50 ↑ AP75 ↑ Small AP ↑ Middle AP ↑ Large AP ↑ Baseline 45.2 71.7 47.5 18.0 44.7 62.5 Baseline+特征融合策略 45.2 71.7 47.8 20.1 45.6 60.5 Baseline+特征融合策略+自注意力模块 45.7 72.3 48.4 19.5 44.9 61.8 Baseline+通道注意力模块 44.5 71.3 46.9 19.1 45.0 59.9 本文模型 46.9 72.7 49.8 19.8 46.5 63.8 从表3的模块验证实验结果可以看出:首先,特征融合策略能够保留大部分中小尺度行人特征,但是很多背景噪声的同时加入导致了整体检测性能无法优化。其次,自注意力模块在特征融合策略的基础上,利用特征的上下文信息,增强小尺度行人特征的同时抑制背景信息,但是部分中小尺度行人特征也被抑制,造成中小尺度行人检测受到影响。然后,通道注意力模块因为特征信息的不足,导致整体检测性能并不理想,小尺度行人检测性能却有明显提升。证明通道注意力模块中,通过通道关联性的非线性建模对小尺度行人特征增强的有效性。最后,在3个子模块共同作用下,本文模型在保证综合检测准确率提升的同时,对中小尺度行人检测有了较好的优化效果。综上,相较于测试基准,本文所提的基于特征增强模块的行人检测器,在IoU阈值为0.5时,检测准确率提升了1.0%,证明了本文所提模块对行人检测效果的提升。与此同时,针对小尺度行人的检测准确率提升了1.8%,证明了本文所设计的模块对小尺度行人检测的有效性。
3.4.2 对比实验
为了验证基于特征增强模块的检测模型的性能,本文选取在CrowdHuman数据集上有较好表现且具有代表性的Yolov4[16], RetinaNet[17], CenterNet[18]等3种对比模型进行CrowdHuman同一数据集上的训练和测试,采用的评价指标是6种情况下的AP值。实验结果如表4所示。
从表4可以看出,本文所提模型在CrowdHuman数据集中IoU阈值为0.5时,检测准确率达到了72.7%。同时,小尺度行人的检测准确率达到了19.8%,相比于对比算法有了一定的提升。此外,本文Baseline相较于对比模型也有较好的结果。针对Baseline以及特征增强模块带来的提升,分析原因如下:一方面,CSPDarknet、双向特征金字塔网络以及特征增强模块从保留浅层特征信息的角度,利用残差结构、信息流动等方式,避免了网络深度造成的信息缺失或特征变弱。另一方面,不同于基于锚框的检测方法,预测网络通过直接预测行人类别、回归、位置信息的方式,较好地应对了训练到测试阶段时图片分辨率变化,避免了先验信息对检测的影响。
为了更直观证明本文所提模型的检测有效性,本文还在CrowdHuman数据集中选取了3幅代表生活场景下行人的图像用于检测。这3幅图像中行人比较密集,包含了大、中、小尺度行人,检测效果如图6所示。从图6可以看出,Yolov4[16], RetinaNet[17], CenterNet[18]检测器对于近处的大、中尺度行人的检测较为稳定,但是对于远处的小尺度行人容易漏检、误检。与此同时,本文模型对于小尺度行人的检测体现了较强的稳定性,无论是看台处的行人还是会议桌最远处的行人都能被检测。不过值得一提的是,图6(j)中右边看台部分行人本文模型未能完全检测,可能是因为小尺度行人出现了部分重叠而造成的。综上所述,特征增强模块对于小尺度行人特征增强是有效的,并且本文检测方法对行人检测具有一定的优势。
3.4.3 运行时间
为了测试所提模型的运行时间,在相同实验条件下,本文在CrowdHuman数据集上进行实验,评价指标为fps,选取了Yolov4, CenterNet, Faster R-CNN[19]等3种对比算法,实验结果如表5所示。
从表5可以看出,本文模型的检测速度相较于两阶段检测器Faster R-CNN[19]、单阶段检测器Yolov4具有明显优势,仅次于单阶段无锚检测器CenterNet。综合考虑表4的检测准确度,本文所提模型与其他几种常见的检测模型相比,具有竞争优势。考虑到现实生活中对行人检测算法在对检测速度和准确性上的双重要求,本文方法显然更有利于应用在实际相关领域。
3.4.4 泛化性实验
为了验证所提模型的泛化性能,本文在CityPersons数据集的各个子集上进行对比实验,采用MR作为评价指标。本文选取了9种在CityPersons数据集上的常用方法进行对比,实验结果如表6所示。
表 6 泛化性实验结果(%)方法 Bare MR↓ Reasonable MR↓ Partial MR↓ Heavy MR↓ Small MR↓ Medium MR↓ Large MR↓ RepLoss[20] 7.6 13.2 16.8 56.9 – – – TLL[21] 10.0 15.5 17.2 53.6 – – – ALFNet[22] 8.4 12.0 11.4 51.9 19.0 5.7 6.6 CAFL[23] 7.6 11.4 12.1 50.4 – – – LBST[24] – 12.8 – – – – – OR-CNN[25] 6.7 12.8 15.3 55.7 – – – CSP[26] 7.3 11.0 10.4 49.3 16.0 3.7 6.5 MFGP[27] 8.0 10.9 10.9 49.9 – – – 文献[28] 7.9 10.6 10.2 50.2 14.3 3.5 7.0 本文模型 7.2 10.6 11.3 50.7 13.1 3.7 7.5 从表6可以看出,本文所提模型虽然对于各种遮挡情况的漏检率不是最优的,但是基本也能达到次优。并且,对于小尺度行人的漏检问题有明显的改进。分析原因为:CityPersons数据集中行人数量相对少且遮挡情况较多,本文方法虽然增强了小尺度行人特征,但是对于具有相似外表的遮挡行人分辨能力有所欠缺。并且本文选取的这9种检测方法中,性能表现较好的OR-CNN[25]方法、CSP[26]方法都是目前解决行人遮挡问题中较为优秀的方法。综上所述,针对小尺度行人检测问题本文所提方法在CityPersons数据集中表现良好,证明本文方法具有一定的泛化能力。
4. 结论
本文提出了一种针对小尺度行人的单阶段无锚检测器—基于特征增强模块的小尺度行人检测模型。本文提出的特征增强模块,利用小尺度行人在卷积神经网络中的特点,增强小尺度行人的特征。通过大量实验表明,本文所提出的特征增强模块是有效的。并且基于特征增强模块的小尺度行人检测模型对于小尺度行人的检测准确度有所提升,漏检率有所下降。接下来,本文将从行人检测中存在的遮挡问题入手,进一步提高模型性能。
-
表 1 COCO数据集中目标尺度划分标准
区域 目标尺度 {\rm{area}} < {32^2}个像素点 small {32^2} < {\rm{area}} < {96^2}个像素点 middle {96^2} < {\rm{area}}个像素点 large 表 2 CityPersons[13]数据集中部分子集划分标准
子集 行人高度 遮挡程度 Bare >50 PXs 0.1≤occlusion Reasonable >50 PXs occlusion<0.35 Partial >50 PXs 0.1<occlusion≤0.35 Heavy >50 PXs 0.35<occlusion≤0.8 表 3 模块验证实验结果(%)
方法 AP ↑ AP50 ↑ AP75 ↑ Small AP ↑ Middle AP ↑ Large AP ↑ Baseline 45.2 71.7 47.5 18.0 44.7 62.5 Baseline+特征融合策略 45.2 71.7 47.8 20.1 45.6 60.5 Baseline+特征融合策略+自注意力模块 45.7 72.3 48.4 19.5 44.9 61.8 Baseline+通道注意力模块 44.5 71.3 46.9 19.1 45.0 59.9 本文模型 46.9 72.7 49.8 19.8 46.5 63.8 表 4 对比实验结果(%)
表 6 泛化性实验结果(%)
方法 Bare MR↓ Reasonable MR↓ Partial MR↓ Heavy MR↓ Small MR↓ Medium MR↓ Large MR↓ RepLoss[20] 7.6 13.2 16.8 56.9 – – – TLL[21] 10.0 15.5 17.2 53.6 – – – ALFNet[22] 8.4 12.0 11.4 51.9 19.0 5.7 6.6 CAFL[23] 7.6 11.4 12.1 50.4 – – – LBST[24] – 12.8 – – – – – OR-CNN[25] 6.7 12.8 15.3 55.7 – – – CSP[26] 7.3 11.0 10.4 49.3 16.0 3.7 6.5 MFGP[27] 8.0 10.9 10.9 49.9 – – – 文献[28] 7.9 10.6 10.2 50.2 14.3 3.5 7.0 本文模型 7.2 10.6 11.3 50.7 13.1 3.7 7.5 -
[1] 张功国, 吴建, 易亿, 等. 基于集成卷积神经网络的交通标志识别[J]. 重庆邮电大学学报:自然科学版, 2019, 31(4): 571–577. doi: 10.3979/j.issn.1673-825X.2019.04.019ZHANG Gongguo, WU Jian, YI Yi, et al. Traffic sign recognition based on ensemble convolutional neural network[J]. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition, 2019, 31(4): 571–577. doi: 10.3979/j.issn.1673-825X.2019.04.019 [2] 高新波, 路文, 查林, 等. 超高清视频画质提升技术及其芯片化方案[J]. 重庆邮电大学学报:自然科学版, 2020, 32(5): 681–697. doi: 10.3979/j.issn.1673-825X.2020.05.001GAO Xinbo, LU Wen, ZHA Lin, et al. Quality elevation technique for UHD video and its VLSI solution[J]. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition, 2020, 32(5): 681–697. doi: 10.3979/j.issn.1673-825X.2020.05.001 [3] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector[C]. Proceedings of the 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 21–37. [4] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 936–944. [5] LU Chengye, WU Sheng, JIANG Chunxiao, et al. Weak harmonic signal detection method in chaotic interference based on extended Kalman filter[J]. Digital Communications and Networks, 2019, 5(1): 51–55. doi: 10.1016/j.dcan.2018.10.004 [6] LUO Xiong, LI Jianyuan, WANG Weiping, et al. Towards improving detection performance for malware with a correntropy-based deep learning method[J]. Digital Communications and Networks, 2021, 7(4): 570–579. doi: 10.1016/j.dcan.2021.02.003 [7] LI Jianan, LIANG Xiaodan, WEI Yunchao, et al. Perceptual generative adversarial networks for small object detection[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 1951–1959. [8] CAI Zhaowei and VASCONCELOS N. Cascade R-CNN: Delving into high quality object detection[C]. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 6154–6162. [9] HU Han, GU Jiayuan, ZHANG Zheng, et al. Relation networks for object detection[C]. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 3588–3597. [10] KRISHNA H and JAWAHAR C V. Improving small object detection[C]. Proceedings of the 4th IAPR Asian Conference on Pattern Recognition, Nanjing, China, 2017: 340–345. [11] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNeT: A new backbone that can enhance learning capability of CNN[C]. Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Seattle, United States, 2020: 1571–1580. [12] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904–1916. doi: 10.1109/tpami.2015.2389824 [13] GE Zheng, LIU Songtao, WANG Feng, et al. YOLOX: Exceeding YOLO series in 2021[EB/OL]. https://arxiv.org/abs/2107.08430, 2021. [14] SHAO Shuai, ZHAO Zijian, LI Boxun, et al. CrowdHuman: A benchmark for detecting human in a crowd[EB/OL]. https://arxiv.org/abs/1805.00123, 2018. [15] ZHANG Shanshan, BENENSON R, and SCHIELE B. CityPersons: A diverse dataset for pedestrian detection[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 4457–4465. [16] BOCHKOVSKIY A, WANG C Y, and LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection[EB/OL]. https://arxiv.org/abs/2004.10934, 2020. [17] LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318–327. doi: 10.1109/TPAMI.2018.2858826 [18] ZHOU Xingyi, WANG Dequan, and KRÄHENBÜHL P. Objects as points[EB/OL]. https://arxiv.org/abs/1904.07850, 2019. [19] REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]. Proceedings of the 28th International Conference on Neural Information Processing Systems, Montreal, Canada, 2015: 91–99. [20] WANG Xinlong, XIAO Tete, JIANG Yuning, et al. Repulsion loss: Detecting pedestrians in a crowd[C]. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 7774–7783. [21] SONG Tao, SUN Leiyu, XIE Di, et al. Small-scale pedestrian detection based on topological line localization and temporal feature aggregation[C]. Proceedings of the 15th European Conference on Computer Vision, Munich, Germany, 2018: 554–569. [22] LIU Wei, LIAO Shengcai, HU Weidong, et al. Learning efficient single-stage pedestrian detectors by asymptotic localization fitting[C]. Proceedings of the 15th European Conference on Computer Vision, Munich, Germany, 2018: 643–659. [23] FEI Chi, LIU Bin, CHEN Zhu, et al. Learning pixel-level and instance-level context-aware features for pedestrian detection in crowds[J]. IEEE Access, 2019, 7: 94944–94953. doi: 10.1109/ACCESS.2019.2928879 [24] CAO Jiale, PANG Yanwei, HAN Jungong, et al. Taking a look at small-scale pedestrians and occluded pedestrians[J]. IEEE Transactions on Image Processing, 2019, 29: 3143–3152. doi: 10.1109/TIP.2019.2957927 [25] ZHANG Shifeng, WEN Longyin, BIAN Xiao, et al. Occlusion-aware R-CNN: Detecting pedestrians in a crowd[C]. Proceedings of the 15th European Conference on Computer Vision, Munich, Germany, 2018: 657–674. [26] LIU Wei, LIAO Shengcai, REN Weiqiang, et al. High-level semantic feature detection: A new perspective for pedestrian detection[C]. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 5182–5191. [27] ZHANG Yihan. Multi-scale object detection model with anchor free approach and center of gravity prediction[C]. Proceedings of 2020 IEEE 5th Information Technology and Mechatronics Engineering Conference (ITOEC), Chongqing, China, 2020: 38–45. [28] 陈勇, 谢文阳, 刘焕淋, 等. 结合头部和整体信息的多特征融合行人检测[J]. 电子与信息学报, 2022, 44(4): 1453–1460. doi: 10.11999/JEIT210268CHEN Yong, XIE Wenyang, LIU Huanlin, et al. Multi-feature fusion pedestrian detection combining head and overall information[J]. Journal of Electronics &Information Technology, 2022, 44(4): 1453–1460. doi: 10.11999/JEIT210268 期刊类型引用(20)
1. 周晨,周乾伟,陈翰墨,管秋,胡海根,吴延壮. 面向RGBD图像显著性检测的循环逐尺度融合网络. 小型微型计算机系统. 2023(10): 2276-2283 . 百度学术
2. 叶海峰,赵玉琛. 视觉位置识别中代表地点的标识牌算法. 小型微型计算机系统. 2021(04): 823-828 . 百度学术
3. 王慧玲,宋鑫怡,杨颖. 基于优化查询的改进显著性检测算法. 吉林大学学报(信息科学版). 2020(03): 319-324 . 百度学术
4. 郭迎春,李卓. 基于边缘特征和自适应融合的视频显著性检测. 河北工业大学学报. 2019(01): 1-7 . 百度学术
5. 鲁文超,段先华,徐丹,王万耀. 基于多尺度下凸包改进的贝叶斯模型显著性检测算法. 计算机科学. 2019(06): 295-300 . 百度学术
6. 王宝艳,张铁,李凯,杜松林. DEL分割算法对SSLS算法的改进. 小型微型计算机系统. 2019(10): 2052-2057 . 百度学术
7. 张巧荣,徐国愚,张俊峰. 利用视觉显著性的前景目标分割. 兰州大学学报(自然科学版). 2019(06): 833-840 . 百度学术
8. 杨俊丰,林亚平,欧博,蒋军强,李强. 基于显著性加权随机优化的快速响应码美化方法. 电子与信息学报. 2018(02): 289-297 . 本站查看
9. 邓晨,谢林柏. 全局对比和背景先验驱动的显著目标检测. 计算机工程与应用. 2018(03): 212-216 . 百度学术
10. 刘亚宁,吴清,魏雪. 基于流行排序的前景背景显著性检测算法. 科学技术与工程. 2018(18): 74-81 . 百度学术
11. 闫钧华,肖勇旗,姜惠华,杨勇,张寅. 融合区域像素显著性和时域信息的地面动目标检测及其DSP实现. 电子设计工程. 2018(19): 178-183+193 . 百度学术
12. 陈厚仁,蔡延光. 基于视频的干线交通流检测系统的研究与实现. 工业控制计算机. 2017(07): 85-87 . 百度学术
13. 赵艳艳,沈西挺. 基于同步更新的背景检测显著性优化. 计算机工程. 2017(10): 264-267 . 百度学术
14. 田畅,姜青竹,吴泽民,刘涛,胡磊. 基于区域协方差的视频显著度局部空时优化模型. 电子与信息学报. 2016(07): 1586-1593 . 本站查看
15. 罗会兰,万成涛,孔繁胜. 基于KL散度及多尺度融合的显著性区域检测算法. 电子与信息学报. 2016(07): 1594-1601 . 本站查看
16. 张晴,林家骏,戴蒙. 基于图的流行排序的显著目标检测改进算法. 计算机工程与应用. 2016(22): 26-32+38 . 百度学术
17. 杜永强. 过度曝光图像缺失信息修复算法. 科技通报. 2016(08): 146-149 . 百度学术
18. 郎波,樊一娜,黄静. 利用混合高斯进行物体成分拟合匹配的算法. 科学技术与工程. 2016(20): 73-80 . 百度学术
19. 项导,侯赛辉,王子磊. 基于背景学习的显著物体检测. 中国图象图形学报. 2016(12): 1634-1643 . 百度学术
20. 吕建勇,唐振民. 一种基于图的流形排序的显著性目标检测改进方法. 电子与信息学报. 2015(11): 2555-2563 . 本站查看
其他类型引用(21)
-