结合头部和整体信息的多特征融合行人检测

陈勇; 谢文阳; 刘焕淋; 汪波; 黄美永

doi:10.11999/JEIT210268

结合头部和整体信息的多特征融合行人检测

doi: 10.11999/JEIT210268

1.
重庆邮电大学工业物联网与网络化控制教育部重点实验室重庆 400065
2.
重庆邮电大学通信与信息工程学院重庆 400065

基金项目: 国家自然科学基金(51977021)

详细信息

作者简介:
陈勇：男，1963年生，博士，教授，主要研究方向为图像处理与模式识别

谢文阳：男，1994年生，硕士生，研究方向为深度学习及图像处理

刘焕淋：女，1970年生，博士生导师，教授，研究方向为信号处理

汪波：男，1995年生，硕士生，研究方向为图像处理

黄美永：女，1997年生，硕士生，研究方向为图像处理

通讯作者:
陈勇　chenyong@cqupt.edu.cn

中图分类号: TN911.73; TP391.41
计量
- 文章访问数: 945
- HTML全文浏览量: 814
- PDF下载量: 148
- 被引次数: 11
出版历程
- 收稿日期: 2021-04-02
- 修回日期: 2021-08-21
- 网络出版日期: 2021-09-09
- 刊出日期: 2022-04-18

Multi-feature Fusion Pedestrian Detection Combining Head and Overall Information

1.
Key Laboratory of Industrial Internet of Things & Network Control, Ministry of Education, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
2.
School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China

Funds: The National Natural Science Foundation of China (51977021)

摘要

摘要: 尺度过小或被遮挡是造成行人检测准确率降低的主要原因。由于行人头部不易被遮挡且其边界框包含的背景干扰较少，对此，该文提出一种结合头部和整体信息的多特征融合行人检测方法。首先，设计了一种具有多层结构的特征金字塔以引入更丰富的特征信息，融合该特征金字塔不同子结构输出的特征图从而为头部检测和整体检测提供有针对性的特征信息。其次，设计了行人整体与头部两个检测分支同时进行检测。然后，模型采用无锚框的方式从特征图中预测中心点、高度及偏移量并分别生成行人头部边界框和整体边界框，从而构成端到端的检测。最后，对非极大值抑制算法进行改进使其能较好地利用行人头部边界框信息。所提算法在CrowdHuman数据集和CityPersons数据集Reasonable子集上的漏检率分别为50.16%和10.1%，在Caltech数据集Reasonable子集上的漏检率为7.73%，实验表明所提算法对遮挡行人的检测效果以及泛化性能与对比算法相比得到一定的提升。
- 行人检测 /
- 特征金字塔 /
- 特征融合 /
- 中心点检测
Abstract: The decrease in accuracy of pedestrian detection mainly caused by occlusion and too small scale. Since the pedestrian head is not easily occluded and it’s bounding box contains less background interference, a multi-feature fusion pedestrian detection method combines head and overall information is proposed. Firstly, a feature pyramid with multi-layer structure is designed to introduce richer information, feature maps output from different substructures of the feature pyramid are fused to provide targeted information for head and overall detection. Secondly, two branches are designed to perform the detection simultaneously. Then, the model generates pedestrian head and overall bounding boxes respectively from predicted centers, heights and offsets thus constituting end-to-end detection. Finally, non-maximum suppression algorithm is improved to make better use of the pedestrian head information. The experimental results show that the proposed algorithm has 50.16% miss rate on CrowdHuman dataset and 10.1% miss rate on the Reasonable subset of CityPersons dataset, and 7.73% miss rate on the Reasonable subset of Caltech dataset. Experimental results show the detection efficiency and generalization performance of the proposed algorithm are improved compared with the contrast algorithms.
- Pedestrian detection /
- Feature pyramid /
- Feature fusion /
- Center detection

HTML全文

1. 引言

行人检测与行人重识别技术、目标跟踪技术等相结合在自动驾驶、视频监控等领域中有广泛的应用^[1-4]。然而实际检测中行人容易产生遮挡、重叠等问题，并且行人距离的远近会导致行人尺度产生较大变化，这些问题严重影响了行人检测的准确率^[5]。

目前卷积神经网络广泛应用于行人检测，其中以Faster R-CNN^[6]为代表的两阶段检测器和以RetinaNet^[7]为代表的单阶段检测器取得了较好的效果。李春伟等人^[8]采用多个卷积层的输出进行检测从而降低尺度造成的影响；Lin等人^[9]提出特征金字塔的概念并构建了FPN (Feature Pyramid Network)，该方法逐渐成为解决尺度变化问题的主要手段^[10,11]。针对行人检测中的遮挡问题，Zhang等人^[12]提出聚合损失函数使候选框靠近真实边界框以此降低类内遮挡造成的影响；Du等人^[13]通过在网络中添加额外的行人特征掩模减少背景像素的干扰；Fei等人^[14]通过引入更丰富的上下文信息减少遮挡造成的干扰；Liu等人^[15]考虑行人的标注方式，使用预测目标中心点及尺度的方式有效提升了检测准确性，同时该方法可有效减少类内遮挡造成的漏检。Liu等人^[16]通过添加密集程度检测模块为非极大值抑制提供更合理的筛选条件，有效提升了密集场景下行人检测的准确性。综上所述，上述方法从多个角度入手解决目标遮挡与尺度过小造成的检测准确性降低的问题，但却忽视了一个重要的方面，即行人的头部往往不易产生类内遮挡，即使躯干部分由于部分遮挡而无法被检测，但此时行人的头部特征依然明显，而该信息对于行人而言尤为重要，如Xu等人^[17]便利用头部信息提升行人跟踪的准确性。此外，大多数方法仅使用主干网络最后3层卷积层的输出进行特征融合，而小尺度目标往往在卷积层的较浅层拥有较高激活程度。

针对以上问题，本文构建了一种结合头部和整体信息的行人检测模型。受文献[18]的启发在行人检测的基础上添加行人头部检测分支，并利用CrowdHuman^[19]数据集自带的行人头部标签对模型进行训练；考虑到使用矩形边界框标注行人会引入大量背景像素，因此本文参照文献[15]采用中心点对行人头部和整体进行标注；两个检测分支采用不同深度卷积层的输出进行特征融合，从而提供有针对性的特征信息；同时，本文对非极大值抑制算法进行改进，通过添加行人头部的相关判断条件，使行人头部信息和行人整体信息能较好的结合。

2. 算法原理设计

图1为本文提出的网络模型结构，该模型由特征提取模块及检测模块组成。特征提取模块除主干网络外还包含5层结构的特征金字塔。对于行人头部和整体，使用该特征金字塔的不同子结构并融合输出的特征；检测模块包含头部检测和整体检测两个分支，以此为基础本文设计了一种融合策略，通过对非极大值抑制算法进行改进使其能较好地融合两个检测分支输出的检测结果。

图 1 模型总体结构

下载: 全尺寸图片幻灯片

2.1 特征提取模块

特征提取模块的主干网络采用ResNet50^[20]，随着网络层数加深输出特征图的分辨率逐层缩小为上一层的1/2。目前大多数方法仅使用主干网络最后3层的输出构建特征金字塔，这种做法将导致大量小尺度目标信息丢失，对此本文构建了具有5层结构的特征金字塔。同时使用该特征金字塔不同子结构的输出进行特征融合，从而为行人头部和整体提供有针对性的特征信息。

图2为本文设计的特征提取模块结构。原始输入图片的大小为H×W，下采样率为l且逐层翻倍，主干网络输出的特征图记为f₂-f₅，对这4张特征图使用1×1的卷积运算得到特征图F₁-F₄，对F₄使用相同的卷积运算得到特征图F₅。其中，特征图F₁的通道数为256，后续特征图的通道数逐层翻倍，但保持特征图F₄和F₅的通道数同为2048，最终形成具有5层结构的特征金字塔。头部检测分支使用特征图F₁-F₃，对F₂和F₃进行上采样使其大小与F₁一致，融合这3张特征图从而得到用于头部检测的特征图 ${F^{{\rm{head}}}}$ ；整体检测分支使用特征图F₃-F₅，之后采取的操作与上述类似，但在融合之前采用文献[21]提出的方法对特征图进行归一化，最后得到用于行人整体检测的特征图 ${F^{{\rm{body}}}}$ 。

图 2 特征提取模块结构

下载: 全尺寸图片幻灯片

2.2 行人检测模块

对于由信息主导的深度学习方法而言，引入更丰富的信息能有效提升检测准确性。文献[18]在行人矩形边界框中划定一部分区域，将其视作行人头部区域并尝试利用这部分信息，但因无法进行准确标注而只能大概确定头部位置，导致头部信息无法得到有效利用，但这依然为我们提供了新的思路。CrowdHuman^[19]是针对密集场景的行人检测数据集，它不仅包含行人整体边界框，还包含对应的行人头部边界框。为有效利用该数据集中的行人头部标签信息，本文在行人检测的基础上添加行人头部检测并构建如图3所示的检测模型。

图 3 检测模块结构

下载: 全尺寸图片幻灯片

对于特征提取模块输出的行人整体特征图 ${F^{{\rm{body}}}}$ ，分别使用3个1×1的卷积计算得到3张特征图，对应于行人中心 ${C^{{\rm{body}}}}$ 、行人高度 ${H^{{\rm{body}}}}$ 以及偏移量 ${O^{{\rm{body}}}}$ 。行人边界框的宽度采用文献[22]的生成方式，将高度乘以比例因子 $\varepsilon = 0.41$ 后得到；对于行人头部特征图 ${F^{{\rm{head}}}}$ ，采用相同方式分别生成头部中心 ${C^{{\rm{head}}}}$ 、高度 ${H^{{\rm{head}}}}$ 以及偏移量 ${O^{{\rm{head}}}}$ ，并设置比例因子 $\varepsilon = 1$ 得到头部宽度。对于每一个可能存在目标的位置，网络输出6维的数组 $\{ {x_c},{y_c},\hat h,$ ${x_o},{y_o},s\}$ ，其中 $({x_c},{y_c})$ 为目标中心点位置， $\hat h$ 为预测目标高度， $({x_o},{y_o})$ 为中心点偏移量，s为置信度。

2.3 信息融合策略

为充分利用行人头部边界框信息，本文对非极大值抑制算法进行了改进。对于行人边界框 ${B^{{\rm{body}}}} =$ $(x_1^b,y_1^b,x_2^b,y_2^b)$ ，其中 $(x_1^b,y_1^b)$ 和 $(x_2^b,y_2^b)$ 分别为边界框的左上角点和右下角点。参考文献[18]本文将行人边界框的中上部视为行人头部区域，如图4所示。

图 4 行人头部区域

下载: 全尺寸图片幻灯片

行人头部区域约占行人边界框总面积的2/9，其计算方式为

${H_{{\rm{region}}}} = \left(x_1^b + \frac{1}{6}{w^b},y_1^b,x_2^b - \frac{1}{6}{w^b},y_1^b + \frac{1}{3}{h^b}\right)$

(1)

其中， ${w^b}$ 和 ${h^b}$ 分别为整体边界框的宽和高。

测试阶段只保留置信度＞0.1的边界框，然后使用非极大值抑制对结果进行筛选。对于每一个行人边界框，判断其头部区域是否存在头部边界框，若存在则选取位于该区域中置信度最高的头部边界框与之配对，如果行人边界框的得分较低但存在头部边界框，且头部边界框的置信度较高，则依然保留该行人整体边界框。

2.4 损失函数设计

本文将中心点预测视作二分类任务并使用交叉熵损失作为损失函数。对位于 $(i,j)$ 处的第k个行人，参考文献[15]的方式，使用高斯函数 $G( \cdot )$ 分别生成行人头部高斯掩模 ${M^{{\rm{head}}}}$ 和行人整体高斯掩模 ${M^{{\rm{body}}}}$

$\left. \begin{gathered} M_{(i,j)}^{{\rm{head}}} = \mathop {\max }\limits_{k = 1,2, \cdots ,K} G((i,j;x_k^h,y_k^h,\sigma _w^h,\sigma _h^h),0) \hfill \\ \hfill \\ M_{(i,j)}^{{\rm{body}}} = \mathop {\max }\limits_{k = 1,2, \cdots ,K} G((i,j;x_c^b,y_c^b,\sigma _w^b,\sigma _h^b),0) \hfill \\ G(i,j;{x_k},{y_k},{\sigma _w},{\sigma _h}) = {{\rm{e}}^{ - \left(\frac{{{{(i - {x_k})}^2}}}{{2\sigma _w^2}} + \frac{{{{(j - {y_k})}^2}}}{{2\sigma _h^2}}\right)}} \hfill \\ \end{gathered} \right\}$

(2)

其中，K为单张图片中包含的行人总数， $(x_k^h,y_k^h)$ 为行人头部中心点位置， $(x_k^b,y_k^b)$ 为行人整体中心点位置， $\sigma _w^h$ 和 $\sigma _h^h$ 分别为行人头部边界框宽和高的标准差， $\sigma _w^b$ 和 $\sigma _h^b$ 分别为行人整体边界框宽和高的标准差。式(2)中使用的2维高斯函数的取值范围为[0,1]，即边界框的中心位置为高斯函数的峰值1，为正样本，其余为负样本，置信度随着偏离高斯中心距离增大而逐渐衰减。

为了解决正负样本失衡的问题，本文采用文献[7]提出的Focal Loss作为中心点预测的损失函数，其定义为

${L_{{\rm{center}}}} = - \frac{1}{K}\sum\limits_{i = 1} {\sum\limits_{j = 1} {{\alpha _{(i,j)}}{{(1 - {p_{(i,j)}})}^\gamma }\ln ({p_{(i,j)}})} }$

(3)

其中， $\gamma \ge {\rm{0}}$ 为调制系数，用于减少易分类样本的权重，使模型在训练过程中更多的关注难以分类的困难样本，参照文献[7]和[15]，本文设置 $\gamma = 2$ 。

中心点预测所使用的损失函数的判别式如式(4)所示

$\left. \begin{aligned} & {(1 - {p_{(i,j)}})^\alpha }\lg ({p_{(i,j)}}),\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;{M_{(i,j)}} = 1\\ & {(1 - {M_{(i,j)}})^\beta }p_{(i,j)}^\alpha \lg (1 - {p_{(i,j)}}), {\text{其他}} \end{aligned} \right\}$

(4)

其中， ${p_{(i,j)}}$ 为特征图中 $(i,j)$ 处为中心点的概率， $\alpha$ 和 $\beta$ 为类别平衡因子，其大小介于[0,1]之间，分别调整正样本和负样本计算所得损失在总损失中的占比，即控制正负样本的权重，参照文献[7,15]，本文设置 $\alpha {\rm{ = }}2, \beta = 4$ 。

高度预测采用Smooth L1作为损失函数

${L_{{\rm{ht}}}} = \frac{1}{K}\sum\limits_{k = 1}^K {{\rm{Smooth}}{\rm{L}}1({{\hat h}_{\rm{k}}},\lg (h_k^{{\rm{gt}}}))}$

(5)

其中， $h_k^{{\rm{gt}}}$ 为目标高度的真实值，实验中设置中心点及其周围2个像素大小的区域为高度掩模，即5×5像素大小的区域其值为 $\lg (h_k^{{\rm{gt}}})$ 。

将特征图中预测的中心点映射至原图像时存在一定的位置偏差，该偏差对小尺度目标的影响较大，因此本文添加偏移量预测修正该误差，该部分使用Smooth L1作为损失函数，如式(6)所示

${L_{{\rm{of}}}} = \frac{1}{K}\sum\limits_{k = 1}^K {{\rm{Smooth}}{\rm{L}}1({{\hat c}_k},c_k^{{\rm{gt}}})}$

(6)

其中， ${\hat c_k}$ 为网络预测的中心点位置， $c_k^{{\rm{gt}}}$ 为目标真实的中心点位置。当预测得到偏移量后即可对目标中心点位置进行修正，如式(7)所示

${c_k} = \left(\frac{{{x_k}}}{s} - \left\lfloor {\frac{{{x_k}}}{s}} \right\rfloor ,\frac{{{y_k}}}{s} - \left\lfloor {\frac{{{y_k}}}{s}} \right\rfloor \right)$

(7)

行人头部预测和行人整体预测采用相同的损失函数，可以表示为

$\left. \begin{aligned} & {L^{{\rm{body}}}} = \lambda _{\rm{c}}^{{\rm{body}}}L_{{\rm{center}}}^{{\rm{body}}} + \lambda _{\rm{h}}^{{\rm{body}}}L_{{\rm{height}}}^{{\rm{body}}} + \lambda _{\rm{o}}^{{\rm{body}}}L_{{\rm{offset}}}^{{\rm{body}}} \hfill \\ & {L^{{\rm{head}}}} = \lambda _{\rm{c}}^{{\rm{head}}}L_{{\rm{center}}}^{{\rm{head}}} + \lambda _{\rm{h}}^{{\rm{head}}}L_{{\rm{height}}}^{{\rm{head}}} + \lambda _{\rm{o}}^{{\rm{head}}}L_{{\rm{offset}}}^{{\rm{head}}} \hfill \end{aligned} \right\}$

(8)

因此，总体的损失函数为

$L = \eta ({L^{{\rm{head}}}} + {L^{{\rm{body}}}})$

(9)

其中， ${\lambda _c}$ , ${\lambda _{\rm{h}}}$ 和 ${\lambda _{\rm{o}}}$ 为权重因子，分别对应于中心点损失、高度损失以及偏移量损失，为了平衡各个损失值，同时防止因总损失值过大产生模型发散，对于行人头部和行人整体，本文参照文献[15]将其值分别设置为0.01, 1和0.1, $\eta$ 为调节因子，防止因损失过大导致训练不稳定，在实验中设置为0.5。

3. 实验与分析

3.1 实验平台

本文所提算法基于PyTorch深度学习框架实现，软件版本为：PyTorch 1.5.0, CUDA 10.1, Python 3.6和Numpy 1.15.4；硬件平台配置为：Intel Xeon E5 CPU、64 GB内存和4张NVIDIA GTX1080Ti GPU。

3.2 数据集选择

本文选用CrowdHuman^[19]、CityPersons^[22]及Caltech^[23]数据集验证所提算法的有效性。CityPersons数据集包含德国18个城市、3种天气状况下行车采集的共5000张图片，其中2975张用于训练，500张用于验证，1525张用于测试，这些图片共包含约35000个行人，分辨率为2048×1024。Caltech数据集使用车载摄像头拍摄了10 h左右的行车视频，分辨率为640×480，共包含6个训练集(共42782帧)和5个测试集(共4024帧)，约有2300个行人并标注了350000个边界框。CrowdHuman是新发布的针对密集场景下人物实例检测的数据集，共包含24370张图片，其中训练集15000张，验证集4370张，测试集5000张，整个数据集共包含470个人物实例，平均单张图片包含约23个人物实例。

3.3 评估标准

对于CrowdHuman数据集，采用平均准确率(Average Precision, AP)、漏检率(Miss Rate, MR)和召回率(Recall)作为评价指标。其中，准确率指正样本被预测为正样本的数目占所有被预测为正样本的样本数目的比例，该指标也称为查准率，值越高说明检测性能越好；漏检率指正样本被预测为负样本的数目与所有正样本的比例，该指标也是较为常用且能代表检测性能的指标，该数值越低说明检测性能越好；召回率指有多少的正样本预测正确，即网络检测出正样本的性能，该数值越高越好。对于CityPersons数据集以及Caltech数据集，采用官方评价标准对算法进行评估，主要采用漏检率指标验证本文算法对不同遮挡程度以及不同尺度目标的检测有效性，同时也对算法的泛化性能以及运行时间进行评估。根据CityPersons数据集和Caltech数据集官方提供的划分标准，这两个数据集可划分为多个子集，划分标准为行人高度和行人被遮挡程度，如表1和表2所示。

表 1 Caltech数据集中部分子集划分标准

子集	行人高度	遮挡程度
Reasonable	>50 PXs	遮挡比例<0.35
Partial	>50 PXs	0.1<遮挡比例≤0.35
Heavy	>50 PXs	0.35<遮挡比例≤0.8

下载: 导出CSV

| 显示表格

表 2 CityPersons数据集中部分子集划分标准

子集	行人高度	遮挡程度
Bare	>50 PXs	0.1≤遮挡比例
Reasonable	>50 PXs	遮挡比例<0.35
Partial	>50 PXs	0.1<遮挡比例≤0.35
Heavy	>50 PXs	0.35<遮挡比例≤0.8

下载: 导出CSV

| 显示表格

3.4 训练设置

本文模型使用CrowdHuman数据集进行训练，并在全部3个数据集上进行测试。训练阶段通过缩放、裁剪、填充和水平翻转等方式对训练集图片进行处理，分辨率设置为1280×1280，每个训练批次大小为4张图片，训练时使用全部的4张显卡，即每次输入16张图片，迭代次数设置为150。模型训练使用Adam优化器，初始学习率为2×10^–4。

测试阶段仅使用一张显卡，对于CrowdHuman数据集，图像分辨率与训练时保持一致，但仅使用缩放的方式对图像进行处理。对于CityPersons数据集和Caltech数据集，测试图像分辨率分别设置为2048×1024和640×480。非极大值抑制阈值与头部边界框保留阈值均设置为0.5，置信度阈值设置为0.1。

3.5 实验设计

3.5.1 对比实验

为验证本文所提方法的有效性，本文选取了在CrowdHuman数据集上有较好表现且具有代表性的RetinaNet^[7], FPN^[9], Adaptive NMS^[16]和JED^[24]等4种对比算法进行训练和测试。其中RetinaNet和FPN基于特征金字塔结构能较好解决尺度变化的问题，同时对困难样本有较高的检测准确率；JED为联合行人头部检测和整体检测的方法，通过在两阶段检测器Faster R-CNN的基础上添加新模块实现。实验结果如表3所示。

表 3 CrowdHuman数据集实验结果(%)

方法	AP	MR	Recall
RetinaNet^[7]	80.83	63.33	93.80
FPN^[9]	84.95	50.42	90.24
Adaptive NMS^[16]	79.67	63.03	94.77
JED^[24]	85.90	53.59	91.90
本文方法	87.31	50.16	93.55

下载: 导出CSV

| 显示表格

从表3可以看出，所提算法在CrowdHuman数据集上的检测准确率为87.31%，漏检率为50.16%，与对比算法相比有一定的提升。召回率为93.55%稍低于RetinaNet和Adaptive NMS，但本文算法的准确率和漏检率要优于这两种算法。对比较新的算法JED，本文算法在准确率和漏检率上分别提升约1.4%和2.5%，可见所提方法具有一定优越性。

3.5.2 泛化性实验

为验证所提方法的泛化性能以及对不同遮挡程度和不同尺度目标的检测性能，本文在CityPersons数据集上进行对比实验并依据官方标准划分子集，采用漏检率作为评价指标。同时，按照目标所占区域的大小，以像素面积32²和96²为界将CityPersons数据集划分为Small, Medium和Large3个子集，分别验证算法对小尺度、中等尺度和大尺度行人的检测性能。本文选取了8种对比算法，包含Faster R-CNN^[6]等常用方法和ALFNet^[25]等主流方法，以及较新的LBST^[10]和CAFL^[14]方法作为对比，实验结果如表4所示。

表 4 CityPersons数据集漏检率(MR)的实验结果(%)

方法	Bare	Reasonable	Partial	Heavy	Small	Medium	Large
FRCNN^[6]	–	15.4	–	–	25.6	7.2	7.9
OR-CNN^[12]	6.7	12.8	15.3	55.7	–	–	–
FRCNN+Seg^[22]	–	14.8	–	–	22.6	6.7	8.0
CSP^[15]	7.3	11.0	10.4	49.3	16.0	3.7	6.5
ALFNet^[25]	8.4	12.0	11.4	51.9	19.0	5.7	6.6
LBST^[10]	–	12.8	–	–	–	–	–
CAFL^[14]	7.6	11.4	12.1	50.4	–	–	–
本文方法(City训练)	7.5	10.6	10.2	49.5	15.0	4.4	7.0
本文方法(Crowd训练)	7.9	10.1	9.8	50.2	14.3	3.5	7.2

下载: 导出CSV

| 显示表格

从表4可以看出本文算法在大部分子集上取得了较好的检测效果，分别在Reasonable和Partial子集上实现了10.1%和9.8%的漏检率，但在Bare子集和Heavy子集上，本文算法的漏检率要略高于OR-CNN和CSP。分析发现对于Bare子集中的一些行人实例，由于存在行人头部边界框并且其置信度较高，从而导致冗余的行人整体边界框被保留。而严重遮挡的行人几乎无法检测出头部边界框，从而使得本文所使用的头部检测分支无法较好地发挥作用，这可能是本文方法在这两个子集上检测效果不是最优的原因。但注意到其性能并未出现大幅下降，相较于最优结果只差了1%左右。同时算法对小尺度和中等尺度行人的漏检率分别为14.3%和3.5%为最优，表明本文算法对小尺度目标有较好的检测效果。为了进一步验证所提方法的正确性，本文与CSP进行对比并将检测结果可视化，以验证添加头部检测对遮挡问题的改善效果，如图5所示。

图 5 检测效果对比

下载: 全尺寸图片幻灯片

从图5可以发现，与只使用行人整体中心点进行检测的CSP相比，本文方法对于遮挡行人的检测效果有一定改善。如图中身着黄色上衣的儿童和白色上衣的女士存在较为严重的遮挡。多次检测实验中CSP方法约有一半的概率无法准确检测出这两个目标，而该情况下行人头部较为分明，本文所提方法由于添加了头部检测因此能准确检测出此类行人。

3.5.3 运行时间

为测试所提方法的运行时间，在相同的实验条件下，本文在Caltech数据集上进行对比实验，并选取F-DNN^[13], F-DNN+SS^[13], Faster R-CNN+ATT^[26]和MS-CNN^[27]作为对比算法。依据Caltech数据集的官方划分标准在各个子集上进行实验，实验结果如表5所示。

表 5 Caltech数据集漏检率MR和速度的实验结果

方法	Reasonable MR(%)	Partial MR(%)	Heavy MR(%)	速度(s/帧)
F-DNN^[16]	8.65	15.41	55.13	0.3
F-DNN+SS^[16]	8.18	15.11	53.76	2.5
Faster R-CNN+ATT^[26]	10.33	22.29	45.18	–
MS-CNN^[27]	9.95	19.24	59.94	0.4
本文方法	7.73	14.55	48.31	0.4

下载: 导出CSV

| 显示表格

从表5可以看出，本文方法在大部分情况下取得了较好的检测效果，对于Reasonable, Partial和Heavy子集分别取得了7.73%, 14.55%和48.31%的漏检率，并在Reasonable和Partial子集上取得了最佳效果，在Heavy子集上的表现要稍低于文献[26]所提出的方法，大致与MS-CNN一致，而后者为两阶段检测器。由于本文方法在特征融合部分的上采样使用了反卷积增加了计算时间，如果将其替换为双线性插值，能将速度提升至约0.3 s/帧，但漏检率会稍微增加。在降低漏检率的同时缩短运行时间，是下一步需要继续开展的工作。

为验证所提方法在视频中的表现，本文选取连续的4帧视频图像作可视化处理，如图6所示。边界框上的数字表示其置信度且取值范围为[0,1]，该值越高表示边界框为所需边界框的概率越大。

图 6 实际检测效果

下载: 全尺寸图片幻灯片

从图6可以看出，本文所提方法对连续视频帧有较好的检测效果。观察图6(a)即视频帧1可以发现，虽然行人的尺寸较小且存在约30%的遮挡，但本文方法依然准确检测出其头部和整体。而对于图6(b)，行人上身衣服颜色与背景相似，这种情况容易产生漏检，然而此时其头部边界框的置信度较高，因此该行人整体边界框被保留下来。对于图6(c)和图6(d)，行人头部特征近乎消失，但本文方法依靠整体检测分支依然准确地将其检测出来，从而可见所提方法具有一定的有效性和稳定性。

4. 结束语

本文设计了一种结合头部和整体信息的行人检测器框架，通过在行人检测的基础上添加头部检测分支并提供针对性的特征信息，对于所获得的行人头部边界框，设定了行人头部区域并利用该区域内的头部信息为非极大值抑制提供更合理的依据。多个数据集上的对比实验表明本文算法具有一定的优势。下一步将着力设计更合理的匹配方式，将每个行人的头部以及身体视为一对进行检测，以增强头部和整体之间的联系，从而实现单分支且有效的行人检测。

图 1 模型总体结构

下载: 全尺寸图片幻灯片

图 2 特征提取模块结构

下载: 全尺寸图片幻灯片

图 3 检测模块结构

下载: 全尺寸图片幻灯片

图 4 行人头部区域

下载: 全尺寸图片幻灯片

图 5 检测效果对比

下载: 全尺寸图片幻灯片

图 6 实际检测效果

下载: 全尺寸图片幻灯片

表 1 Caltech数据集中部分子集划分标准

子集	行人高度	遮挡程度
Reasonable	>50 PXs	遮挡比例<0.35
Partial	>50 PXs	0.1<遮挡比例≤0.35
Heavy	>50 PXs	0.35<遮挡比例≤0.8

下载: 导出CSV

表 2 CityPersons数据集中部分子集划分标准

子集	行人高度	遮挡程度
Bare	>50 PXs	0.1≤遮挡比例
Reasonable	>50 PXs	遮挡比例<0.35
Partial	>50 PXs	0.1<遮挡比例≤0.35
Heavy	>50 PXs	0.35<遮挡比例≤0.8

下载: 导出CSV

表 3 CrowdHuman数据集实验结果(%)

方法	AP	MR	Recall
RetinaNet^[7]	80.83	63.33	93.80
FPN^[9]	84.95	50.42	90.24
Adaptive NMS^[16]	79.67	63.03	94.77
JED^[24]	85.90	53.59	91.90
本文方法	87.31	50.16	93.55

下载: 导出CSV

表 4 CityPersons数据集漏检率(MR)的实验结果(%)

方法	Bare	Reasonable	Partial	Heavy	Small	Medium	Large
FRCNN^[6]	–	15.4	–	–	25.6	7.2	7.9
OR-CNN^[12]	6.7	12.8	15.3	55.7	–	–	–
FRCNN+Seg^[22]	–	14.8	–	–	22.6	6.7	8.0
CSP^[15]	7.3	11.0	10.4	49.3	16.0	3.7	6.5
ALFNet^[25]	8.4	12.0	11.4	51.9	19.0	5.7	6.6
LBST^[10]	–	12.8	–	–	–	–	–
CAFL^[14]	7.6	11.4	12.1	50.4	–	–	–
本文方法(City训练)	7.5	10.6	10.2	49.5	15.0	4.4	7.0
本文方法(Crowd训练)	7.9	10.1	9.8	50.2	14.3	3.5	7.2

下载: 导出CSV

表 5 Caltech数据集漏检率MR和速度的实验结果

方法	Reasonable MR(%)	Partial MR(%)	Heavy MR(%)	速度(s/帧)
F-DNN^[16]	8.65	15.41	55.13	0.3
F-DNN+SS^[16]	8.18	15.11	53.76	2.5
Faster R-CNN+ATT^[26]	10.33	22.29	45.18	–
MS-CNN^[27]	9.95	19.24	59.94	0.4
本文方法	7.73	14.55	48.31	0.4

下载: 导出CSV

参考文献(27)

[1]	王进, 陈知良, 李航, 等. 一种基于增量式超网络的多标签分类方法[J]. 重庆邮电大学学报:自然科学版, 2019, 31(4): 538–549. doi: 10.3979/j.issn.1673-825X.2019.04.015 WANG Jin, CHEN Zhiliang, LI Hang, et al. Hierarchical multi-label classification using incremental hypernetwork[J]. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition, 2019, 31(4): 538–549. doi: 10.3979/j.issn.1673-825X.2019.04.015
[2]	孟琭, 杨旭. 目标跟踪算法综述[J]. 自动化学报, 2019, 45(7): 1244–1260. doi: 10.16383/j.aas.c180277 MENG Lu and YANG Xu. A survey of object tracking algorithms[J]. Acta Automatica Sinica, 2019, 45(7): 1244–1260. doi: 10.16383/j.aas.c180277
[3]	LU Chengye, WU Sheng, JIANG Chunxiao, et al. Weak harmonic signal detection method in chaotic interference based on extended Kalman filter[J]. Digital Communications and Networks, 2019, 5(1): 51–55. doi: 10.1016/j.dcan.2018.10.004
[4]	高新波, 路文, 查林, 等. 超高清视频画质提升技术及其芯片化方案[J]. 重庆邮电大学学报:自然科学版, 2020, 32(5): 681–697. doi: 10.3979/j.issn.1673-825X.2020.05.001 GAO Xinbo, LU Wen, ZHA Lin, et al. Quality elevation technique for UHD video and its VLSI solution[J]. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition, 2020, 32(5): 681–697. doi: 10.3979/j.issn.1673-825X.2020.05.001
[5]	张功国, 吴建, 易亿, 等. 基于集成卷积神经网络的交通标志识别[J]. 重庆邮电大学学报:自然科学版, 2019, 31(4): 571–577. doi: 10.3979/j.issn.1673-825X.2019.04.019 ZHANG Gongguo, WU Jian, YI Yi, et al. Traffic sign recognition based on ensemble convolutional neural network[J]. Journal of Chongqing University of Posts and Telecommunications:Natural Science Edition, 2019, 31(4): 571–577. doi: 10.3979/j.issn.1673-825X.2019.04.019
[6]	REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137–1149. doi: 10.1109/TPAMI.2016.2577031
[7]	LIN T Y, GOYAL P, GIRSHICK R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2): 318–327. doi: 10.1109/TPAMI.2018.2858826
[8]	李春伟, 于洪涛, 李邵梅, 等. 一种基于可变形部件模型的快速对象检测算法[J]. 电子与信息学报, 2016, 38(11): 2864–2870. doi: 10.11999/JEIT160080 LI Chunwei, YU Hongtao, LI Shaomei, et al. Rapid object detection algorithm based on deformable part models[J]. Journal of Electronics &Information Technology, 2016, 38(11): 2864–2870. doi: 10.11999/JEIT160080
[9]	LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 936–944. doi: 10.1109/CVPR.2017.106.
[10]	CAO Jiale, PANG Yanwei, HAN Jungong, et al. Taking a look at small-scale pedestrians and occluded pedestrians[J]. IEEE Transactions on Image Processing, 2019, 29: 3143–3152. doi: 10.1109/TIP.2019.2957927
[11]	赵斌, 王春平, 付强. 显著性背景感知的多尺度红外行人检测方法[J]. 电子与信息学报, 2020, 42(10): 2524–2532. doi: 10.11999/JEIT190761 ZHAO Bin, WANG Chunping, and FU Qiang. Multi-scale pedestrian detection in infrared images with salient background-awareness[J]. Journal of Electronics &Information Technology, 2020, 42(10): 2524–2532. doi: 10.11999/JEIT190761
[12]	ZHANG Shifeng, WEN Longyin, XIAO Bian, et al. Occlusion-aware R-CNN: Detecting pedestrians in a crowd[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 637–653. doi: 10.1007/978-3-030-01219-9_39.
[13]	DU Xianzhi, EL-KHAMY M, LEE J, et al. Fused DNN: A deep neural network fusion approach to fast and robust pedestrian detection[C]. 2017 IEEE Winter Conference on Applications of Computer Vision, Santa Rosa, USA, 2017: 953–961. doi: 10.1109/WACV.2017.111.
[14]	FEI Chi, LIU Bin, CHEN Zhu, et al. Learning pixel-level and instance-level context-aware features for pedestrian detection in crowds[J]. IEEE Access, 2019, 7: 94944–94953. doi: 10.1109/ACCESS.2019.2928879
[15]	LIU Wei, LIAO Shengcai, REN Weiqiang, et al. High-level semantic feature detection: A new perspective for pedestrian detection[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 5182–5191. doi: 10.1109/CVPR.2019.00533.
[16]	LIU Songtao, HUANG Di, and WANG Yunhong. Adaptive NMS: Refining pedestrian detection in a crowd[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 6452–6461. doi: 10.1109/CVPR.2019.00662.
[17]	XU Ruiyue, CUAN Yepeng, and HUANG Yizhen. Multiple human detection and tracking based on head detection for real-time video surveillance[J]. Multimedia Tools and Applications, 2015, 74(3): 729–742. doi: 10.1007/s11042-014-2177-x
[18]	LU Ruiqi, MA Huimin, and WANG Yu. Semantic head enhanced pedestrian detection in a crowd[J]. Neurocomputing, 2020, 400: 343–351. doi: 10.1016/j.neucom.2020.03.037
[19]	SHAO Shuai, ZHAO Zijian, LI Boxun, et al. CrowdHuman: A benchmark for detecting human in a crowd[EB/OL]. https://arxiv.org/abs/1805.00123, 2020.
[20]	HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770–778. doi: 10.1109/CVPR.2016.90.
[21]	LIN Chunze, LU Jiwen, WANG Gang, et al. Graininess-aware deep feature learning for robust pedestrian detection[J]. IEEE Transactions on Image Processing, 2020, 29: 3820–3834. doi: 10.1109/TIP.2020.2966371
[22]	ZHANG Shanshan, BENENSON R, and SCHIELE B. CityPersons: A diverse dataset for pedestrian detection[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 4457–4465. doi: 10.1109/CVPR.2017.474.
[23]	DOLLAR P, WOJEK C, SCHIELE B, et al. Pedestrian detection: An evaluation of the state of the art[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 743–761. doi: 10.1109/TPAMI.2011.155
[24]	ZHANG Yongming, ZHANG Shifeng, ZHUANG Chubin, et al. Feature enhancement for joint human and head detection[C]. The 14th Chinese Conference on Biometric Recognition, Zhuzhou, China, 2019: 511–518. doi: 10.1007/978-3-030-31456-9_56.
[25]	LIU Wei, LIAO Shengcai, HU Weidong, et al. Learning efficient single-stage pedestrian detectors by asymptotic localization fitting[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 618–634. doi: 10.1007/978-3-030-01264-9_38.
[26]	ZHANG Shanshan, YANG Jian, and SCHIELE B. Occluded pedestrian detection through guided attention in CNNs[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 6995–7003. doi: 10.1109/CVPR.2018.00731.
[27]	CAI Zhaowei, FAN Quanfu, FERIS R S, et al. A unified multi-scale deep convolutional neural network for fast object detection[C]. The 14th European Conference on Computer Vision, Amsterdam, The Netherlands, 2016: 354–370. doi: 10.1007/978-3-319-46493-0_22.

施引文献

期刊类型引用(7)

1.	陈娟，葛碧，陈东升. 一种水库溺水监测预警系统研究. 电脑知识与技术. 2024(10): 5-7+14 . 百度学术
2.	Ying-Lin Ma，Yao Wang，Hong-Mei Shi，Hui-Jie Zhang. Research on intelligent search-and-secure technology in accelerator hazardous areas based on machine vision. Nuclear Science and Techniques. 2024(04): 98-109 . 必应学术
3.	肖振久，李思琦，曲海成. 基于多尺度特征与互监督的拥挤行人检测. 计算机工程与科学. 2024(07): 1278-1285 . 百度学术
4.	陈勇，金曼莉，刘焕淋，汪波，黄美永. 基于特征增强模块的小尺度行人检测. 电子与信息学报. 2023(04): 1445-1453 . 本站查看
5.	谢明鸿，康斌，李华锋，张亚飞. Anchor free与Anchor base算法结合的拥挤行人检测方法. 电子与信息学报. 2023(05): 1833-1841 . 本站查看
6.	付玉，张垚，赵萌，王绵沼，郑江鹏，贾晨，陈胜勇. 基于仿真数据迁移学习的固定翼无人机检测. 系统仿真学报. 2023(05): 998-1007 . 百度学术
7.	欧群雍，谭同德，袁红斌. 结合CNN和Bi-LSTM的多行人目标检测跟踪方法. 无线电工程. 2022(09): 1633-1641 . 百度学术

其他类型引用(4)

资源附件(0)

访问统计

图(6) / 表(5)

计量

文章访问数: 945
HTML全文浏览量: 814
PDF下载量: 148
被引次数: 11

1. 引言
2. 算法原理设计
2.1 特征提取模块
2.2 行人检测模块
2.3 信息融合策略
2.4 损失函数设计
3. 实验与分析
3.1 实验平台
3.2 数据集选择
3.3 评估标准
3.4 训练设置
3.5 实验设计
4. 结束语

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

结合头部和整体信息的多特征融合行人检测

doi: 10.11999/JEIT210268

通讯作者:
陈勇　chenyong@cqupt.edu.cn

计量

Multi-feature Fusion Pedestrian Detection Combining Head and Overall Information

1. 引言

2. 算法原理设计

2.1 特征提取模块

2.2 行人检测模块

2.3 信息融合策略

2.4 损失函数设计

3. 实验与分析

3.1 实验平台

3.2 数据集选择

3.3 评估标准

3.4 训练设置

3.5 实验设计

3.5.1 对比实验

3.5.2 泛化性实验

3.5.3 运行时间

4. 结束语

期刊类型引用(7)

其他类型引用(4)

计量

目录

1. 引言

2. 算法原理设计

2.1 特征提取模块

2.2 行人检测模块

2.3 信息融合策略

2.4 损失函数设计

3. 实验与分析

3.1 实验平台

3.2 数据集选择

3.3 评估标准

3.4 训练设置

3.5 实验设计

4. 结束语

留言板

结合头部和整体信息的多特征融合行人检测

doi: 10.11999/JEIT210268

通讯作者: 陈勇 chenyong@cqupt.edu.cn

计量

出版历程

Multi-feature Fusion Pedestrian Detection Combining Head and Overall Information

1. 引言

2. 算法原理设计

2.1 特征提取模块

2.2 行人检测模块

2.3 信息融合策略

2.4 损失函数设计

3. 实验与分析

3.1 实验平台

3.2 数据集选择

3.3 评估标准

3.4 训练设置

3.5 实验设计

3.5.1 对比实验

3.5.2 泛化性实验

3.5.3 运行时间

4. 结束语

期刊类型引用(7)

其他类型引用(4)

计量

出版历程

目录

1. 引言

2. 算法原理设计

2.1 特征提取模块

2.2 行人检测模块

2.3 信息融合策略

2.4 损失函数设计

3. 实验与分析

3.1 实验平台

3.2 数据集选择

3.3 评估标准

3.4 训练设置

3.5 实验设计

4. 结束语

通讯作者:
陈勇　chenyong@cqupt.edu.cn