MSIANet: Multi-scale Interactive Attention Crowd Counting Network
-
摘要: 尺度变化、遮挡和复杂背景等因素使得拥挤场景下的人群数量估计成为一项具有挑战性的任务。为了应对人群图像中的尺度变化和现有多列网络中规模限制及特征相似性问题,该文提出一种多尺度交互注意力人群计数网络(Multi-Scale Interactive Attention crowd counting Network, MSIANet)。首先,设计了一个多尺度注意力模块,该模块使用4个具有不同感受野的分支提取不同尺度的特征,并将各分支提取的尺度特征进行交互,同时,使用注意力机制来限制多列网络的特征相似性问题。其次,在多尺度注意力模块的基础上设计了一个语义信息融合模块,该模块将主干网络的不同层次的语义信息进行交互,并将多尺度注意力模块分层堆叠,以充分利用多层语义信息。最后,基于多尺度注意力模块和语义信息融合模块构建了多尺度交互注意力人群计数网络,该网络充分利用多层次语义信息和多尺度信息生成高质量人群密度图。实验结果表明,与现有代表性的人群计数方法相比,该文提出的MSIANet可有效提升人群计数任务的准确性和鲁棒性。Abstract: Factors such as scale variation, occlusion and complex backgrounds make crowd number estimation in crowded scenes a challenging task. To cope with the scale variation in crowd images and the scope limitation and the feature similarity problem in existing multi-column networks, a Multi-Scale Interactive Attention crowd counting Network (MSIANet) is proposed in this paper. Firstly, a multi-scale attention module is designed, which uses four branches with different perceptual fields to extract features at different scales and interacts the scale features extracted from each branch. At the same time, an attention mechanism is used to limit the feature similarity problem of the multi-column network. Secondly, a semantic information fusion module is designed based on the multi-scale attention module, which interacts different levels of semantic information of the backbone network and stacks the multi-scale attention module in layers to make full use of the multi-layer semantic information. Finally, a multi-scale interactive attention crowd counting network is constructed based on the multi-scale attention module and the semantic information fusion module, which makes full use of multi-level semantic information and multi-scale information to generate high-quality crowd density maps. The experimental results show that compared with the existing representative crowd counting methods, the proposed MSIANet can effectively improve the accuracy and robustness of the crowd counting task.
-
Key words:
- Crowd counting /
- Estimated density map /
- Attention mechanism /
- Multi-scale features
-
1. 引言
人群计数是计算机视觉和智能监控领域的重要研究内容,其目的是估计图像或视频场景中的人数。它在安全监测、交通管理、城市规划等领域有着广泛应用。例如:在疫情期间,控制人群密度可以降低出现聚集性传播的概率;在景区、体育场和广场等人群高度聚集的区域,通过发出预警信息可以防止出现踩踏事故等。近年来,基于卷积神经网络(Convolutional Neural Network, CNN)的人群计数方法[1,2]已经成为人群计数的主流方法,其基本思想是使用CNN生成估计密度图,给每个像素赋予密度值,密度图的密度值总和记为场景中的总人数。
目前,由于拍摄距离和角度差异导致的尺度变化问题严重影响了计数结果的准确性。为了应对人群图像的尺度变化问题,研究人员引入了多列网络。然而,现有的多列网络存在诸多问题,如:网络规模的限制导致只能提取特定的尺度信息、各列提取的特征具有相似性、网络规模复杂导致计算量增加等。
为了解决上述问题,本文提出了一种新颖的多尺度交互注意力人群计数网络(Multi-Scale Interactive Attention crowd counting Network, MSIANet)。MSIANet使用交互结构和注意力机制应对多列网络的规模限制及特征相似性问题,并使用主干网络的多层语义信息提供更为丰富的细节特征。具体而言,本文的主要贡献如下:
(1) 设计了一个多尺度注意力模块(Multi-Scale Attention Module, MSAM)以提取丰富的多尺度信息。该模块利用交互结构和注意力机制提升了提取多尺度信息的能力和对有价值信息的敏感度,克服了传统多列网络中的规模限制及特征相似性问题。
(2) 在MSAM的基础上,设计了一个语义信息融合模块(Semantic Information Fusion Module, SIFM)对主干网络的不同层次的语义信息进行交互和融合。SIFM使用多层语义信息能够比仅使用高层的语义信息提供更为丰富的细节特征,增强网络的特征聚合能力,提升了对主干网络的利用效率。
(3) 以MASM和SIFM为基础,提出了一个多尺度交互注意力人群计数网络(MSIANet)。不同于现有多列网络各分支独立工作的方式,本文网络在使用多列结构的同时,将各分支提取的不同尺度特征进行交互,使有限的网络规模能够提取更为丰富的尺度信息,提升了网络对全局尺度特征的处理能力。在3个公开数据集上的大量实验结果表明,与现有代表性的人群计数方法相比,MSIANet 取得了更好的性能。
2. 相关工作
随着智慧城市和平安社会建设步伐的加快,人群计数越来越受到学者的关注。传统的人群计数方法主要分为两类:基于检测的方法[3,4]和基于回归的方法[5,6]。近年来,CNN在特征提取方面取得了令人满意的效果,使其成为很多任务的主流方法。
2.1 基于CNN的人群计数方法
基于CNN的人群计数方法主要分为两类:基于单列网络的人群计数方法和基于多列网络的人群计数方法。
2.1.1 基于单列网络的人群计数方法
Li等人[7]提出的CSRNet是最具代表性的基于单列网络的人群计数方法,其使用膨胀卷积神经网络作为后端网络,在增大了感受野的同时保持了特征图像的分辨率。Oh等人[8]提出的DUBNet是一个用于人群计数的可扩展单列网络框架,使用点估计的不确定性量化提高计数性能。Xu等人[9]提出了一种利用部分注释进行监督学习的单列网络人群计数方法,以降低标注的成本。Xu等人[10]提出的AutoScale则通过缩放图片以获得不同尺度的特征提升计数效果。Ma等人[11]提出的FusionCount是一种用于人群计数的编码器-解码器单列网络,利用编码特征的自适应融合来获得多尺度特征。单列网络模型虽然容易训练且参数量少,但是由于对多尺度特征不够敏感,因此计数性能受到限制。
2.1.2 基于多列网络的人群计数方法
由于人群图像中普遍存在尺度变化的问题,严重影响CNN模型计数的准确性。为了解决图像中人群尺度变化对计数性能的影响,研究人员开发了多列网络。Zhang等人[12]提出的MCNN是最早使用多列网络应对人群计数任务中尺度变化的方法之一,该模型使用3个具有不同感受野的网络分支提取多尺度特征,在一定程度上缓解了多尺度问题对计数精度的影响。Cao等人[13]提出SANet,该网络堆叠多个多尺度模块作为编码器提取多尺度特征,然后使用一组转置卷积作为解码器生成高分辨率密度图。Sam等人[14]提出Swich-CNN,该网络单独训练了一个分类器赋予图像块不同的密度等级,然后让不同密度等级的图像块通过对应的子网络,所有图像块的估计结果构成了原图的估计结果。Jiang等人[15]提出的TEDNet是一种网格状的编码器-解码器人群计数网络,其内部使用具有4个分支的多尺度编码块获取多尺度特征。Yang等人[16]提出了一种有效的多列网络,将透视分析嵌入到具有循环连接的多列框架中以提高计数性能。Lian等人[17]提出了一种双路径引导检测网络DPDNet,该模型使用两个引导分支引导密度图的生成,提升了对小尺寸头部的检测能力。Zand等人[18]提出使用3个不同深度的网络分支获取多尺度信息,并结合检测任务以提升计数性能。总体而言,多列网络大都通过使用不同感受野的网络分支提取不同的尺度信息。然而受限于网络的规模,离散的感受野并不能适应尺度的连续性变化,因此目前的多列结构并不能完全解决人群图像中的多尺度问题。除此之外,多列网络虽然在一定程度上缓解了尺度变化对人群计数任务精度的影响,但是在提取多尺度信息的同时,也带来了特征相似性的问题。
2.2 人群计数中的注意力机制
注意力机制是应对特征相似性问题的一种有效手段。Liu等人[19]提出ADCrowdNet,使用注意力图生成器为密度图估计器提供区域和拥挤度,有效提升了计数性能。Tian等人[20]提出一种使用多级注意力的人群计数方法MLAttnCNN,该网络使用多级注意力模块丰富不同层级的特征,以实现更有效的多尺度特征融合。
在本文中,我们通过将多层次和多尺度的特征进行交互,应对尺度连续性变化的问题,并使用注意力机制应对多列网络结构的特征相似性问题。
3. 多尺度交互注意力人群计数网络
本节首先介绍多尺度交互注意力人群计数网络的总体结构,然后详细介绍该网络的主体构成部分:多尺度注意力模块和语义信息融合模块。
3.1 网络总体结构
鉴于以往多列网络的局限性,本文提出了一种全新的多层次多列结构网络以应对尺度变化问题,称为多尺度交互注意力人群计数网络(Multi-Scale Interactive Attention crowd counting Network, MSIANet),网络结构如图1所示。
由图1可知,MSIANet使用去除全连接层和最后1个池化层的VGG-16作为主干网络提取特征信息,使用语义信息融合模块(SIFM)融合多层语义信息,SIFM 内部使用3个多尺度注意力模块(MSAM)提取多尺度特征。后端网络则由两个卷积层组成,用于最终的密度图回归。具体而言,对于一幅给定的人群图像,首先经过MSIANet的主干网络提取特征信息。MSIANet的主干网络分为5个层次,本文表示为Conv1~Conv5,且使用Conv3, Conv4和Conv5层提取的特征图作为SIFM的输入。其次,为了能够更加充分地利用多层次语义信息,在各层语义信息输入MSAM之前,使用语义交互结构(Semantic Interaction Structure, SIS)将各层次语义信息进行融合,融合后的语义信息为MSAM的输入。最后,特征信息被送入后端网络得到最终的人群密度图。将所得人群密度图中的像素累加,得到最终的计数结果。
3.2 多尺度注意力模块(MSAM)
3.2.1 多尺度注意力模块概述
多尺度注意力模块(MSAM)使用注意力机制和多列结构应对人群图像的尺度变化问题。前文提到多列结构网络在应对尺度变化问题中存在网络规模限制及特征相似性问题。多列结构网络的各尺度分支只能提取特定的尺度信息,并且各尺度分支都是独立工作的,而尺度的变化却是连续的,因此目前大多数多列结构网络只能处理离散的尺度变化。
这种情况限制了多列结构网络在处理人群计数任务时的性能, 鉴于此,本文通过设计多尺度交互结构(Multi-Scale Interaction Structure, MSIS)将各尺度分支进行交互,从而处理连续的尺度变化问题。除此之外,受文献[21]中保留跨维度特征思想的启发,本文结合人群计数任务中多尺度问题的特点设计了全局空间注意力机制(Global Spatial Attention Mechanism, GSAM)和全局通道注意力机制(Global Channel Attention Mechanism, GCAM) 解决特征相似性问题。基于上述结构和机制构建的多尺度注意力模块(MSAM)的结构如图2所示。
由图2可知,MSAM由4个具有不同感受野的分支和1个额外的GCAM组成。具有不同感受野的4个分支用来提取多尺度特征,其核心是4个卷积核大小为
3×3 的膨胀卷积,膨胀率r∈{1,2,3,4} 。为了减少多列结构的计算消耗,本文在每个分支之前都设置了1个1×1 卷积将特征图的通道数减少为原来的1/4,即Fin∈RC×H×W→F′in∈RC/4×H×W ,C, H和W分别表示输入特征图的通道、高度和宽度。由4个膨胀卷积提取的多尺度特征表示为{S1,S2,S3,S4} ,然后将Si 作为MSIS的输入,由MSIS生成的各级尺度特征表示为{F1,F2,F3,F4} 。将Fi 分别送入各尺度分支对应的GSAM中赋予全新的特征权重以缓解特征相似性的问题。最终,4个尺度分支生成的特征图在通道维度进行连接,并使用一个3×3 的卷积进行特征融合后与GCAM得到的特征信息相乘得到MSAM的输出Fout 。此过程可表示为Fout=FC×Conv(cat(FS1,FS2,FS3,FS4)) (1) 其中,
FC 表示由GCAM输出的特征图,FSi 表示各尺度分支输出的特征图,Conv(⋅) 为卷积操作,cat(⋅) 为特征连接操作。3.2.2 多尺度交互结构(MSIS)
为了使MSAM能够提取更具代表性的尺度感知信息,本文设计了MSIS进行多尺度特征的交互。如图3所示,在MSIS中以
S1 为F1 ,先将F1 与S2 进行通道上的连接得到中间特征F2′ ,然后F2′ 使用1个3×3 卷积进行特征融合后得到F2 ,F2 和S3 将作为MSIS下一阶段的输入,此操作迭代进行,得到{F1,F2,F3,F4} 。其单次过程可表示为Fi+1=Conv(cat(Fi,Si+1)) (2) 其中,
Conv(⋅) 为卷积操作,cat(⋅) 为特征连接操作。传统的多列网络结构每个分支通常只能提取特定的尺度特征,MSIS使得多列网络结构的各尺度分支不再独立工作,每个分支都包含多个尺度的特征信息。3.2.3 全局空间注意力机制(GSAM)
多尺度特征
Fi 中仍包含大量的冗余信息,GSAM通过赋予特征全新的权重,强调有用的空间信息,抑制冗余的空间信息。GSAM结构如图4所示。由图4可知,以给定的中间特征图
Fi∈RC×H×W 为输入,先使用1个卷积将Fi 的通道数缩减为原来的1/4,即Fi∈RC×H×W→F′i∈RC/4×H×W ;接着使用1个卷积将F′i 的通道数调整为与原特征图相同,即F′i∈RC/4×H×W→F″i∈RC×H×W 。与文献[21]不同的是,本文设计的GSAM不再使用固定尺寸的卷积进行信息融合,而是使用两个卷积核为3×3 的膨胀卷积进行空间信息融合,膨胀卷积的膨胀率r′ 与分支内部用于提取多尺度特征的膨胀卷积的膨胀率r 相同,这样能够最大限度地保留相应分支的尺度特征。经过空间注意力后生成的特征图FSi 可以表示为FSi=Fi×σ(fC1(fC(Fi))) (3) 其中,
fC 表示用膨胀卷积将Fi 的通道数缩减为原来的1/4 ,fC1 表示使用膨胀卷积将通道数调整为与原特征图相同,σ 表示Sigmoid函数。3.2.4 全局通道注意力机制(GCAM)
在特征图融合过程中,大多数以往的工作都是直接组合来自不同分支的特征图,没有考虑到各尺度分支信息的权重。本文设计的GCAM提供了各尺度分支之间的注意力信息,以衡量各尺度特征的重要性,指导多尺度特征的生成。
GCAM的具体结构如图5所示,对于给定的输入
Fin∈RC×H×W ,先将通道、高度和宽度3个维度进行空间上的变换及平铺操作,即Fin∈RC×H×W→Fin∈R(H×W)×C ;接着使用包含一个隐藏层的MLP(多层感知机)放大跨维度特征对通道维度的依赖性,经MLP处理后的特征图FMLP∈R(H×W)×C 再次进行维度上的变换操作及重塑操作,即FMLP∈R(H×W)×C→FMLP∈RC×H×W ;最后经过通道注意力后生成的特征图Fin′∈RC×H×W 可表示为F′in=Fin×σ(f′T(MLP(fT(Fin))))=Fin×σ(f′T(W1(W0(fT(Fin))))) (4) 其中,
σ 表示Sigmoid函数,fT 表示对特征图进行通道、高度和宽度3个维度上的空间转换及平铺操作,f′T 表示对特征图进行通道、高度和宽度3个维度上的空间转换及重塑操作,W0 表示使用线性变换将特征图的通道维度降为原来的1/4,W1 表示使用线性变换将通道维度变为与原特征图相同,W0 和W1 之间使用ReLU激活函数进行非线性变换。3.3 语义信息融合模块(SIFM)
在卷积神经网络中,深层的网络层生成的特征图通常包含更多的语义信息,然而这些拥有高度抽象语义信息的特征图却包含较少的细节信息,如人头部的大小、位置信息等。与此相反,浅层网络层生成的特征图通常包含更多细节信息,但缺乏高度抽象的语义信息。由于深层语义信息和浅层语义信息之间存在互补性,本文基于MSAM设计了语义信息融合模块(SIFM)整合深层和浅层语义信息,以便从不同层次的特征图中挖掘出更多的尺度信息。
如图1所示,本文使用MSIANet主干网络中Conv3, Conv4和Conv5生成的特征图
{V1,V2,V3} 作为SIFM的输入。首先,{V1,V2,V3} 被送入语义交互结构(SIS)中进行深层语义信息和浅层语义信息的交互得到MSAM的输入{P1,P2,P3} ,SIS的作用和执行过程与MSAM中MSIS相似,由于池化层的存在,{V1,V2,V3} 的大小分别为原始输入图像的1/4, 1/8和1/16,因此使用双线性插值对P3 进行上采样与V2 进行通道上的连接得到中间特征,然后中间特征经过两个3×3 卷积进行特征融合得到P2 ,P2 和V1 重复上述过程得到P1 。单次过程可表示为Pi−1=Conv(Conv(cat(Vi−1,fup(Pi)))) (5) 其中,
Conv(⋅) 表示卷积操作,cat(⋅) 表示特征连接操作,fup 表示上采样操作。然后,将SIS输出的
Pi 输入到相应层次的MSAM中进行多尺度特征提取。最后使用双线性插值上采样,经1×1 卷积调整通道后对位元素相加融合,得到SIFM的最终输出,并送入后端网络生成密度图。从上述过程可知,SIFM融合了不同层次的语义特征,得到了具有多层语义信息和多尺度信息的高质量特征图,这对于后端网络生成高质量密度图起到了关键的作用。综上所述,SIFM有效地提高了网络的多尺度特征感知能力,最大限度地保留了有用信息。4. 实验及分析
4.1 实验细节
MSIANet使用主干网络的Conv3, Conv4和Conv5生成的特征图作为SIFM的输入。SIFM的输出经过后端网络的处理生成最终的密度图,后端网络由两个卷积构成,其具体设置为:后端网络={in_channel,out_channel)|(128,64),(64,1)}。本文选用欧几里得损失作为损失函数,欧几里得损失函数的定义为
L2=1NN∑i=1‖G(Xi;θ)−DGTi‖2 (6) 其中,
θ 表示网络模型的参数,N 表示训练样本的数量,Xi 表示网络输入的原始图像,G(Xi;θ) 表示原始图像经过网络模型后得到的估计密度图,DGTi 表示真值密度图。本文所提网络基于Pytorch神经网络框架实现,在模型训练中选用Adam优化器优化网络参数,初始学习率设置为10−5 。本文使用几何自适应高斯核生成真值密度图,其公式定义为F(x)=S∑i=1δ(x−xi)×Gσi(x) (7) 其中,
δ 为脉冲函数,图像中每个人头位置相应的脉冲函数表示为δ(x−xi) ,S 为图像中的总人数,Gσi(x) 是方差为σi 的高斯函数,方差σi=βˉdi ,其中ˉdi=1k∑kj=1dij 为距离人头xi 最近的k 个人头的平均距离,本文设置k=4 。根据文献[12]的经验,设置β=0.3 。4.2 评估指标
不失一般性,本文使用平均绝对误差(MAE)和均方根误差(RMSE)两个评估指标评价人群计数网络的性能。MAE可以衡量模型计数的准确性,而RMSE可以反映模型计数的稳定性。两个指标的定义分别为
MAE=1MM∑i=1|Ci−CGTi| (8) RMSE=√1MM∑i=1(Ci−CGTi)2 (9) 其中,
M 为测试图像的数量,Ci 和CGTi 分别为第i 个图像估计的人群数量和真实人群数量。4.3 数据集
本文基于ShanghaiTech[12], UCF_QNRF[22]和UCF_CC_50[23]3个被广泛使用的人群计数基准数据集进行实验评估。
ShanghaiTech数据集由Part A和Part B两部分组成,是一个场景复杂、人群尺度变化十分明显且人数众多的数据集。Part A由在互联网上抓取的482张图像构成。Part A中每张图像的平均人数达到了501人,最多的一张图像中有3139人。Part B则由上海繁忙街道的摄像头获得的716张图像组成,平均人数为124人,最多的一张图像中有578人。与Part A相比,虽然Part B的人群密度较低,但是其图像中存在多视角和透视失真的问题。在Part A中,300张图像作为训练集,182张图像作为测试集。Part B中400张图像作为训练集,316张图像作为测试集。
UCF_QNRF数据集是一个人群密度极高且人群尺度变化明显的数据集,它拥有1535张图像,有多达1251642个人头位置注释。其中训练集有1201张图像,测试集有334张图像,并且UCF_QNRF数据集中都是高分辨图像,最大分辨率达到了2 013×2902。复杂的场景、尺度的显著变化、多变的视角再加上十分拥挤的人群数量,使得这是一个十分具有挑战性的数据集。
UCF_CC_50数据集由50张不同视角和分辨率的灰度图像组成,图像中普遍存在尺度变化问题并且人群密度普遍较大,每张图像平均人数高达1280人,图像之间的人数差异也十分巨大,人数最少的图像有94人,最多的达到了4532人。
4.4 不同方法的对比实验
本文将MSIANet与人群计数领域的14种应对尺度变化问题的代表性方法进行了对比。表1展示了不同方法基于3个基准数据集的对比结果。
表 1 在3个人群计数基准数据集上使用MAE和RMSE指标进行评估(加粗表示最好结果)方法 ShanghaiTech A ShanghaiTech B UCF_QNRF UCF_CC_50 MAE RMSE MAE RMSE MAE RMSE MAE RMSE MCNN [12] (2016) 110.2 173.2 26.4 41.3 277.0 426.0 377.6 509.1 SANet [13] (2018) 67.0 104.5 8.4 13.6 – – 258.4 334.9 CSRNet [7] (2018) 68.2 115.0 10.6 16.0 – – 266.1 397.5 Switch-CNN [14] (2017) 90.4 135.0 21.6 33.4 228.0 445.0 318.1 439.2 ADCrowdNet [19] (2019) 63.2 98.9 8.2 15.7 – – 266.4 358.0 TEDNet [15] (2019) 64.2 109.1 8.2 12.8 113.0 188.0 249.4 354.5 EPA [16] (2020) 60.9 91.6 7.9 11.6 – – 205.1 342.1 DUBNet [8] (2020) 64.6 106.8 7.7 12.5 105.6 180.5 243.8 329.3 DPDNet [17] (2021) 66.6 120.3 7.9 12.4 126.8 208.6 – – MLAttnCNN [20] (2021) – – 7.5 11.6 101.0 175.0 200.8 273.8 URC [9] (2021) 72.8 111.6 12.0 18.7 128.1 218.0 293.9 443.0 MPS [18] (2022) 71.1 110.7 9.6 15.0 – – – – AutoScale [10] (2022) 65.8 112.1 8.6 13.9 104.4 174.2 – – FusionCount [11] (2022) 62.2 101.2 6.9 11.8 – - – – MSIANet(本文) 55.6 99.2 6.6 11.0 94.8 184.6 194.5 273.3 由表1可知,MSIANet在3个基准数据集上均达到了最低的MAE,RMSE指标也达到了前列水平,这说明该网络在3个基准数据集上均实现了较为准确的计数。
下面对表1的实验结果进行分析:
(1) 在ShanghaiTech数据集Part A上,MSIANet与次优方法EPA相比,MAE降低了8.7%;与经典方法CSRNet相比MAE降低了18.5%,RMSE降低了13.7%。在此数据集上MSIANet的RMSE(反应稳定性)没有达到最优(第3名),其主要原因是Part A中某些场景人群图像的样本较少,并且与其他样本的差距过大,导致MSIANet在训练过程中出现了学习偏差。但是,MSIANet的MAE指标在此数据集上达到了最优,说明该网络在总体上实现了最好的计数效果。
(2) 在ShanghaiTech数据集Part B上,MSIANet与次优方法FusionCount相比,MAE降低了4.3%,RMSE降低了6.8%;与经典方法CSRNet相比MAE降低了37.7%,RMSE降低了31.3%。在此数据集上,MSIANet的所有指标均达到了最优。
(3) 在UCF_QNRF数据集上,MSIANet比次优方法MLAttnCNN的MAE降低了6.1%。在此数据集上MSIANet的RMSE指标没有达到最优(第4名),其主要原因是UCF_QNRF数据集中的图像分辨率过高,因此本文将UCF_QNRF数据集中图像的边长限制在1024个像素之内(据我们所知,在所有对比方法中,本文在UCF_QNRF数据集上具有最高的降采样率),这样使得在下采样的过程中损失了很多的细节信息。即便如此,本文网络依然取得了最优的MAE,这也体现出本文网络具有很好的鲁棒性。
(4) 在UCF_CC_50数据集上,MSIANet也取得了所有方法中最优的MAE和RMSE,相比于次优的MLAttnCNN, MSIANet的MAE降低了3.1%,RMSE降低了0.18%;与经典方法CSRNet相比,MSIANet的MAE降低了26.9%,RMSE降低了31.2%。这充分说明MSIANet在少样本的数据集上也拥有很好的效果。
4.5 可视化分析
为了更直观地说明本文网络的有效性,图6至图9展示了MSIANet在3个基准数据集部分尺度变化明显的样本上生成的密度图。
图6至图9中,第1列为原始图像,第2列为真值密度图,第3列为MSIANet生成的密度图。从图6至图9可以看出,MSIANet在不同密度的样本上生成的密度图和真值密度图之间都具有很高的相似性,说明本文网络可以很好地应对图像中人群的尺度变化问题。
为了更客观地展示MSIANet在3个基准数据集上计数结果的准确性。本文从3个基准数据集中分别随机选取50张样本图像进行定量分析,其结果如图10至图13所示。
图10至图13中真实人数折线和估计人数折线的重合程度代表了MSIANet的计数准确程度。由图10至图13可知,在3个基准数据集上,真实人数折线和估计人数折线均具有较高的重合度,这说明了MSIANet计数的准确性。
4.6 消融实验
为了验证MSIANet中各模块的有效性,本文设计了5个变体模型,变体模型的网络结构如下:
(1) MSIANet的主干网络+后端网络:使用MSIANet的主干网络(去除全连接层和最后1个池化层的VGG-16)和后端网络,即去除了SIFM后的剩余结构,但是由于主干网络输出特征图的通道数为512,因此使用一个1×1卷积调整通道数为128,最后使用MSIANet的后端网络生成估计密度图。
(2) MSIANet的主干网络+MASM+后端网络:在变体模型⑴的基础上增加了1个MSAM。
(3) MSIANet w/o MSAM:使用MSIANet的整体结构,但是去除了MSAM。
(4) MSIANet w/o GCAM:使用MSIANet的整体结构,但是去除了GCAM。
(5) MSIANet w/o GSAM:使用MSIANet的整体结构,但是去除了GSAM。
考虑到ShanghaiTech Part A中的人群图像背景信息复杂多样且人群密度较高,同时普遍存在尺度变化情形,因此,为了更具代表性,本文在ShanghaiTech Part A上进行消融实验。
表2展示了消融实验的对比结果。由表2可知,MSIANet的计数结果明显优于MSIANet的主干网络+后端网络的计数结果。与MSIANet的主干网络+后端网络相比,MSIANet的MAE下降了12.3%,RMSE下降了5.7%,说明MSIANet可以很好地提升计数的准确性。与MSIANet的主干网络+MASM+后端网络相比,MSIANet的MAE和RMSE分别下降了4.9%和2.5%,说明结合多层语义信息可以有效地提升计数精度。与MSIANet w/o MSAM相比,MSIANet的MAE下降了8.4%,RMSE下降了1.8%,说明本文设计的MSAM可以有效提升MSIANet的计数性能。MSIANet与MSIANet w/o GCAM和MSIANet w/o GSAM相比,其MAE和RMSE也都有所下降,验证了GCAM和GSAM在计数任务中都起到了积极作用。若将后4种变体模型分别与MSIANet的主干网络+后端网络相比,都有一定程度的性能提升,这进一步验证了各模块对整体模型的增益效果。上述消融实验结果说明,各模块对MSIANet的性能都有一定程度的提升效果,验证了MSIANet 各组成模块的有效性和合理性。
表 2 消融实验结果变体模型 MAE RMSE MSIANet的前端网络+后端网络 63.4 105.2 MSIANet的前端网络+MASM+后端网络 58.5 101.8 MSIANet w/o MSAM 60.7 101.0 MSIANet w/o GCAM 57.3 100.6 MSIANet w/o GSAM 57.1 99.5 MSIANet 55.6 99.2 5. 结论
本文提出了一种多尺度交互注意力人群计数网络,该网络基于多尺度注意力模块和语义信息融合模块构建而成。多尺度注意力模块使用具有不同膨胀率的膨胀卷积获取多尺度信息,通过各尺度分支之间的多尺度交互结构和注意力机制来应对网络规模的限制及特征相似性问题。语义信息融合模块通过使用主干网络的多层特征图获取丰富的语义信息,并使用语义交互结构提升语义信息的多样性。本文在3个公开数据集上与现有代表性的先进方法进行了对比分析,结果表明,MSIANet 可有效解决人群计数任务中的尺度变化问题,有助于生成高质量的人群密度图,提升多列网络的计数性能。
-
表 1 在3个人群计数基准数据集上使用MAE和RMSE指标进行评估(加粗表示最好结果)
方法 ShanghaiTech A ShanghaiTech B UCF_QNRF UCF_CC_50 MAE RMSE MAE RMSE MAE RMSE MAE RMSE MCNN [12] (2016) 110.2 173.2 26.4 41.3 277.0 426.0 377.6 509.1 SANet [13] (2018) 67.0 104.5 8.4 13.6 – – 258.4 334.9 CSRNet [7] (2018) 68.2 115.0 10.6 16.0 – – 266.1 397.5 Switch-CNN [14] (2017) 90.4 135.0 21.6 33.4 228.0 445.0 318.1 439.2 ADCrowdNet [19] (2019) 63.2 98.9 8.2 15.7 – – 266.4 358.0 TEDNet [15] (2019) 64.2 109.1 8.2 12.8 113.0 188.0 249.4 354.5 EPA [16] (2020) 60.9 91.6 7.9 11.6 – – 205.1 342.1 DUBNet [8] (2020) 64.6 106.8 7.7 12.5 105.6 180.5 243.8 329.3 DPDNet [17] (2021) 66.6 120.3 7.9 12.4 126.8 208.6 – – MLAttnCNN [20] (2021) – – 7.5 11.6 101.0 175.0 200.8 273.8 URC [9] (2021) 72.8 111.6 12.0 18.7 128.1 218.0 293.9 443.0 MPS [18] (2022) 71.1 110.7 9.6 15.0 – – – – AutoScale [10] (2022) 65.8 112.1 8.6 13.9 104.4 174.2 – – FusionCount [11] (2022) 62.2 101.2 6.9 11.8 – - – – MSIANet(本文) 55.6 99.2 6.6 11.0 94.8 184.6 194.5 273.3 表 2 消融实验结果
变体模型 MAE RMSE MSIANet的前端网络+后端网络 63.4 105.2 MSIANet的前端网络+MASM+后端网络 58.5 101.8 MSIANet w/o MSAM 60.7 101.0 MSIANet w/o GCAM 57.3 100.6 MSIANet w/o GSAM 57.1 99.5 MSIANet 55.6 99.2 -
[1] 徐涛, 段仪浓, 杜佳浩, 等. 基于多尺度增强网络的人群计数方法[J]. 电子与信息学报, 2021, 43(6): 1764–1771. doi: 10.11999/JEIT200331XU Tao, DUAN Yinong, DU Jiahao, et al. Crowd counting method based on multi-scale enhanced network[J]. Journal of Electronics &Information Technology, 2021, 43(6): 1764–1771. doi: 10.11999/JEIT200331 [2] 万洪林, 王晓敏, 彭振伟, 等. 基于新型多尺度注意力机制的密集人群计数算法[J]. 电子与信息学报, 2022, 44(3): 1129–1136. doi: 10.11999/JEIT210163WAN Honglin, WANG Xiaomin, PENG Zhenwei, et al. Dense crowd counting algorithm based on new multi-scale attention mechanism[J]. Journal of Electronics &Information Technology, 2022, 44(3): 1129–1136. doi: 10.11999/JEIT210163 [3] TOPKAYA I S, ERDOGAN H, and PORIKLI F. Counting people by clustering person detector outputs[C]. Proceedings of the 11th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS), Seoul, Korea (South), 2014: 313–318. [4] LI Min, ZHANG Zhaoxiang, HUANG Kaiqi, et al. Estimating the number of people in crowded scenes by MID based foreground segmentation and head-shoulder detection[C]. Proceedings of the 19th International Conference on Pattern Recognition, Tampa, USA, 2008: 1–4. [5] CHAN A B, LIANG Z S J, and VASCONCELOS N. Privacy preserving crowd monitoring: Counting people without people models or tracking[C]. Proceedings of 2008 IEEE Conference on Computer Vision and Pattern Recognition, Anchorage, USA, 2008: 1–7. [6] CHEN Ke, LOY C C, GONG Shaogang, et al. Feature mining for localised crowd counting[C]. Proceedings of the British Machine Vision Conference, Surrey, UK, 2012: 21.1–21.11. [7] LI Yuhong, ZHANG Xiaofan, and CHEN Deming. CSRNet: Dilated convolutional neural networks for understanding the highly congested scenes[C]. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 1091–1100. [8] OH M H, OLSEN P, and RAMAMURTHY K N. Crowd counting with decomposed uncertainty[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11799–11806. doi: 10.1609/aaai.v34i07.6852 [9] XU Yanyu, ZHONG Ziming, LIAN Dongze, et al. Crowd counting with partial annotations in an image[C]. Proceedings of 2021 IEEE/CVF International Conference on Computer Vision (ICCV), Montreal, Canada, 2021: 15550–15559. [10] XU Chenfeng, LIANG Dingkang, XU Yongchao, et al. AutoScale: Learning to scale for crowd counting[J]. International Journal of Computer Vision, 2022, 130(2): 405–434. doi: 10.1007/s11263-021-01542-z [11] MA Yiming, SANCHEZ V, and GUHA T. FusionCount: Efficient crowd counting via multiscale feature fusion[C]. Proceedings of the IEEE International Conference on Image Processing, Bordeaux, France, 2022. [12] ZHANG Yingying, ZHOU Desen, CHEN Siqin, et al. Single-image crowd counting via multi-column convolutional neural network[C]. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, USA, 2016: 589–597. [13] CAO Xinkun, WANG Zhipeng, ZHAO Yanyun, et al. Scale aggregation network for accurate and efficient crowd counting[C]. Proceedings of the 15th European Conference on Computer Vision, Munich, Germany, 2018: 757–773. [14] SAM D B, SURYA S, and BABU R V. Switching convolutional neural network for crowd counting[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, USA, 2017: 4031–4039. [15] JIANG Xiaolong, XIAO Zehao, ZHANG Baochang, et al. Crowd counting and density estimation by trellis encoder-decoder networks[C]. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, USA, 2019: 6126–6135. [16] YANG Yifan, LI Guorong, DU Dawei, et al. Embedding perspective analysis into multi-column convolutional neural network for crowd counting[J]. IEEE Transactions on Image Processing, 2020, 30: 1395–1407. doi: 10.1109/TIP.2020.3043122 [17] LIAN Dongze, CHEN Xianing, LI Jing, et al. Locating and counting heads in crowds with a depth prior[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, To be Published. [18] ZAND M, DAMIRCHI H, FARLEY A, et al. Multiscale crowd counting and localization by multitask point supervision[C]. Proceedings of 2022 IEEE International Conference on Acoustics, Speech and Signal Processing, Singapore, Singapore, 2022. [19] LIU Ning, LONG Yongchao, ZOU Changqing, et al. ADCrowdNet: An attention-injective deformable convolutional network for crowd understanding[C]. Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 3220–3229. [20] TIAN Mengxiao, GUO Hao, and LONG Chengjiang. Multi-level attentive convoluntional neural network for crowd counting[J]. arXiv: 2105.11422, 2021. [21] LIU Yichao, SHAO Zongru, and HOFFMANN N. Global attention mechanism: Retain information to enhance channel-spatial interactions[J]. arXiv: 2112.05561, 2021. [22] IDREES H, TAYYAB M, ATHREY K, et al. Composition loss for counting, density map estimation and localization in dense crowds[C]. Proceedings of the 15th European Conference on Computer Vision, Munich, Germany, 2018: 544–559. [23] IDREES H, SALEEMI I, SEIBERT C, et al. Multi-source multi-scale counting in extremely dense crowd images[C]. Proceedings of 2013 IEEE Conference on Computer Vision and Pattern Recognition, Portland, USA, 2013: 2547–2554. 期刊类型引用(2)
1. 余梦飞,杨海波,卢鑫,贾军营. 基于多尺度特征融合的人群密度检测. 计算机系统应用. 2024(04): 143-151 . 百度学术
2. 席志国,刘光辉. 基于区域信息聚合的轻量化人群计数方法. 高技术通讯. 2024(09): 945-959 . 百度学术
其他类型引用(3)
-