Objective Visual Attention Estimation Method via Progressive Learning and Multi-scale Enhancement
-
摘要: 视觉注意力机制已引起学界和产业界的广泛关注,但既有工作主要从场景观察者的视角进行注意力检测。然而,现实中不断涌现的智能应用场景需要从客体视角进行视觉注意力检测。例如,检测监控目标的视觉注意力有助于预测其后续行为,智能机器人需要理解交互对象的意图才能有效互动。该文结合客体视觉注意力的认知机制,提出一种基于渐进式学习与多尺度增强的客体视觉注意力估计方法。该方法把客体视域视为几何结构和几何细节的组合,构建层次自注意力模块(HSAM)获取深层特征之间的长距离依赖关系,适应几何特征的多样性;并利用方向向量和视域生成器得到注视点的概率分布,构建特征融合模块将多分辨率特征进行结构共享、融合与增强,更好地获取空间上下文特征;最后构建综合损失函数来估计注视方向、视域和焦点预测的相关性。实验结果表明,该文所提方法在公开数据集和自建数据集上对客体视觉注意力估计的不同精度评价指标都优于目前的主流方法。Abstract: Understanding the attention mechanism of the human visual system has attracted much research attention from researchers and industries. Recent studies of attention mechanisms focus mainly on observer patterns. However, more intelligent applications are presented in the real world and require objective visual attention detection. Automating tasks such as surveillance or human-robot collaboration require anticipating and predicting the behavior of objects. In such contexts, gaze and focus can be highly informative about participants' intentions, goals, and upcoming decisions. Here, a progressive mechanism of objective visual attention is developed by combining cognitive mechanisms. The field is first viewed as a combination of geometric structure and geometric details. A Hierarchical Self-Attention Module (HSAM) is constructed to capture the long-distance dependencies between deep features and adapt geometric feature diversity. With the identified generators, the field of view direction vectors are generated, and the probability distribution of gaze points is obtained. Furthermore, a feature fusion module is designed for structure sharing, fusion, and enhancement of multi-resolution features. Its output contains more detailed spatial and global information, better obtaining spatial context features. The experimental results are in excellent agreement with theoretical predictions by different evaluation metrics for objective attention estimation on publicly available and self-built datasets.
-
1. 引言
在技术进步和应用需求的牵引下,学界和产业界提出了大量视觉注意力模型,但这些方法主要从场景观察者的视角进行注意力检测。随着智能人机交互等领域的发展,人们不断追求对环境和客体的全面识别与感知。因此,对图像模式识别的客体(例如监控场景中的行人)视觉注意力进行研究成为新的目标。客体视觉注意力是客体聚焦于特定范围或者特定对象的能力,既取决于头部与双目的位置和姿态,也受到环境和其他客体的影响。客体视觉注意力是理解客体意向、预测后续行为的重要依据,为更高层次的感知推理和视觉处理任务提供辅助信息。例如,智能机器人需要感知和推理交互对象的意图,才能有效地互动合作;智能监控中利用监控对象的视觉注意力能够预测其后续行为,获得对场景更全面的理解。从图像模式识别的角度,注视方向、视域和焦点是研究客体视觉注意力模型的关键要素。
早期的客体视觉注意力研究通常局限于特定场景或专用设备,以人眼注视方向估计为主。Fathi等人[1]使用可穿戴的头部摄像机收集场景中不同参与者的视域信息,并预测参与者之间的视觉注意力交互。Marin-Jimenez等人[2]在电影场景中检测人物角色之间的互相注视,进而量化人物角色之间的关联。Parks等人[3]利用场景中人物的头部区域来估计注视方向,通过忽略注视对象来获得效率的提升。Soo等人[4]通过输入多源图像来重建3维视场并进行客体视觉注意力估计。
随着人工智能和深度学习技术的发展,能够实现更强大的智能信息计算,客体视觉注意力的研究重心向基于深度学习的模型偏移,视域估计和焦点预测成为研究热点。Zhang等人[5]最早利用深度学习进行客体视线估计,将头部姿态与眼部特征结合,基于相机坐标系进行视线跟踪,但难以适应遮挡等情况。Cheng等人[6]提出了非对称回归方法,特点在于损失函数对双眼赋予不同权重。Recasens等人 [7]利用双流卷积网络分别提取注视方向特征和场景显著特征,通过特征融合和移位网格进行视觉注意力焦点预测,其缺点在于难以获取特征图的全局空间上下文信息。Lian等人[8]通过串联残差网络[9]和特征金字塔网络[10],进行视域估计和焦点预测,实现端到端的自动学习。Chong等人[11]将并行连接和串行连接相结合并引入ConvLSTM[12]网络,实现了一种基于客体视觉注意力的空间推理结构,并应用于视频理解。
然而,这些方法都是通过端到端的方式将图像空间直接映射到特征空间,并基于2维图像表征所有客体与场景的显著性特征。这容易忽略客体与环境的交互性,且在训练过程中只能高度关注显性的头部区域及注视方向,无法有效应对头部遮挡、姿态变换和尺度变化等诸多不确定因素。此外,在现实场景中,客体的视觉注意力不仅和头部区域的局部邻域有关,还和更大范围的全局邻域有关;而现有方法[7,8,11,13,14]主要基于AlexNet, ResNet50等经典的卷积神经网络模型,受限于感受野的范围,难以对长距离依赖关系进行挖掘,从而间接导致客体视觉注意力建模不完善、不准确的情况。因此,获取和利用长距离依赖关系,从客体视角对图像场景进行显著性建模,在客体视觉注意力估计中非常重要,但这也带来了以下挑战:(1) 如何基于客体视角,全方位表示场景的显著性特征,并适应场景的多样性和不确定性;(2) 全方位建模会导致表示向量的维度上升,如何设计有效的优化策略,从而支持客体视觉注意力估计从多个空间尺度学习客体视角下的场景表示,以获取准确的视觉注意力估计结果。
基于上述讨论,本文结合客体视觉注意力的渐进式认知特征,以及通过细节处理和环境感知进行视觉注意选择的认知机制,提出了一种基于渐进式学习与多尺度增强的客体视觉注意力估计模型,如图1所示。简言之,本文的贡献包括以下方面:
(1) 本文把客体注视方向和视域视为几何结构和几何细节的组合,在特征空间中建模长距离依赖关系。提出层次自注意力模块(Hierarchical Self-Attention Module, HSAM)并嵌入到残差网络[9],得到的网络主干没有额外分支,减少了参数量。进一步地,对头部图像区域进行有选择的增强,挖掘深层特征之间的长距离依赖关系,对局部和全局特征进行层次聚合,从而适应尺度变化,以及几何结构与细节的不确定性。
(2) 本文将自适应多分辨率特征融合模块(Adaptive Multi-Resolution Feature Fusion module, AMFF)嵌入到高分辨率网络(High-Resolution Net, HRNet)[15]。AMFF模块可通过通道选择和权重学习,将HRNet输出的不同尺度大小的空间特征进行共享、融合和增强,使其输出具有更丰富的表征能力,进而通过空间上下文特征学习更准确地进行焦点预测。
(3) 本文建立了AutoGaze数据集。从客体视觉注意力研究的角度,AutoGaze数据集具有更优的样本图像质量和分布多样性。实验结果表明,本文方法在公开数据集和自建数据集上对客体视觉注意力估计的准确度都优于目前主流的方法。此外,实验验证了本文提出的层次自注意力模块(HSAM)和自适应多分辨率特征融合模块(AMFF)均对最终性能起到促进作用。
2. 本文方法
2.1 网络框架
本文结合客体视觉注意力的认知机制,提出了一种基于渐进式学习与多尺度增强的客体视觉注意力估计方法,总体架构如图1所示。具体地,包括注视方向估计网络、视域生成器和焦点预测网络3个部分。首先,注视方向估计网络将输入的客体头部图像区域和虚拟视点坐标进行编码与融合,映射到特征空间中得到2维方向向量。其次,视域生成器将方向向量映射到2维平面中得到注视点概率分布图。最后,焦点预测网络将注视点概率分布图与原图像的3个通道进行融合增强,并输入到自适应高分辨率网络,获取视域约束下的空间上下文特征得到包含焦点的热力图,并映射到初始图像空间中生成最终预测结果。
2.2 注视方向估计网络
目光注视方向可以引导视觉注意分配,因此注视方向估计是进行视域估计和焦点预测的基础。客体视觉注视方向估计需要考虑视点和不同图像区域的关联性,因此需要获取长距离依赖关系。由于在图像空间中通过堆叠卷积运算来获取长距离依赖关系会造成计算开销过大,本文在特征空间中利用自注意力机制对长距离特征依赖关系进行建模。具体地,包括头部特征提取模块和虚拟视点(客体头部区域几何中心)位置编码模块两个部分。以头部区域和虚拟视点位置作为输入,前者输入到头部特征提取模块中进行头部特征的提取,后者通过一个全连接层进行位置编码并与头部特征融合,并通过一个多层的感知器(MultiLayer Perceptron, MLP)进行注视方向估计。首先利用ResNet34[9] 残差网络提取头部区域的深层局部特征;进而在最后一层嵌入层次自注意力模块(HSAM),该模块通过层次聚合逐步建立深层局部特征之间的长距离依赖关系,突出客体头部区域中显著性特征的权重,更准确地获取头部的姿态特征;最后,与虚拟视点位置编码进行特征融合并映射到平面空间中生成了一个2维的方向向量,更准确地表征客体注视方向的分布。
具体地,HSAM由局部自注意力模块[16]、全局自注意力模块[17]和其他辅助模块顺序连接而成,如图1上方红色虚框所示。将残差网络生成的深层局部特征
fhead∈R7×7×512 首先映射成2维空间中的嵌入表示Zhead∈R49×512 ;然后将其输入到具有相对位置编码[18]的3层局部自注意力块中增强感受野,捕获局部特征之间的长距离依赖关系;并通过局部自注意力块编码后得到特征Zlocal∈R49×512 ,将得到的Zlocal 再次添加一个可学习的分类标记和绝对空间位置嵌入得到新的嵌入表示Zmid∈R50×512 ,其定义为Zmid=[Ztoken;Zlocal]+Zpos (1) 其中,
Ztoken∈R1×512 表示可学习的分类标记,Zpos∈R50×512 是可学习的绝对位置编码,[;] 表示串联操作。进而,将
Zmid 输入到3层的全局自注意力块中,建立面向全局特征的长距离依赖关系,获取全局特征的空间结构信息。全局自注意力块编码后输出特征表示为Zout∈R50×512 ,本文选择Zout 中第1个特征向量Zclass∈R1×512 (对应于可学习的分类标记)作为头部姿态特征的表示。局部自注意力和全局自注意力编码模块的基础分别是窗口多头自注意力机制(Windows based Multi-head Self-Attention, W-MSA)和多头自注意力机制(Multi-head Self-Attention, MSA),进而在不同层次的窗口内对输入的特征矩阵进行自注意力计算。具体地,MSA对特征矩阵进行全局自注意力计算,能够挖掘全局区域下特征之间的依赖关系但是计算复杂度高;W-MSA则是通过窗口划分的方式,把自注意力计算限定在窗口内,虽然极大降低了计算复杂度,但是只能挖掘局部区域下特征之间的依赖关系。为了兼顾精度和效率,本文基于多头自注意力[19],层次化连接上述两个模块,其定义为
MSA(z)=Concat(H1,H2,⋯,Hh)Wo (2) Hi=Attention(Q,K,V)=Softmax(QKT√dk)V=Softmax((zWQi)(zWKi)T√dk)(zWVi) (3) 其中,
z 表示在两个模块中经过正则化操作后的特征矩阵,Hi 表示单头的缩放点积注意力计算,h 是多头的数量,Q 是查询矩阵,K 是键矩阵,V 是值矩阵,dk 是键矩阵中每个键的向量维度,√dk 对权重缩放,防止矩阵维度过高降低效率;WQi ,WKi ,WVi 分别是Q ,K ,V 在线性映射时对应的参数矩阵,Concat(⋅) 表示列向量堆叠,Wo 表示对堆叠后的结果再进行一次线性映射,Softmax(⋅) 表示归一化操作。本文提出的层次自注意力模块优势在于:(1) 通过两种多头自注意力模块的层次拼接,降低了基于单一多头自注意力模块的特征学习复杂度,同时保持了特征之间的长距离空间关系建模能力。(2) 将自注意力机制应用于注视方向估计中,在自然场景下的头部姿态特征表达上取得了更好的结果。
2.3 视域生成器
在注视方向估计的基础上,本文设计了一个视域生成器模块,如图1下方绿色虚框所示。该模块以客体头部区域几何中心作为虚拟视点坐标,从而消除双目遮挡等不确定因素的影响。并且利用注视方向估计网络生成的方向向量在2维平面中生成一个无限延伸的视锥体,该视锥体表征了视域中注视点的概率分布。给定视锥体中的点
P(px,py) ,该点到虚拟视点形成的视线方向与预测的注视方向之间的角度误差为θ(px,py)=arccos((px−hx,py−hy)⋅(ˆdx,ˆdy)‖(px−hx,py−hy)‖2⋅‖(ˆdx,ˆdy)‖2) (4) 其中,
(hx,hy) 表示虚拟视点坐标,(ˆdx,ˆdy) 表示注视方向的预测值,(px−hx,py−hy) 表示注视方向。视锥体中的点
P 是预测的视觉注意力焦点位置的概率越大,角度误差就越小,反之亦然。因此视锥体中的点可以视为焦点位置的概率分布(如图2),点P 表示的概率值与角度误差之间关系可以通过余弦函数表示。视域生成器最终生成的视域可以表示为G(px,py)=[max (5) 其中,
{\boldsymbol{\alpha }} 是参数,决定生成的视域的大小。\alpha 的值越大,生成的视域越小,实验中\alpha 值设置为5。2.4 焦点预测网络
焦点预测是客体视觉注意力估计的核心任务。借鉴文献[8],本文将焦点预测视为一个热力图回归问题。为了获取视域约束下的全域空间上下文特征以及高精度热力图,本文设计了一个新的焦点预测网络,如图1下方蓝色虚框所示。选择高分辨率网络(HRNet)作为焦点预测的主干网络,由于HRNet并没有给出适合客体视觉注意力估计的特征组合方式,现有基于HRNet网络的热力图回归方法通常只使用了最高分辨率的第1分支。为此,本文提出了一个自适应多分辨率特征融合模块(AMFF)利用通道筛选和学习权重参数的方式来将HRNet网络输出的4个分支特征进行结构共享、融合和增强。
自适应多分辨率特征融合模块结构如图3所示,该模块结合频域通道注意力机制(Frequency Channel Attention mechanism, FCA)[20]和自适应空间特征融合(Adaptively Spatial Feature Fusion, ASFF) [21],对HRNet网络输出的4个特征分支进行筛选和融合,增强在热力图回归分析过程中的特征表达能力。首先,基于FCA筛选4个分支特征
{{\boldsymbol{P}}^n} (n \in \left\{ {{\text{1,2,3,4}}} \right\} ),得到筛选后的分支特征{{\boldsymbol{F}}^n} 。进而在双线性插值和1 \times 1 的卷积操作后,对其后3个分支的尺度和维度进行归一化处理,减少后期特征融合过程中潜在的混叠效应。进一步地,计算不同分支特征之间的空间权重参数矩阵,并与调整后的特征{{\boldsymbol{F}}^{n \to 1}} 进行通道矩阵乘积操作,再将赋予权重后的特征基于通道维度进行像素值求和,得到融合特征{\boldsymbol{H}} ,其过程可表示为{{\boldsymbol{F}}^n} = \delta({\text{fc}}({\text{2DDC}}{{\text{T}}^{u,v}}({{\boldsymbol{P}}^n}))) \otimes {{\boldsymbol{P}}^n} (6) {\boldsymbol{H}} = \alpha \cdot {\boldsymbol{F}}_{}^{{\text{1}} \to 1} + \beta \cdot {\boldsymbol{F}}_{}^{{\text{2}} \to {\text{1}}} + \gamma \cdot {\boldsymbol{F}}_{}^{{\text{3}} \to {\text{1}}}{\text{ + }}\eta \cdot {\boldsymbol{F}}_{}^{{\text{4}} \to {\text{1}}} (7) 其中,
{\text{2DDC}}{{\text{T}}^{u,v}}( \cdot ) 表示对输入的特征进行频域分析,[u,v] 表示{{\boldsymbol{P}}^n} 的频域分量2D指数的集合,{\text{fc}} 是全连接操作,调整频域分析后的特征通道数,{\text{δ }} 表示Sigmoid函数,用以生成各通道之间的权重值,最后和初始特征进行逐通道特征相乘得到{{\boldsymbol{F}}^n} 。\{ \alpha ,\beta ,\gamma ,\eta \} 表示4个分支特征的空间重要性权重矩阵,各个矩阵中相同像素位置的权重因子的累加和为1,权重系数在[0,1] 。受文献[22]的启发,空间权重计算公式为\alpha = \frac{{\exp ({\lambda _\alpha })}}{{\exp ({\lambda _\alpha }) + \exp ({\lambda _\beta }) + \exp ({\lambda _\gamma }) + \exp ({\lambda _\eta })}} (8) 其中,
{\lambda _\alpha } ,{\lambda _\beta } ,{\lambda _\gamma } 和{\lambda _\eta } 分别表示4个分支权重的控制参数。本文使用1×1卷积层分别从{{\boldsymbol{F}}^{1 \to 1}} ,{{\boldsymbol{F}}^{2 \to 1}} ,{{\boldsymbol{F}}^{3 \to 1}} 和{{\boldsymbol{F}}^{4 \to 1}} 4个特征图中计算对应的权重控制参数的标量图,从而使网络能够自适应地学习和计算不同大小的特征图对应的空间权重。在得到融合特征{\boldsymbol{H}} 后,将该特征通过一个1×1的卷积层和Sigmoid函数操作映射到2维概率空间中,生成一个大小为56×56×1的热力图。该热力图融合了多个分支的多分辨率特征信息,因此获得了丰富的空间上下文特征,使预测结果更加精确。2.5 综合损失函数
考虑到客体视觉注意力估计的渐进式特征,以提高注视方向估计网络的几何精度和焦点预测的预测精度为目标,本文将角度损失和热力图回归损失加入损失函数中,综合后的损失函数可以更好地衡量训练估计值与真实值的偏差,提高训练精度,定义为
{L_{{\text{total}}}} = {\lambda _1}{L_{{\text{Ang}}}} + {\lambda _2}{L_{{\text{Reg}}}} (9) 其中,
{L_{{\text{Ang}}}} 表示平面角度损失函数,{L_{{\text{Reg}}}} 表示平面热力图回归损失函数,{\lambda _1} 和{\lambda _2} 是调整重要性的参数。根据大量实验得到的经验,本文设置{\lambda _1} =1,{\lambda _2} =0.4。具体定义为{L_{{\text{Ang}}}} 损失。本文采用{L_{{\text{Ang}}}} 损失来减少预测注视方向与真实注视方向在欧氏空间中的角度差异,优化注视方向估计网络的监督训练,提升模型视觉特征学习的几何精度,定义为{L_{{\text{Ang}}}} = 1 - \frac{{\langle {\boldsymbol{d}},{\boldsymbol{\hat d}}\rangle }}{{|{\boldsymbol{d}}||{\boldsymbol{\hat d}}|}} (10) 其中,
{\boldsymbol{d}} 表示真实注视方向,{\boldsymbol{\hat d}} 表示预测的注视方向。{L_{{\text{Reg}}}} 损失。本文采用二元交叉熵损失函数约束真实热力图和预测热力图之间的差异,提升焦点预测网络在客体视域约束下的空间上下文特征的学习能力,定义为{L_{{\text{Reg}}}} = - \frac{1}{N}\mathop \sum \limits_{i = 1}^N {{\boldsymbol{M}}_i}\ln \left( {{{{\boldsymbol{\hat M}}}_i}} \right) + \left( {1 - {{\boldsymbol{M}}_i}} \right)\ln \left( {1 - {{{\boldsymbol{\hat M}}}_i}} \right) (11) 其中,
{{\boldsymbol{M}}_i} 和{{\boldsymbol{\hat M}}_i} 分别是真实热力图和预测结果中的逐像素灰度值,i 是像素坐标,N 是热力图像素总数。3. 实验与分析
3.1 实验数据集
本文基于公开数据集GazeFollow[7]和自建数据集AutoGaze进行实验。GazeFollow数据集是客体视觉注意力估计领域最大规模的公开数据集,共标注了122 143张含有客体对象的场景图像,其中117 361张图像作为训练集,其余4 782张图像作为测试集。但是,该数据集也存在大量的面部不清晰和注意力焦点位置标记不准确等问题。为此,本文自建了数据集AutoGaze,该数据集共收集并标注了10 010张包含客体对象的场景图像,其中8 000张图像作为训练集,2 010张图像作为测试集。该数据集的特点是面部清晰,焦点歧义性低,并增加了面向镜头的样本数据,部分示例样本如图4所示。
3.2 实验设置
本文实验基于Pytorch 1.6.0,操作系统为Linux,编程语言为Python 3.7,Cuda版本为1.1;对GazeFollow和AutoGaze数据集分别使用Tesla-V100和RTX 3090 GPU。同时,使用学习率为0.000 1的Adam优化器进行模型优化,权值衰减率设置为0.000 1。首先训练注视方向估计网络,再训练焦点预测网络,最后进行综合训练;训练阶段周期分别是0, 10和20,每个阶段中每5个epoch学习率衰减为原来的0.1,每个阶段结束后初始化学习率。在GazeFollow和AutoGaze数据集上训练时,GPU的batch size分别设置为64和48,训练总周期都是50个epoch。输入图像尺寸为224×224,客体头部位置编码用一个大小为256的全连接层进行位置映射,生成方向向量的MLP是一个3层感知器,每层的维度大小为512, 256, 2,多头注意力机制中的头数
h =8。3.3 评价指标
本文沿用文献[7]中采用的评价指标:ROC曲线下面积AUC (Area Under Curve)、平均距离误差Dist (Average Distance Error)和平均角度误差Ang (Mean Angle Error)。其中,AUC的值越高表示模型的预测效果越好,Dist值越小表示焦点预测网络热力图回归性能越好,Ang值越小表示注视方向估计网络性能越好。另外,在GazeFollow数据集中,由于标注者的主观偏差,视觉注意力可能存在多个真实值(Ground-truth)标注,因此设置两个额外评价指标:最小距离误差MinDist (Min Distance Error)和最小角度误差MinAng (Min Angle Error)。MinDist表示多个真实值中距离预测值最小的平均欧氏距离误差,MinAng表示预测的视线方向与多个真实值的角度误差的最小平均绝对值。
3.4 实验结果与分析
3.4.1 消融实验
为了验证本文提出的层次自注意力模块(HSAM)和自适应多分辨率特征融合模块(AMFF)的有效性,在GazeFollow数据集和AutoGaze数据集上进行了一系列的消融对比实验,构造了6种变种方法:
(1) M1:不使用客体头部位置编码;
(2) M2:不使用层次自注意力模块(HSAM),而使用全局平均池化操作进行深层局部特征的聚合;
(3) M3:不使用HSAM的局部自注意力模块,仅使用3层全局自注意力模块建立全局特征依赖关系;
(4) M4:不使用HSAM的全局自注意力模块,仅使用3层局部自注意力模块建立进行局部特征依赖关系,并对生成的特征矩阵通过降维操作得到最终的姿态特征表示;
(5) M5:不使用AMFF,仅利用HRNet第一分支输出的特征图作为热力图回归的结果;
(6) M6:两个模块都不使用,仅使用本文搭建的主干网络ResNet34和HRNet。
表1给出了本文方法和不同变种方法的实验结果。结果表明,HSAM和AMFF两个模块都能提高相应网络的特征提取能力,但层次自注意力模块对整个模型的增益要高于自适应多分辨率特征融合模块。其原因在于焦点预测网络易受到注视方向估计网络的影响,层次自注意力模块提升了注视方向估计网络的几何精度,使得焦点预测网络在一个更精确的视域中进行热力图回归。其次,通过M3和M4的数据结果对比可知,在HSAM模块中全局自注意力子模块获取长距离依赖关系的能力优于局部自注意力子模块。另外,在AutoGaze数据集上HSAM模块的表现效果更好,显著降低了角度误差,较GazeFollow数据集降低了1.5°,其原因在于AutoGaze数据集面部清晰,在真实视觉注意力标记时标记的结果更加准确,因此对角度的敏感性较大。此外,实验结果也表明了客体头部位置编码对模型的估计效果也具有显著贡献。
表 1 不同变种方法在GazeFollow和AutoGaze数据集上的结果对比方法 GazeFollow AutoGaze AUC Dist Ang (°) AUC Dist Ang (°) M1 0.918 0.135 17.3 0.965 0.086 15.6 M2 0.914 0.139 17.3 0.960 0.093 16.0 M3 0.916 0.136 16.8 0.964 0.087 14.7 M4 0.915 0.137 17.0 0.961 0.091 15.4 M5 0.915 0.138 17.1 0.963 0.089 14.4 M6 0.906 0.143 17.6 0.960 0.092 16.6 本文方法(全模块) 0.922 0.133 16.7 0.969 0.083 13.9 3.4.2 客观指标评价
为了验证本文方法的整体有效性,将本文方法和其他的客体视觉注意力检测方法分别在两个数据集上进行对比。其中,Random[7]指随机产生注意力焦点,Center[7]表示把初始图像的中心作为注意力焦点,Fixed bias[7]根据测试图像头部位置从训练数据中选择与之相似的数据,再把这些训练数据的注意力焦点平均值作为预测结果,均为文献[7]提出的基准方法。本文方法(FPN)使用文献[8]中的特征金字塔网络(FPN)替换本文的焦点预测网络,本文方法(ResNet50)使用ResNet50残差网络替换本文的头部特征提取模块。
GazeFollow数据集。表2给出了多种方法在公开数据集GazeFollow上的实验结果,均按照文献[7]的建议比例划分训练集和测试集。结果显示,相比于主要客体视觉注意力估计方法,本文方法在5种评价指标上都实现了最佳效果。此外,相比于在焦点预测过程中使用FPN网络,本文方法在5种评价指标上都具有显著优势,说明本文方法的焦点预测网络相对于特征金字塔网络具有更好的空间上下文特征学习能力,能够在热力图回归分析任务中得到更准确的表征。对比在注视方向预测过程中使用ResNet50网络,本文的预测精度在各指标上都有提升,说明本文提出的头部特征提取模块相比于主流的残差网络更适合头部姿态特征的获取。但是,本文方法与人工辨识能力仍有差距。
表 2 不同模型在GazeFollow数据集上的结果对比方法 AUC Dist MinDist Ang (°) MinAng (°) Random[7] 0.504 0.484 0.391 69.0 – Center[7] 0.633 0.313 0.230 49.0 – Fixed bias[7] 0.674 0.306 0.219 48.0 – Recasens等人[7] 0.878 0.190 0.113 24.0 – Chong等人[14] 0.896 0.187 0.112 – – Zhao等人[23] – 0.147 0.082 17.6 – Lian等人[8] 0.906 0.145 0.081 17.6 8.8 Chong等人[11] 0.921 0.137 0.077 – – 本文方法(FPN) 0.905 0.146 0.083 17.5 8.5 本文方法(ResNet50) 0.915 0.138 0.075 17.1 8.1 本文方法 0.922 0.133 0.072 16.7 7.6 人工辨识 0.924 0.096 0.040 11.0 – AutoGaze数据集。表3给出了不同方法在AutoGaze数据集上的实验结果,进一步验证了本文方法的优势。结果表明,无论相比于现有客体视觉注意力估计方法,还是相比于使用FPN和ResNet50替换本文方法的相应模块,本文方法在3个精度指标上都获得最好的效果,但是与人工辨识能力仍有差距。同时, AutoGaze数据集的客体面部清晰,人工辨识的歧义性低,因此人工辨识的效果高于GazeFollow数据集。
表 3 不同模型在AutoGaze数据集上的结果对比为了进一步评估本文方法的时间效率,基于相同的实验环境,把本文方法和以前研究中取得最好效果的两种方法进行效率对比分析,结果如表4所示。包括不同网络的参数量、大小,以及在AutoGaze数据集上进行一次训练的总时间。综合表3和表4的对比结果可知:(1) 由于HRNet网络需要通过子网间的特征融合来保持高分辨率特征,会增加模型的训练时间;(2) 相比于文献[8],本文模型参数量、大小和训练时间略高,主要原因在于本文模型中引入了多头自注意力机制以及HRNet,但本文模型的精度明显优于该模型;(3) 相比于对比方法中取得最佳估计精度的方法[11],本文模型在提升精度的同时,训练时间降低了15.2%,模型参数量和模型大小分别降低了2.7%和2.6%。
3.4.3 主观效果评价
为了更加直观地评估本文提出的方法,本文在AutoGaze测试集中随机选取样例场景对各种方法进行了主观效果评价。图5为本文方法和对比方法在不同场景下得到的结果,图中红线表示真实的注视方向,线末端为真实的客体视觉注意力焦点位置;黄色线则表示预测的注视方向和估计的客体视觉注意力热力图的最大像素值位置。结果表明,本文方法在注视方向估计和焦点预测方面都得到了更高的精度。
4. 结束语
本文提出一种基于渐进式学习与多尺度增强的客体视觉注意力估计方法,把客体视觉注意力估计视为一个由注视方向估计、视域生成、焦点预测3个步骤组成的渐进式学习过程,并设计了层次自注意力模块和自适应多分辨率特征融合模块。在注视方向和视域估计中,通过建立深层局部特征之间的长距离依赖关系,获取头部区域的姿态特征并抑制了复杂的背景特征,增强了注视方向估计网络对注视方向的特征表达能力,从而提高视域估计结果的几何精度。在焦点预测中,通过对高分辨率网络不同分支特征进行自适应特征融合,增强了焦点预测网络的空间上下文特征学习能力,提高了预测精度。
本文开展了大量实验,与多种客体视觉注意力估计方法在不同数据集上进行定量和定性的对比,实验结果验证了本文方法的优越性。由于GazeFollow数据集和AutoGaze数据集在标注过程中均采用了单一客体,本文方法及其对比方法均不能直接用于多个客体目标的注意力检测;尽管能够与其他检测算法融合间接实现多个客体目标的注意力检测,但计算开销较大。未来将考虑更多的实际需求来进一步改进现有模型,例如针对由于资源受限难以完成在线视频监控、多目标注意力检测等任务的情形构建模型,同时建立面向多个客体目标的实验数据集,以进一步提高客体视觉注意力估计问题的性能和实用价值。
-
表 1 不同变种方法在GazeFollow和AutoGaze数据集上的结果对比
方法 GazeFollow AutoGaze AUC Dist Ang (°) AUC Dist Ang (°) M1 0.918 0.135 17.3 0.965 0.086 15.6 M2 0.914 0.139 17.3 0.960 0.093 16.0 M3 0.916 0.136 16.8 0.964 0.087 14.7 M4 0.915 0.137 17.0 0.961 0.091 15.4 M5 0.915 0.138 17.1 0.963 0.089 14.4 M6 0.906 0.143 17.6 0.960 0.092 16.6 本文方法(全模块) 0.922 0.133 16.7 0.969 0.083 13.9 表 2 不同模型在GazeFollow数据集上的结果对比
方法 AUC Dist MinDist Ang (°) MinAng (°) Random[7] 0.504 0.484 0.391 69.0 – Center[7] 0.633 0.313 0.230 49.0 – Fixed bias[7] 0.674 0.306 0.219 48.0 – Recasens等人[7] 0.878 0.190 0.113 24.0 – Chong等人[14] 0.896 0.187 0.112 – – Zhao等人[23] – 0.147 0.082 17.6 – Lian等人[8] 0.906 0.145 0.081 17.6 8.8 Chong等人[11] 0.921 0.137 0.077 – – 本文方法(FPN) 0.905 0.146 0.083 17.5 8.5 本文方法(ResNet50) 0.915 0.138 0.075 17.1 8.1 本文方法 0.922 0.133 0.072 16.7 7.6 人工辨识 0.924 0.096 0.040 11.0 – 表 3 不同模型在AutoGaze数据集上的结果对比
-
[1] FATHI A, HODGINS J K, and REHG J M. Social interactions: A first-person perspective[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2012: 1226–1233. [2] MARIN-JIMENEZ M J, ZISSERMAN A, EICHNER M, et al. Detecting people looking at each other in videos[J]. International Journal of Computer Vision, 2014, 106(3): 282–296. doi: 10.1007/s11263-013-0655-7 [3] PARKS D, BORJI A, and ITTI L. Augmented saliency model using automatic 3D head pose detection and learned gaze following in natural scenes[J]. Vision Research, 2015, 116: 113–126. doi: 10.1016/j.visres.2014.10.027 [4] SOO PARK H and SHI Jianbo. Social saliency prediction[C]. The IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, 2015: 4777–4785. [5] ZHANG Xucong, SUGANO Y, FRITZ M, et al. Appearance-based gaze estimation in the wild[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, 2015: 4511–4520. [6] CHENG Yihua, LU Feng, and ZHANG Xucong. Appearance-based gaze estimation via evaluation-guided asymmetric regression[C]. The 15th European Conference on Computer Vision (ECCV), Munich, Germany, 2018: 105–121. [7] RECASENS A, KHOSLA A, VONDRICK C, et al. Where are they looking?[C]. The 28th International Conference on Neural Information Processing Systems, Montreal, Canada, 2015: 199–207. [8] LIAN Dongze, YU Zehao, and GAO Shenghua. Believe it or not, we know what you are looking at![C]. The 14th Asian Conference on Computer Vision, Perth, Australia, 2018: 35–50. [9] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770–778. [10] LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Hawaii, USA, 2017: 936–944. [11] CHONG E, WANG Yongxin, RUIZ N, et al. Detecting attended visual targets in video[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 5395–5405. [12] SHI Xingjian, CHEN Zhourong, WANG Hao, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting[C]. The 28th International Conference on Neural Information Processing Systems, Montreal, Canada, 2015: 802–810. [13] AUNG A M, RAMAKRISHNAN A, and WHITEHILL J R. Who are they looking at? Automatic eye gaze following for classroom observation video analysis[C]. The 11th International Conference on Educational Data Mining, Buffalo, USA, 2018: 252–258. [14] CHONG E, RUIZ N, WANG Yongxin, et al. Connecting gaze, scene, and attention: Generalized attention estimation via joint modeling of gaze and scene saliency[C]. The 15th European Conference on Computer Vision, Munich, Germany, 2018: 397–412. [15] WANG Jingdong, SUN Ke, CHENG Tianheng, et al. Deep high-resolution representation learning for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(10): 3349–3364. doi: 10.1109/TPAMI.2020.2983686 [16] LIU Ze, LIN Yutong, CAO Yue, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 9992–10002. [17] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[C/OL]. The 9th International Conference on Learning Representations, 2021. [18] RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer[J]. The Journal of Machine Learning Research, 2020, 21(1): 140. [19] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]. The 31st International Conference on Neural Information Processing Systems, Los Angeles, USA, 2017: 6000–6010. [20] QIN Zequn, ZHANG Pengyi, WU Fei, et al. FcaNet: Frequency channel attention networks[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 763–772. [21] LIU Songtao, HUANG Di, and WANG Yunhong. Learning spatial fusion for single-shot object detection[EB/OL]. https://arxiv.org/abs/1911.09516, 2019. [22] WANG Guangrun, WANG Keze, and LIN Liang. Adaptively connected neural networks[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 1781–1790. [23] ZHAO Hao, LU Ming, YAO Anbang, et al. Learning to draw sight lines[J]. International Journal of Computer Vision, 2020, 128(5): 1076–1100. doi: 10.1007/s11263-019-01263-4 期刊类型引用(0)
其他类型引用(1)
-