非对称联接神经网络的稳定性和稳定控制
STABILITY CONTROL AND ANALYSIS OF ASYMMETRIC CONTINUOUS NEURAL NETWORKS
-
摘要: 本文对连续竞争神经网络提出一种新的动态分析方法,得出一类联想网络稳定的必要条件。根据这一稳定性准则,给出了一类联想神经网络的综合方法。对于一般不稳定网络,提出了网络稳定控制的方法。这种方法也为稳定网络的动态控制和优化提供了一条新途径。Abstract: A new method for analysing dynamics of continuous competitive neuralnetworks has been proposed, and the necessary convergence conditions for a class of associative networks has been obtained. Based on the stability criterion and the equations of equilibrium set of the network, synthesis of a class of associative neural networks has been given. The stability control model of asymmetric unstable networks has been suggested, which is also a valid way for optimization and dynamic control of the stable neural n...
-
1. 引言
人体行为识别是图像处理与视觉分析领域的主要任务和研究方向之一,其目标是从图像或视频中提取人体行为动作特征并分析识别动作类别,具有非常重要的现实意义,广泛应用于虚拟现实、智能视频监控、运动员动作分析和医疗辅助等方面。随着视觉计算和机器学习技术进步,尤其是深度学习飞速发展,为利用图像、视频等传感器设备识别人体行为动作提供更为便利和可能。行为动作识别可分为两类:一类依赖较优异的人工设计传统视觉特征,如密集轨迹特征[1]、多种特征融合的多实例学习[2]、视觉增强单词包法[3]等;后者是借助深度神经网络稳健感知视觉特征,如利用软注意力和长短时记忆LSTM(Long Short-Term Memory)学习法[4]。前者人工设计特征通常是一件非常费时费力的事,不但需要相关领域的专业知识,而且在很大程度上也要依靠经验和运气才能选好。后者需依赖大量标记数据学习但在动作表征能力上更强、更灵活且识别性能较高。深度神经网络从大量数据中监督式学习到表现力更强的高层特征,而这种学习方式符合人类感知世界的机理[5]。
训练样本足够多,基于深度网络和视觉注意机制往往能感知抽象到高层语义特征,且更适合目标和行为的识别。通常,人类认知过程并非将注意平均分散至整个场景,而有意将目光聚集在不同感兴趣位置上准确获取目标信息[6]。于是,文献[7]引入基于视觉注意模型自动学习描述图像内容;可视化展示模型自动学习并修正对显著对象的注视,输出序列生成相应的单词。文献[8]提出允许模型自动或软搜索目标语句并预测目标词语之间相关关系,而不必硬性分割这些词语。文献[9]提出利用递归神经网络模型自适应地选择区域或位置的序列,并仅以图像或视频中高分辨率处理所选择的区域提取信息。针对图像分类和字幕生成的加速训练问题,文献[10]提出开关递归注意力模型,利用训练随机注意网络改进后验推论,以减少随机梯度变异。为了感知场景运动,文献[11]给出一种由粗到细策略的运动光流Lucas-Kanade特征提取方法。为了学习深度网络,文献[12]给出大规模分层图像数据库ImageNet。针对强化基本特征提取模块,文献[13]提出Inception概念下的GoogLeNet网络。文献[14]给出可视化并理解基于长短时记忆LSTM单元的递归神经网络建模序列。为了解决高效图像相似问题,文献[15]给出一种基于高斯分布之间KL散度逼近的测度方法。为了有效避免神经网络过拟合,文献[16]给出一种Dropout方法。针对大规模神经网络优化,文献[17]给出一种有效的随机优化方法Adam。
综上问题,本文提出一种融合空间-时间双网络流感知和视觉注意模型的行为识别法。
2. 人体行为动作识别整体框架
本文提取每一视频帧的显著视觉特征表示人体行为动作,并利用空间-时间双网络流和视觉注意力机制解决行为动作识别,如图1所示。首先,采用GoogLeNet卷积神经网络CNN提取n幅连续原始图像及其相应光流特征图的中层视觉特征立方体描述
X1,X2,···,Xn 和X1′,X2′,···,Xn′ 。然后,根据空间维LSTM网络解码相应光流的X1′,X2′,···,Xn′ 视觉特征立方体,得到空间维注意力强度向量(l1,l2,···,ln )并在K×K 空间感知邻域上点乘原始图像序列的X1,X2,···,Xn 视觉特征立方体,以输出原始序列时间维的相应特征向量(x1,x2,···,xn )。H=(h1,h2,···,hn) 表示空间维LSTM解码输出的隐状态作为空间网络流高层语义描述序列。其次,将输出的特征向量(x1,x2,···,xn )输入时间维LSTM网络,编码时间窗口内隐状态之间相互依赖,输出作为时间网络流高层语义描述的时间维LSTM解码的隐状态序列B=(b1,b2,···,bn) 和视频窗口中每帧标签概率分布(y1,y2,···,yn )。再次,根据得到的B 和H 序列,采用KL散度测定相对熵计算时间维每帧注意力关注置信度,并与空间网络流感知序列标签概率分布矩阵中相应帧的列向量数乘,得到每帧相对视频序列帧动作类别的缩放概率分布,以约束原始图像流中关键帧。最后,利用softmax最大化似然函数分类识别视频中人体行为动作类别。3. 空-时双网络流高层特征感知
3.1 Lucas-Kanade运动光流提取
光流不仅刻画目标运动且蕴含丰富3维结构[11],采用光流特征确定视觉注意的运动选择标准和反映其它丰富视觉信息。设
I0(x) 运动到I1(x+u(x)) 期间亮度不变。采用类似文献[11]的由粗到细多尺度光流估计法和Munsell颜色转换逐帧提取视频中人体运动的光流图像:minu{∫Ω(|∇u1|2+|∇u2|2)dΩ+η∫Ω(I1(x+u(x))−I0(x))2dΩ} (1) 其中,
I0 和I1 是视频中前后两帧的图像对,u(u1(x), u2(x)) 是2维位移场,∇u1 和∇u2 分别为水平和垂直方向上邻域位移变化,η 是平衡参数。第1项正则化惩罚u 中邻域位移变化的突变,以获得平滑的位移场;第2项称为光流约束的数据项。式(1)的目标是找到使基于邻近帧图像之间的误差标准与正则化惩罚均最小化的位移场视差图u 。3.2 GoogLeNet空间维视觉特征
鉴于层数较深的神经网络能学习到较优越的语义特征,但是层数过深易导致欠拟合以及计算资源浪费,受GoogLeNet[13]启发,本文采用基于Inception 结构感知空间视觉特征,以既保持网络结构的稀疏性,又能利用密集矩阵的高性能计算。利用ImageNet数据集[12]预训练并微调得到的GoogLeNet深度卷积神经网络模型,分别逐层卷积给定时间窗口视频中外观图像和相应光流特征作为中间层特征,并自动聚合蕴含边、角和线等底层特征以生成有显著结构的时间流和空间流高层语义特征。类似文献[4],每个时刻t,最后的卷积层具有D个卷积图,大小形状为
K×K×D (本文实验设为7×7×1024)的特征立方体:Xt=[Xt,1,Xt,2,···,Xt,K2],Xt,i∈RD (2) 提取
K2 个D维向量,称特征立方体中的特征切片。K2 大小垂直特征切片每个映射到输入空间中的不同重叠区域,根据空间维视觉注意在K2 垂直特征上选择注意力的集中区域。4. 融合时-空双网络流和视觉注意机制的人体行为识别
4.1 长短时记忆LSTM编码行为
鉴于增加网络层数的递归神经网络通常易导致后面层节点对前面层时间节点的感知能力下降的问题,本文采用长短时记忆LSTM网络[14]建模行为序列。采用存储器单元存储、修改和访问内部状态,能更好地发现较长时间之间的依赖关系:
it=σ(Wxixt+Whiht−1+bi)ft=σ(Wxfxt+Whfht−1+bf)ot=σ(Wxoxt+Whoht−1+bo)gt=σ(Wxcxt+Whcht−1+bc)ct=ft⊗ct−1+it⊗gtht=ot⊗tanh(ct)} (3) 式中,
σ(⋅) 和tanh(⋅) 分别是sigmoid激活函数和双曲正切函数。it ,ft ,ct ,ot 和ht 分别是LSTM单元的输入门、遗忘门、存储单元、输出门以及隐状态。此处xt (参见式(5))表示时间步t处的LSTM网络输入,符号⊗ 表示逐元素依次相乘。为了进一步学习长时间动态变化关系,本文采用多层LSTM网络建模隐状态,如图2所示,其中R为原始视频高层语义特征,F为光流特征高层语义特征,立方体代表LSTM, O代表网络输出;每一LSTM层中输出隐状态作为下一LSTM层的输入,将LSTM层层叠加构成多层LSTM。4.2 空间维确定性软注意力机制
本文采用视觉注意力模型建模学习视频中空间关系上重点关注区域的概率分布。每个时刻t,光流特征感知网络流预测
K×K 空间感知邻域位置上lt+1 在标记类上的softmax概率分布(参见图1),公式定义为lt+1,i=p(Lt+1=i|ht,i)=exp(WTiht,i)K×K∑j=1exp(WTjht,j),t∈1,2,···,n (4) 式中,
Wi 是映射到位置softmax的第i 个元素的权重向量,Lt+1 是区间[1,K2 ]中随机变量。受眼球运动机制[4]和光流特征蕴含3维空间和运动信息启发,利用注意力集中度机制选择原始视频和光流特征序列的中层卷积立方体特征。设
xt 为空间网络流LSTM解码层输出(即时间网络流LSTM输入xt )不是对特征立方体的所有切片取平均值,而是采样位置的切片。鉴于不可微分的硬注意力模型需采取式(4)抽样,本文采用确定性软注意力机制[8]计算关于前一时刻ht−1 在不同感知区域的特征切片期望,作为下一刻t的时间网络流LSTM的输入xt :{{{x}}_t} = {E_{P\left( {{L_{t|{{{{h}}_{t - 1}}}}} \right)}}\left[ {{{{X}}_t}} \right] = \sum\limits_{i = 1}^{K \times K} {{{{l}}_{t,i}}} {{{X}}_{t,i}} (5) 式中,
Xt 是原始视频帧特征立方体,Xt,i 是特征立方体Xt 在时间步t上的第i 个切片,lt,i 表示4.1节输出得到的光流特征学习到的空间位置softmax参数,K2 为立方体切片平面大小。LSTM模型的初始状态c0 和隐含状态h0 ,初始化x1 的第1个空间注意力初始参数l1 :c0=finit,c(1nn∑t=1(1K2K×K∑i=1Xt,i)),h0=finit,h(1nn∑t=1(1K2K×K∑i=1Xt,i)) (6) 式中,
finit,c 和finit,h 是两个多层感知器,n是LSTM模型中的时间步数,即视频段帧数。根据原始视频输入高层特征序列
x1 及其对应标签,利用LSTM递归神经网络解码为对应标签的概率分布,对原始视频序列的LSTM解码层设计与光流特征序列的设计是一致的。保存原始视频每帧图像LSTM解码后最后一层每个单元参数的隐状态序列B 。4.3 时间维相关性注意力机制
鉴于视频常含易混淆帧并导致分类效果欠佳,本文提出时间维注意机制判读每帧相对视频段的相关性,利用光流特征序列基于空间LSTM模型解码到的隐状态参数
ht ,结合原始图像序列基于时间维LSTM模型解码到的隐状态参数bt ,计算时间维注意力关注度权重值[15]:KLt′=12q∑k=1(ht,klght,kbt,k+bt,klgbt,kht,k),t∈1,2,···,n (7) 式中,
t 表示时间帧,n 为视频总长度;h 为隐状态层参数索引,q 为其最大值;bk,t 和hk,t 分别表示原始视频和光流序列的隐状态参数向量。鉴于时间维注意关注度权重系数可趋于正无穷而没有明确上界,本文采用sigmoid函数限制其幅值在[0, 1]区间更新:KLt=sigmoid(−|KLt′|)∑t⊆Tsigmoid(−|KLt′|) (8) 时间流LSTM网络解码后的标签概率分布
P(yt= c) ,与每一帧对应得分系数内积后,利用softmax分类器分类判别得视频窗口对应类别概率分布:P(y′=c)=exp(n∑t=1P(yt=c)KLt)∑c∈Cexp(n∑t=1P(yt=c)KLt),t∈1,2,···,n (9) 式中,
t 代表时间帧,c 表示动作类别,P(y′=c) 为最大概率值对应标签为人体行为动作类别。将视频分成包含固定帧数n的若干小剪辑,每个剪辑根据时空维注意机制判断对应帧在时间和空间上对剪辑片段的重要程度,得若干剪辑判读序列标签值,利用众数原理选择最大可能标签作为序列最终类别。
4.4 注意力惩罚和损失函数优化
受文献[4]和文献[7]启发,本文采用正则化交叉熵损失和时空视觉注意力网络惩罚的优化目标函数,在空间位置和时间关注softmax处施加额外附加约束,使得
∑nt=1lt,i≈1 ,以使模型在某个时刻点关注帧内的每个相应空间区域:L=−n∑t=1C∑c=1yt,clgˆyt,c+λ1n∑t=1‖KLt‖1+λ2K×K∑i=1‖1−n∑t=1lt,i‖2+λ3∑i∑j‖θi,j‖2 (10) 其中,
yt=(yt,1,...,yt,C)T 表示时刻t相应类别标签出现概率的向量,n 和C 分别为时间步和预定类别的总数。如果属于第i 类,则对于j 不等于i ,则yt,c=1 ;否则,yt,c=0 。ˆyt,c 表示t 时刻被预测为第c 类的概率,θi,j 表示设计网络中所有需要学习的参数。λ1 ,λ2 和λ3 分别平衡时间注意力惩罚、空间注意力惩罚以及权重衰减的正则贡献。L1范数为正则控制时间维注意力强度,而非无限增大。第1个L2范数正则鼓励空间维注意力动态分布在时序列中更多的空间位置。第2个L2范数正则抑制网络过度配置。鉴于整体优化相互影响的各网络参数有相当困难,本文采用联合训练策略随机梯度下降法有效训练时空注意力网络和相关LSTM网络。单独预训练空间和时间注意模块,以确保网络融合和参数的收敛。5. 实验结果与分析
5.1 实验方案与参数设置
采用UCF-11数据集定量分析验证Theano深度学习框架下实现的本文方法。数据集由11个类1600个视频组成:basketball, biking, diving, g_swing, ho_riding, s_juggling, swing, t_swing, t_jumping, v_spiking, walking。采用975个剪辑用于训练和625个测试,剪辑的帧率为29.97 fps,每个视频剪辑只关联一个动作,以30 fps帧率分割保存为224×224像素图片集,模型的训练与测试是在NVIDIA TITAN BLACK GPU上,每128批处理一次。LSTM解码器训练5层LSTM模型,LSTM隐藏状态的维数、门的状态、隐藏层大小均设置为512。注意力惩罚系数
λ1=λ3=1 ,权重衰减处罚λ2=10−5 , dropout[16]值设为0.5。采用GoogLeNet模型提取的最后卷积层7×7×1024维数据作为中间层输入特征。5.2 实验结果与分析
(1) 空间维与时间维视觉注意机制的有效性验证:表1给出了本文方法在不同子模块组合下平均准确度和模型测试耗时情况的综合性能比较。由表1可知,仅利用光流特征和传统深度学习CNN+LSTM的“2+3”子模块组合方法的平均准确度最低(仅为72.9%),其原因是所提取光流特征保存为图像的过程除了保留运动以及空间信息外,丢失了很多视频中固有的纹理和色彩等其他有效的视觉判别特征。可见,蕴含运动信息的光流特征只能作为有效的补充手段或者判别依据。相较于不含时间维注意模型的“1+2+3+4”方法和“1+2+3”方法,“1+2+3+5”子模块组合方法的平均准确度更高;由此可知,时间维度注意力选择机制的贡献大于空间维注意力选择机制,引入时间维关键帧选择约束能减少因易混淆动作图像影响视频分类。而本文方法(“1+2+3+4+5”)相较于其他各子模块组合方法的平均准确度更高。由此可见,本文方法有效结合空间维和时间维注意力模型,既可选择视频帧中图片内重点关注的有关目标区域,亦可兼顾选择视频序列中与动作类别紧密关联且重点关注的相应视频帧。其中模型测试用时是将测试集625个视频预处理后于相同环境下在5个不同模型上测试所消耗的时间。
表 1 本文方法在不同子模型组合下平均准确度和模型测试用时性能比较子模型
组合1+3 2+3 1+2+3 1+2+3
+41+2+3
+51+2+3
+4+5平均准确度(%) 76.1 72.9 82.0 83.2 85.5 87.5 测试时间(s) 129 130 130 132 132 133 注:数字含义:1为原始图像,2为光流特征,3为CNN+LSTM模型,4为空间注意力,5为时间注意力 (2) 纵向实验比较和混淆矩阵:表2给出了UCF-11数据集上本文方法与传统方法在平均准确度角度的客观评价对比实验结果。由表2得知,与传统提取整体特征方法的MIL方法[1]和Dense trajectories方法[2]相比,本文方法的平均准确度分别高出了12.3%和3.3%。本文方法明显优越有如下两方面的原因。第一,相对于传统方法未借助其他先验知识提取视觉特征,本文方法利用GoogLeNet深度卷积感知网络从空间视野角度根据大量数据预训练自动学习的有用特征表示,从底层视觉特征逐步卷积聚合到高层视觉语义特征表示,提取鲁棒性和识别度高的特征;其二,本文方法也利用了类似于视点关注度移动的空间维和时间维注意力选择机制,以关注行为动作图像中最具判别性区域和有选择地摒弃无关动作特征,从而提高动作分类的准确度。
与传统Attention+LSTM方法[4]相比较,本文方法平均准确度提高了2.6%。其原因是,文献[4]方法仅从原始视频基于注意力机制和LSTM建模,而本文方法不仅感知原始视频且感知学习其视频内部3维运动信息参数的相应光流特征,同时融合空间-时间网络流拟合注意力选择机制视点的移动;而文献[4]仅仅考虑了空间维注意力选择机制,未充分考虑时间维注意力选择机制的重要性,在最终分类过程中未排除易混淆图像信息,导致分类效果相对欠佳。
为了更好且细粒度地展示本文方法识别性能,图3给出了数据集UCF-11的11类行为动作混淆矩阵。11类人体行为动作中全部正确分类6类,部分错误分类5类。由图3可知,“basketball”, “t_swing”, “v_spiking”, “s_juggling”4种行为最容易判别错误,其主要原因是这4种行为动作均含有类似的手部挥动、复杂的室内室外场景、图像画质模糊等不利因素影响。另外,这4种行为的光流图像3维运动信息极为相似,容易导致注意力选择机制关注不明显;动作本身具有较高程度的相似性,因此存在较高的错误分类现象。
6. 结论
针对利用深度学习识别人体行为通常仅考虑神经网络的设计和规模且未充分考虑类似眼球感知运动的注意力选择机制等问题,本文在结合光流特征捕获场景运动信息基础上,提出在空间维和时间维上利用注意力选择机制约束筛选视频序列中重点关注区域的对象,摒弃视频序列中包含无关信息帧或重点计算视频序列中动作类相关对象,减少运算参数,提高模型鲁棒性。实验结果表明,与其他传统方法相比,本文基于融合双网络流感知和视觉关注度模型框架是一种有效人体行为识别方法,对人体行为识别问题提供一种有价值的解决方案。
-
J. J. Hopfield, Proc. Nail. lead. Sci. USA, 79(1982) 8. 2554-2558.[2]Michacl A. Cohen et al., IEEE Trans. on SMC, SMC-13(1983) 5, 815-826.[3]L. O. Chua et al., IEEE Trans. on CAS, CAS-35(1988) 10, 1257-1276.[4]A. N. Michel et al., IEEE Trans. on CAS, CAS-36(1989) 2, 229-243.[5]李正良,矩阵理论和代数基础,电子科技大学出版社,成都,1989年.[6]曾黄麟,电路与系统学报,2(1990)2,108-113.[7]曾黄麟,连续神经网络协同和自组织理论及综合与应用研究,电子科技大学博士论文,成都,1991年. 期刊类型引用(14)
1. 张锐,龚汉钦,宋瑞源,李亚东,卢智,张东恒,胡洋,陈彦. 基于4D成像雷达的隔墙人体姿态重建与行为识别研究. 雷达学报(中英文). 2025(01): 44-61 . 百度学术
2. 杨小鹏,高炜程,渠晓东. 基于微多普勒角点特征与Non-Local机制的穿墙雷达人体步态异常终止行为辨识技术. 雷达学报. 2024(01): 68-86 . 百度学术
3. 龚树凤,施汉银,闫鑫悦,吴哲夫. 基于度量学习的毫米波雷达少样本人体动作识别. 传感技术学报. 2024(11): 1921-1930 . 百度学术
4. 龚苏明,陈莹. 时空特征金字塔模块下的视频行为识别. 计算机科学与探索. 2022(09): 2061-2067 . 百度学术
5. 冯心欣,李文龙,何兆,郑海峰. 基于调频连续波雷达的多维信息特征融合人体姿势识别方法. 电子与信息学报. 2022(10): 3583-3591 . 本站查看
6. 王粉花,张强,黄超,张苒. 融合双流三维卷积和注意力机制的动态手势识别. 电子与信息学报. 2021(05): 1389-1396 . 本站查看
7. 曹毅,刘晨,盛永健,黄子龙,邓小龙. 基于三维图卷积与注意力增强的行为识别模型. 电子与信息学报. 2021(07): 2071-2078 . 本站查看
8. 杨观赐,李杨,赵乐,刘赛赛,何玲,刘丹. 基于传感器数据的用户行为识别方法综述. 包装工程. 2021(18): 94-102+133+11 . 百度学术
9. 陈晓禾,曹旭刚,陈健生,胡春华,马羽. 基于三维卷积的帕金森患者拖步识别. 电子与信息学报. 2021(12): 3467-3475 . 本站查看
10. 张健,张永辉,何京璇. 基于DenseNet和深度运动图的行为识别算法. 信息技术与网络安全. 2020(01): 63-69 . 百度学术
11. 李新科,刘欣雨,李勇明,曹海林,陈艺航,林宜成,黄新鑫. 基于惯导信息和卷积神经网络的人体活动识别. 生物医学工程学杂志. 2020(04): 596-601 . 百度学术
12. 周云,陈淑荣. 基于双流非局部残差网络的行为识别方法. 计算机应用. 2020(08): 2236-2240 . 百度学术
13. 张燕,王铭玥,王婕,姜恺宁,张筠晗. 基于Xception-LSTM的下肢运动能力评价方法. 中国康复理论与实践. 2020(06): 643-647 . 百度学术
14. 卫星,杨国强,陆阳,魏臻. 基于深度学习的车辆时序动作检测算法. 计算机工程与设计. 2020(12): 3510-3516 . 百度学术
其他类型引用(14)
-
计量
- 文章访问数: 1885
- HTML全文浏览量: 142
- PDF下载量: 494
- 被引次数: 28