高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

融合空间-时间双网络流和视觉注意的人体行为识别

刘天亮 谯庆伟 万俊伟 戴修斌 罗杰波

刘天亮, 谯庆伟, 万俊伟, 戴修斌, 罗杰波. 融合空间-时间双网络流和视觉注意的人体行为识别[J]. 电子与信息学报, 2018, 40(10): 2395-2401. doi: 10.11999/JEIT171116
引用本文: 刘天亮, 谯庆伟, 万俊伟, 戴修斌, 罗杰波. 融合空间-时间双网络流和视觉注意的人体行为识别[J]. 电子与信息学报, 2018, 40(10): 2395-2401. doi: 10.11999/JEIT171116
Tianliang LIU, Qingwei QIAO, Junwei WAN, Xiubin DAI, Jiebo LUO. Human Action Recognition via Spatio-temporal Dual Network Flow and Visual Attention Fusion[J]. Journal of Electronics & Information Technology, 2018, 40(10): 2395-2401. doi: 10.11999/JEIT171116
Citation: Tianliang LIU, Qingwei QIAO, Junwei WAN, Xiubin DAI, Jiebo LUO. Human Action Recognition via Spatio-temporal Dual Network Flow and Visual Attention Fusion[J]. Journal of Electronics & Information Technology, 2018, 40(10): 2395-2401. doi: 10.11999/JEIT171116

融合空间-时间双网络流和视觉注意的人体行为识别

doi: 10.11999/JEIT171116
基金项目: 国家自然科学基金(61001152, 31200747, 61071091, 61071166, 61172118),江苏省自然科学基金(BK2012437),南京邮电大学校级科研基金(NY214037),国家留学基金
详细信息
    作者简介:

    刘天亮:1980年生,男,博士,副教授,硕士生导师,研究方向为图像处理、计算机视觉

    谯庆伟:1989年生,男,硕士生,研究方向为图像处理与多媒体通信

    万俊伟:1993年生,男,硕士生,研究方向为图像处理与多媒体通信

    戴修斌:1980年生,男,博士,副教授,硕士生导师,研究方向为医学图像重建、图像处理和模式识别

    罗杰波:1968年生,博士,教授,博士生导师,研究方向为图像处理、计算机视觉、机器学习、数据挖掘和社交网络媒体等

    通讯作者:

    刘天亮  liutl@njupt.edu.cn

  • 中图分类号: TP391.41

Human Action Recognition via Spatio-temporal Dual Network Flow and Visual Attention Fusion

Funds: The National Natural Science Foundation of China (61001152, 31200747, 61071091, 61071166, 61172118), The Natural Science Foundation of Jiangsu Provice of China (BK2012437), The Natural Science Foundation of NJUPT (NY214037), China Scholarship Council
  • 摘要: 该文受人脑视觉感知机理启发,在深度学习框架下提出融合时空双网络流和视觉注意的行为识别方法。首先,采用由粗到细Lucas-Kanade估计法逐帧提取视频中人体运动的光流特征。然后,利用预训练模型微调的GoogLeNet神经网络分别逐层卷积并聚合给定时间窗口视频中外观图像和相应光流特征。接着,利用长短时记忆多层递归网络交叉感知即得含高层显著结构的时空流语义特征序列;解码时间窗口内互相依赖的隐状态;输出空间流视觉特征描述和视频窗口中每帧标签概率分布。其次,利用相对熵计算时间维每帧注意力置信度,并融合空间网络流感知序列标签概率分布。最后,利用softmax分类视频中行为类别。实验结果表明,与其他现有方法相比,该文行为识别方法在分类准确度上具有显著优势。
  • 图  1  本文行为识别流程图

    图  2  空间-时间双网络流多层LSTM网络示意图

    图  3  UCF-11数据集上11类行为动作分类识别实验的混淆矩阵

    表  1  本文方法在不同子模型组合下平均准确度和模型测试用时性能比较

    子模型
    组合
    1+3 2+3 1+2+3 1+2+3
    +4
    1+2+3
    +5
    1+2+3
    +4+5
    平均准确度(%) 76.1 72.9 82.0 83.2 85.5 87.5
    测试时间(s) 129 130 130 132 132 133
    注:数字含义:1为原始图像,2为光流特征,3为CNN+LSTM模型,4为空间注意力,5为时间注意力
    下载: 导出CSV

    表  2  本文方法与其他传统方法在UCF-11数据集下实验结果比较

    模型方法 数据模式 平均准确度(%)
    MIL方法[1] 多种特征融合 75.2
    Dense trajectories方法[2] 密度轨迹特征 84.2
    Attention+LSTM方法[4] 外观图像 84.9
    本文方法 外观图像+光流特征 87.5
    下载: 导出CSV
  • IKIZLER-CINBIS N and SCLAROFF S, Object, scene and actions: Combining multiple features for human action recognition[C]. European Conference on Computer Vision, Heraklion, Crete, Greece, 2010, 6311: 494–507.
    WANG Heng, KLASER A, and SCHMID C. Action recognition by dense trajectories[C]. IEEE Conference on Computer Vision and Pattern Recognition, Providence, USA, 2011: 3169–3176.
    张良, 鲁梦梦, 姜华. 局部分布信息增强的视觉单词描述与动作识别[J]. 电子与信息学报, 2016, 38(3): 549–556 doi: 10.11999/JEIT150410

    ZHANG Liang, LU Mengmeng, and JIANG Hua. An improved scheme of visual words description and action recognition using local enhanced distribution information[J]. Journal of Electronics&Information Technology, 2016, 38(3): 549–556 doi: 10.11999/JEIT150410
    SHARMA S, KIROS R and SALAKHUTDINOV R. Action recognition using visual attention[C]. International Conference on Neural Information Processing Systems Times Series Workshop, Montreal, Canada, 2015: 1–11.
    SCHMIDHUBER J. Deep learning in neural networks: An overview[J]. Neural Networks, 2015, 61: 85–1117 doi: 10.1016/j.neunet.2014.09.003
    RENSINK R A. The dynamic representation of scenes[J]. Visual Cognition, 2000, 1(1/3): 17–42.
    XU Kelvin, BA Jimmy, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]. Proceedings of the 32nd International Conference on Machine Learning, Lille, France, 2015, 14: 77–81.
    BAHDANAU D, CHO K, and BENGIO Y. Neural machine translation by jointly learning to align and translate[C]. International Conference on Learning Representation, San Diego, USA, 2015: 1–15.
    MNIH V, HEESS N, GRAVES A, et al. Recurrent models of visual attention[C]. Proceedings of the 27th International Conference on Neural Information Processing Systems, Montreal, Canada, 2014: 2204–2212.
    BA Jimmy Lei, GROSSE R, SALAKHUTDINOV R, et al. Learning wake-sleep recurrent attention models[C]. International Conference on Neural Information Processing Systems, Montreal, Canada, 2015: 2593–2601.
    AND J S P. Horn-Schunck optical flow with a multi-scale strategy[J]. Image Processing on Line, 2013, 20: 151–172 doi: 10.5201/ipol.2013.20
    RUSSAKOVSKY O, DENG Jia, SU Hao, et al. ImageNet: Large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211–252.
    SZEGEDY Christian, LIU Wei, JIA Yangqing, et al. Going deeper with convolutions[C]. IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, 2015: 1–9.
    ANDREJ K, JUSTIN J, and LI Feifei. Visualizing and understanding recurrent networks[C]. International Conference on Learning Representation Workshop, Caribe Hilton, USA, 2016: 1–11.
    GOLDBERGER J, GORDON S, and GREENSPAN H. An efficient image similarity measure based on approximations of KL-divergence between two gaussian mixtures[C]. IEEE International Conference on Computer Vision, Nice, France, 2003: 487–493.
    SRIVASTAVA N, HINTON G E, KRIZHEVSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15: 1929–1958.
    KINGMA D P and BA J. Adam: A method for stochastic optimization[C]. International Conference on Learning Representation, San Diego, USA, 2015: 1–15.
  • 加载中
图(3) / 表(2)
计量
  • 文章访问数:  2225
  • HTML全文浏览量:  912
  • PDF下载量:  96
  • 被引次数: 0
出版历程
  • 收稿日期:  2017-11-27
  • 修回日期:  2018-07-26
  • 网络出版日期:  2018-08-02
  • 刊出日期:  2018-10-01

目录

    /

    返回文章
    返回