吴培良 杨霄 毛秉毅 孔令富 侯增广

吴培良, 杨霄, 毛秉毅, 孔令富, 侯增广. 一种视角无关的时空关联深度视频行为识别方法[J]. 电子与信息学报, 2019, 41(4): 904-910. doi: 10.11999/JEIT180477
Peiliang WU, Xiao YANG, Bingyi MAO, Lingfu KONG, Zengguang HOU. A Perspective-independent Method for Behavior Recognition in Depth Video via Temporal-spatial Correlating[J]. Journal of Electronics & Information Technology, 2019, 41(4): 904-910. doi: 10.11999/JEIT180477
基金项目: 国家自然科学基金(61305113),河北省自然科学基金(F2016203358),中国博士后基金(2018M631620),燕山大学博士基金(BL18007)







    毛秉毅 ysdxmby@163.com

  • 中图分类号: TP242.6+2

A Perspective-independent Method for Behavior Recognition in Depth Video via Temporal-spatial Correlating

Funds: The National Natural Science Foundation of China (61305113), The Natural Science Foundation of Hebei Province (F2016203358), China Postdoctoral Science Foundation (2018M631620), The Doctoral Fund of Yanshan University (BL18007)
  • 摘要:

    当前行为识别方法在不同视角下的识别准确率较低,该文提出一种视角无关的时空关联深度视频行为识别方法。首先,运用深度卷积神经网络的全连接层将不同视角下的人体姿态映射到与视角无关的高维空间,以构建空间域下深度行为视频的人体姿态模型(HPM);其次,考虑视频序列帧之间的时空相关性,在每个神经元激活的时间序列中分段应用时间等级池化(RP)函数,实现对视频时间子序列的编码;然后,将傅里叶时间金字塔(FTP)算法作用于每一个池化后的时间序列,并加以连接产生最终的时空特征表示;最后,在不同数据集上,基于不同方法进行了行为识别分类测试。实验结果表明,该文方法(HPM+RP+FTP)提高了不同视角下深度视频识别准确率,在UWA3DII数据集中,比现有最好方法高出18%。此外,该文方法具有较好的泛化性能,在MSR Daily Activity3D数据集上得到82.5%的准确率。

  • 图  1  整体模型框架

    图  2  本文采用的CNN模型结构

    图  3  比较2种方法对于特点动作的识别准确率

    图  4  MSR Daily Activity3D数据集16种动作的混淆矩阵

    表  1  UWA3D Multiview ActivityII数据集的动作识别准确性(%)

    HPM(fc7)+FTP80.680.575.282.0 65.4 72.077.367.083.6 81.083.674.176.9
    HPM(fc6)+RP+FTP83.981.3 74.8 78.8 70.0 83.379.1 85.9 75.9 77.8
    HPM(fc7)+RP+FTP85.8 81.6 76.3 80.561.776.5 78.1 71.5 82.981.7 85.9 76.3 78.3
    注:V1, V2, V3, V4分别表示正面视角、左侧视角、右侧视角、顶部视角
    表  2  几种方法对MSR Daily Activity3D的准确率(%)

