张淑军 张群 李辉

张淑军, 张群, 李辉. 基于深度学习的手语识别综述[J]. 电子与信息学报, 2020, 42(4): 1021-1032. doi: 10.11999/JEIT190416
基金项目: 国家自然科学基金(61702295, 61672305),山东省重点研发计划项目(2017GGX10127)





    张淑军 lindazsj@163.com

  • 中图分类号: TP391

Review of Sign Language Recognition Based on Deep Learning

Funds: The National Natural Science Foundation of China (61702295, 61672305), The Key Research & Development Plan Project of Shandong Province (2017GGX10127)
  • 摘要:

    手语识别涉及计算机视觉、模式识别、人机交互等领域,具有重要的研究意义与应用价值。深度学习技术的蓬勃发展为更加精准、实时的手语识别带来了新的机遇。该文综述了近年来基于深度学习的手语识别技术,从孤立词与连续语句两个分支展开详细的算法阐述与分析。孤立词识别技术划分为基于卷积神经网络(CNN)、3维卷积神经网络(3D-CNN)和循环神经网络(RNN) 3种架构的方法;连续语句识别所用模型复杂度更高,通常需要辅助某种长时时序建模算法,按其主体结构分为双向长短时记忆网络模型、3维卷积网络模型和混合模型。归纳总结了目前国内外常用手语数据集,探讨了手语识别技术的研究挑战与发展趋势,高精度前提下的鲁棒性和实用化仍有待于推进。

  • 图  1  总体分类图

    图  2  RWTH德国手语数据样例

    图  3  CSL中国手语数据样例

    图  4  每帧的视觉方式

    表  1  基于深度学习的孤立词手语识别技术及代表性工作

    Tang Ao, Li HouQiang, Huang Jie, Li Xiaoxu, Huang Shiliang/中国科学技术大学2013卷积神经网络(基于RGB-D并对手部
    98.12American Sign Language(ASL)50700帧
    20153维卷积神经网络(多模态输入)[17]94.20Chinese Sign Language(CSL)25类
    Pigou L/根特大学2014卷积神经网络[5]91.70Chalearn20类
    Molchanov P,Garcia B,Hardie Cate/斯坦福大学20153维卷积网络(多尺度数据)[15]77.50VIVA Dataset
    2016卷积神经网络[9]91.63ASL fingerspelling
    Kang B /加州大学2015卷积神经网络[6]99.99ASL fingerspelling31类
    Miao Qiguang /西安电子科技大学20163维卷积神经网络(基于RGB-D)[19]56.90Chalearn
    Koller O/亚琛工业大学2016卷积神经网络(关注手型变化)[8]Danish Sign Language分辨率4730×22
    Chai Xiujuan/中科院计算所2017改进的RNN(对手部分割定位)[26]99.00Chinese Sign Language(CSL)40类
    Yang Su/北京工业大学2017RNN和CNN相结合[30]98.43CSL40类
    Hossen M A /特斯瓦拉工程学院2017卷积神经网络[7]100.00Kinect录制10类
    ElBadawy M /埃及埃因萨姆斯大学20173维卷积网络[22]98.00阿拉伯数据集25类
    Kim S /韩国首尔大学2017卷积神经网络(帧间采样)[10]86.00摄像头采集20类
    Kopuklu O/德国慕尼黑大学2018卷积神经网络(时空特征融合)[12]96.28Jester Chalearn
    Konstantinidis D /希腊大学2018卷积神经网络(RGB和骨架数据)[13]98.09阿根廷数据集LSA64
    Devineau G /巴黎圣米歇尔研究大学2018卷积神经网络(骨架数据、加入手部关节点位置序列)[14]84.35DHG Dataset28 类
    Ye Yuancheng /纽约城市大学20183维卷积网络(特征融合)[23]69.20American Sign Language27类
    Liang Zhijie /华中师范大学20183维卷积网络(骨架、轮廓、深度数据)[24]83.60Chalearn
    Lin Chi/中国科学院自动化所2018带有掩膜的ResC3D网络与RNN相结合[32]68.42Chalearn
    Halim K /印尼大学2018循环神经网络(基于SIBI词性变化手势的特征集)[33]96.15印尼手语数据集
    Masood S /新德里大学2018循环神经网络和卷积神经网络相结合[34]95.20阿根廷数据集LSA6446类
    Bantupalli K /美国肯尼索州立大学2018循环神经网络和卷积神经网络相结合[35]93.00American Sign Language(ASL)100类
    Hernandez V /东京农业大学2019卷积神经网络与长短时记忆网络相结合[37]89.30American Sign Language(ASL)19类
    Liao YanQiu/南昌大学2019循环神经网络和3维卷积网络相结合[38]86.90Chinese Sign Language(CSL)500类
    表  2  基于深度学习的连续语句的手语识别技术及代表性工作

    Camgoz NC, Koller O/亚琛工业大学20163维卷积网络(从RGB数据提取时序特征)[45]Jaccard系数:26.9Chalearn
    Pigou L /根特大学2017基于3维网络和LSTM混合模型(RGB-D)[52]Jaccard系数:31.6Chalearn
    Cui Runpeng/清华大学2017基于CNN和BLSTM(基于CTC算法)[53]WER:38.7RWTHPHOENIX-Weather分辨率:16000×20
    Shi B /美国芝加哥大学2018基于注意力机制的长短时网络[41]WER:41.9AmericanSign Language (ASL)
    Ko S K /韩国电子研究所2018循环神经网络(加入骨架关节点数据)[42]Acc:89.5KETI韩国手语数据集100类
    Zhang Qian/上海交通大学2018双向长短时网络-BLSTM[43]Acc:93.1AmericanSign Language(ASL)100类
    Li Houqiang, Huang Jie /中国科学技术大学20183维卷积网络(时间分类的对齐算法)[46]WER:37.3RWTH-PHOENIX-Weather
    双流3维卷积网络(加入LSTM)[47]Acc:82.7ChineseSign Language100类
    Guo Dan/合肥工业大学,中国科学技术大学20183维卷积神经网络(时域卷积、CTC算法、后融合策略)[48]WER:37.8RWTH-PHOENIX-Weather
    3维卷积网络和RNN相结合(自适应变长在线关键片段挖掘关键帧)[55]Acc:92.9ChineseSign Language(CSL)100类
    Ariesta M C /雅加达大学20183维卷积网络和RNN相结合(基于CTC)[54]SIBI30类
    Mittal A /印尼科技大学2019改进的长短时记忆网络[44]Acc:72.3印度手语数据集(ISL)942类
    表  3  手语数据集分类

    DGS Kinect 40[58]德国40153000多视角孤立词
    GSL 20[60]希腊206840RGB单词
    Boston ASLLVD[61]美国3300+69800RGB单词公开
    PSL Kinect 30[62]波兰301300RGB/深度单词公开
    CUNY ASL[65]美国8RGB句子
    SignsWorld Atlas[66]阿拉伯3210RGB单词公开
    ASL Fingerspelling[67]美国245131000RGB/深度单词公开
    表  4  RWTH-PHOENIX-Weather参数

    # 操作者数量 7 9
    # 样例 190 645
    # 帧数 293077 965940
    # 语句数量 1980 6861
    # 词汇量 911 1558
    # 分辨率 210×260 720×576
    表  5  CSL数据集参数

    # 操作者数量50
