图共 4个 表共 5
    • 图  1  总体分类图

      Figure 1. 

    • 图  2  RWTH德国手语数据样例

      Figure 2. 

    • 图  3  CSL中国手语数据样例

      Figure 3. 

    • 图  4  每帧的视觉方式

      Figure 4. 

    • 作者/单位年份技术特点准确率(%)数据集样本大小
      Tang Ao, Li HouQiang, Huang Jie, Li Xiaoxu, Huang Shiliang/中国科学技术大学2013卷积神经网络(基于RGB-D并对手部
      进行分割与追踪)[4]
      98.12American Sign Language(ASL)50700帧
      20153维卷积神经网络(多模态输入)[17]94.20Chinese Sign Language(CSL)25类
      2016循环神经网络(加入轨迹数据)[27]85.60500类
      2017长短时记忆网络(加入手型描述符)[28]86.20100类
      2018循环神经网络(关键帧视频序列筛选)[29]91.18310类
      3维卷积网络(基于注意力机制)[18]88.70500类
      Pigou L/根特大学2014卷积神经网络[5]91.70Chalearn20类
      20163维卷积网络(多模态数据的特征融合)[16]81.002014
      Molchanov P,Garcia B,Hardie Cate/斯坦福大学20153维卷积网络(多尺度数据)[15]77.50VIVA Dataset
      循环神经网络[25]90.80南威尔士大学数据集95类
      2016卷积神经网络[9]91.63ASL fingerspelling
      Kang B /加州大学2015卷积神经网络[6]99.99ASL fingerspelling31类
      Miao Qiguang /西安电子科技大学20163维卷积神经网络(基于RGB-D)[19]56.90Chalearn
      2017(基于显著性特征和RGB-D)[20]59.43
      (基于多模态数据和手部特征增强)[21]67.71
      Koller O/亚琛工业大学2016卷积神经网络(关注手型变化)[8]Danish Sign Language分辨率4730×22
      Chai Xiujuan/中科院计算所2017改进的RNN(对手部分割定位)[26]99.00Chinese Sign Language(CSL)40类
      Yang Su/北京工业大学2017RNN和CNN相结合[30]98.43CSL40类
      RNN(数据预处理)[31]99.00CSL40类
      Hossen M A /特斯瓦拉工程学院2017卷积神经网络[7]100.00Kinect录制10类
      ElBadawy M /埃及埃因萨姆斯大学20173维卷积网络[22]98.00阿拉伯数据集25类
      Kim S /韩国首尔大学2017卷积神经网络(帧间采样)[10]86.00摄像头采集20类
      2018卷积神经网络(手部分割)[11]98.0012类
      Kopuklu O/德国慕尼黑大学2018卷积神经网络(时空特征融合)[12]96.28Jester Chalearn
      57.40
      Konstantinidis D /希腊大学2018卷积神经网络(RGB和骨架数据)[13]98.09阿根廷数据集LSA64
      循环神经网络(多模态数据融合)[36]89.50印度手语数据集(IIT)
      Devineau G /巴黎圣米歇尔研究大学2018卷积神经网络(骨架数据、加入手部关节点位置序列)[14]84.35DHG Dataset28 类
      Ye Yuancheng /纽约城市大学20183维卷积网络(特征融合)[23]69.20American Sign Language27类
      Liang Zhijie /华中师范大学20183维卷积网络(骨架、轮廓、深度数据)[24]83.60Chalearn
      Lin Chi/中国科学院自动化所2018带有掩膜的ResC3D网络与RNN相结合[32]68.42Chalearn
      Halim K /印尼大学2018循环神经网络(基于SIBI词性变化手势的特征集)[33]96.15印尼手语数据集
      Masood S /新德里大学2018循环神经网络和卷积神经网络相结合[34]95.20阿根廷数据集LSA6446类
      Bantupalli K /美国肯尼索州立大学2018循环神经网络和卷积神经网络相结合[35]93.00American Sign Language(ASL)100类
      Hernandez V /东京农业大学2019卷积神经网络与长短时记忆网络相结合[37]89.30American Sign Language(ASL)19类
      Liao YanQiu/南昌大学2019循环神经网络和3维卷积网络相结合[38]86.90Chinese Sign Language(CSL)500类

      表 1  基于深度学习的孤立词手语识别技术及代表性工作

    • 作者/单位年份技术特点评估标准(%)数据集样本大小
      Camgoz NC, Koller O/亚琛工业大学20163维卷积网络(从RGB数据提取时序特征)[45]Jaccard系数:26.9Chalearn
      2016基于卷积神经网络和HMM的混合模型[49]WER:39.7RWTH-PHOENX-Weather
      2017基于CNN、HMM、CTC[50]WER:38.8
      2017双向长短时网络-BLSTM(基于CTC算法)[39]WER:43.1分辨率:5000×90
      2018基于CNN、HMM及RNN的混合模型[51]
      Pigou L /根特大学2017基于3维网络和LSTM混合模型(RGB-D)[52]Jaccard系数:31.6Chalearn
      Cui Runpeng/清华大学2017基于CNN和BLSTM(基于CTC算法)[53]WER:38.7RWTHPHOENIX-Weather分辨率:16000×20
      2018双向长短时网络-BLSTM(多模态数据)[40]WER:46.9
      Shi B /美国芝加哥大学2018基于注意力机制的长短时网络[41]WER:41.9AmericanSign Language (ASL)
      Ko S K /韩国电子研究所2018循环神经网络(加入骨架关节点数据)[42]Acc:89.5KETI韩国手语数据集100类
      Zhang Qian/上海交通大学2018双向长短时网络-BLSTM[43]Acc:93.1AmericanSign Language(ASL)100类
      Li Houqiang, Huang Jie /中国科学技术大学20183维卷积网络(时间分类的对齐算法)[46]WER:37.3RWTH-PHOENIX-Weather
      双流3维卷积网络(加入LSTM)[47]Acc:82.7ChineseSign Language100类
      Guo Dan/合肥工业大学,中国科学技术大学20183维卷积神经网络(时域卷积、CTC算法、后融合策略)[48]WER:37.8RWTH-PHOENIX-Weather
      3维卷积网络和RNN相结合(自适应变长在线关键片段挖掘关键帧)[55]Acc:92.9ChineseSign Language(CSL)100类
      Ariesta M C /雅加达大学20183维卷积网络和RNN相结合(基于CTC)[54]SIBI30类
      Mittal A /印尼科技大学2019改进的长短时记忆网络[44]Acc:72.3印度手语数据集(ISL)942类

      表 2  基于深度学习的连续语句的手语识别技术及代表性工作

    • 名称所属国家类别场景样本数据特点数据类型可用性
      RWTH-PHOENIX-Weather[56]德国1200945760RGB句子公开
      Chalearn[57]美国249750000RGB/深度单词部分公开
      DGS Kinect 40[58]德国40153000多视角孤立词
      CSL[47]中国500/100125000深度/骨架/RGB孤立词/句子公开
      SIGNUM[59]德国4502533210RGB句子公开
      GSL 20[60]希腊206840RGB单词
      Boston ASLLVD[61]美国3300+69800RGB单词公开
      PSL Kinect 30[62]波兰301300RGB/深度单词公开
      LSA64[63]阿根廷64103200RGB单词公开
      DEVISIGN-G[64]中国368432RGB单词
      DEVISIGN-D[64]5006000
      DEVISIGN-L[64]200024000
      CUNY ASL[65]美国8RGB句子
      SignsWorld Atlas[66]阿拉伯3210RGB单词公开
      ASL Fingerspelling[67]美国245131000RGB/深度单词公开

      表 3  手语数据集分类

    • 参数2012年版2014年版
      # 操作者数量 7 9
      # 样例 190 645
      # 帧数 293077 965940
      # 语句数量 1980 6861
      # 词汇量 911 1558
      # 分辨率 210×260 720×576

      表 4  RWTH-PHOENIX-Weather参数

    • 参数名称数值
      RGB分辨率1920×1080
      深度数据分辨率512×424
      视频时长(s)10~14
      平均样例数7
      总样例25000
      # 操作者数量50
      词汇量178
      骨架关节点数21
      fps25
      总时长100+

      表 5  CSL数据集参数