-
图 1 总体分类图
Figure 1.
-
图 2 RWTH德国手语数据样例
Figure 2.
-
图 3 CSL中国手语数据样例
Figure 3.
-
图 4 每帧的视觉方式
Figure 4.
-
作者/单位 年份 技术特点 准确率(%) 数据集 样本大小 Tang Ao, Li HouQiang, Huang Jie, Li Xiaoxu, Huang Shiliang/中国科学技术大学 2013 卷积神经网络(基于RGB-D并对手部
进行分割与追踪)[4]98.12 American Sign Language(ASL) 50700帧 2015 3维卷积神经网络(多模态输入)[17] 94.20 Chinese Sign Language(CSL) 25类 2016 循环神经网络(加入轨迹数据)[27] 85.60 500类 2017 长短时记忆网络(加入手型描述符)[28] 86.20 100类 2018 循环神经网络(关键帧视频序列筛选)[29] 91.18 310类 3维卷积网络(基于注意力机制)[18] 88.70 500类 Pigou L/根特大学 2014 卷积神经网络[5] 91.70 Chalearn 20类 2016 3维卷积网络(多模态数据的特征融合)[16] 81.00 2014 Molchanov P,Garcia B,Hardie Cate/斯坦福大学 2015 3维卷积网络(多尺度数据)[15] 77.50 VIVA Dataset 循环神经网络[25] 90.80 南威尔士大学数据集 95类 2016 卷积神经网络[9] 91.63 ASL fingerspelling Kang B /加州大学 2015 卷积神经网络[6] 99.99 ASL fingerspelling 31类 Miao Qiguang /西安电子科技大学 2016 3维卷积神经网络(基于RGB-D)[19] 56.90 Chalearn 2017 (基于显著性特征和RGB-D)[20] 59.43 (基于多模态数据和手部特征增强)[21] 67.71 Koller O/亚琛工业大学 2016 卷积神经网络(关注手型变化)[8] Danish Sign Language 分辨率4730×22 Chai Xiujuan/中科院计算所 2017 改进的RNN(对手部分割定位)[26] 99.00 Chinese Sign Language(CSL) 40类 Yang Su/北京工业大学 2017 RNN和CNN相结合[30] 98.43 CSL 40类 RNN(数据预处理)[31] 99.00 CSL 40类 Hossen M A /特斯瓦拉工程学院 2017 卷积神经网络[7] 100.00 Kinect录制 10类 ElBadawy M /埃及埃因萨姆斯大学 2017 3维卷积网络[22] 98.00 阿拉伯数据集 25类 Kim S /韩国首尔大学 2017 卷积神经网络(帧间采样)[10] 86.00 摄像头采集 20类 2018 卷积神经网络(手部分割)[11] 98.00 12类 Kopuklu O/德国慕尼黑大学 2018 卷积神经网络(时空特征融合)[12] 96.28 Jester Chalearn 57.40 Konstantinidis D /希腊大学 2018 卷积神经网络(RGB和骨架数据)[13] 98.09 阿根廷数据集LSA64 循环神经网络(多模态数据融合)[36] 89.50 印度手语数据集(IIT) Devineau G /巴黎圣米歇尔研究大学 2018 卷积神经网络(骨架数据、加入手部关节点位置序列)[14] 84.35 DHG Dataset 28 类 Ye Yuancheng /纽约城市大学 2018 3维卷积网络(特征融合)[23] 69.20 American Sign Language 27类 Liang Zhijie /华中师范大学 2018 3维卷积网络(骨架、轮廓、深度数据)[24] 83.60 Chalearn Lin Chi/中国科学院自动化所 2018 带有掩膜的ResC3D网络与RNN相结合[32] 68.42 Chalearn Halim K /印尼大学 2018 循环神经网络(基于SIBI词性变化手势的特征集)[33] 96.15 印尼手语数据集 Masood S /新德里大学 2018 循环神经网络和卷积神经网络相结合[34] 95.20 阿根廷数据集LSA64 46类 Bantupalli K /美国肯尼索州立大学 2018 循环神经网络和卷积神经网络相结合[35] 93.00 American Sign Language(ASL) 100类 Hernandez V /东京农业大学 2019 卷积神经网络与长短时记忆网络相结合[37] 89.30 American Sign Language(ASL) 19类 Liao YanQiu/南昌大学 2019 循环神经网络和3维卷积网络相结合[38] 86.90 Chinese Sign Language(CSL) 500类 表 1 基于深度学习的孤立词手语识别技术及代表性工作
-
作者/单位 年份 技术特点 评估标准(%) 数据集 样本大小 Camgoz NC, Koller O/亚琛工业大学 2016 3维卷积网络(从RGB数据提取时序特征)[45] Jaccard系数:26.9 Chalearn 2016 基于卷积神经网络和HMM的混合模型[49] WER:39.7 RWTH-PHOENX-Weather 2017 基于CNN、HMM、CTC[50] WER:38.8 2017 双向长短时网络-BLSTM(基于CTC算法)[39] WER:43.1 分辨率:5000×90 2018 基于CNN、HMM及RNN的混合模型[51] Pigou L /根特大学 2017 基于3维网络和LSTM混合模型(RGB-D)[52] Jaccard系数:31.6 Chalearn Cui Runpeng/清华大学 2017 基于CNN和BLSTM(基于CTC算法)[53] WER:38.7 RWTHPHOENIX-Weather 分辨率:16000×20 2018 双向长短时网络-BLSTM(多模态数据)[40] WER:46.9 Shi B /美国芝加哥大学 2018 基于注意力机制的长短时网络[41] WER:41.9 AmericanSign Language (ASL) Ko S K /韩国电子研究所 2018 循环神经网络(加入骨架关节点数据)[42] Acc:89.5 KETI韩国手语数据集 100类 Zhang Qian/上海交通大学 2018 双向长短时网络-BLSTM[43] Acc:93.1 AmericanSign Language(ASL) 100类 Li Houqiang, Huang Jie /中国科学技术大学 2018 3维卷积网络(时间分类的对齐算法)[46] WER:37.3 RWTH-PHOENIX-Weather 双流3维卷积网络(加入LSTM)[47] Acc:82.7 ChineseSign Language 100类 Guo Dan/合肥工业大学,中国科学技术大学 2018 3维卷积神经网络(时域卷积、CTC算法、后融合策略)[48] WER:37.8 RWTH-PHOENIX-Weather 3维卷积网络和RNN相结合(自适应变长在线关键片段挖掘关键帧)[55] Acc:92.9 ChineseSign Language(CSL) 100类 Ariesta M C /雅加达大学 2018 3维卷积网络和RNN相结合(基于CTC)[54] SIBI 30类 Mittal A /印尼科技大学 2019 改进的长短时记忆网络[44] Acc:72.3 印度手语数据集(ISL) 942类 表 2 基于深度学习的连续语句的手语识别技术及代表性工作
-
名称 所属国家 类别 场景 样本 数据特点 数据类型 可用性 RWTH-PHOENIX-Weather[56] 德国 1200 9 45760 RGB 句子 公开 Chalearn[57] 美国 249 7 50000 RGB/深度 单词 部分公开 DGS Kinect 40[58] 德国 40 15 3000 多视角 孤立词 CSL[47] 中国 500/100 1 25000 深度/骨架/RGB 孤立词/句子 公开 SIGNUM[59] 德国 450 25 33210 RGB 句子 公开 GSL 20[60] 希腊 20 6 840 RGB 单词 Boston ASLLVD[61] 美国 3300+ 6 9800 RGB 单词 公开 PSL Kinect 30[62] 波兰 30 1 300 RGB/深度 单词 公开 LSA64[63] 阿根廷 64 10 3200 RGB 单词 公开 DEVISIGN-G[64] 中国 36 8 432 RGB 单词 DEVISIGN-D[64] 500 6000 DEVISIGN-L[64] 2000 24000 CUNY ASL[65] 美国 8 RGB 句子 SignsWorld Atlas[66] 阿拉伯 32 10 RGB 单词 公开 ASL Fingerspelling[67] 美国 24 5 131000 RGB/深度 单词 公开 表 3 手语数据集分类
-
参数 2012年版 2014年版 # 操作者数量 7 9 # 样例 190 645 # 帧数 293077 965940 # 语句数量 1980 6861 # 词汇量 911 1558 # 分辨率 210×260 720×576 表 4 RWTH-PHOENIX-Weather参数
-
参数名称 数值 RGB分辨率 1920×1080 深度数据分辨率 512×424 视频时长(s) 10~14 平均样例数 7 总样例 25000 # 操作者数量 50 词汇量 178 骨架关节点数 21 fps 25 总时长 100+ 表 5 CSL数据集参数
图共
4 个 表共
5 个