摘要:
近年来,最先进的说话人确认模型大多数以牺牲参数量和计算量的代价来实现感受野的固定获取,鉴于语音信号内部蕴含着丰富且多层次的信息,然而通过高度自主选择的动态感受野来描绘复杂信息是相对未被探索的,更没有直观的解释是什么构成了关于有效感受野的最佳实践。潮涌现象表现为潮水前端形成陡立水墙并伴随轰鸣声高速推进,受其非线性耦合行为的启发,提出潮涌卷积(TR-Conv)“使用潮涌感受野(T-RRF),获得更有效感受野”。首先采用二幂插值操作构建窗口内的主/从感受野,随后分别采用扫描-池化机制聚焦提取窗口外的关键信息、算子机制精细感知窗口内的差异信息,最后融合三重感受野,得到兼具多尺度、动态性、有效性的可变感受野。为全面验证潮涌卷积的表现,建立潮涌卷积神经网络(TR-CNN)。另外,针对数据集的错误标签问题,提出动态归一化的非目标(NTDN)损失与具有两个子中心的加性角边距(Sub-Center AAM)损失变体加权融合的总损失,以提升模型性能。实验结果表明,与ECAPA-TDNN(C=512)相比,TR-CNN(C=512, n=1)分别在测试集Vox1-O、Vox1-E、Vox1-H上的等错误率(EER)和最小检测代价函数(MinDCF)相对降低了4.95%、31.55%,4.03%、17.14%和6.03%、17.42%,参数量和乘加累积操作次数相对减少了32.7%、23.5%。进一步,TR-CNN(C=1024, n=1)的EER/MinDCF分别是0.85%、0.0762,1.10%、0.1048,2.05%、0.1739。本研究代码已开源:https://github.com/splab-HRBUST/TR-CNN。