高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于判别邻域嵌入算法的说话人识别

梁春燕 袁文浩 李艳玲 夏斌 孙文珠

梁春燕, 袁文浩, 李艳玲, 夏斌, 孙文珠. 基于判别邻域嵌入算法的说话人识别[J]. 电子与信息学报, 2019, 41(7): 1774-1778. doi: 10.11999/JEIT180761
引用本文: 梁春燕, 袁文浩, 李艳玲, 夏斌, 孙文珠. 基于判别邻域嵌入算法的说话人识别[J]. 电子与信息学报, 2019, 41(7): 1774-1778. doi: 10.11999/JEIT180761
Chunyan LIANG, Wenhao YUAN, Yanling LI, Bin XIA, Wenzhu SUN. Speaker Recognition Using Discriminant Neighborhood Embedding[J]. Journal of Electronics & Information Technology, 2019, 41(7): 1774-1778. doi: 10.11999/JEIT180761
Citation: Chunyan LIANG, Wenhao YUAN, Yanling LI, Bin XIA, Wenzhu SUN. Speaker Recognition Using Discriminant Neighborhood Embedding[J]. Journal of Electronics & Information Technology, 2019, 41(7): 1774-1778. doi: 10.11999/JEIT180761

基于判别邻域嵌入算法的说话人识别

doi: 10.11999/JEIT180761
基金项目: 国家自然科学基金(11704229, 61701286, 61562068),山东省自然科学基金(ZR2017LA011, ZR2015FL003, ZR2017MF047),山东省高等学校科技计划项目(J17KA078),内蒙古自然科学基金项目(2015MS0629)
详细信息
    作者简介:

    梁春燕:女,1986年生,讲师,研究方向为说话人识别、语种识别

    袁文浩:男,1985年生,讲师,研究方向为语音信号处理、语音增强

    李艳玲:女,1978年生,副教授,研究方向为自然语言处理、口语理解、机器学习

    夏斌:男,1973年生,副教授,研究方向为深度学习、信号与信息处理

    孙文珠:男,1983年生,讲师,研究方向为多媒体信号传输

    通讯作者:

    梁春燕 liangchunyan@sdut.edu.cn

  • 中图分类号: TP391.42

Speaker Recognition Using Discriminant Neighborhood Embedding

Funds: The National Natural Science Foundation of China (11704229, 61701286, 61562068), The Shandong Provincial Natural Science Foundation (ZR2017LA011, ZR2015FL003, ZR2017MF047), The Project of Shandong Province Higher Educational Science and Technology Program (J17KA078), The Natural Science Foundation of Inner Mongolia Autonomous Region of China (2015MS0629)
  • 摘要: 该文提出一种基于判别邻域嵌入(DNE)算法的说话人识别。判别邻域嵌入算法作为流形学习方法的一种,可以通过构建邻接图获取数据的局部邻域结构信息;同时该算法可以充分利用类间判别信息,具有更强的判别能力。在美国国家标准技术研究院2010年说话人识别评测(NIST SRE 2010)电话-电话核心测试集上的实验结果表明了该算法的有效性。
  • 说话人识别技术是利用语音信号中所包含的说话人特征信息,识别某个说话人身份的技术[13]。近年来,因子分析(Factor Analysis, FA)[48]成为说话人识别领域的重要技术,其中,总变化因子分析在说话人识别中占据主导地位。总变化因子分析在空间建模时,将说话人信息和信道信息看作一个整体空间,即总变化空间。通过对包含说话人信息和信道信息的高斯混合模型(Gaussian Mixed Model, GMM)高维均值超向量在总变化空间上进行投影,得到低维的因子向量i-vector,并在其基础上进行分类建模和判决[6,9]

    但是,总变化因子分析技术存在一定的不足。总变化因子分析技术实质是概率主成分分析(Probabilistic Principal Component Analysis, PPCA)[10]的一种,只能够反映数据的整体结构。为了克服上述缺点,邻域保持嵌入(Neighborhood Preserving Embedding, NPE)等流形学习算法成功应用于说话人识别[1114],有效地保持了数据流形上局部邻域结构信息,从而提高了说话人识别性能。然而,NPE算法[11,15]在进行数据线性重构时,仅保持了同类(同一说话人)样本的局部结构,未考虑不同类(不同说话人)样本之间的判别性,而判别信息对说话人识别是非常重要的。

    针对以上问题,本文提出一种基于判别邻域嵌入(Discriminant Neighborhood Embedding, DNE)算法的说话人识别系统。判别邻域嵌入算法通过结合邻域和类的信息,不仅能保持类内(同一说话人)样本数据的局部邻域结构,同时强调类间(不同说话人)样本数据间的判别信息,使得不同类样本的嵌入向量相互分类,因而具有更强的判别能力。

    本文安排如下:第2节简要介绍基于i-vector的邻域保持嵌入算法,第3节是本文提出的判别邻域嵌入算法,第4节是在NIST SRE 2010电话-电话核心测试集上的实验结果,第5节是结论。

    给定一段语音数据,基于总变化空间的说话人和信道相关的GMM均值超向量可表示为

    M=m+Tw
    (1)

    其中,m是与说话人和信道无关的超向量,一般用通用背景模型(Universal Background Model, UBM)的均值超向量来表征;T是一个低阶的总变化矩阵,维数为CF×RT,其中C是GMM高斯数,F为特征维数,RT是总变化矩阵中所包含的特征向量的个数;w是一个随机向量,服从标准正态分布N(0, I)。向量w中的元素为总变化因子(Total Variability Factors, TVF),称向量w为identity vector,简称i-vector。对于训练T和提取i-vector的具体过程详见参考文献[6]。

    给定训练数据集X={x1, x2, ···, xN},其中xi∈RL, i=1, 2, ···, Nxii-vector向量,且具备说话人身份的标注信息。NPE的目的是在降维的同时,保持数据集固有的局部邻域流形结构不变。它寻找一个最优的映射变换矩阵P=[p1, p2, ···, pK],将RL空间的数据嵌入映射到一个相对低维的向量空间RK(K<L)中。数据点xi在RK空间中表示为邻域保持嵌入向量yi,且yi=PTxi

    对于邻域保持嵌入空间矩阵P的训练过程详见文献[11,15]。

    将邻域保持嵌入向量使用支持向量机(Support Vector Machine, SVM)分类建模,并选用余弦核作为核函数。在进行SVM建模时,需要进行信道补偿。常用的信道补偿技术有2种:类内协方差规整(Within-Class Covariance Normalization, WCCN)[16]和线性判别分析(Linear Discriminant Analysis, LDA)[17],这两个方法以不同的准则对信道进行补偿,同时使用能够起到更优的效果。

    将NPE算法作用在i-vector上,可以同时保持数据样本的整体结构和局部邻域结构,因此极大地提高了系统性能[11]。但邻域保持嵌入算法在进行线性重构时,没有对邻域作类别判断和区别对待,使得不同类的邻近数据点在投影时存在相互重叠的情况,从而影响了识别性能。

    判别邻域嵌入(DNE)是一种有效的子空间学习方法,已成功应用于人脸识别[18,19]。通过与总变化因子分析相结合,能够从整体和局部更全面地反映数据的结构,同时能强调类的判别信息,对邻域作类别判断和区别对待。将DNE算法应用于说话人识别的思想如下:

    给定训练数据集X={x1, x2, ···, xN},其中xi∈RL, i=1, 2, ···, Nxii-vector向量,且给定说话人身份的标注信息。DNE在降维的同时,能保持类内数据样本固有的局部邻域流形结构不变,并最大限度地使类间数据样本彼此远离,有效提高降维后的分类效果。它寻找一个最优的映射变换矩阵A=[a1, a2, ···, aK],将RL空间的数据嵌入映射到一个相对低维的向量空间RK(K<L)中。数据点xi在RK空间中表示为zi,且zi=ATxi

    判别邻域嵌入空间矩阵A的训练过程包括以下步骤:

    (1)给定具有说话人身份标注信息的训练数据集X,第i个顶点代表第i条训练语句对应的i-vector向量xi,构建数据集上的判别邻接图G

    (2)计算第i个顶点和第j个顶点之间的亲合权重Bij和重构权重Wij,从而得到亲合权重矩阵B和重构权重矩阵W

    (a) Bij反映了不同类数据对之间的亲合力。如果xixj属于不同说话人的语句,且xixjk个最近邻之一(或者xjxik个最近邻之一),则Bij=exp(||xixj||2/t),其中参数t为适当常量。否则Bij=0。

    (b) Wij反映了同类数据xj对重构xi时的贡献。如果xixj属于不同说话人的语句,则Wij=0。如果xixj属于同一说话人的语句,可以通过最小化重构损失函数

    φ(W)=Ni=1||xijWijxj||2
    (2)

    其约束条件为jWij=1, j=1, 2, ···, N。求解出重构权重矩阵系数Wij

    (3)计算DNE映射变换矩阵A。DNE的思想是,在映射到低维空间后,类间样本彼此远离,类内样本局部结构保持不变,综合两方面考虑,给出以下2个最优化问题[20]

    maxNi,j=1||yiyj||2Bij=max(ATXHXTA)
    (3)
    minNi=1||yijWijyj||2=min(ATXMXTA)
    (4)

    约束条件为ATXXTA=1。其中,式(3)中的H=DB, D为对角阵,Dii=jBij;式(4)中M=(IW)T(IW)

    定义类间邻域散度SB=XHXT,类内邻域散度SW=XMXT,上述2个最优化问题可以转换成下面的广义特征值求解问题,即

    (SBSW)A=λA
    (5)

    通过求解式(5),可得到判别邻域嵌入空间矩阵A=[a1, a2, ···, aK],其中,a1, a2, ···, aK是上述问题的前K个最大特征值对应的特征向量。

    本文使用NIST SRE 2010核心测试集(core-core)的电话训练、电话测试(tel-tel)作为测试集,采用等错误率(Equal Error Rate, EER)和最小检测错误代价(minimum Detect Cost Function, minDCF)对系统性能进行评价[21,22]

    实验中所使用的特征为36维的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficents, MFCC)特征,其每帧特征由18维的基本倒谱系数及其1次差分构成,并使用特征弯折(feature warping)技术对特征进行规整。使用NIST SRE 2004 1side的目标说话人训练数据训练2个与性别相关的UBM,高斯数为1024。使用NIST SRE 2004, 2005以及2006的电话语音数据来训练总变化矩阵T, NPE矩阵和DNE矩阵、WCCN转换矩阵以及LDA降维矩阵。选用NIST SRE 2004以及2005的部分数据来做负样本训练数据,使用SVMLight[23]来训练支持向量。

    本节在测试集上对本文提出的DNE算法和已有的NPE算法在说话人识别系统中进行了对比试验。

    表1列出了在没有任何信道补偿技术下DNE算法和NPE算法的实验结果。从表1中可以看出,DNE的性能要优于NPE。相对于NPE, DNE在男声测试集上EER和minDCF分别有8.33%和5.39%的性能提升;在女声测试集上,EER和minDCF分别有9.03%和8.20%的性能提升。

    表 1  NIST SRE 2010电话-电话测试集上DNE和NPE的EER和minDCF比较(无信道补偿)
    系统男声 女声
    EER(%)minDCFEER(%)minDCF
    NPE5.760.0575 6.980.0744
    DNE5.280.05446.350.0683
    下载: 导出CSV 
    | 显示表格

    表2是NPE算法以及本文提出的DNE算法在后端经过LDA之后的性能比较。从表2可以看到,当经过LDA信道补偿后,DNE系统性能优于NPE算法,在男声测试集上EER和minDCF分别有11.04%和7.93%的性能提升;在女声测试集上,EER和minDCF分别有8.84%和4.58%的性能提升。

    表 2  NIST SRE 2010电话-电话测试集上DNE和NPE的EER和minDCF比较(LDA信道补偿)
    系统男声 女声
    EER(%)minDCFEER(%)minDCF
    NPE+LDA4.710.0492 6.110.0633
    DNE+LDA4.190.04535.570.0604
    下载: 导出CSV 
    | 显示表格

    表3是NPE算法以及DNE算法在后端经过WCCN信道补偿之后的性能比较。从实验结果我们可以看到,当经过WCCN信道补偿后,相对于NPE, DNE系统性能在男声测试集上EER和minDCF分别有9.47%和6.64%的性能提升;在女声测试集上,EER和minDCF分别有10.17%和8.86%的性能提升。

    表 3  NIST SRE 2010电话-电话测试集上DNE和NPE的EER和minDCF比较(WCCN信道补偿)
    系统男声 女声
    EER(%)minDCFEER(%)minDCF
    NPE+WCCN5.070.0512 6.490.0677
    DNE+WCCN4.590.04785.830.0617
    下载: 导出CSV 
    | 显示表格

    表4比较了NPE算法以及DNE算法在后端同时经过LDA和WCCN信道补偿之后的性能。从实验结果可以看到,当经过LDA和WCCN信道补偿后,DNE系统性能仍然优于NPE。相对于NPE, DNE系统性能在男声测试集上EER和minDCF分别有5.90%和8.82%的性能提升;在女声测试集上,EER和minDCF分别有8.39%和5.31%的性能提升。

    表 4  NIST SRE 2010电话-电话测试集上DNE和NPE的EER和minDCF比较(LDA+WCCN信道补偿)
    系统男声 女声
    EER(%)minDCFEER(%)minDCF
    NPE+LDA+WCCN4.410.0476 5.720.0584
    DNE+LDA+WCCN4.150.04345.240.0553
    下载: 导出CSV 
    | 显示表格

    表5将本文提出的DNE算法(经过LDA和WCCN信道补偿)与目前说话人识别领域的主流算法——概率线性判别分析(Probability Linear Discriminant Analysis, PLDA)[24,25]进行了性能对比,本实验中采用的是高斯PLDA算法。从实验结果可以看到,DNE算法与PLDA算法性能相当。

    表 5  NIST SRE 2010电话-电话测试集上DNE和PLDA的EER和minDCF比较
    系统男声 女声
    EER(%)minDCFEER(%)minDCF
    DNE+LDA+WCCN4.150.0434 5.240.0553
    PLDA4.120.04285.370.0532
    下载: 导出CSV 
    | 显示表格

    针对邻域保持嵌入技术的不足,本文将判别邻域嵌入算法引入到基于i-vector的说话人识别中。与邻域保持嵌入技术相比,判别邻域嵌入算法结合邻域和类的信息,对邻域作类别判断和区别对待,因此,能够有效地克服邻域保持嵌入技术存在的缺点,可以进一步提高说话人识别性能。

  • 表  1  NIST SRE 2010电话-电话测试集上DNE和NPE的EER和minDCF比较(无信道补偿)

    系统男声 女声
    EER(%)minDCFEER(%)minDCF
    NPE5.760.0575 6.980.0744
    DNE5.280.05446.350.0683
    下载: 导出CSV

    表  2  NIST SRE 2010电话-电话测试集上DNE和NPE的EER和minDCF比较(LDA信道补偿)

    系统男声 女声
    EER(%)minDCFEER(%)minDCF
    NPE+LDA4.710.0492 6.110.0633
    DNE+LDA4.190.04535.570.0604
    下载: 导出CSV

    表  3  NIST SRE 2010电话-电话测试集上DNE和NPE的EER和minDCF比较(WCCN信道补偿)

    系统男声 女声
    EER(%)minDCFEER(%)minDCF
    NPE+WCCN5.070.0512 6.490.0677
    DNE+WCCN4.590.04785.830.0617
    下载: 导出CSV

    表  4  NIST SRE 2010电话-电话测试集上DNE和NPE的EER和minDCF比较(LDA+WCCN信道补偿)

    系统男声 女声
    EER(%)minDCFEER(%)minDCF
    NPE+LDA+WCCN4.410.0476 5.720.0584
    DNE+LDA+WCCN4.150.04345.240.0553
    下载: 导出CSV

    表  5  NIST SRE 2010电话-电话测试集上DNE和PLDA的EER和minDCF比较

    系统男声 女声
    EER(%)minDCFEER(%)minDCF
    DNE+LDA+WCCN4.150.0434 5.240.0553
    PLDA4.120.04285.370.0532
    下载: 导出CSV
  • REYNOLDS D A and ROSE R C. Robust text-independent speaker identification using Gaussian mixture speaker models[J]. IEEE Transactions on Speech and Audio Processing, 1995, 3(1): 72–83. doi: 10.1109/89.365379
    KINNUNEN T and LI Haizhou. An overview of text-independent speaker recognition: From features to supervectors[J]. Speech Communication, 2010, 52(1): 12–40. doi: 10.1016/j.specom.2009.08.009
    王伟, 韩纪庆, 郑铁然, 等. 基于Fisher判别字典学习的说话人识别[J]. 电子与信息学报, 2016, 38(2): 367–372. doi: 10.11999/JEIT150566

    WANG Wei, HAN Jiqing, ZHENG Tieran, et al. Speaker recognition based on fisher discrimination dictionary Learning[J]. Journal of Electronics &Information Technology, 2016, 38(2): 367–372. doi: 10.11999/JEIT150566
    KENNY P, BOULIANNE G, OUELLET P, et al. Speaker and session variability in GMM-based speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(4): 1448–1460. doi: 10.1109/tasl.2007.894527
    郭武, 戴礼荣, 王仁华. 采用因子分析和支持向量机的说话人确认系统[J]. 电子与信息学报, 2009, 31(2): 302–305. doi: 10.3724/SP.J.1146.2007.01289

    GUO Wu, DAI Lirong, and WANG Renhua. Speaker verification based on factor analysis and SVM[J]. Journal of Electronics &Information Technology, 2009, 31(2): 302–305. doi: 10.3724/SP.J.1146.2007.01289
    DEHAK N, KENNY P J, DEHAK R, et al. Front-end factor analysis for speaker verification[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(4): 788–798. doi: 10.1109/tasl.2010.2064307
    DHANUSH B K, SUPARNA S, AARTHY R, et al. Factor analysis methods for joint speaker verification and spoof detection[C]. Proceedings of 2017 IEEE International Conference on Acoustics, Speech and Signal Processing, New Orleans, USA, 2017: 5385–5389.
    SU Hang and WEGMANN S. Factor analysis based speaker verification using ASR[C]. Proceedings of the Interspeech 2016, San Francisco, USA, 2016: 2223–2227.
    MAK M W, PANG Xiaomin, and CHIEN J T. Mixture of PLDA for noise robust i-vector speaker verification[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2016, 24(1): 130–142. doi: 10.1109/TASLP.2015.2499038
    LEI Yun and HANSEN J H L. Speaker recognition using supervised probabilistic principal component analysis[C]. Proceedings of the Interspeech 2010, Makuhari, Japan, 2010: 382–385.
    LIANG Chunyan, YANG Lin, ZHAO Qingwei, et al. Factor Analysis of neighborhood-preserving embedding for speaker verification[J]. IEICE Transactions on Information and Systems, 2012, 95(10): 2572–2576. doi: 10.1587/transinf.e95.d.2572
    YANG Jinchao, LIANG Chunyan, YANG Lin, et al. Factor analysis of Laplacian approach for speaker recognition[C]. Proceedings of 2012 IEEE International Conference on Acoustics, Speech and Signal Processing, Kyoto, Japan, 2012: 4221–4224.
    CHIEN J T and HSU C W. Variational manifold learning for speaker recognition[C]. Proceedings of 2017 IEEE International Conference on Acoustics, Speech and Signal Processing, New Orleans, USA, 2017: 4935–4939.
    WU Di. Speaker recognition based on i-vector and improved local preserving projection[C]. Proceedings of the 2015 Chinese Intelligent Automation Conference, Fuzhou, China, 2015: 115–121.
    HE Xiaofei, CAI Deng, YAN Shuicheng, et al. Neighborhood preserving embedding[C]. Proceedings of the Tenth IEEE International Conference on Computer Vision, Beijing, China, 2005: 1208–1213.
    KAJAREKAR S S and STOLCKE A. NAP and WCCN: Comparison of approaches using MLLR-SVM speaker verification system[C]. Proceedings of 2017 IEEE International Conference on Acoustics, Speech and Signal Processing, Honolulu, USA, 2007: IV-249–IV-252.
    HAEB-UMBACH R and NEY H. Linear discriminant analysis for improved large vocabulary continuous speech recognition[C]. Proceedings of 1992 IEEE International Conference on Acoustics, Speech, and Signal Processing, San Francisco, USA, 1992: 13–16.
    DING Chuntao and ZHANG Li. Double adjacency graphs-based discriminant neighborhood embedding[J]. Pattern Recognition, 2015, 48(5): 1734–1742. doi: 10.1016/j.patcog.2014.08.025
    WANG Jing, CHEN Fang, and GAO Quanxue. Discriminant neighborhood structure embedding using trace ratio criterion for image recognition[J]. Journal of Computer and Communications, 2015, 3(11): 61282. doi: 10.4236/jcc.2015.311011
    魏权龄, 王日爽, 徐冰, 等. 数学规划与优化设计[M]. 北京: 国防工业出版社, 1984: 358–470.

    WEI Quanling, WANG Rishuang, XU Bing, et al. Mathematical Programming and Optimization Design[M]. Beijing: National Defense Industry Press, 1984: 358–470.
    NIST. The NIST year 2010 speaker recognition evaluation plan[EB/OL]. http://www.oalib.com/references/16891962, 2012.
    SCHEFFER N, FERRER L, GRACIARENA M, et al. The SRI NIST 2010 speaker recognition evaluation system[C]. Proceedings of 2011 IEEE International Conference on Acoustics, Speech and Signal Processing, Prague, Czech Republic, 2011: 5292–5295.
    JOACHIMS T. SVM-light support vector machine[EB/OL]. http://svmlight.joachims.org/, 2008.
    KINNUNEN T, JUVELA L, ALKU P, et al. Non-parallel voice conversion using i-vector PLDA: towards unifying speaker verification and transformation[C]. Proceedings of 2017 IEEE International Conference on Acoustics, Speech and Signal Processing, New Orleans, USA, 2017: 5535–5539.
    BAHMANINEZHAD F and HANSEN J H L. i-Vector/PLDA speaker recognition using support vectors with discriminant analysis[C]. Proceedings of 2017 IEEE International Conference on Acoustics, Speech and Signal Processing, New Orleans, USA, 2017: 5410–5414.
  • 期刊类型引用(3)

    1. 吕志超,王好忠,白一奇. 流形学习在浅海水声通信中的应用. 电子与信息学报. 2021(03): 767-772 . 本站查看
    2. 罗春梅. 基于改进MFCC与RCNN的说话人识别算法. 数学的实践与认识. 2021(17): 102-110 . 百度学术
    3. 梁春燕,曹伟. 基于邻域保持嵌入算法的语种识别. 陕西师范大学学报(自然科学版). 2020(02): 38-42 . 百度学术

    其他类型引用(0)

  • 加载中
表(5)
计量
  • 文章访问数:  2199
  • HTML全文浏览量:  630
  • PDF下载量:  75
  • 被引次数: 3
出版历程
  • 收稿日期:  2018-08-03
  • 修回日期:  2019-01-21
  • 网络出版日期:  2019-02-24
  • 刊出日期:  2019-07-01

目录

/

返回文章
返回