Loading [MathJax]/jax/output/HTML-CSS/jax.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于子带双特征的自适应保留似然比鲁棒语音检测算法

何伟俊 贺前华 吴俊峰 杨继臣

徐明亮, 王士同. 由最大同类球提取模糊分类规则[J]. 电子与信息学报, 2017, 39(5): 1130-1135. doi: 10.11999/JEIT160779
引用本文: 何伟俊, 贺前华, 吴俊峰, 杨继臣. 基于子带双特征的自适应保留似然比鲁棒语音检测算法[J]. 电子与信息学报, 2016, 38(11): 2879-2886. doi: 10.11999/JEIT160157
XU Mingliang, WANG Shitong. Extracting Fuzzy Rules from the Maximum Ball Containing the Homogeneous Data[J]. Journal of Electronics & Information Technology, 2017, 39(5): 1130-1135. doi: 10.11999/JEIT160779
Citation: HE Weijun, HE Qianhua, WU Junfeng, YANG Jichen. Adaptively Reserved Likelihood Ratio-based Robust Voice Activity Detection with Sub-band Double Features[J]. Journal of Electronics & Information Technology, 2016, 38(11): 2879-2886. doi: 10.11999/JEIT160157

基于子带双特征的自适应保留似然比鲁棒语音检测算法

doi: 10.11999/JEIT160157
基金项目: 

国家自然科学基金 (61571192),广东省公益项目(2015A010103003),中央高校基本科研业务费项目华南理工大学(2015ZM143)

Adaptively Reserved Likelihood Ratio-based Robust Voice Activity Detection with Sub-band Double Features

Funds: 

The National Natural Science Foundation of China (61571192), The Science and Technology Foundation of Guangdong Province (2015A010103003), The Fundamental Research Funds for the Central Universities, SCUT (2015ZM143)

  • 摘要: 为了进一步提高低信噪比下语音激活检测(VAD)的准确率,该文提出一种基于子带双特征的自适应保留似然比鲁棒语音激活检测算法。算法采用子带归一化最大自相关函数与子带归一化平均过零率双重特征设置频率分量似然比的保留权值,同时利用已过去固定时长的VAD判决结果及对应的子带特征参数自适应地估计似然比的保留阈值。实验结果表明,此算法的VAD检测准确率相比原保留似然比算法在10 dB, 0 dB和-10 dB平稳白噪声下分别提高了1.2%, 7.2%和8.1%,在10 dB和0 dB非平稳Babble噪声下分别提高了1.6%和3.4%。当其被用于2.4 kbps低速率声码器系统时,合成语音的感知语音质量评价(PESQ)比原声码器系统在白噪声下提高了0.098~0.153,在Babble噪声下提高了0.157~0.186。
  • 当前,公钥密码算法,如公钥加密、数字签名和密钥交换已经大规模地应用于实际生活中,提供着各式各样的信息安全保障。但几乎所有应用中的公钥密码算法的安全性都建立在分解大整数或者求解离散对数问题的困难性之上。换句话说,如果没有多项式时间的算法能够分解大整数或者求解离散对数问题,那么这些公钥密码算法就能够实现安全的功能。不幸的是美国科学家Shor[1]在1996年提出了能够在多项式时间分解大整数或者求解离散对数问题的量子算法。近年来,随着量子计算技术的快速发展,研究能够抵抗量子计算机攻击的公钥密码算法—抗量子密码,已经迫在眉睫。事实上,世界各国政府和组织都相应地发起了重大的研究计划来发展能够抵抗量子计算机攻击的密码算法,如欧盟的SAFEcrypto项目、日本的CryptoMathCREST密码项目等。特别地,美国国家安全局(NSA)已于2015年8月宣布了抗量子密码算法的迁移计划[2]。同年,美国国家标准与技术研究院(NIST)举行了“后量子世界的网络安全研讨会”,并启动了面向全世界征集抗量子公钥密码算法的计划[3]。2018年5月,中国科协发布了我国面临的60个重大科技难题[4],“抗量子密码算法设计”是信息科技领域入选的6个重大科技难题之一。

    基于格的密码、基于编码的密码、基于多变量的密码和基于杂凑函数的密码是当前国际上公认的4个主要的抗量子密码研究方向。由于具有基于最坏情况的困难假设、高效率以及极大的多样性等优点,基于格的密码被认为是最具前景的抗量子密码研究方向。含错学习问题(Learning With Errors, LWE)和小整数解问题(Small Integer Solutions, SIS)是基于格的密码中两个常用的困难问题,其中含错学习问题是由Regev[5]在2005年提出,而小整数解问题则可追溯到Ajtai[6]的开创性工作。含错学习问题和小整数解问题的定义都非常简单,且都和解整数模方程有关。特别地,令n,m,q是任意正整数,令χα是定义在整数Z上以实数α为参数的概率分布。计算性含错学习问题LWEn,m,q,α要求给定元组(A,b=As+e)Zm×nq×Zmq,输出sZnq,其中AZm×nq,sZnq,eχmα。而小整数解问题SISn,m,q,β则要求给定矩阵AZm×nq和实数β,计算使得xZmq使得ATx=0odqxβ。显然,以上两个问题非常相似。事实上,在一定意义上含错学习问题和小整数解问题是互为对偶问题。此外,以上两个问题在平均情况下的困难性被严格归约到了格上问题在最坏情况下的困难性之上[5,6]。一般来说,含错学习问题主要用于加密算法的设计,而小整数解问题则用于签名算法的设计。为了提高方案的效率,文献中还经常使用含错学习问题的一个变种问题,即正规形含错学习问题。该类问题要求秘密向量sZnq取自于分布χα。特别地,正规形含错学习问题和标准学习问题在多项式时间的归约下是等价的。文献中常用的两种错误分布为高斯分布和二项分布。

    虽然基于含错学习问题和小整数解问题通常都比较简单,且具有较高的计算效率,但像基于编码等数学问题的抗量子方案一样,基于格的密码方案的参数,如公钥、密文等都比较大。为了更好地折中密码算法的安全性和参数大小,Zhang等人[7]提出了非对称含错学习问题(Asymmetric LWE, ALWE)和非对称小整数解问题(Asymmetric SIS, ASIS)。在定义上,非对称含错学习问题修改了标准含错学习问题的实例分布,而非对称小整数解问题则只是修改了标准小整数解问题的解分布。由此造成的差别是可以很容易证明非对称小整数解问题和标准小整数解问题在多项式归约下是等价的,而对于非对称含错学习问题,却不那么容易证明标准含错学习问题和非对称学习问题的困难关系[7]

    本文将正式研究非对称学习问题和标准学习问题的困难关系,并证明对于满足特定“加和”性质的分布χ,标准含错学习问题和非对称含错学习问题在一定参数下是等价的。简单来说,我们说一个分布χ具有“加和”性质。即给定分布参数α1α2>α1,存在多项式时间的算法S(,),使得对于x1χα1x2S(α1,α2),有x=x1+x2服从分布χα2。注意到算法S(,)并不以x1作为输入,这一点对于本文的证明非常重要。结合以上“加和”性质,以及(非对称)含错学习问题的同态性质,本文证明了对于任何“加和”的分布χ,非对称含错学习问题和标准含错学习问题是多项式时间等价的。特别地,本文证明了两类格密码常用的概率分布(即高斯分布和中心二项分布)均满足“加和”性质。换句话说,对于特定参数的高斯分布和中心二项分布,标准含错学习问题和非对称含错学习问题在多项式时间意义下是等价的。这就为基于高斯分布和二项分布的非对称含错学习问题设计基于格的密码算法奠定了严格的理论基础。

    κ为全文中默认的安全参数,所有其他的参数都隐含地是关于κ的函数。令符号logγ()表示以γ为底的对数函数。当γ=2时,简写为lb()。如果没有特别说明,符号O()ω()表示标准的渐近函数。符号poly(n)表示关于变量n的任意多项式函数,即存在常数c使得poly(n)=O(nc)。对于函数f(n)和函数g(n),如果存在常数c使得f(n)=O(g(n)lbcn),记f(n)=˜O(g(n))。特别地,如果对于任意c>0都存在足够大的整数N使得对于所有的n>N都有f(n)<1/nc成立,那么称函数f关于变量n是可忽略的。本文用negl()表示未明确定义的可忽略函数。

    符号ZR分别代表整数集合和实数集合。对于分布D和有限集合S,符号vrD表示从分布D中随机选取元素,而符号vrS则表示随机均匀地选取集合S中的元素。如果随机变量v服从分布D,简记为vD。向量默认写成列的形式并用小写加粗字母表示(例如,x),而矩阵则视为列向量的集合并用大写加粗字母表示(例如X)。符号xTXT分别表示向量x和矩阵X的转置。符号||x||=xi2||x||=max{|xi|}分别表示取向量的第2范数2和无穷范数,其中x=(x1,x2,···)

    n,m,q是任意正整数,令χα是定义在整数Z上以实数α为参数的概率分布。计算性含错学习问题LWEn,m,q,α要求给定元组

    (A,b=As+e)Zm×nq×Zmq (1)

    输出sZnq,其中AZm×nq,sZnq,eχmα。类似地,判定性含错学习问题DLWEn,m,q,α则要求将元组(A,b)Zm×nq×Zmq和选择于Zm×nq×Zmq上均分分布的元组区分开来。对于特定的分布和参数,Regev[5]证明了如果存在一个多项式时间的算法能够求解LWEn,m,q,α问题,那么存在多项式时间的量子算法能够求解任意格上最困难的近似最短独立向量问题(Shortest Vector Problem, SVP),且判定性含错学习问题和计算性含错学习问题是等价的。此外,对于秘密向量sZnq同样取自于分布χα的正规形含错学习问题,Applebaum等人[8]证明了其与标准的含错学习问题是等价的。

    为了提高基于含错学习问题的密码算法的效率,Zhang等人[7]提出了非对称含错学习问题作为正规形含错学习问题的变种。令n,m,q是任意正整数。令χα1χα2是定义在整数Z上分别以实数α1α2为参数的概率分布。计算性非对称含错学习问题ALWEn,m,q,α1,α2要求给定元组

    (A,b=As+e)Zm×nq×Zmq (2)

    输出sZnq,其中AZm×nq,sχnα1,eχmα2。类似地,也可以定义判定性非对称含错学习问题。Zhang等人[7]对已知求解含错学习问题的最高效的算法进行了研究发现以α1,α2为高斯参数的非对称含错学习问题和以α1,α2为高斯参数的标准含错学习问题的困难性大致相等,即从攻击的角度间接揭示非对称含错学习问题和标准含错学习问题在一定程度上是等价的。接下来,本文将研究含错学习问题和标准学习问题的困难性间的关系。

    这一节中,将考虑定义在具有“加和”性质的概率分布上的非对称含错学习问题。

    定义1 对于任意以α为参数的概率分布χα和参数0<α1α2,如果存在一个多项式时间的算法Sχ(,),如果分布Dα1,α2={x=x1+x2Z|x1χα1,x2Sχ(α1,α2)}和分布χα是统计不可区分的,则称分布χα具有“加和”性质。

    对于具有“加和”性质的概率分布,有如下结论:

    定理1 对于任意实数α1α2,和定义在概率分布χα1χα2 上的非对称含错学习问题ALWEn,m,q,α1,α2,如果分布χα 具有“加和”性质,那么有ALWEn,m,q,α1,α2问题和标准含错学习问题在多项式时间是等价的,即有如下困难性不等式在多项式时间的归约下是成立的

    LWEn,m,q,min(α1,α2)ALWEn,m,q,α1,α2LWEn,m,q,max(α1,α2) (3)

    证明 显然,为了证明定理1,只需要证明如下两个结论成立即可:

    (1) 如果存在多项式时间的算法能够解决ALWEn,m,q,α1,α2问题,那么存在多项式时间的算法能够解决LWEn,m,q,min(α1,α2)问题;

    (2) 如果存在多项式时间的算法能够解决LWEn,m,q,max(α1,α2)问题,那么存在多项式时间的算法能够解决ALWEn,m,q,α1,α2问题。

    接下来,将分别证明以上两个结论。为了方便证明,不妨先假设0<α1α2。首先,来证明结论(1)成立,即如果存在多项式时间的算法A能够解决ALWEn,m,q,α1,α2问题,那么存在多项式时间的算法B能够解决LWEn,m,q,min(α1,α2)问题。特别地,给定ALWEn,m,q,α1,α2的安全参数parms=(1κ,α1,α2),实例元组(A,b=As+e)Zm×nq×Zmq,算法A(parms,A,b)能够以不可忽略的概率 ε输出sZnq,其中κ是安全参数,AZm×nq,sχnα1,eχmα2。现在构造算法B使得给定LWEn,m,q,min(α1,α2)=LWEn,m,q,α1的公共参数parms1=(1κ,α1)和实例元组(A1,b1=A1s1+e1)Zm×nq×Zmq,算法B(parms1,A1,b1)能够以εnegl(κ)输出s1ZnqA1Zm×nq,sχnα1,eχmα1。算法B进行如下运算:

    (1) 运行m次算法e2,iSχ(α1,α2)得到向量e2=(e2,1,e2,2,···,e2,m)

    (2) 令A=A1Zm×nq,b=b1+e2Zmq

    (3) 令parms=(1κ,α1,α2)

    (4) 运行算法sA(parms,A,b),并输出向量sZnq

    由等式

    b=b1+e2=A1s1+e1+e2=e=A1s1+eodq (4)

    和分布χα的“加和”性质可知,e=e1+e2的分布选自于χα2中元素的分布是统计不可区分的。换句话说,元组(A=A1,b=b1+e2)Zm×nq×Zmq的分布和ALWEn,m,q,α1,α2问题的实例分布是统计不可区分的,这就意味着算法B能够以εnegl(κ)输出s=s1Znq。结论(1)得证。

    现在来证明结论(2)成立,即如果存在多项式时间的算法A能够解决问题LWEn,m,q,max(α1,α2),那么存在多项式时间的算法B能够解决ALWEn,m,q,α1,α2问题。如前述一样,为了便于证明,仍然假设0<α1α2。特别地,给定LWEn,m,q,max(α1,α2)=LWEn,m,q,α2的公共参数parms=(1κ,α2),实例元组(A,b=As+e)Zm×nq×Zmq,算法{\cal{A}}({\rm{parms}},{{{A}},{ b}}})能够以不可忽略的概率ε输出sZnq,其中κ是安全参数,AZm×nq,sχnα2,eχmα2。现在构造算法B使得给定ALWEn,m,q,α1,α2的公共参数parms1=(1κ,α1,α2)和实例元组(A1,b1=A1s1+e1)Zm×nq×Zmq,算法B(parms1,A1,b1)能够以εnegl(κ)输出s1Znq, A1Zm×nq,sχnα1,eχmα2。算法B进行如下运算:

    (1) 运行n次算法s2,iSχ(α1,α2)得到向量s2=(s2,1,s2,2,···,s2,n)

    (2) 令A=A1Zm×nq,b=b1+A1s2Zmq

    (3) 令parms=(1κ,α2)

    (4) 运行算法{{s}} \leftarrow {\cal{A}}({\rm{parms}},{{{A}},{ b}}}),并得到向量sZnq

    (5) 计算并输出s1=ss2

    由等式

    b=b1+A1s2=A1(s1+s2)=s+e1=A1s+e1odq (5)

    和分布χα的“加和”性质可知,s=s1+s2的分布选自于χα2中元素的分布是统计不可区分的。换句话说,元组(A=A1,b=b1+A1s2)Zm×nq×Zmq的分布和ALWEn,m,q,α1,α2问题的实例分布是统计不可区分的,这就意味着算法sA(parms,A,b)能够以εnegl(κ)输出s=s1+s2Znq,从而算法B能够以εnegl(κ)输出s1=ss2Znq。结论(2)得证。

    对于α1α2>0的情况,仍然可以按照上述方式利用分布χα的“加和”性质和(非对称)含错学习问题的“加法同态”性质证明结论(1)和结论(2)成立。由此定理1得证。

    自Micciancio等人[9]利用高斯分布定义了一个新的格参数——平滑参数——之后,高斯分布就与格密码的研究密不可分。特别地,许多格密码常用数学问题(例如含错学习问题和小整数解问题)的困难性证明都与高斯分布密切相关。事实上,格密码独有的优点——密码算法的平均情况安全性和数学问题的最坏情况困难性的联系——就依赖于高斯分布的优良性质。然而,尽管高斯分布非常有利于格密码的理论研究,但高斯分布在程序实现过程中却存在一定的技术难点,使得输出的样本常与随机数、时间和能量的消耗,以及计算精度有关,从而导致实现比较复杂,且容易遭受侧信道攻击。为了便于实现和抵抗侧性道攻击,面向实用的格密码算法常选择使用与高斯分布相近的中心二项分布来替换原有的高斯分布(如图1)。因此,研究基于高斯分布或中心二项分布的非对称含错学习的困难性至关重要。幸运的是,高斯分布或中心二项分布在一定条件下都具有“加和”的性质,因此定理1中的结论可直接应用于基于高斯分布或中心二项分布的非对称含错学习。接下来,给出高斯分布和中心二项分布的定义。

    图 1  高斯分布和二项分布

    对于任意正实数sR和向量cRm,定义在Rm上以c为中心、s为标准差的连续高斯函数为ρs,c(x)=(12πs2)mexp(||xc||22s2),记对应的连续高斯分布为Ds,c。对于任意格ΛZm,定义ρs,c(Λ)=xΛρs,c(x)。由此,可以诱导出定义在Λ上以c为中心、s为标准差的离散高斯分布DΛ,s,c(y)=ρs,c(y)/ρs,c(Λ)。当下标s=1(或c=0)时,通常忽略相应的下标。

    对于任意正整数kZ,定义以kZ为参数的中心二项分布为

    Bk={ki=1(bi,0bi,1)|bi,0,bi,1{0,1},i{1,2,···,k}}{k,k+1,···,k} (6)

    显然,中心二项分布具有“加和”性质,这是因为总有Bk1+k2=Bk1+Bk2恒成立。换句话说,有引理1。

    引理1 中心二项分布Bk具有“加和”性质。

    此外,定义在实数上以原点为中心的连续高斯分布也存在“加和”性质,因为如果向量x1Rm服从以0为中心,s1为标准差的连续高斯分布,向量x2Rm服从以0为中心,s2为标准差的连续高斯分布,令s=s12+s22那么向量x=x1+x2的密度函数为

    DF(x)=x1ρs1(x1)ρs2(xx1)dx1=(12πs1s2)mx1exp(x122s12)exp(xx122s22)dx1=(12πs1s2)mx1exp(s22x12+s12xx122s12s22)dx1=(12πs1s2)mx1exp((s12+s22)x1s12s12+s22x22s12s22x22(s12+s22))dx1=(12π(s12+s22))mexp(x22(s12+s22))=ρs(x) (7)

    但由于考虑的是限制在整数上的离散高斯分布,上述“加和”性质对于研究基于高斯分布的(非对称)含错学习问题的困难性并没有直接的帮助。幸运的是,对于特定参数的离散高斯分布,仍然可以证明其具有“加和”性质。特别地,有引理2成立。

    引理2 如果标准差s>ω(lbκ),那么离散高斯分布DZ,s对于特定的参数具有“加和”性质。特别地,对于任意s1>ω(lbκ),s2>s12+ω(lbκ)2,存在一个多项式时间的算法S(,)使得分布

    {x1+x2Z|x1DZ,s1,x2S(s1,s2)} (8)

    和分布DZ,s2的统计距离关于安全参数κ是可忽略的。

    为了证明引理2,需要用到蕴含在文献[5,10]中的两个引理。

    引理3 对于任意实数s1,s2>ω(lbκ),式(15)的分布

    {x1+x2|x1DZ,s1,x2Ds2} (9)

    和连续高斯分布Ds的统计距离关于安全参数κ是可忽略的,其中s=s12+s22

    引理4 对于任意实数s1>0s2>ω(lbκ),式(16)的分布

    {x1+x2|x1Ds1,x2DZx1,s2} (10)

    和离散高斯分布DZ,s的统计距离关于安全参数κ是可忽略的,其中s=s12+s22

    直观上,引理3 的意思是对于特定的参数,一个离散高斯分布加上一个连续高斯分布可以得到一个连续高斯分布,而引理4则可以理解为对一个连续高斯分布进行随机高斯取整后可得到一个离散的高斯分布。

    引理2的证明 给定参数s1,s2>ω(lbκ),算法S(s1,s2)进行如下运算:

    (1) 计算t=s22s12

    (2) 抽样并输出x2

    由引理4可知,x2的分布统计接近于对于连续高斯分布进行随机高斯取整后得到的分布

    {x2,1+x2,2|x2,1Dt/2,x2,2DZx2,1,t/2} (11)

    因此,对于任意x1DZ,s1,有x1+x2的分布统计接近于分布

    {x1+x2,1+x2,2|x2,1Dt/2,x2,2DZx2,1,t/2}={x1+x2,1+x2,2|x2,1Dt/2,x2,2DZx1x2,1,t/2} (12)

    等式(12)成立是因为x1是整数。进一步,由引理3可知,有x1+x2的分布统计接近于分布

    {x3+x2,2|x3Dt1,x2,2DZx3,t/2} (13)

    其中,t1=s12+t2/2。再次使用引理4可知,x1+x2的分布统计接近于分布离散高斯分布DZ,s2,其中s2=t12+t2/2。由此可知引理2得证。

    本文研究了非对称含错学习问题和标准学习问题之间困难关系,证明了对于具有“加和”性质的错误分布,非对称含错学习问题和标准学习问题是等价的。特别地,本文还证明了特定参数下的离散高斯分布和二项分布均满足“加和”的性质,从而为基于离散高斯分布或二项分布的非对称含错学习问题设计安全的格密码方案奠定了理论基础。

  • SREEKUMAR K T, GEORGE K K, ARUNRAJ K, et al. Spectral matching based voice activity detector for improved speaker recognition[C]. 2014 International Conference on Power Signals Control and Computations (EPSCICON), Thrissur, 2014: 1-4. doi: 10.1109/EPSCICON.2014.6887507.
    DUTA C L, GHEORGHE L, and TAPUS N. Real time implementation of MELP speech compression algorithm using Blackfin processors[C]. 2015 9th International Symposium on Image and Signal Processing and Analysis (ISPA), Zagreb, 2015: 250-255. doi: 10.1109/ISPA.2015. 7306067.
    CHUL Y I, HYEONTAEK L, and DONGSUK Y. Formant-based robust voice activity detection[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2015, 23(12): 2238-2245. doi: 10.1109/TASLP. 2015.2476762.
    JONGSEO S, NAM SOO K, and WONYONG S. A statistical model-based voice activity detection[J]. IEEE Signal Processing Letters, 1999, 6(1): 1-3. doi: 10.1109/97. 736233.
    DUK C Y, AL-NAIMI K, and KONDOZ A. Improved voice activity detection based on a smoothed statistical likelihood ratio[C]. 2001 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Salt Lake City, 2001: 737-740. doi: 10.1109/ICASSP.2001.941020.
    RAMIREZ J, SEGURA J, BENITEZ C, et al. Statistical voice activity detection using a multiple observation likelihood ratio test[J]. IEEE Signal Process Letters, 2005, 12(10): 689-692. doi: 10.1109/LSP.2005.855551.
    RAMIREZ J, SEGURA J C, GORRIZ J M, et al. Improved voice activity detection using contextual multiple hypothesis testing for robust speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2007, 15(8): 2177-2189. doi: 10.1109/TASL.2007.903937.
    ICK K S, HAING J Q, and HYUK C J. Discriminative weight training for a statistical model-based voice activity detection[J]. IEEE Signal Processing Letters, 2008, 15: 170-173. doi: 10.1109/LSP.2007.913595.
    YOUNGJOO S and HOIRIN K. Multiple acoustic model-based discriminative likelihood ratio weighting for voice activity detection[J]. Signal Processing Letters, 2012, 19(8): 507-510. doi: 10.1109/LSP.2012.2204978.
    FERRONI G, BONFIGLI R, PRINCIPI E, et al. A deep neural network approach for voice activity detection in multi-room domestic scenarios[C]. 2015 International Joint Conference on Neural Networks (IJCNN), Killarney, 2015: 1-8. doi: 10.1109/IJCNN.2015.7280510.
    INYOUNG H and JOON HYUK C. Voice activity detection based on statistical model employing deep neural network[C]. 2014 Tenth International Conference on Intelligent Information Hiding and Multimedia Signal Processing (IIH-MSP), 2014: 582-585. doi: 10.1109/IIH-MSP.2014.150.
    TAN Yingwei, LIU Wenju, WEI J, et al. Hybrid SVM/HMM architectures for statistical model-based voice activity detection[C]. 2014 International Joint Conference on Neural Networks (IJCNN), Beijing, 2014: 2875-2878. doi: 10.1109/ IJCNN.2014.6889403.
    何伟俊, 贺前华, 刘杨. 基于子带保留似然比的鲁棒语音激活检测算法[J]. 华中科技大学学报(自然科学版), 2015, 43(11): 78-82. doi: 10.13245/j.hust.151115.
    HE Weijun, HE Qianhua, and LIU Yang. Sub-band reserved likelihood ratio-based robust voice activity detection[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition), 2015, 43(11): 78-82. doi: 10.13245/ j.hust.151115.
    PEARLMAN W A and GRAY R M. Source coding of the discrete Fourier transform[J]. IEEE Transactions on Information Theory, 1978, 24(6): 683-692. doi: 10.1109/TIT. 1978.1055950.
    GERKMANN T and HENDRIKS R C. Unbiased MMSE-based noise power estimation with low complexity and low tracking delay[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(4): 1383-1393. doi: 10.1109/TASL.2011.2180896.
    EPHRAIM Y and MALAH D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator[J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1984, 32(6): 1109-1121. doi: 10.1109/ TASSP.1984.1164453.
    赵力. 语音信号处理[M]. 第2版, 北京: 机械工业出版社, 2009: 38-39.
    ZHAO Li. Speech Signal Processing[M]. Second edition, Beijing: China Machine Press, 2009: 38-39.
    MOUSAZADEH S and COHEN I. Voice activity detection in presence of transient noise using spectral clustering[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2013, 21(6): 1261-1271. doi: 10.1109/TASL.2013.2248717.
    PETSATODIS T, BOUKIS C, and TALANTZIS F. Convex combination of multiple statistical models with application to VAD[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(8): 2314-2327. doi: 10.1109/TASL.2011. 2131131.
  • 期刊类型引用(0)

    其他类型引用(31)

  • 加载中
计量
  • 文章访问数:  1097
  • HTML全文浏览量:  150
  • PDF下载量:  354
  • 被引次数: 31
出版历程
  • 收稿日期:  2016-02-04
  • 修回日期:  2016-06-27
  • 刊出日期:  2016-11-19

目录

/

返回文章
返回