Loading [MathJax]/jax/output/HTML-CSS/jax.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种集成式Beta过程最大间隔一类分类方法

张维 杜兰

张维, 杜兰. 一种集成式Beta过程最大间隔一类分类方法[J]. 电子与信息学报, 2021, 43(5): 1219-1227. doi: 10.11999/JEIT200080
引用本文: 张维, 杜兰. 一种集成式Beta过程最大间隔一类分类方法[J]. 电子与信息学报, 2021, 43(5): 1219-1227. doi: 10.11999/JEIT200080
Wei ZHANG, Lan DU. An Ensembling One-class Classification Method Based on Beta Process Max-margin One-class Classifier[J]. Journal of Electronics & Information Technology, 2021, 43(5): 1219-1227. doi: 10.11999/JEIT200080
Citation: Wei ZHANG, Lan DU. An Ensembling One-class Classification Method Based on Beta Process Max-margin One-class Classifier[J]. Journal of Electronics & Information Technology, 2021, 43(5): 1219-1227. doi: 10.11999/JEIT200080

一种集成式Beta过程最大间隔一类分类方法

doi: 10.11999/JEIT200080
基金项目: 国家自然科学基金(61771362),高等学校学科创新引智计划(B18039),陕西省重点科技创新团队计划
详细信息
    作者简介:

    张维:男,1992年生,博士生,研究方向为机器学习及其在雷达目标识别方面的应用

    杜兰:女,1980年生,教授,博士生导师,研究方向为统计信号处理、雷达信号处理、机器学习及其在雷达目标检测与识别方面的应用

    通讯作者:

    杜兰 dulan@mail.xidian.edu.cn

  • 中图分类号: TN957.51

An Ensembling One-class Classification Method Based on Beta Process Max-margin One-class Classifier

Funds: The National Natural Science Foundation of China (61771362), The 111 Project (B18039), Shaanxi Innovation Team Project
  • 摘要: 一类分类是一种将目标类样本和其他所有的非目标类样本区分开的分类方法。传统的一类分类方法针对所有训练样本建立一个分类器,忽视了数据的内在结构,在样本分布复杂时,其分类性能会严重下降。为了提升复杂分布情况下的分类性能,该文提出一种集成式Beta过程最大间隔一类方法。该方法利用Dirichlet过程混合模型(DPM)对训练样本聚类,同时在每一个聚类学习一个Beta过程最大间隔一类分类器。通过多个分类器的集成,可以构造出一个描述能力更强的分类器,提升复杂分布下的分类效果。DPM聚类模型和Beta过程最大间隔一类分类器在同一个贝叶斯框架下联合优化,保证了每一个聚类样本的可分性。此外,在Beta过程最大间隔一类分类器中,加入了服从Beta过程先验分布的特征选择因子,从而可以降低特征冗余度以及提升分类效果。基于仿真数据、公共数据集和实测SAR图像数据的实验结果证明了所提方法的有效性。
  • 一类分类是一种将感兴趣的目标类样本和其他所有不感兴趣的非目标样本区分开的分类方法[1]。和传统两类分类需要完备的两类训练样本不同,一类分类器在训练时只需要目标类样本,因此可以解决在类样本数据不均衡或某一类样本缺失时,两类分类器无法训练的问题。近年来,一类分类器广泛用于各种任务中,如数据异常检测[2]、机场异物检测[3]、网络流量异常检测 [4]、异常行为检测[5]、虚拟网络切片异常检测[6]以及高光谱图像异常检测[7]等。

    一般来说,目前常见的一类分类方法可以划分为5类[8]:(1)基于概率的方法;(2)基于距离的方法;(3)基于重构的方法;(4)基于域的方法;(5)基于信息论的方法。基于概率的方法假设目标类样本服从某一种概率分布,并利用训练样本估计目标类样本的概率密度函数。当测试样本的概率密度函数值大于某一阈值时,就认为该测试样本是目标类样本。常见的概率密度函数有高斯分布、混合高斯分布和学生氏分布等。基于距离的方法一般通过定义一个距离度量函数来衡量两个样本之间的相似度,当测试样本和训练样本集的最小距离度量小于某个阈值时,认为该测试样本是目标类样本。均值聚类[9](K-means clustering)就是一种典型的基于距离的一类分类方法。基于重构的方法首先利用训练样本学习一个目标类样本的表示模型,然后将样本在该表示模型下的重构误差作为判断准则,即重构误差小于某一阈值时,样本属于目标类。自编码(Auto-Encoder, AE)模型[9]就是一种常用的基于重构的一类分类方法。基于域的方法通过训练目标样本学习了目标类样本的分布边界,即目标类样本的分布范围,当测试样本位于该范围之内时,该样本为目标类,反之则为非目标类。一类支持向量机[10](One-Class Support Vector Machine, OCSVM)和一类支持向量数据描述[11](One-Class Support Vector Data Description, OC-SVDD)就是两种经典的基于域的一类分类方法。基于信息论的方法通过定义一个信息量,如熵、相对熵,来度量两个样本之间的相似度,且信息量越大,两个样本之间的相似度越小。当测试样本与训练目标样本集的最大信息量小于某个阈值时,该样本是目标类样本。

    虽然上述的一类分类方法在很多应用中都取得了不错的效果,但是这些方法针对整个训练样本集仅仅建立了一个分类器,在样本分布复杂时,例如样本分布为多模分布,这些分类器的分类性能会不同程度地下降。为了提升复杂分布下的分类性能,本文提出了一种基于Beta过程最大间隔一类分类器的集成式一类分类方法。该方法利用Dirichlet过程混合模型(Dirichlet Process Mixture, DPM)对训练样本聚类,并在每个聚类学习一个Beta过程最大间隔一类分类器。通过多个分类器的集成,可以构造一个描述能力更强的分类器,从而提升复杂分布下的一类分类性能。DPM聚类模型和分类模型在同一个贝叶斯框架下联合优化,保证了每一个聚类的可分性。此外,在Beta过程最大间隔一类分类器中,加入了服从Beta过程先验分布的特征选择因子,从而可以选择可分性最好的特征,降低特征冗余度以及提升鉴别效果。仿真数据、公共数据集和实测SAR图像数据的实验结果证明:相比于其他相关的一类分类器,所提方法具有更好的分类效果。

    DP是在文献[12]中于1973年提出的一种用于非参数贝叶斯模型的随机过程。若G服从DP,那么G可以表示成

    GDP(G0,α) (1)

    其中,G0是基分布,α是聚集参数。然而采用DP聚类时,只能将具有相同特征值的样本聚为一类,这样的聚类方式不合理。因此,文献[13]提出了DPM模型。式(2)是DPM的截断stick-breaking表示方式,其定义为

    vcBeta(vc;1,α),{Θc}Cc=1G0πc(v)=vcc1j=1(1vj),ziMulti(zi;π)xi|zi,{Θc}Cc=1F(xi;Θzi),i=1,2,···,N} (2)

    其中,Beta(vc;1,α)表示vc是服从参数为1和α的Beta分布的随机变量,Θc是服从基分布G0的随机变量,zi是样本xi的聚类指示因子,Multi(zi;π)表示zi是服从参数为π的多项式分布,F(xi;Θzi)表示第zi个聚类样本xi服从参数为ΘziF分布,C表示最大的聚类个数。

    OCSVM作为一种基于域的一类分类方法,寻找的是这样一个分类超平面来确定目标类样本的边界:(1)所有的训练样本都位于超平面的上方;(2)同时原点到超平面的距离最大。原点到超平面的最大距离称为“最大间隔”,因此OCSVM也称为最大间隔一类分类器。OCSVM的优化问题如式(3)

    minw,ξi,ρ12w2+1ηNiξiρs.t.(wTϕ(xi))ρξi,ξi0,i} (3)

    其中,w是超平面的斜率,ρ为超平面的截距,ξi为松弛变量,N为训练样本数,η为超参数,ϕ()为高斯核变换,且κ(xi,xj)=ϕ(xi),ϕ(xj)=exp(xixj22/2σ2)

    超平面f(x)=wTϕ(x)ρ=0ˆf(x)=wTϕ(x)1=0唯一的区别就是超平面f(x)可以经过原点,而ˆf(x)不行。但是在OCSVM分类器中,学习的超平面是不能经过原点的,因此可以用ˆf(x)来代替f(x)从而减少需要学习的参数。因此优化问题式(3)可以转为优化问题式(4)

    minw,ξi12w2+1ηNiξi1s.t.(wTϕ(xi))1ξi,ξi0,i} (4)

    进一步,优化问题式(4)可以改写成无约束条件的形式

    minwd(w)=12w2+2limax(1wTϕ(xi),0) (5)

    其中,l=1/ηN

    根据文献[14]的思想,采用数据增强技术[15]引入隐变量λ,那么最优参数wopt可表示为

    wopt=p(w,λ|ϕ(x))dλdw (6)

    其中,p(w,λ|ϕ(x))p(ϕ(x),λ|w)p(w)iexp{(llwTϕ(xi)+λi)2/2λi}/2πλi×exp(wTw/2)

    式(6)的积分可以采用马尔可夫链蒙特卡罗(Markov Chain Monte Carlo, MCMC)算法结合吉布斯采样[16],就可以得到最优的参数wopt。然而,在式(6)中,高斯核变换ϕ(xi)没有显式的表达,导致参数无法求解。为了解决这个问题,本文提出了一种新的特征变换方式:

    ϕ(xi)=˜xi=[κ(xi,x1),κ(xi,x2),···,κ(xi,xN)] (7)

    从高斯核函数的表达式可以看出,如果两个样本xixj相近,那么κ(xi,xj)的值会接近1,反之κ(xi,xj)会趋近于0。然而,从式(7)可以看出,如果训练样本数量较大,那么变换后样本特征维度会很高。为了降低变换后特征的冗余度以及选择最具可分性的特征,本文加入了一个二值特征选择因子变量γ={γ1,γ2,···,γN},其中γibern(πi), πiBeta(a0,b0)bern-Beta分层先验是Beta过程的一种有限近似,因此二值特征选择因子变量的先验分布可以近似认为服从Beta过程先验。根据稀疏先验思想,特征选择因子变量γ={γ1,γ2,···,γN}中的大部分元素会为0,从而可以降低特征变换后的特征冗余度。另外,特征选择因子变量和一类分类器的参数联合优化,可以保证选出最具可分性的特征。因此,最终的Beta过程最大间隔一类分类器模型为

    wN(w;0,I),γibern(πi),πiBeta(a0,b0),˜xi,λi|w,γ12πλiexp{(llwT(γ˜xi)+λi)22λi} (8)

    集成式Beta过程最大间隔一类分类器是DPM模型和Beta过程最大间隔一类分类器的结合。在集成式Beta过程最大间隔一类分类器中,训练样本首先通过DPM模型聚类,然后在每个聚类学习一个Beta过程最大间隔一类分类器。在DPM模型中,假设每个聚类的数据服从高斯分布F(xi;Θc)=N(xi;uc,Σc),根据共轭先验的思想,基分布G0为Norm-Wishart(NW)分布\left\{ {{{{u}}_c},{{{\varSigma}} _c}} \right\}\sim {\rm{NW}}  \left( {{{u}}_c},  {{{\varSigma}} _c};{{{u}}_0},{{{\varSigma}} _0},{\beta _0},{\gamma _0} \right)。因此集成的Beta过程最大间隔一类分类器的模型可以表示为

     vcBeta(vc;1,α),{uc,Σc}Cc=1NW(uc,Σc;u0,Σ0,β0,γ0)πc(v)=vcc1j=1(1vj),ziMulti(zi;π)xi|zi,{uc,Σc}Cc=1N(xi;uzi,Σzi)} (9)
    {wc}Cc=1N(wc;0,I),γkbern(πk),πkBeta(a0,b0)˜xi,λi|zi,{wc}Cc=1,γ12πλiexp{(llwziT(γ˜xi)+λi)22λi}} (10)

    其中,式(9)是DPM聚类模型,式(10)是Beta过程最大间隔一类分类器模型。图1给出了集成的Beta过程最大间隔一类分类器的图模型,其中红色虚线框表示聚类模型,蓝色虚线框表示贝叶斯最大间隔一类分类器模型。从图1可以看出,聚类模型和分类模型通过聚类标号联系在一起,从而实现联合优化。图2给出了集成式Beta过程最大间隔一类分类器流程图。

    图 1  集成式Beta过程最大间隔一类分类器的概率图模型
    图 2  集成式Beta过程最大间隔一类分类器流程图

    根据式(9)和式(10),可以得到全数据的伪后验分布形式为

    p({wc}Cc=1,{uc,Σc}Cc=1,γ,π,v,λ,z|x,˜x)p({wc}Cc=1,{uc,Σc}Cc=1,γ,π,v,λ,z,x,˜x)=p(x|{uc,Σc}Cc=1,z)Cc=1p(uc,Σc|u0,Σ0,β0,γ0)p(z|v)p(v|α0)Cc=1p(˜x,λ|wc,γ)p(wc)p(γ|π)p(π) (11)

    根据式(11),可以得到各个参数的条件后验分布,然后利用MCMC算法结合吉布斯采样,就可以得到最终的模型参数。

    对于一个测试样本x,其标签获取的方式如下:首先根据第t次采样收集到的参数vt, {utc,Σtc}Cc=1,计算样本的聚类标号zt;然后对样本x特征变换,得到变换后的测试样本;最后根据第t次采样收集到的参数wtztγt,计算最终的类别标签y

    ztMulti(T1,t,T2,t,···,TC,t)Tc,t=p(zt=c|)πtc(vt)N(x;utc,Σtc)˜x=[κ(x,x1),κ(x,x2),···,κ(x,xN)]y=sign(1TTburninTt=Tburnin+120(<wtzt,(γt˜xt)>1))} (12)

    其中,wtzt表示第t次采样收集到的第zt个聚类中分类器的斜率。至此,本文从理论上对整个集成的Beta过程最大间隔一类分类器的模型建立、模型求解进行了推导,实际应用时,整个分类框架可以总结为训练和测试两个过程,框架如图2所示。训练过程,先对训练样本进行特征提取,再用吉布斯采样MCMC算法对模型参数进行估计;测试过程,先对测试样本进行特征提取,然后对测试样本的聚类标号进行多次采样,对于每一次采样,确定测试样本所属聚类后,根据该聚类的一类分类器进行分类,最后给出的是多次判决的综合结果。

    本节分别在公共数据集和实测SAR图像数据上验证所提方法的有效性。在实验中,吉布斯采样的参数设置为:T=6000, Tburnin=3000,采样间隔Tspace=10,因此能收集到300组采样数据。DPM聚类中的最大聚类个数C=10,Norm-Wishart分布的超参数{uc,Σc}Cc=1NW(uc,Σc;u0,Σ0,β0,γ0)设置为NW(uc,Σc;ux,Σx,1,d),其中uxΣx为训练样本的均值向量和协方差矩阵,d为训练样本的原始维度;DPM聚类中Beta分布的超参数设为α=0.5

    为了更好地可视化聚类以及分类界面,本文从混合高斯分布中采样了一些2维训练样本。训练样本的分布如图3所示。图4给出了基于DMP模型的聚类结果以及每个聚类的鉴别边界,图中黑色的实线表示每个聚类的鉴别边界。从图4可以看出训练样本自动聚成了6类,这说明DPM模型确实可以自动确定聚类个数且很好地将服从相同分布的样本聚为一类。另外,从6个黑色实线圈可以看出,每个聚类学到的鉴别边界完整地包裹了这个聚类的目标样本。因此,提出模型可以很好地区分属于每个聚类的目标样本和非目标样本,证明了该方法的有效性。

    图 3  训练样本2维分布图
    图 4  聚类结果和每个聚类鉴别界面可视图

    本节实验采用的数据集为从UCI Machine Learning Repository中获取的Benchmark 数据集,该数据集包含了多种不同特征维数、不同规模的数据。实验所用数据集如表1所示。

    表 1  实验所用公共数据集介绍
    数据集类别数目标类别特征维度训练样本数测试目标样本数测试非目标样本数
    Australia21142159292
    Landsat64, 5, 6365004181082
    Waveform31, 22133116521696
    Pageblocks511024562457560
    下载: 导出CSV 
    | 显示表格

    实验采用了9种现存的对比方法:主成分分析(PCA)[17]K均值聚类(K-means)[9],线性SVDD(L-SVDD)[11],高斯核形式的一类SVM(KOCSVM)[10],最小生成树(MST)[18],自组织映射(SOM)[19],自编码网络(AE)[9],MPM [20]和LPDD[21]。另外为了分析提出方法中特征选择因子的影响,我们去掉提出方法中的特征选择因子变量,并将去掉特征选择因子变量后的方法命名为集成式最大间隔一类分类器,简称En-MMOCC。通过比较En-MMOCC和提出方法,来分析特征选择对实验结果的影响。

    本文采用3个指标来描述分类器的性能:鉴别准确率,F1分数和AUC值。通过对训练数据和测试数据进行20次数据划分,然后给出20次随机试验的平均结果。不同方法在5组公共数据集上的实验结果如表2表5所示。从表2表5可以看出:在相同特征下,本文提出的分类器在4个数据集上都获得了最高的准确率,F1分数和AUC值,证明所提分类器确实能提高目标鉴别的效果。另外,本文方法可以看作基于聚类的一类分类方法和基于域的一类分类方法的结合,相比于基于聚类的一类分类方法K-means以及基于域的一类分类方法KOCSVM,本文方法的分类性能要远远好于上述两种方法,也说明了这种结合可以很好地提升一类分类性能。最后,从表2表5可以明显看出,En-MMOCC的3个分类指标要明显低于本文方法,特别是在训练样本数较多的数据集上,说明了特征选择因子在提出方法中的重要性。

    表 2  不同方法在Waveform数据集上的3个指标平均值(%)
    指标L-SVDDKOCSVMK-meansPCAMSTSOMAEMPMLPDDEn-MMOCC本文方法
    准确率57.0564.1466.9455.2661.1967.7458.0072.4474.2575.9277.22
    F1分数67.1259.9471.9266.1870.7068.3056.4065.6671.0274.1275.11
    AUC71.1969.6376.7159.5073.5773.8361.2683.9882.0183.6785.00
    下载: 导出CSV 
    | 显示表格
    表 3  不同方法在Landsat数据集上的3个指标平均值 (%)
    指标L-SVDDKOCSVMK-meansPCAMSTSOMAEMPMLPDDEn-MMOCC本文方法
    准确率79.7285.9882.4071.2873.2680.0686.0185.0486.9288.0690.30
    F1分数71.2573.2573.7663.2765.8670.2971.8469.9574.5477.8781.79
    AUC91.5490.8892.7280.1187.2587.7692.3589.9691.6992.2194.18
    下载: 导出CSV 
    | 显示表格
    表 4  不同方法在Australia数据集上的3个指标平均值 (%)
    指标L-SVDDKOCSVMK-meansPCAMSTSOMAEMPMLPDDEn-MMOCC本文方法
    准确率55.4170.7669.2966.0656.4161.1478.6181.9067.9981.4182.21
    F1分数66.6767.4474.6972.1367.9967.3377.6575.1867.5480.3681.71
    AUC74.4273.8482.5378.3266.2367.8483.1480.7371.7382.5784.16
    下载: 导出CSV 
    | 显示表格
    表 5  不同方法在Pageblocks数据集上的3个指标平均值 (%)
    指标L-SVDDKOCSVMK-meansPCAMSTSOMAEMPMLPDDEn-MMOCC本文方法
    准确率89.6390.6990.0689.2390.1989.7990.0687.7490.0991.0592.21
    F1分数93.3693.9193.7393.1793.9593.5093.6794.1793.7294.1595.22
    AUC95.6995.9995.7394.6890.0295.8495.6996.0095.2294.9996.03
    下载: 导出CSV 
    | 显示表格

    在本节用实测SAR图像数据来验证所提方法的有效性。实测SAR图像来自Sandia MiniSAR数据集。该数据集包含9幅SAR图像。通过CFAR技术,在9幅SAR图像中一共获得了248个目标切片以及98个杂波切片。图5给出了部分目标切片和杂波切片的示意图,其中第1行是目标切片,第2行是杂波切片。在248个目标切片中,随机选取150个目标切片作为训练样本集,剩下的98个目标切片和98个杂波切片构造测试样本集。

    图 5  CFAR之后的一些目标和杂波切片示例

    和3.2节一样,随机进行20次实验,然后计算20次实验平均的鉴别准确率、F1分数和AUC值,实验结果如表6所示。本文方法的鉴别准确率相比于对比方法的最高值大约有2%的提升,F1分数和AUC值也是最好的,说明相比于对比方法,本文方法不仅有好的鉴别性能,同时也具有较强的泛化能力。另外,和UCI数据集上的实验类似,本文方法的3个指标值也要高于En-MMOCC,证明了特征选择因子在提出方法中的重要性。

    表 6  不同方法在实测SAR数据集上的3个指标平均值 (%)
    指标L-SVDDKOCSVMK-meansPCAMSTSOMAEMPMLPDDEn-MMOCC本文方法
    准确率82.1484.7284.8273.8384.1380.2383.4284.6783.2485.7786.12
    F1分数85.0587.8686.9779.1187.0582.3185.9886.8585.1188.0088.52
    AUC87.3088.1888.4677.9989.0889.0587.6589.0888.3688.3589.59
    下载: 导出CSV 
    | 显示表格

    (1) 吉布斯采样中的超参数:吉布斯采样的超参数设置是为了保证算法收敛,为了验证本文方法中算法的收敛性,以Australia数据集为例,在图6中分别给出了分类正确率随超参数Tburnin, TnumTspace的变化曲线图。从图6(a)可以看出,在burn-in阶段的迭代次数Tburnin>2000后,训练样本的分类正确率已经稳定,基本不再变化,说明模型参数已经稳定。因此,在实验中将超参数Tburnin设置为3000就能保证在所有数据集上吉布斯采样算法均已收敛。从图6(b)可以看出,在collection阶段,当采样次数Tnum>250后,测试分类正确率收敛到一个稳定的值,基本不再变化,说明模型参数已经稳定。因此,当超参数Tnum>250时,算法已经收敛,在实验中将超参数Tnum设置为300。从图6(c)可以看出,随着采样间隔Tspace的变化,测试分类正确率基本不变。因此,超参数Tspace对实验结果基本没有影响。采样间隔Tspace的作用是消除collection阶段相邻两次采样值之间的相关性,一般设置为一个大于1的常数即可。

    图 6  Australia数据集上分类正确率随超参数Tburnin, TnumTspace的变化曲线图

    (2) DPM聚类模型的超参数:根据文献[22]的理论指导,Normal-Wishart分布的超参数{\rm{NW}}\left( {{{u}}_c},{{{\varSigma}} _c};{{{u}}_0},{{{\varSigma}} _0},{\beta _0},{\gamma _0} \right)设置为NW(uc,Σc;ux,Σx,1,d)是最合适的,其中uxΣx为训练样本的均值向量和协方差矩阵,d为训练样本的原始维度。因此,该分布的超参数也是随数据集变化的。对于Beta分布中的超参数α,取值范围为[0,1]。由于缺乏关于该参数的先验信息,因此根据相关经验,本文将α的取值设置为其对应的中间值,即α=0.5。文献[23]的研究表明,在分层贝叶斯模型中,一些超参数的取值对最终的实验结果影响很小。为了验证该理论,本文以Australia数据集数据集为例,在图7给出了不同α取值下的测试分类正确率变化曲线。可以看出,超参数α的取值对实验结果基本没有影响,从而验证了文献[23]中理论的正确性。一般来说,DPM中的最大聚类个数C可以设置为大于数据实际聚类个数的任意值。不同的数据集的实际聚类个数是不同的,因此对于不同数据,可以根据经验设置不同的最大聚类个数C

    图 7  不同α取值下的测试分类正确率变化曲线

    (3)Beta过程最大间隔一类分类器的超参数:在该部分,需要设置的超参数是变量πk的先验分布πkBeta(a0,b0)中的a0b0。理论表明:a0的值越小,b0的值越大,对应的特征选择因子变量γ中0的个数越多,因此选择的特征越少;反之,a0的值越大,b0的值越小,对应的特征选择因子变量γ中1的个数越多,即选择的特征越多。若选择的特征太稀疏,会去掉一些可分性强的特征,降低分类性能;若保留的特征太多,会造成特征冗余,导致“维度灾难”。因此,我们需要设置合适的a0b0值,既能保留可分性的特征,又能去除冗余的特征。为了分析超参数a0b0对实验结果的影响,本文以Australia数据集为例,在图8分别给出了a0b0不同取值下测试分类正确率的曲线图。从图8可以看出,当a0b0过小或者过大时,都会造成识别率的下降。在实验中,通过交叉验证来确定这两个模型超参数。

    图 8  不同和a0b0取值下,本文方法在Australia数据集的测试分类正确率曲线

    本节从训练和测试两个方面比较不同一类分类方法所需的计算时间。以Australia数据集和Landsat数据集为例,表7给出了不同一类分类方法在这两个数据集上所需的计算时间。整体来说,相比于Australia数据集,Landsat数据集训练样本数更多,样本维度也更高,因此,所有一类分类器在Landsat数据集上的计算时间要大于在Australia数据集上的。在训练阶段,L-SVDD, KOCSVM, PCA, K-means, MST, MPM和LPDD的计算时间要小于AE, SOM和本文方法。换句话说,本文方法的计算复杂度和AE以及SOM在同一数量级上。在测试阶段,本文方法和AE的计算复杂度也要大于其他对比方法。由于本文使用的是吉布斯采样来估计后验分布的参数,因此,本文方法的计算负担要大于一些对比方法,这是本文方法的一个不足之处。

    表 7  不同一类分类方法所需的计算时间(s)
    数据集L-SVDDKOCSVMK-meansPCAMSTSOMAEMPMLPDD本文方法
    Australia训练0.5100.8280.2900.4480.48923.08621.0110.3471.12237.432
    测试0.0970.2520.0240.0130.0490.0230.2770.0260.1870.535
    Landsat训练1.5721.8220.3630.5122.934122.611530.9211.17610.177531.735
    测试0.4110.5130.1200.1003.3490.10922.3620.2327.4525.323
    下载: 导出CSV 
    | 显示表格

    为了提升复杂分布下的一类分类性能,本文提出了一种集成的Beta过程最大间隔一类分类器。所提方法通过DPM模型对训练样本聚类,同时在每个聚类学习一个Beta过程最大间隔一类分类器。通过多个分类器的集成,可以构造出一个描述能力更强的强分类器,从而提升复杂分布下的一类分类性能。DPM模型和Beta过程最大间隔一类分类器在同一个贝叶斯框架下联合优化,保证每一个聚类的可分性。在一类分类器中,加入了1个服从Beta过程先验分布的特征选择因子,选择出最具有可分性的特征,降低特征冗余度以及提升鉴别效果。仿真数据、公共数据集和实测雷达数据的实验结果表明了本文方法的有效性。

  • 图  1  集成式Beta过程最大间隔一类分类器的概率图模型

    图  2  集成式Beta过程最大间隔一类分类器流程图

    图  3  训练样本2维分布图

    图  4  聚类结果和每个聚类鉴别界面可视图

    图  5  CFAR之后的一些目标和杂波切片示例

    图  6  Australia数据集上分类正确率随超参数Tburnin, TnumTspace的变化曲线图

    图  7  不同α取值下的测试分类正确率变化曲线

    图  8  不同和a0b0取值下,本文方法在Australia数据集的测试分类正确率曲线

    表  1  实验所用公共数据集介绍

    数据集类别数目标类别特征维度训练样本数测试目标样本数测试非目标样本数
    Australia21142159292
    Landsat64, 5, 6365004181082
    Waveform31, 22133116521696
    Pageblocks511024562457560
    下载: 导出CSV

    表  2  不同方法在Waveform数据集上的3个指标平均值(%)

    指标L-SVDDKOCSVMK-meansPCAMSTSOMAEMPMLPDDEn-MMOCC本文方法
    准确率57.0564.1466.9455.2661.1967.7458.0072.4474.2575.9277.22
    F1分数67.1259.9471.9266.1870.7068.3056.4065.6671.0274.1275.11
    AUC71.1969.6376.7159.5073.5773.8361.2683.9882.0183.6785.00
    下载: 导出CSV

    表  3  不同方法在Landsat数据集上的3个指标平均值 (%)

    指标L-SVDDKOCSVMK-meansPCAMSTSOMAEMPMLPDDEn-MMOCC本文方法
    准确率79.7285.9882.4071.2873.2680.0686.0185.0486.9288.0690.30
    F1分数71.2573.2573.7663.2765.8670.2971.8469.9574.5477.8781.79
    AUC91.5490.8892.7280.1187.2587.7692.3589.9691.6992.2194.18
    下载: 导出CSV

    表  4  不同方法在Australia数据集上的3个指标平均值 (%)

    指标L-SVDDKOCSVMK-meansPCAMSTSOMAEMPMLPDDEn-MMOCC本文方法
    准确率55.4170.7669.2966.0656.4161.1478.6181.9067.9981.4182.21
    F1分数66.6767.4474.6972.1367.9967.3377.6575.1867.5480.3681.71
    AUC74.4273.8482.5378.3266.2367.8483.1480.7371.7382.5784.16
    下载: 导出CSV

    表  5  不同方法在Pageblocks数据集上的3个指标平均值 (%)

    指标L-SVDDKOCSVMK-meansPCAMSTSOMAEMPMLPDDEn-MMOCC本文方法
    准确率89.6390.6990.0689.2390.1989.7990.0687.7490.0991.0592.21
    F1分数93.3693.9193.7393.1793.9593.5093.6794.1793.7294.1595.22
    AUC95.6995.9995.7394.6890.0295.8495.6996.0095.2294.9996.03
    下载: 导出CSV

    表  6  不同方法在实测SAR数据集上的3个指标平均值 (%)

    指标L-SVDDKOCSVMK-meansPCAMSTSOMAEMPMLPDDEn-MMOCC本文方法
    准确率82.1484.7284.8273.8384.1380.2383.4284.6783.2485.7786.12
    F1分数85.0587.8686.9779.1187.0582.3185.9886.8585.1188.0088.52
    AUC87.3088.1888.4677.9989.0889.0587.6589.0888.3688.3589.59
    下载: 导出CSV

    表  7  不同一类分类方法所需的计算时间(s)

    数据集L-SVDDKOCSVMK-meansPCAMSTSOMAEMPMLPDD本文方法
    Australia训练0.5100.8280.2900.4480.48923.08621.0110.3471.12237.432
    测试0.0970.2520.0240.0130.0490.0230.2770.0260.1870.535
    Landsat训练1.5721.8220.3630.5122.934122.611530.9211.17610.177531.735
    测试0.4110.5130.1200.1003.3490.10922.3620.2327.4525.323
    下载: 导出CSV
  • [1] TAX D M J. One-class classification: Concept-learning in the absence of counter-examples[D]. [Ph. D. dissertation], Delft University of Technology, 2001: 13–19.
    [2] 王布宏, 罗鹏, 李腾耀, 等. 基于粒子群优化多核支持向量数据描述的广播式自动相关监视异常数据检测模型[J]. 电子与信息学报, 2020, 42(11): 2727–2734. doi: 10.11999/JEIT190767

    WANG Buhong, LUO Peng, LI Tengyao, et al. ADS-B anomalous data detection model based on PSO-MKSVDD[J]. Journal of Electronics &Information Technology, 2020, 42(11): 2727–2734. doi: 10.11999/JEIT190767
    [3] 王宝帅, 兰竹, 李正杰, 等. 毫米波雷达机场跑道异物分层检测算法[J]. 电子与信息学报, 2018, 40(11): 2676–2683. doi: 10.11999/JEIT180200

    WANG Baoshuai, LAN Zhu, LI Zhengjie, et al. A hierarchical foreign object debris detection method using millimeter wave radar[J]. Journal of Electronics &Information Technology, 2018, 40(11): 2676–2683. doi: 10.11999/JEIT180200
    [4] 董书琴, 张斌. 基于深度特征学习的网络流量异常检测方法[J]. 电子与信息学报, 2020, 42(3): 695–703. doi: 10.11999/JEIT190266

    DONG Shuqin and ZHANG Bin. Network traffic anomaly detection method based on deep features learning[J]. Journal of Electronics &Information Technology, 2020, 42(3): 695–703. doi: 10.11999/JEIT190266
    [5] 陈莹, 何丹丹. 基于贝叶斯融合的时空流异常行为检测模型[J]. 电子与信息学报, 2019, 41(5): 1137–1144. doi: 10.11999/JEIT180429

    CHEN Ying, HE Dandan. Spatial-temporal stream anomaly detection based on Bayesian fusion[J]. Journal of Electronics &Information Technology, 2019, 41(5): 1137–1144. doi: 10.11999/JEIT180429
    [6] 王威丽, 陈前斌, 唐伦. 虚拟网络切片中的在线异常检测算法研究[J]. 电子与信息学报, 2020, 42(6): 1460–1467. doi: 10.11999/JEIT190531

    WANG Weili, CHEN Qianbin, and TANG Lun. Online anomaly detection for virtualized network slicing[J]. Journal of Electronics &Information Technology, 2020, 42(6): 1460–1467. doi: 10.11999/JEIT190531
    [7] 孟令博, 耿修瑞. 基于协峭度张量的高光谱图像异常检测[J]. 电子与信息学报, 2019, 41(1): 150–155. doi: 10.11999/JEIT180280

    MENG Lingbo and GENG Xiurui. A hyperspectral imagery anomaly detection algorithm based on cokurtosis tensor[J]. Journal of Electronics &Information Technology, 2019, 41(1): 150–155. doi: 10.11999/JEIT180280
    [8] PIMENTEL M A F, CLIFTON D A, CLIFTON L, et al. A review of novelty detection[J]. Signal Processing, 2014, 99: 215–249. doi: 10.1016/j.sigpro.2013.12.026
    [9] LAMPARIELLO F and SCIANDRONE M. Efficient training of RBF neural networks for pattern recognition[J]. IEEE Transactions on Neural Networks, 2001, 12(5): 1235–1242. doi: 10.1109/72.950152
    [10] SCHOLKOPF B and SMOLA A J. Learning with Kernels[M]. Cambridge: MIT Press, 2001: 469–513.
    [11] TAX D M J and DUIN R P W. Support vector domain description[J]. Pattern Recognition Letters, 1999, 20(11/13): 1191–1199. doi: 10.1016/s0167-8655(99)00087-2
    [12] FERGUSON T S. A Bayesian analysis of some nonparametric problems[J]. Annals of Statistics, 1973, 1(2): 209–230. doi: 10.1214/aos/1176342360
    [13] BLEI D M and JORDAN M I. Variational inference for Dirichlet process mixtures[J]. Bayesian Analysis, 2006, 1(1): 121–143. doi: 10.1214/06-BA104
    [14] SOLLICH P. Bayesian methods for support vector machines: Evidence and predictive class probabilities[J]. Machine Learning, 2002, 46(1–3): 21–52. doi: 10.1023/a:1012489924661
    [15] POLSON N G and SCOTT S L. Data augmentation for support vector machines[J]. Bayesian Analysis, 2011, 6(1): 1–23. doi: 10.1214/11-BA601
    [16] GEMAN S and GEMAN D. Stochastic relaxation, Gibbs distributions, and the Bayesian restoration of images[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1984, PAMI-6(6): 721–741. doi: 10.1109/TPAMI.1984.4767596
    [17] WOLD S, ESBENSEN K, and GELADI P. Principal component analysis[J]. Chemometrics and Intelligent Laboratory Systems, 1987, 2(1/3): 37–52. doi: 10.1016/0169-7439(87)80084-9
    [18] JUSZCZAK P, TAX D M J, PE¸KALSKA E, et al. Minimum spanning tree based one-class classifier[J]. Neurocomputing, 2009, 72(7/9): 1859–1869. doi: 10.1016/j.neucom.2008.05.003
    [19] KOHONEN T and SOMERVUO P. Self-organizing maps of symbol strings[J]. Neurocomputing, 1998, 21(1/3): 19–30. doi: 10.1016/s0925-2312(98)00031-9
    [20] LANCKRIET G R G, EL GHAOUI L, and JORDAN M I. Robust novelty detection with single-class MPM[C]. The 15th International Conference on Neural Information Processing Systems, Vancouver, British Columbia, Canada, 2002: 929–936.
    [21] PĘKALSKA E, TAX D M J, and DUIN R P W. One-class LP classifier for dissimilarity representations[C]. Proceedings of the 15th International Conference on Neural Information Processing Systems, British Columbia, Canada, 2002: 777–784.
    [22] DUNSON D B and PARK J H. Kernel stick-breaking processes[J]. Biometrika, 2008, 95(2): 307–323. doi: 10.1093/biomet/asn012
    [23] KRUSCHKE J K. Bayesian data analysis[J]. Wiley Interdisciplinary Reviews: Cognitive Science, 2010, 1(5): 658–676. doi: 10.1002/wcs.72
  • 期刊类型引用(2)

    1. 李根,李文海,刘勇,李睿峰,吴忠德. 航空电子设备PHM关键技术研究综述. 装备环境工程. 2025(03): 33-43 . 百度学术
    2. 苏淑敏,杜珂,于树海,梁元清,王斌. 基于传感器数据采集的接地刀闸机械位置检测. 机械与电子. 2023(12): 38-42 . 百度学术

    其他类型引用(0)

  • 加载中
图(8) / 表(7)
计量
  • 文章访问数:  815
  • HTML全文浏览量:  397
  • PDF下载量:  56
  • 被引次数: 2
出版历程
  • 收稿日期:  2020-01-19
  • 修回日期:  2020-11-12
  • 网络出版日期:  2020-11-18
  • 刊出日期:  2021-05-18

目录

/

返回文章
返回