Loading [MathJax]/jax/output/HTML-CSS/jax.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

融合多属性决策和深度Q值网络的反导火力分配方法

谢俊伟 方峰 彭冬亮 任金磊 王昌平

谢俊伟, 方峰, 彭冬亮, 任金磊, 王昌平. 融合多属性决策和深度Q值网络的反导火力分配方法[J]. 电子与信息学报, 2022, 44(11): 3833-3841. doi: 10.11999/JEIT211136
引用本文: 谢俊伟, 方峰, 彭冬亮, 任金磊, 王昌平. 融合多属性决策和深度Q值网络的反导火力分配方法[J]. 电子与信息学报, 2022, 44(11): 3833-3841. doi: 10.11999/JEIT211136
Wang Jian-xin, Zeng Qing-ji, Zhang Zhi-zhong, Wang Sheng-hua, Xiao Shi-lin. QoS Supporting Contention Resolution for Optical Burst Switched Networks[J]. Journal of Electronics & Information Technology, 2004, 26(6): 1000-1004.
Citation: XIE Junwei, FANG Feng, PENG Dongliang, REN Jinlei, WANG Changping. Weapon-Target Assignment Optimization Based on Multi-attribute Decision-making and Deep Q-Network for Missile Defense System[J]. Journal of Electronics & Information Technology, 2022, 44(11): 3833-3841. doi: 10.11999/JEIT211136

融合多属性决策和深度Q值网络的反导火力分配方法

doi: 10.11999/JEIT211136
基金项目: 国家自然科学基金 (61673146),浙江省属高校科研基金(GK209907299001-021)
详细信息
    作者简介:

    谢俊伟:男,博士生,研究方向为智能决策与控制

    方峰:男,讲师,博士,研究方向为飞行器协同制导与控制、智能决策

    彭冬亮:男,教授,博士,博士生导师,研究方向为信息融合、检测与估计

    任金磊:男,工程师,硕士,研究方向为飞行器设计、弹道导航制导控制、智能控制

    王昌平:男,硕士生,研究方向为导弹协同制导

    通讯作者:

    方峰 fangf@hdu.edu.cn

  • 中图分类号: TP183; TJ761.7

Weapon-Target Assignment Optimization Based on Multi-attribute Decision-making and Deep Q-Network for Missile Defense System

Funds: The National Natural Science Foundation of China(61673146), Zhejiang Provincial University Research Foundation (GK209907299001-021)
  • 摘要: 针对中大规模武器-目标分配(WTA)决策空间复杂度高、求解效率低的问题,该文提出一种基于多属性决策和深度Q网络(DQN)的WTA优化方法。建立基于层次分析法(AHP)的导弹威胁评估模型,引入熵值法表征目标属性差异,提升威胁评估客观性。根据最大毁伤概率准则,建立基于DQN的WTA分段决策模型,引入经验池均匀采样策略,确保各类目标分配经验的等概率抽取;设计综合局部和全局收益的奖励函数,兼顾DQN火力分配模型的训练效率和决策准确性。仿真结果表明,相较于传统启发式方法,该方法具备在线快速求解大规模WTA问题的优势,且对于WTA场景要素变化具有较好的鲁棒性。
  • 雷达截获接收机对雷达信号的有效检测是实现电子战胜利的重要一环,低信噪比下对非合作低截获概率(Low Probability of Intercept, LPI)雷达信号的检测具备极高的理论研究及应用价值[1]。LPI雷达具有低峰值功率、大时宽带宽积、频率变化等出众优点,且多采用复杂信号调制方式,具有出色的隐蔽性以及抗干扰性,在非合作方式下,信道环境以及信号参数未知,使非合作方的雷达截获接收机难以感知和获取LPI雷达信号,以致传统信号检测的算法性能下降[2]。国内外学者主要从能量检测法、时频特性分析法、循环平稳分析法、分数傅里叶变换等角度出发,探索有效检测LPI雷达信号问题的方式,取得了一定的研究成果。

    能量检测法是在高斯白噪声背景下,在信号的时域或者频域进行能量的累计,当积累的能量大于设定的检测门限时认为信号存在,是一种无需信号先验信息的盲检测法,但当信噪比较低时,能量检测法检测效果一般。文献[3]提出了一种利用基于积分旋转因子的径向积分方法对LPI雷达信号时频图像进行信号检测,随着信噪比的降低,该方法对COSTAS频率编码信号的检测能力下降极为明显。文献[4]基于分段相干的思想采用变窗长相干平均法提高信噪比的增益,然后利用循环平稳法完成对线性调频连续波信号的检测,但该方法需要对信号进行长时间积累。文献[5-8]利用分数阶傅里叶变换抗噪性能好、对线性调频类信号具有最优检测性能的优点,实现了对线性调频信号(Linear Frequency Modulation, LFM)的检测以及多信号分量的有效分离,但是分数阶傅里叶变换需要2维搜索来求取最大值,只适应于线性调频类信号的检测。文献[9]研究了短波信道下跳频信号的检测,采用主分量分析与信道化处理来滤除噪声和干扰,最终提取特征统计量,此方法属于非盲检测,须预先已知跳频信号的频率集或跳速。以上方法缺乏对不同调制信号的泛化能力,在实际的战场环境下应用受限。

    近年来,深度学习由于其高效的计算能力被广泛应用于雷达信号调制方式识别等领域,为研究深度学习方法在信号检测领域的应用提供了新思路,文献[10]使用了改进的GoogLeNet和AlexNet网络对经过短时傅里叶变换的时频谱图进行训练,低信噪比下可以对多种LPI雷达信号进行检测和识别,但该方法的运算量依然十分庞大。文献[11-13]中神经网络的输入形式大多数为图像,经过处理以图像形式表达的回波信号,虽然更适合人观察理解,但是也难免会丢失一些雷达信号本身更适合用深度学习网络结构提取和理解的特征。针对时频图像在预处理中特征保留不足问题,本文采用1维时域信号作为输入,可保留更多的可提取特征[14]。文献[15]根据奈曼皮尔逊检测准则,分析了似然比检测方法,在K分布海杂波背景下设计了基于最大特征值的雷达信号检测算法,为本文提供了新思路。

    本文从似然比检测方法的角度进行分析,提出了一种基于卷积神经网络(Convolutional Neural Networks, CNN)的LPI雷达信号检测方法,充分利用了卷积核与匹配滤波器(Matched Filter, MF)具有结构上的相似性的这一特性,将CNN引入雷达截获系统中,提高LPI雷达信号检测准确率。不同于传统匹配滤波器的构建是基于雷达方已知信号的,本文主要针对侦查接收情况下对非合作方的LPI雷达信号进行检测,利用多层卷积层构建同对不同调制信号具有一定泛化能力的卷积滤波器,完成对信号能量的积累,实现信号检测。卷积核的权值共享网络结构降低了网络模型的复杂度,同时具有高效的提取特征的能力,在一定程度上基于大数据的深度学习方法已经远远超越了传统的信号检测方法。

    设定雷达接收信号处于高斯白噪声环境下,截获的信号表示为

    x(t)=s(t)+n(t) (1)

    考虑一个雷达信号检测系统,在时间间隔(0,T)内,在二元信号的情况下,接收信号x(t)的两种假设表示为

    H0:x(t)=n(t),  0tTH1:x(t)=s(t)+n(t),0tT} (2)

    其中,s(t)为感兴趣的信号,噪声n(t)为功率谱密度为N0/2的零均值平稳加性白噪声。在假设Hj(j=0,1)为真的条件下,观测量(x(t)|Hj)的概率密度函数为p(x(t)|Hj),则似然比检测判决式为

    λ[x(t)]def=p(x(t)|H1)p(x(t)|H0)H1H0P(H0)(c10c00)P(H1)(c01c11)=η (3)

    cij(i,j=0,1)是代价因子,λ[x(t)]为似然比,η为似然比门限,取决于所选用的最佳准则。

    若输入的信号s(t)是能量为Es,幅度、频率相位等各个参数均已知的确知信号,匹配滤波器是最大信噪比准则下的最佳线性滤波器。根据匹配滤波器原理,滤波器的脉冲响应为h(t),系统函数为H(ω),公式为

    H(ω)=S(ω)ejωt0h(t)=s(t0t)} (4)

    SNR0=2Es/N0,此时输出信噪比最大。判决表达式(4)可以表示为

    lnλ[x(t)]=2N0T0x(t)s(t)dtEsN0H1H0lnη (5)

    最终判决表达式为

    l[x(t)]def=T0x(t)s(t)dtH1H0N02lnη+Es2def=γ (6)

    利用匹配滤波器构造式(6)的检测系统,结构如图1所示。

    图 1  匹配滤波器检测系统结构

    匹配滤波器能够使接收确知信号的输出信噪比最大,此时信号有效脉宽的长度也决定了输出信号能量的大小,可以通过判决门限实现对信号有无的检测,本文中以信号有效脉宽的长度来定义是否存在信号。匹配滤波器对振幅和时延参量不同的信号具有适应性,但对频移信号不具有适应性,所以无法实现对非合作方的LPI雷达信号进行有效检测。

    若雷达截获接收机获得的是非合作LPI雷达信号,式(1)中s(t)表示为Acos(ϕ(t)), ϕ(t)为雷达信号的瞬时相位,因此接收信号x(t)除噪声n(t)外仍含有其他未知参量,这种参量信号检测在统计学中属于复合假设检验。考虑一个雷达截获系统中,在时间间隔(0, T)内,高斯白噪声中二元信号的两种假设为

    H0:x(t)=n(t),  0tTH1:x(t)=s(t;θ)+n(t),0tT} (7)

    H0是简单假设检验,H1是复合假设检验,θ表示与假设H1有关的随机(未知)参量,那么式(3)的似然比检测判决式可以表示为

    λ[x(t)|θ]def=(θ)p(x(t)|θ;H1)p(θ)dθp(x(t)|H0)H1H0λ0 (8)

    在如式(8)所示的信号检测系统中,p(x(t)|θ;H1)是以随机参量θ为条件的概率密度函数。当代价因子满足c10c00=c01c11时,得到最大后验概率准则,式(3)可以表示为

    P(H1|x(t))H1H0P(H0|x(t)) (9)

    但是当θ包含带宽、载频、脉宽、到达时间等多个随机参量时,p(x(t)|θ;H1)和先验概率密度函数p(θ)未知,大量的随机参量使得较难给出精确的匹配滤波器。为了实现式(9)所示的判决功能,在低信噪比下仍具有较高的准确率,利用CNN设计一个信号检测模型,利用卷积核与匹配滤波器结构上的相似性,通过对大量模拟数据的学习提取信号特征,直接得到观测量的后验概率P(Hj|x(t))(j=0,1),对两个概率的比较得到判别结果,实现对LPI雷达信号的有效检测。

    雷达截获接收机在噪声中检测是否有信号,属于二元信号波形的检测,本质就是二分类问题。分类问题属于监督学习,若训练数据集为T={(x1,y1),(x2,y2),,(xN,yN)},学习系统由训练数据集学习一个分类器y=f(x)可对xN+1进行分类,预测其输出类别yN+1(0或1)。通过仿真数据对CNN的训练,模型中各层权重参数完成对信号的某些先验信息的提取,实现信号检测,主要利用卷积核与匹配滤波器结构上的相似性,利用不同卷积层的多个卷积核权重构造对不同参数的s(t;θ)具有泛化能力的卷积滤波器。同时卷积核的局部感受野和权值共享结构减少了权值个数,降低了网络模型的复杂度,加快了计算速度,降低了过拟合的风险,这使得CNN具有更高效的提取信号特征的能力。

    网络结构包含输入层、卷积层、池化层、全连接层、输出层;通过卷积层提取预处理过的信号数据的特征;通过稠密层激活函数计算各神经元的权重;通过池化层降维提取特征的关键信息;通过全连接层对提取的特征进行组合以得到输出,神经网络优化过程包括前向传播、反向传播。首先通过前向传播算法获得预测值,计算预测值和真实值的误差,然后通过反向传播算法计算损失函数对每一个参数的梯度,经过多次迭代训练,根据梯度和学习率调整CNN模型的各神经元的权重,保存模型。本文采用8层中间网络结构:3个交替出现的CNN层组(包括卷积层和池化层)和全连接层,网络结构如图2所示。

    图 2  基于CNN的LPI信号检测网络基本结构示意图

    卷积输出权重计算如下:第1个卷积层对输出层组合后的信号进行卷积运算,增加一个偏置项后,再经过一个非线性函数得到该卷积层的输出,第1个卷积层卷积运算和输出可以表示为

    c1(1,j)=σ(mnx(i+m,j+n)w1c(m,n)+w1b) (10)

    式(10)中x(i,j)是输入信号X的第i行第j列元素,w1c(m,n)是第1个卷积层的(维度为2,深度为1)卷积核的第m行第n列权重,wb是偏置,σ是激活函数,c1(1,j)表示第1层输出的特征的第1行第j列元素;第p个卷积层共输出np1×Np(在第1个卷积层p=1)的特征,每个特征对应着不同的wcwb,将这些特征排列起来,构成1×Np×np的张量,作为池化层的输入;每个卷积层后面都接入一个池化层,每个池化层均采用最大池化,可以减小由于参数误差导致的特征均值偏移,能够减少网络中参数的数量,减少计算资源耗费,也能够有效地控制过拟合。同时避免平均池化的模糊性效果,经过池化层下采样,将卷积层输出变为1×(Np/k)×np的张量,因此第2、3个卷积层的输出计算公式可以表示为

    cp(1,j)=σ(lnxp1(1,j+n)wpc(1,n,l)+wpb) (11)

    式(11)中,xp1(1,j+n)表示第p个卷积层的输入特征的第l通道第1行第j列元素,wpc(1,n,l)表示第p卷积层的卷积核的第l层第1行第n列权重,cp(1,j)表示第p层输出的特征的第1行第j列元素,其他符号含义和式(10)是相同的,同时以Wc,Wb表示卷积层全部权重和偏置的集合,所有的Wc,Wb构成的卷积滤波器可以实现匹配滤波器的功能,完成对雷达信号能量的积累。将最后一个池化层的输出重新排列,变成1维向量xl。对于全连接层的每一层的输入xl,输出可以表示为

    fl=σ(xlWl+Wbl) (12)

    其中,Wl是全连接层的权重矩阵,Wbl是全连接层的偏置。假设全连接层输入有m个神经元,输出层共有n个神经元,则权重矩阵Wl是一个m×n的矩阵, 偏置Wbl组成了一个1×n的向量, 该全连接层的未激活前线性输出是一个1×n的向量。

    表1图2所示CNN结构各层设置的参数,输入层的结构为@=2×2000,2000代表信号采样序列长度,2代表采样信号的同向、正交分量;第1层为卷积层,包含64个尺寸为2×32卷积核,步长为1×4;第2层为Max pooling 池化层,池化尺寸为1×4,步长为1×2;第3~6层与第1, 2层类似;第7~8层为全连接层,分别包含1024, 256个隐藏节点;输出层其本质是含有 2个隐藏节点的全连接层。

    表 1  LPI雷达信号检测的CNN网络结构参数
    层名称结构参数
    输入层2×2000
    第1, 2层Conv1-64@2×32(步长:1×4) & Maxpooling@1×4(步长:1×2)
    第3, 4层Conv1-128@1×16(步长:1×4) & Maxpooling@1×4(步长:1×2)
    第5, 6层Conv1-256@1×8(步长:1×4) & Maxpooling@1×4(步长:1×2)
    第7层FC-1024
    第8层FC-256
    输出层2
    下载: 导出CSV 
    | 显示表格

    卷积层和全连接层的计算都是线性运算,线性运算的特征表达能力是有限的,所以每个卷积层后又引入了非线性函数作为激励函数,增强网络的非线性拟合能力,使模型具有更强的特征表达能力,同时使网络具有稀疏性。以上所有激活函数σ均采用Leaky ReLU激励函数,相比sigmoid函数与tanh函数,能防止梯度消失问题和加快训练速度。Leaky ReLU激活函数公式为

    LeakyReLU(x)={x,  x0ax,x<0R (13)

    采用softmax处理最后一个全连接层的输出yi(i=0,1),得到两个类别的预测概率

    p(y=0|x)=softmax(y0)=ey0ey0+ey1p(y=1|x)=softmax(y1)=ey1ey0+ey1} (14)

    若神经网络输入为xi,对应的期望为yi(0或1),表示样本i的类,则对于一个大小为N的批次的交叉熵代价函数为

    J(W)=1NNi=1{yilg[p(y=1|x)]+(1yi)lg[p(y=0|x)]} (15)

    交叉熵是分类问题使用比较广的一种损失函数,具有改善梯度消失的优点,在神经网络中的作用是判断期望向量与预测向量之间两个概率分布之间的距离。W是包括卷积滤波器在内的各神经元权重(Wc,Wb,Wl,Wbl)的集合,训练神经网络的第一阶段是前向传播得到预测值并计算J(W),第2阶段就是通过反向传播对J(W)进行优化。更新后的Wc,Wb就是针对不同s(t;θ)都具有一定泛化能力的匹配滤波器,具有一定的先验信息,根据此先验信息,可以得到后验概率P(Hj|x(t))(j=0,1),预测过程对于给定的输入xN+1,比较两个类别的后验概率得到输出分类yN+1

    利用argmax函数对式(14)中的预测概率的比较可得到式(16)的类别判决式

    p(y=0|x)y=0y=1p(y=1|x) (16)

    则可以通过基于CNN的LPI雷达信号检测模型实现式(9)所示的信号判决

    Hj=argmaxHjˆP(Hj|x(t)),j=0,1 (17)

    本文研究的是LPI雷达信号检测,所以采用了4种常见调制类型的LPI雷达信号构建仿真所用模拟信号,设置线性调频(Linear Frequency Modulation, LFM)信号、非线性调频(NonLinear Frequency Modulation, NLFM)信号的调制参数多样性由带宽B、载频fc在一定范围内随机波动来满足,设置二相编码信号(Binary Phase Shift Keying, BPSK)、COSTAS频率编码信号的随机性由载波频率和子脉冲宽度在一定范围内随机波动来满足。通过对截获信号中有效信号长度的定义区分信号和噪声,LFM, NLFM, COSTAS信号的有效信号脉宽τ不小于5 μs时默认为信号存在,BPSK信号的有效信号脉宽τ不小于6.5 μs时默认为信号存在,否则默认为噪声。为了增加样本的多样性,设置信号的到达时间随机。

    对于式(1)所示的模拟信号调制参数如表2所示。模拟训练集采用信噪比为–8 dB, –5 dB, –2 dB, 1 dB, 4 dB,步进为 3 dB的5种调制方式的混合信号来丰富训练集样本,训练集一共92700个信号。模拟测试集令信噪比的变化范围为–8~5 dB,步进为 1 dB,每个信噪比下的每种调制方式有1000个信号,其中有效信号脉宽满足信号定义脉宽的信号占50%,满足噪声定义脉宽的信号占25%,不同功率的纯噪声占25%。

    表 2  模拟信号的调制参数
    调制方式瞬时相位ϕ(t)载频fc
    (MHZ)
    带宽B
    (MHz)
    子脉冲宽度(μs)巴克码跳频序列aN
    LFM2π(fc×t+μ2×t2)
    调频斜率μ=B/τ
    50~7020~40______
    NLFM2π(fc×t+12a1×t2+13a2×t3)
    a1=B/(2×τ), a2=B/(2×τ2)
    50~7020~40______
    BPSK2πfct+θ,θ{0,π}50~70__0.5~1
    [1 1 1 1 1 –1–1 1 1 –1 1 –1 1]__
    COSTAS2π(fc×aN)taN={a1,a2,,an}5~10__0.5~1__[8, 9, 6, 4, 10, 3, 2, 5, 7, 1]
    下载: 导出CSV 
    | 显示表格

    关于实测数据,本文采用Agilent E4438C 矢量信号发生器产生LFM和BPSK信号,NC6110A噪声信号源添加白噪声,KEYSIGHT DSOS204A示波器存储信号。实测信号的调制参数见表3,LFM信号的有效信号脉宽不小于5 μs时默认为有信号,BPSK有效信号脉宽不小于6.5 μs时默认为有信号,否则默认为噪声。实测信号的信噪比的变化范围为1~5 dB,步进为 1 dB, LFM和BPSK信号在每个信噪比下均具有100个信号。验证集和测试集按照1: 9的比例随机划分。验证集和测试集中,其中有效信号脉宽满足信号定义脉宽的信号数据占50%,满足噪声定义脉宽的信号数据占50%。

    表 3  实测信号的调制参数
    调制方式主要参数取值范围
    LFM载频fc(MHz)50~70
    带宽B(MHz) 20~40
    BPSK载频fc(MHz)50~70
    子脉冲宽度(μs) 0.5~1
    巴克码[1 1 1 1 1 –1 –1 1 1 –1 1 –1 1]
    下载: 导出CSV 
    | 显示表格

    采样频率fs均设置为250 MHz,采样点数M = 2000。通过数据预处理将原始数据转换为符合挖掘的格式,为进一步处理做准备,也是深度学习不可或缺的重要环节,因为从中导入的有用信息直接影响模型的收敛效果。在本文中首先将采集到的实测数据进行Hilbert变换,然后对其进行归一化操作,同时保存信号的同向分量、正交分量,预处理后生成的样本为2×2000的2维矩阵,其目的就是将数据中的所有数值行按照合适的比例映射到[–1,1]区间,加快模型的收敛速度、提升模型的精度、防止模型梯度爆炸。每一个样本对应一个“标签”,标签是一个1×2的向量,采用one-hot编码方式。

    在本节中,首先说明将在其中进行训练的系统的硬件规格。在安装NVIDIA Tesla T4 显卡的Ubuntu18 64位操作系统上完成算法仿真,为了节约神经网络的训练时间,本文中实验使用了带GPU的Tensorflow框架,涉及的依赖库主要是 CUDA, cudnn 等加速库。

    本文所用的信号检测网络模型的仿真实验流程如下:

    步骤1 建立神经网络模型,网络结构如图2所示。

    步骤2 生成模拟信号并添加标签,建立模拟训练集和模拟测试集。

    步骤3 采集实测信号、预处理并添加标签,划分实测验证集和测试集。

    步骤4 输入模拟训练集进行模型训练,使用模拟测试集评估模型,同时添加实测信号验证集对神经网络模型进行测试,从而选择最佳的神经网络模型,调整模型参数,完成从模拟信号到实测信号的适配。

    步骤5 通过实测测试集进一步验证神经网络模型的有效性。

    在模型训练过程中,在全连接层添加Dropout正则化来修改网络框架,最小化结构风险,每次训练时随机忽略一部分神经元,不更新这些神经元的权重,可以有效防止因模型太复杂引起的过拟合现象。采用随机梯度下降算法的变体Adam优化器,结合衰减型学习率,基于权重参数的先前梯度的均值和方差进行更新,模型的训练效果才能达到更优。

    将以上所述的模拟数据集中的训练集进行模型训练,仿真所用模拟训练集共92700个信号,经过实测信号验证集的测试,选择实测验证集检测效果好的模型,模拟测试集通过训练好的信号检测网络测试,可得到如图3所示的在不同信噪比下的各种调制信号检测准确率。由图3所示,使用本文中低信噪比下的LPI雷达信号检测方法,仿真结果表明,4种信号的总体检测准确率在–8 dB时能达到72.5%,在–5 dB时的检测准确率能达到87.9%, –1 dB时的检测准确率能达到95.65%, 5 dB时的检测准确率能达到98.1%。仿真结果说明本文所提算法对不同调制方式的信号具有泛化能力,在低信噪比下BPSK信号的检测效果最好,COSTAS信号的检测效果最差。由于训练集仅采用5个信噪比的信号,测试结果表明本文所用信号检测模型对不同信噪比下的信号具有泛化能力。由于仿真所用模拟信号调制参数的随机性,测试结果表明该模型对不同调制参数的信号具有泛化能力。

    图 3  模拟信号的检测准确率

    LPI雷达信号检测模型与深度学习进行图像处理不同的是,实测信号与模拟信号之间存在一定的差异,上述神经网络经过模拟训练集训练,同时使用少量实测验证集进行有监督的适配,适配过程能够使CNN更好地拟合实测信号的检测网络,提高实测信号的检测准确率。将实测信号测试集输入神经网络后,可得到如图4所示的测试结果。测试结果表明LFM和BPSK两种信号,信噪比在1~5 dB时,均能达到90%以上的检测准确率,在2 dB, 4 dB, 5 dB能达到95%的检测准确率。说明经过少量实测验证集适配过的神经网络对实测信号具有一定的检测能力。

    图 4  实测信号的检测准确率

    本文提出在低信噪比下,基于信号有效脉宽的、针对非合作方式下的一种LPI雷达信号检测方法,利用卷积核与匹配滤波器结构上的相似性,构造对不同信号具有泛化能力的卷积滤波器,从传统信号检测和统计学的角度分析了利用CNN进行信号检测的可行性,同时对样本数据输入和各层网络输出参数进行了分析。本文基于4种典型LPI雷达信号进行模拟数据集构建,基于LFM, BPSK信号进行实测数据集构建。使用模拟数据作为训练数据,利用少量实测数据作为验证集实现从模拟信号到实测信号的适配,完成神经网络的训练过程。检测结果表明对不同调制方式、参数的LPI雷达信号具有泛化能力,对不同信噪比下的信号具有泛化能力,在低信噪比下仍然具有较好的检测效果,同时也表明了本文提出的方法对实测信号具有较好的检测效果。

  • 图  1  改进AHP法框架示意图

    图  2  基于DQN的WTA决策模型

    图  3  固定场景下DQN训练效果

    图  4  固定场景下DQN火力分配方案

    图  5  固定场景下仅考虑全局收益的DQN训练效果

    图  6  1000次蒙特卡罗仿真训练

    表  1  目标属性值

    编号攻击地
    重要度
    剩余飞行
    时间(s)
    最大高度
    (km)
    关机点
    速度(km/s)
    RCS
    (m2)
    142202602.30.007
    292502252.10.005
    345306304.20.012
    425506804.80.013
    562402352.20.010
    626107105.10.015
    71120016006.80.017
    80112014506.60.016
    921400757.40.006
    1031500787.10.007
    下载: 导出CSV

    表  2  传统和改进AHP方法的评估指标权重计算结果对比

    攻击地
    重要度
    剩余飞行
    时间(s)
    最大高度
    (km)
    关机点
    速度(km/s)
    RCS
    (m2)
    传统AHP0.340.270.080.120.19
    改进AHP0.440.170.160.130.10
    下载: 导出CSV

    表  3  改进AHP与传统AHP法的目标威胁度评估结果

    编号
    87946
    改进AHP法0.1250.1190.1110.1070.106
    传统AHP法0.1150.1100.1040.1070.106
    编号
    103152
    改进AHP法0.1040.0950.0910.0780.060
    传统AHP法0.0990.0970.0970.0880.075
    下载: 导出CSV

    表  4  测试用例参数

    测试用例编号目标数量比拦截弹数量比
    #15:5:3:212:8:5
    #210:8:5:218:15:12
    #312:9:9:525:15:10
    下载: 导出CSV

    表  5  3种场景测试结果

    指标测试用例编号分配方案求解方法
    DQNPSO随机法
    整体毁伤概率#10.9210.9820.620
    #20.9180.9070.590
    #30.8560.7580.540
    运行时间(s)#10.05022.0010.001
    #20.17062.0210.003
    #30.220137.0000.019
    下载: 导出CSV
  • [1] KLINE A, AHNER D, and HILL R. The weapon-target assignment problem[J]. Computers & Operations Research, 2019, 105: 226–236. doi: 10.1016/j.cor.2018.10.015
    [2] YUE Jiao and ZHANG Ke. Vulnerability Threat assessment based on AHP and fuzzy comprehensive evaluation[C]. 2014 IEEE Seventh International Symposium on Computational Intelligence and Design, Hangzhou, China, 2014: 513–516.
    [3] 杨罗章, 胡生亮, 冯士民. 基于Entropy-TOPSIS方法的目标威胁动态评估与仿真[J]. 兵工自动化, 2020, 39(3): 53–56,60. doi: 10.7690/bgzdh.2020.03.012

    YANG Luozhang, HU Shengliang, and FENG Shimin. Dynamic evaluation and simulation of targets threat based on entropy and TOPSIS method[J]. Ordnance Industry Automation, 2020, 39(3): 53–56,60. doi: 10.7690/bgzdh.2020.03.012
    [4] 陈龙, 马亚平. 基于分层贝叶斯网络的航母编队对潜威胁评估[J]. 系统仿真学报, 2017, 29(9): 2206–2212,2220. doi: 10.16182/j.issn1004731x.joss.201709044

    CHEN Long and MA Yaping. Threat assessment of aircraft carrier formation based on hierarchical Bayesian network[J]. Journal of System Simulation, 2017, 29(9): 2206–2212,2220. doi: 10.16182/j.issn1004731x.joss.201709044
    [5] 杨爱武, 李战武, 徐安, 等. 基于RS-CRITIC的空战目标威胁评估[J]. 北京航空航天大学学报, 2020, 46(12): 2357–2365. doi: 10.13700/j.bh.1001-5965.2019.0638

    YANG Aiwu, LI Zhanwu, XU An, et al. Threat assessment of air combat target based on RS-CRITIC[J]. Journal of Beijing University of Aeronautics and Astronautics, 2020, 46(12): 2357–2365. doi: 10.13700/j.bh.1001-5965.2019.0638
    [6] LLOYD S P and WITSENHAUSE H S. Weapon allocation is NP-Complete[C]. The IEEE Summer Simulation Conference, Reno, USA, 1986: 1054–1058.
    [7] 王邑, 孙金标, 肖明清, 等. 基于类型2区间模糊K近邻分类器的动态武器目标分配方法研究[J]. 系统工程与电子技术, 2016, 38(6): 1314–1319. doi: 10.3969/j.issn.1001-506X.2016.06.15

    WANG Yi, SUN Jinbiao, XIAO Mingqing, et al. Research of dynamic weapon-target assignment problem based on type-2 interval fuzzy K-nearest neighbors classifier[J]. Systems Engineering and Electronics, 2016, 38(6): 1314–1319. doi: 10.3969/j.issn.1001-506X.2016.06.15
    [8] 王净, 战凯, 晏峰. 基于动态规划算法的舰空导弹火力分配模型研究[J]. 舰船电子工程, 2011, 31(2): 24–26. doi: 10.3969/j.issn.1627-9730.2011.02.007

    WANG Jing, ZHAN Kai, and YAN Feng. Ship-to-air missile firepower-distributing model study based on dynamic programming algorithm[J]. Ship Electronic Engineering, 2011, 31(2): 24–26. doi: 10.3969/j.issn.1627-9730.2011.02.007
    [9] 丁立超, 黄枫, 潘伟. 基于改进混沌遗传算法的炮兵火力分配方法[J]. 系统仿真技术, 2021, 17(1): 12–16. doi: 10.16812/j.cnki.cn31-1945.2021.01.003

    DING Lichao, HUANG Feng, and PAN Wei. Artillery fire allocation method based on improved chaotic genetic algorithm[J]. System Simulation Technology, 2021, 17(1): 12–16. doi: 10.16812/j.cnki.cn31-1945.2021.01.003
    [10] 李俨, 董玉娜. 基于SA-DPSO混合优化算法的协同空战火力分配[J]. 航空学报, 2010, 31(3): 626–631.

    LI Yan and DONG Yu’na. Weapon-target assignment based on simulated annealing and discrete particle swarm optimization in cooperative air combat[J]. Acta Aeronautica et Astronautica Sinica, 2010, 31(3): 626–631.
    [11] SILVER D, SCHRITTWIESER J, SIMONYAN K, et al. Mastering the game of Go without human knowledge[J]. Nature, 2017, 550(7676): 354–359. doi: 10.1038/nature24270
    [12] ZHU Yuke, MOTTAGHI R, KOLVE E, et al. Target-driven visual navigation in indoor scenes using deep reinforcement learning[C]. 2017 IEEE International Conference on Robotics and Automation (ICRA), Singapore, 2017: 3357–3364.
    [13] 施伟, 冯旸赫, 程光权, 等. 基于深度强化学习的多机协同空战方法研究[J]. 自动化学报, 2021, 47(7): 1610–1623. doi: 10.16383/j.aas.c201059

    SHI Wei, FENG Yanghe, CHENG Guangquan, et al. Research on multi-aircraft cooperative air combat method based on deep reinforcement learning[J]. Acta Automatica Sinica, 2021, 47(7): 1610–1623. doi: 10.16383/j.aas.c201059
    [14] 阎栋, 苏航, 朱军. 基于DQN的反舰导弹火力分配方法研究[J]. 导航定位与授时, 2019, 6(5): 18–24. doi: 10.19306/j.cnki.2095-8110.2019.05.003

    YAN Dong, SU Hang, and ZHU Jun. Research on fire distribution method of anti-ship missile based on DQN[J]. Navigation Positioning and Timing, 2019, 6(5): 18–24. doi: 10.19306/j.cnki.2095-8110.2019.05.003
    [15] ZHU Yuxin, TIAN Dazuo, and YAN Feng. Effectiveness of entropy weight method in decision-making[J]. Mathematical Problems in Engineering, 2020, 2020: 3564835. doi: 10.1155/2020/3564835
    [16] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. doi: 10.1038/nature14236
  • 加载中
图(6) / 表(5)
计量
  • 文章访问数:  1489
  • HTML全文浏览量:  769
  • PDF下载量:  163
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-10-15
  • 修回日期:  2022-01-10
  • 录用日期:  2022-01-14
  • 网络出版日期:  2022-02-02
  • 刊出日期:  2022-11-14

目录

/

返回文章
返回