Intelligent Decision-making for Selection of Communication Jamming Channel and Power
-
摘要: 智能干扰是一种利用环境反馈自主学习干扰策略,对敌方通信链路进行有效干扰的技术。然而,现有的智能干扰研究大多假设干扰机能够直接获取通信质量反馈(如误码率或丢包率),这在实际对抗环境中难以实现,限制了智能干扰的应用范围。为了解决这一问题,该文将通信干扰问题建模为马尔科夫决策过程(MDP),综合考虑干扰基本原则和通信目标行为变化制定干扰效能衡量指标,提出了一种改进的策略爬山算法(IPHC)。该算法按照“观察(Observe)-调整(Orient)-决策(Decide)-行动(Act)”的OODA闭环,实时观察通信目标变化,灵活调整干扰策略,运用混合策略决策,实施通信干扰。仿真结果表明,在通信目标采用确定性规避策略时,所提算法能够较快收敛到最优干扰策略,并且其收敛耗时较Q-learning算法至少缩短2/3;当通信目标变换策略时,能够自适应学习,重新调整到最优干扰策略。在通信目标采用混合性规避策略时,所提算法也能够快速收敛,取得较优的干扰效果。Abstract: Intelligent jamming is a technique that utilizes environmental feedback information and autonomous learning of jamming strategies to effectively disrupt the communication links of the enemy. However, most existing research on intelligent jamming assumes that jammers can directly access the feedback of communication quality indicators, such as bit error rate or packet loss rate. This assumption is difficult to achieve in practical adversarial environments, thus limiting the applicability of intelligent jamming. To address this issue, the communication jamming problem is modeled as a Markov Decision Process (MDP), and by considering both the fundamental principles of jamming and the dynamic behavior of communication objectives, an Improved Policy Hill-Climbing (IPHC) algorithm is proposed. This algorithm follows an OODA loop of “Observe-Orient-Decide-Act”, continuously observes the changes of communication objectives in real time, flexibly adjusts jamming strategies, and applies a mixed strategy decision-making to execute communication jamming. Simulation results demonstrate that when the communication objectives adopt deterministic evasion strategies, the proposed algorithm can quickly converge to the optimal jamming strategy, and the convergence time is at least two-thirds shorter than that of the Q-learning algorithm. When the communication objectives switch evasion strategies, the algorithm can adaptively learn and readjust to the optimal jamming strategy. In the case of communication objectives using mixed evasion strategies, the proposed algorithm also achieves fast convergence and obtains superior jamming effects.
-
1. 引言
将常规的长基线(Long BaseLine, LBL)、短基线(Short BaseLine, SBL)以及超短基线(Ultra-Short BaseLine, USBL)水声定位系统根据实际需求合理结合可以得到性能更优的组合基线水声定位系统,如L/USBL, L/SBL, S/USBL, L/SBL/USBL等。其中,综合考虑安装、精度、扩展性、便携性等因素,长基线/超短基线(L/USBL)组合系统应用更为广泛,通常用于完成较大范围内的精确定位任务。L/USBL组合系统能够获得多种定位参量信息,采用传统的几何位置线交汇解算方法难以获得目标位置的最优解,且并未考虑参量的可靠性问题。而实际的水声环境十分复杂[1,2],多途信道、节点攻击、硬件失效、平台干扰等因素都可能导致测量数据中出现与数据模型或一般规律不符的低可靠性数据对象,将其称为异常值[3,4]。异常值通常会带来严重的定位偏差,甚至造成整个系统瘫痪。因此,研究L/USBL组合定位系统精确可靠定位技术具有重要的实际意义。
现有的抗异常值定位方法主要分为两类,第1类方法首先对异常参量进行检测及剔除,然后利用正常参量定位。Liu等人[5]针对最小均方估计对异常测距信息敏感的问题,提出了基于贪婪算法的抗攻击定位方法(Greedy Attack-Resistant, GAR)及其改进算法[6] (Enhanced Attack-Resistant, EAR)。二者通过对节点测距均方误差设置门限来筛选节点,以获得最大一致节点集合。当正常节点较少时,GAR方法面临偏移不确定问题,即均方误差最小子集对应的定位结果却明显偏离实际坐标;当攻击导致异常节点的一致度高于其他节点时,EAR方法失效。第2类抗异常值定位方法基于鲁棒统计学理论框架,通过弱化较大残差的异常参量来直接获得不受异常值过度影响的估计量。Li等人[7]根据中位数估计量击穿点为50%的特性,提出了基于最小中位数平方 (Least Median of Squares, LMS)的鲁棒定位算法。Korkmaz等人[8]采用Huber函数构建抗异常参量定位目标函数,在抑制异常值影响的同时强化正常测量值,从而对目标位置进行稳健估计。以上方法均是针对测距定位的系统,而基于多种定位参量进行抗异常值定位的方法尚未见报道。
聚类分析是一种以各聚集内部数据对象间相似度最大化,各聚集对象间相似度最小化为基本原则的无监督学习方法,k-means聚类是一种广泛应用的聚类启发算法[9,10]。本文提出一种适用于L/USBL组合系统的抗异常值方法—基于K-means聚类和决策融合(KMCDF)的抗异常参量定位方法。首先利用系统观测的多参量信息通过不同定位算法对目标位置进行初步测量,其次采用k-means算法对初测值进行聚集度分析,最后根据聚类结果利用决策融合理论评估参量状态。本文方法充分利用多参量冗余信息,能够有效识别并除去异常值,保证了L/USBL系统对水下目标的可靠定位能力。
2. L/USBL组合定位模型
L/USBL组合定位系统如图1所示,系统节点数为
N (N≥3 ),各节点上加装十字型超短基线声学基阵。目标位置坐标为
x=[xy]T ,定位节点坐标为xi=[xiyi]T ,则信号传播时延真值为ti=‖x−xi‖/c,i=1,2,···,N (1) 信号到达超短基线阵x轴、y轴两端阵元间相位差真值分别为
ψi=κd0(x−xi)/‖x−xi‖,i=1,2,···,N (2) φi=κd0(y−yi)/‖x−xi‖,i=1,2,···,N (3) 其中,
c 为水中声速,κ 为信号波数,d0 为阵元间距。设ˆti 为时延测量值,ˆψi 和ˆφi 为相位差测量值,si ,sxi 和syi 为对应的参量状态变量,且si,sxi, syi∈{0,1} ,其中,1表示参量正常,0表示参量异常,有ˆti={ti+ξi,si=1ξ′i,si=0,ˆψi={ψi+δi,sxi=1δ′i,sxi=0,ˆφi={φi+εi,syi=1ε′i,syi=0 (4) 当时延、相位差参量正常时,观测误差服从高斯分布,
ξi∼N(0,σ2i) ,δi∼N(0,σ2xi) ,εi∼N(0,σ2yi) ,其中σ2i ,σ2xi 和σ2yi 分别为正常时延、相位差测量误差方差。当时延、相位差参量异常时,观测数据服从均匀分布,ξ′i∼U(0,Rmax/c) ,{\delta '\!_i} \sim U( - {{π}} ,{{π}} ) ,{\varepsilon '\!_i} \sim U( - {{π}} ,{{π}} ) ,{R_{\max }} 为系统水声作用距离。设各节点测量的参量间统计独立,根据最大似然准则,可构造优化模型。\widehat {{{x}}} = \arg \mathop {\max }\limits_{{{x}}} \varTheta ({{{x}}}) (5) 其中,
\varTheta ({{{x}}}) 为联合似然函数,\begin{align}\varTheta ({{{x}}}) &=\! p\left(\widehat {{{t}}},\widehat {ψ} ,\widehat φ {\rm{;}}\;{{{x}}}\right) \!=\! p\left(\widehat {{{t}}}{\rm{;}}\;{{{x}}}\right)p\left(\widehat {ψ}{\rm{;}}\;{{{x}}}\right)p\Bigr(\widehat φ{\rm{;}}\;{{{x}}}\Bigr)\\& =\prod\limits_{i = 1}^N {p\left({{\widehat t}_i};{{{x}}}\right)p\left({{\widehat \psi }_i};{{{x}}}\right)p\left({{\widehat \varphi }_i};{{{x}}}\right)} \vspace{25pt}\end{align} (6) p\left({\widehat t_i};{{{x}}}\right) = \sum\limits_{{s_i}} {p({{\widehat t}_i}|{s_i};{{{x}}})p({s_i})} = \frac{{1 - {P_t}}}{{\sqrt {2{{π}} } {\sigma _i}}}\exp \left( { - \frac{{{{\Bigr({{\widehat t}_i} - {t_i}\Bigr)}^2}}}{{2\sigma _i^2}}} \right) + \frac{{{P_t}c}}{{{R_{\max }}}},\;\;{\widehat t_i} \in (0,{{{R_{\max }}}/c}) (7) p\left({\widehat \psi _i};{{{x}}}\right) = \sum\limits_{{s_{xi}}} {p\left({{\widehat \psi }_i}|{s_{xi}};{{{x}}}\right)p({s_{xi}})} = \frac{{1 - {P_x}}}{{\sqrt {2{{π}} } {\sigma _{xi}}}}\exp \left( { - \frac{{{{\left({{\widehat \psi }_i} - {\psi _i}\right)}^2}}}{{2\sigma _{xi}^2}}} \right) + \frac{{{P_x}}}{{2{{π}} }},\;{\widehat \psi _i} \in [ - {{π}} ,{{π}} ] (8) p\Bigr({\widehat \varphi _i};{{{x}}}\Bigr) = \sum\limits_{{s_{yi}}} {p({{\widehat \varphi }_i}|{s_{yi}};{{{x}}})p({s_{yi}})} = \frac{{1 - {P_y}}}{{\sqrt {2{{π}} } {\sigma _{yi}}}}\exp \left( { - \frac{{{{\Bigr({{\widehat \varphi }_i} - {\varphi _i} \Bigr)}^2}}}{{2\sigma _{yi}^2}}} \right) + \frac{{{P_y}}}{{2{{π}} }},\;{\widehat \varphi _i} \in [ - {{π}} ,{{π}} ] (9) 其中,
{P_t} ,{P_x} 和{P_y} 分别为时延、相位差参量异常概率。当{P_t} ,{P_x} ,{P_y} 不均为0时,存在异常参量,需要对异常值进行识别。下面,通过对各节点参量状态变量进行估计来识别异常值,从而修正式(5),排除异常参量对最终定位结果的影响,保证系统可靠性。3. 基于聚类及决策融合的抗异常参量定位技术
3.1 目标位置初测
系统测量的正常参量之间相容,异常参量与其他参量之间不相容,通过检查相容性,可以对异常参量进行识别。下面对测量数据的不同子集分别进行目标位置估计,估计值之间的聚集度可以直观地体现观测数据之间的相容性。具体方法如下:(1)利用单节点测量的时延、相位差进行超短基线定位[11],可得
N 个目标位置初测值;(2)目标方位角{\theta _i} = \arctan \left({{{{\widehat \varphi }_i}}/{{{\widehat \psi }_i}}}\right) ,利用双节点估计的方位角进行纯方位定位[12],可得C_N^2 个初测值;(3)利用双节点测量的时延进行长基线时延交汇定位[13],可得C_N^2 个初测值;(4)利用3节点测量的时延进行长基线时延交汇定位[13],可得C_N^3 个初测值。那么,一共可以解算得到M = N + 2C_N^2 + C_N^3 个目标位置的初测值,统一记为{{{{q}}}_m} = {[{x_m}\;{y_m}]^{\rm{T}}} ,m = 1,2, ·\!·\!· ,M 。3.2 初测坐标聚集度分析
对目标位置坐标初测值之间的聚集度进行分析以检查参量间的相容性。设
{{{{q}}}_m} = {[{x_m}\;{y_m}]^{\rm{T}}} ,m = 1, 2, ·\!·\!· ,M ,{{{{q}}}_p} = {[{x_p}\;{y_p}]^{\rm{T}}} ,p = 1,2, ·\!·\!· ,M 为目标位置坐标初测值,定义坐标间欧式距离矩阵{{{A}}} = {[{a_{mp}}]_{M \times M}} ,{a_{mp}} \!=\! \left\| {{{{{q}}}_m} - {{{{q}}}_p}} \right\|,\;\;m \!=\! 1,2, ·\!·\!· ,M,\;\;p = 1,2, ·\!·\!· ,M 。将{{{A}}} 中元素最大值记为{A_{\max }} ,则{A_{\max }} 描述了初测值的离散范围。定义参数\rho (\rho > 0 )衡量由正常参量测量误差导致的目标位置初测值整体离散程度,当观测值均正常时,一般有{A_{\max }} \le \rho ;当存在异常值时,易导致{A_{\max }} > \rho ,因此,可以利用\rho 作为阈值来初步判断各节点观测量的状态,\rho 的取值可以结合参量测量误差模型、目标位置初测所采用的定位模型等因素进行预先设定。如果{A_{\max }} \le \rho ,则判定{s_i},{s_{xi}},{s_{yi}} = 1 ,即参量均正常。如果{A_{\max }} > \rho ,则可能存在异常参量,接下来重点对这种情况展开研究。数据间支持度矩阵能够描述一组测量数据之间的多数一致程度[14],由距离矩阵
{{{A}}} = {[{a_{mp}}]_{M \times M}} 可以定义支持度矩阵{{{{B}}}_{M \times M}}{\rm{ = }}{[{b_{mp}}]_{M \times M}} ,{{{B}}} \!=\! {{{U}}} \!-\! {{{{A}}}/{{A_{\max }}}} ,{{{U}}} 为元素均为1的M \times M 矩阵。可见,两初测值间支持度随二者距离的增大而线性减小,{a_{mp}} \in [0,{A_{\max }}] 时,{b_{mp}} \in [0,1] 。将支持度矩阵{{{B}}} 的第m 行元素进行线性组合可以得到各初测坐标对于{{{{q}}}_m} 的综合支持度,记为{w_m} \!=\!\! \displaystyle\sum\nolimits_{p = 1}^M {{v_p}{b_{mp}}} ,又\displaystyle\sum\nolimits_{m = 1}^M {{w_m}} \!\!=\!\! 1 ,根据Perron-Frobenius定理[15],经过推导可得{w_m}{\rm{ = }}{{{v_m}}\Bigr/{\displaystyle\sum\nolimits_{m = 1}^M {{v_m}} }} ,其中,{v_m} 为非负矩阵{{{B}}} 最大模特征值对应的特征向量的第m 个元素,从而可以得到各初测坐标的综合支持度{w_1},{w_2}, ·\!·\!· ,{w_M} 。初测坐标的综合支持度越大,表示其与其他坐标间聚集度越大。根据参量间相容性,由正常参量得到的初测坐标间聚集度较高,由异常值得到的初测坐标远离其他坐标,因此前者的综合支持度高于后者。基于此,根据综合支持度的高低,采用k-means聚类算法将初测坐标划分为两组,另外,考虑到异常值可能会影响k-means算法对数据分布的估计,利用阈值\rho 对聚类结果进行约束。综上,当
{A_{\max }} > \rho 时,初测坐标{{{{q}}}_m} ,m = 1, 2, ·\!·\!· ,M 构成M 个对象的数据集,各个对象利用其综合支持度作为属性进行描述,对应的数据矩阵为{[{w_1}\;{w_2}\; ·\!·\!· \;{w_M}]^{\rm{T}}} ,采用k-means聚类[10]将其划分为k = 2 个子集\{ {C_1},{C_2}\} ,其中{C_1} 为聚集度较高的一组初测值类标,{C_2} 为其余初测值类标。计算类标为{C_1} 的聚类中初测坐标之间的欧式距离,如果最大距离超过阈值\rho ,则将该聚类中的初测坐标作为一个新的数据集,再次进行k-means聚类,直至得到的{C_1} 类中初测坐标间最大距离不超过\rho ,将其余初测坐标均划分到{C_2} 类,则最初的M 个数据对象最终被聚合为两个聚类,对象{{{{q}}}_m} 对应的类标为{c_m} ,m = 1,2, ·\!·\!· ,M ,且{c_m} \in \{ {C_1},{C_2}\} 。3.3 参量状态评估
首先,根据各个目标位置初测值的类标对参量状态进行局部判决,规则如下:设初测坐标
{{{{q}}}_m} 是基于参量子集{S_m} 估计得到的,那么当{{{{q}}}_m} 的类标{c_m} = {C_1} 时,{S_m} 中参量状态的局部决策结果均为1,否则均为0。以节点1进行超短基线定位为例,设得到初测坐标类标为{C_1} ,则子集\{ {\widehat t_1},{\widehat \psi _1},{\widehat \varphi _1}\} 中参量状态局部判决结果均为1。其次,融合中心采用OR规则对各个参量的局部判决结果进行决策融合[16],得到其全局决策结果。以参量
{\widehat t_1} 为例,设由包含{\widehat t_1} 的各参量子集得到其状态的局部判决结果,构成局部决策向量{{{{Q}}}_1} ,则全局决策为{\widehat s_1} = g({{{Q}}_1}) = \left\{ \begin{array}{l}0,\;{{{Q}}_1}{\rm{ = }}{{O}}\\1,\;{{其他}}\end{array} \right. (10) 其中,
g 为决策融合算子,{{{O}}} 为零向量。式(10)的物理意义是当由参量{\widehat t_1} 得到的初测值均归属于{C_2} 聚类,即均远离其他初测值时,判决其异常,有{\widehat s_1} = 0 ,否则{\widehat s_1} = 1 。同理可得各时延、相位差参量的状态评估结果{\widehat s_i},{\widehat s_{xi}},{\widehat s_{yi}} ,i = 1,2, ·\!·\!· ,N ,进而对式(5)所示优化问题进行修正,排除异常参量的影响,仅采用正常参量对目标进行定位,最终实现L/USBL组合系统的可靠位置估计。4. 仿真实验
通过仿真试验对本文提出的基于k-means聚类与决策融合(K-Means Clustering and Decision Fusion, KMCDF)的抗异常参量定位方法的性能进行分析。条件如下:L/USBL水声组合定位系统节点数为
N , USBL阵元间距为0.18\ {\rm{m}} 。信号频率为75\ {\rm{kHz}} ,水中声速为1500\ {\rm{m/s}} ,系统作用距离为2830\ {\rm{m}} 。观测区域为在直角坐标系上\pm 1000\ {\rm{m}} 范围的方形,考虑N{\rm{ = 6}} 和N{\rm{ = 4}} 两种系统布局,令l = 800\ {\rm{m}} ,两种布局下节点坐标分别为l{[\cos({{2{{π}} i}/N})\;\sin ({{2{{π}} i}/N})]^{\rm{T}}} 和\sqrt 2 l{[\cos({{2{{π}} i}/N}{\rm{ + }}{{{π}} /4})\;\sin ({{2{{π}} i}/N}{\rm{ + }}{{{π}} /4})]^{\rm{T}}} ,i = 0, 1, ·\!·\!· ,N - 1 。将参量出现异常的定位节点称为异常节点,图2给出了两种布局条件下KMCDF方法抗异常值成功概率随异常节点个数的变化,其中,初测值间距离阈值
\rho {\rm{ = }}30\ {\rm{m}} 。Monte Carlo试验次数{N_{{\rm{MC}}}}{\rm{ = }}1000 ,则成功概率为正确估计异常值状态变量的次数与{N_{{\rm{MC}}}} 之比。图例中KMCDF1和KMCDF2分别对应节点测量的时延值异常、相位差值正常以及时延和相位差值均异常两种情况,并与GAR方法[5]、EAR方法[6]、LMS方法[7]、Huber代价函数法(Least Huber Cost, LHC)方法[8]进行对比,GAR, EAR, LMS和LHC方法均仅采用时延参量。GAR方法距离残差平方均值门限\eta {\rm{ = 5}}{\rm{.76}}{c^2}\sigma _t^2 ,{\sigma _t}{\rm{ = }}0.5\ {\rm{ms}} 为正常时延测量误差标准差;EAR方法候选圆环宽度W = 6c{\sigma _t} ; LHC方法Huber函数分界点{k_H} = 0.001 。由图2(a)可见,对于EAR,异常节点的增多可能导致其一致度与正常节点一致度相同甚至更高,该方法识别成功率随着异常节点数目的增多急剧下降,当存在3个异常节点时,成功率低于20%;对于GAR,随着正常参量的减少,容易发生残差平方均值较小的参量子集对应的定位结果严重偏离目标实际位置的情况,当存在3个异常节点时,该方法成功率低于60%; LHC抑制较大残差测量值影响的能力随着异常节点的增多而迅速下降,存在3个异常节点时,成功率仅为23%; LMS对于较少的异常参量容忍度较高,但是当异常节点比例达到中位数估计量的击穿点(50%)时,该方法失效,对应于图2(a)中,异常节点超过2个时,其成功率为0;而本文方法充分利用了时延、相位差参量的冗余信息以及基于参量子集的多种定位算法的性能互补,对异常值的识别能力较高。随着异常时延参量的增多,KMCDF1成功概率下降缓慢,3个节点异常时成功概率为94.2%;所有节点测量的时延均异常时,KMCDF1仍可利用相位差信息以91.8%的概率成功识别异常值。另外,当存在3个节点测量的时延及相位差参量均异常时,KMCDF2的成功概率为84.2%,仍明显高于GAR, EAR, LMS及LHC方法;当正常节点个数低于总节点个数1/2时,GAR, EAR, LMS及LHC方法均失效,而KMCDF2在仅有2个节点正常时成功概率仍高于60%。综合以上结果可见,本文方法充分利用了多参量冗余信息,能够有效识别异常参量,保证了组合基线系统定位的可靠性及准确性。
由图2(b)可见,与图2(a)结果相似,随着异常节点个数的增多,KMCDF1成功概率缓慢下降。当异常节点数达总节点数1/2时,GAR, EAR, LMS及LHC方法均失效,而KMCDF1和KMCDF2仍分别以94.8%和83.8%的成功概率识别异常值。另外,结合图2(a)可知,异常节点数相同时,本文方法在6节点系统下参量及目标初测值的冗余度较大,成功识别异常值概率比在4节点系统下有所提高,整体上对异常节点的容忍度更大。因此,实际应用中,在系统复杂度允许的条件下,适当增加节点总数有利于提高系统的可靠性。
5. 湖试验证
L/USBL组合定位系统于2016年10月在吉林省松花湖试验站进行了外场试验,试验区域水深约60 m。试验过程中,由船体搭载并刚性连接于水下的声模拟器模拟目标发射CW脉冲信号,信号频率为
42\;{\rm{kHz}} ,声源级为180 dB,目标深度19 m,水平位置由拖船携带的GPS提供。系统阵型及目标航迹如图3(a)所示,其中,三角形表示水面布放的浮标,其底端加装阵元间距{d_0} = 0.18\;{\rm{m}} 的超短基线声学基阵,布放深度为2 m,位置由顶端的GPS天线提供,黑色虚线表示作为参考值的目标GPS航迹。分别采用长基线(LBL)时延交汇[13]和KMCDF方法得到的目标轨迹测量结果如图3(b)和图3(c)中符号“+”所示,水中声速1465 m/s。由图3(b)可见,当时延参量无异常时,LBL定位结果与GPS航迹基本一致,定位均方根误差约为3.22 m。但是,当出现异常值时,LBL定位偏差急剧增大,对应于图3(b)中的离散点。而KMCDF方法能够识别并除去异常参量,利用余下正常参量仍可以获得有效位置估计结果,图3(c)中测量轨迹清晰连续无离散点,定位误差约为2.16 m,实现了组合基线系统的精确可靠定位。
6. 结束语
实际的水下环境十分复杂,多种因素可能导致水声定位系统测量的数据中含有异常数据,这些异常值直接威胁到系统的可靠性。针对此问题,本文提出了适用于长基线/超短基线组合定位系统的基于k-means聚类和决策融合的抗异常参量定位方法。仿真结果表明,该方法充分利用了时延、相位差参量的冗余信息以及基于参量子集的多种定位算法的性能互补,能够有效识别异常值并消除其对定位结果的影响。该方法对异常节点的容忍度优于现有的几种抗异常值方法,GAR方法、EAR方法、LMS方法和LHC方法。湖试结果进一步表明本文方法对提高长基线/超短基线组合系统的精确可靠定位能力具有实际意义。
-
1 基于IPHC的通信干扰信道和功率智能决策算法
参数设置: Q\left( {{\boldsymbol{s}},{\boldsymbol{a}}} \right) = 0 , {\pi} \left( {{\boldsymbol{s}},{\boldsymbol{a}}} \right) = {1 \mathord{\left/ {\vphantom {1 {\left| A \right|}}} \right. } {\left| A \right|}} ,更新步长\alpha 和学习率\eta 。 学习过程:令t = 0,在状态{{\boldsymbol{s}}_t},依据 {\pi} \left( {{{\boldsymbol{s}}_t},{\boldsymbol{a}}} \right) 得到动作{{\boldsymbol{a}}_t},并转移到下一状态{{\boldsymbol{s}}_{t + 1}}。 while t < T 由{{\boldsymbol{s}}_t}和{{\boldsymbol{s}}_{t + 1}}之间的关系,评估奖励: {r_t} = {w_1}{\varphi _1}\left( {{\text{JNSR}} - {T_{\text{h}}}} \right) + {w_2}\mu \left( {{f_{{\text{c}},t + 1}} - {f_{{\text{c}},t}}} \right) + {w_3}{\varphi _2}\left( {{p_{{\text{c}},t + 1}} - {p_{{\text{c}},t}}} \right) - {w_4}{{{p_{{\text{j}},t + 1}}} \mathord{\left/ {\vphantom {{{p_{{\text{j}},t + 1}}} {{P_{{\text{jMax}}}}}}} \right. } {{P_{{\text{jMax}}}}}} ; 依据奖励 {r_t} ,调整Q值表: Q\left( {{{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t}} \right) = Q\left( {{{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t}} \right) + \alpha \left[ {{r_t} + \gamma \mathop {\max }\limits_{\boldsymbol{a}} Q\left( {{{\boldsymbol{s}}_{t + 1}},{\boldsymbol{a}}} \right) - Q\left( {{{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t}} \right)} \right] ; 依据Q值表调整策略,并进行归一化: {\pi} \left({\boldsymbol{s}},{\boldsymbol{a}}\right)={\pi} \left({\boldsymbol{s}},{\boldsymbol{a}}\right)+\eta ,\;\;{\boldsymbol{a}}=\mathrm{arg}\underset{{{\boldsymbol{a}}}^{\prime }}{\mathrm{max}}Q\left({\boldsymbol{s}},{\boldsymbol{{a}}}^{\prime }\right) , {\pi} \left( {{\boldsymbol{s}},{{\boldsymbol{a}}_i}} \right) = {{{\pi} \left( {{\boldsymbol{s}},{{\boldsymbol{a}}_i}} \right)} \Bigr/ {\displaystyle\sum\limits_{i = 1}^{M \times K} {{\pi} \left( {{\boldsymbol{s}},{{\boldsymbol{a}}_i}} \right)} }} ; 转入下一时刻,t = t + 1,在状态{{\boldsymbol{s}}_t},依据 {\pi} \left( {{{\boldsymbol{s}}_t},{\boldsymbol{a}}} \right) 得到动作{{\boldsymbol{a}}_t},并转移到下一状态{{\boldsymbol{s}}_{t + 1}}。 表 1 仿真参数设置
参数 取值 \gamma 0.5 \alpha 0.1 \eta 0.001 {T_{\text{h}}} 0.3 {w_1} 1 {w_2} 0.5 {w_3} 0.5 {w_4} 1 表 2 干扰机不同动作奖励值
通信目标干扰机 增大功率 切换信道 增大功率 r1 r2 切换信道 r3 r4 表 3 前2个最大Q值对应不同策略选择个数情况
序号 干扰
状态增大
功率切换
信道序号 干扰
状态增大
功率切换
信道1 \left( {{f_{{\text{j}},t}} = {F_1},{p_{{\text{j}},t}} = 2{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_1},{p_{{\text{c}},t}} = 7{\text{ }}{\rm{mW}}} \right) 1 1 11 \left( {{f_{{\text{j}},t}} = {F_3},{p_{{\text{j}},t}} = 6{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_3},{p_{{\text{c}},t}} = 21{\text{ }}{\rm{mW}}} \right) 1 1 2 \left( {{f_{{\text{j}},t}} = {F_1},{p_{{\text{j}},t}} = 4{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_1},{p_{{\text{c}},t}} = 14{\text{ }}{\rm{mW}}} \right) 1 1 12 \left( {{f_{{\text{j}},t}} = {F_3},{p_{{\text{j}},t}} = 8{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_3},{p_{{\text{c}},t}} = 28{\text{ }}{\rm{mW}}} \right) 2 0 3 \left( {{f_{{\text{j}},t}} = {F_1},{p_{{\text{j}},t}} = 6{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_1},{p_{{\text{c}},t}} = 21{\text{ }}{\rm{mW}}} \right) 1 1 13 \left( {{f_{{\text{j}},t}} = {F_4},{p_{{\text{j}},t}} = 2{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_4},{p_{{\text{c}},t}} = 7{\text{ }}{\rm{mW}}} \right) 1 1 4 \left( {{f_{{\text{j}},t}} = {F_1},{p_{{\text{j}},t}} = 8{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_1},{p_{{\text{c}},t}} = 28{\text{ }}{\rm{mW}}} \right) 2 0 14 \left( {{f_{{\text{j}},t}} = {F_4},{p_{{\text{j}},t}} = 4{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_4},{p_{{\text{c}},t}} = 14{\text{ }}{\rm{mW}}} \right) 1 1 5 \left( {{f_{{\text{j}},t}} = {F_2},{p_{{\text{j}},t}} = 2{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_2},{p_{{\text{c}},t}} = 7{\text{ }}{\rm{mW}}} \right) 0 2 15 \left( {{f_{{\text{j}},t}} = {F_4},{p_{{\text{j}},t}} = 6{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_4},{p_{{\text{c}},t}} = 21{\text{ }}{\rm{mW}}} \right) 1 1 6 \left( {{f_{{\text{j}},t}} = {F_2},{p_{{\text{j}},t}} = 4{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_2},{p_{{\text{c}},t}} = 14{\text{ }}{\rm{mW}}} \right) 0 2 16 \left( {{f_{{\text{j}},t}} = {F_4},{p_{{\text{j}},t}} = 8{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_4},{p_{{\text{c}},t}} = 28{\text{ }}{\rm{mW}}} \right) 2 0 7 \left( {{f_{{\text{j}},t}} = {F_2},{p_{{\text{j}},t}} = 6{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_2},{p_{{\text{c}},t}} = 21{\text{ }}{\rm{mW}}} \right) 1 1 17 \left( {{f_{{\text{j}},t}} = {F_5},{p_{{\text{j}},t}} = 2{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_5},{p_{{\text{c}},t}} = 7{\text{ }}{\rm{mW}}} \right) 1 1 8 \left( {{f_{{\text{j}},t}} = {F_2},{p_{{\text{j}},t}} = 8{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_2},{p_{{\text{c}},t}} = 28{\text{ }}{\rm{mW}}} \right) 2 0 18 \left( {{f_{{\text{j}},t}} = {F_5},{p_{{\text{j}},t}} = 4{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_5},{p_{{\text{c}},t}} = 14{\text{ }}{\rm{mW}}} \right) 1 1 9 \left( {{f_{{\text{j}},t}} = {F_3},{p_{{\text{j}},t}} = 2{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_3},{p_{{\text{c}},t}} = 7{\text{ }}{\rm{mW}}} \right) 0 2 19 \left( {{f_{{\text{j}},t}} = {F_5},{p_{{\text{j}},t}} = 6{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_5},{p_{{\text{c}},t}} = 21{\text{ }}{\rm{mW}}} \right) 1 1 10 \left( {{f_{{\text{j}},t}} = {F_3},{p_{{\text{j}},t}} = 4{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_3},{p_{{\text{c}},t}} = 14{\text{ }}{\rm{mW}}} \right) 1 1 20 \left( {{f_{{\text{j}},t}} = {F_5},{p_{{\text{j}},t}} = 8{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_5},{p_{{\text{c}},t}} = 28{\text{ }}{\rm{mW}}} \right) 1 1 总次数 21 19 表 4 不同策略选择概率情况
序号 干扰
状态增大
功率切换
信道序号 干扰
状态增大
功率切换
信道1 \left( {{f_{{\text{j}},t}} = {F_1},{p_{{\text{j}},t}} = 2{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_1},{p_{{\text{c}},t}} = 7{\text{ }}{\rm{mW}}} \right) 1 0 11 \left( {{f_{{\text{j}},t}} = {F_3},{p_{{\text{j}},t}} = 6{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_3},{p_{{\text{c}},t}} = 21{\text{ }}{\rm{mW}}} \right) 0.76 0.24 2 \left( {{f_{{\text{j}},t}} = {F_1},{p_{{\text{j}},t}} = 4{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_1},{p_{{\text{c}},t}} = 14{\text{ }}{\rm{mW}}} \right) 1 0 12 \left( {{f_{{\text{j}},t}} = {F_3},{p_{{\text{j}},t}} = 8{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_3},{p_{{\text{c}},t}} = 28{\text{ }}{\rm{mW}}} \right) 1 0 3 \left( {{f_{{\text{j}},t}} = {F_1},{p_{{\text{j}},t}} = 6{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_1},{p_{{\text{c}},t}} = 21{\text{ }}{\rm{mW}}} \right) 0.89 0.11 13 \left( {{f_{{\text{j}},t}} = {F_4},{p_{{\text{j}},t}} = 2{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_4},{p_{{\text{c}},t}} = 7{\text{ }}{\rm{mW}}} \right) 1 0 4 \left( {{f_{{\text{j}},t}} = {F_1},{p_{{\text{j}},t}} = 8{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_1},{p_{{\text{c}},t}} = 28{\text{ }}{\rm{mW}}} \right) 0.77 0.23 14 \left( {{f_{{\text{j}},t}} = {F_4},{p_{{\text{j}},t}} = 4{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_4},{p_{{\text{c}},t}} = 14{\text{ }}{\rm{mW}}} \right) 1 0 5 \left( {{f_{{\text{j}},t}} = {F_2},{p_{{\text{j}},t}} = 2{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_2},{p_{{\text{c}},t}} = 7{\text{ }}{\rm{mW}}} \right) 1 0 15 \left( {{f_{{\text{j}},t}} = {F_4},{p_{{\text{j}},t}} = 6{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_4},{p_{{\text{c}},t}} = 21{\text{ }}{\rm{mW}}} \right) 0.93 0.07 6 \left( {{f_{{\text{j}},t}} = {F_2},{p_{{\text{j}},t}} = 4{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_2},{p_{{\text{c}},t}} = 14{\text{ }}{\rm{mW}}} \right) 1 0 16 \left( {{f_{{\text{j}},t}} = {F_4},{p_{{\text{j}},t}} = 8{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_4},{p_{{\text{c}},t}} = 28{\text{ }}{\rm{mW}}} \right) 1 0 7 \left( {{f_{{\text{j}},t}} = {F_2},{p_{{\text{j}},t}} = 6{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_2},{p_{{\text{c}},t}} = 21{\text{ }}{\rm{mW}}} \right) 0.98 0.02 17 \left( {{f_{{\text{j}},t}} = {F_5},{p_{{\text{j}},t}} = 2{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_5},{p_{{\text{c}},t}} = 7{\text{ }}{\rm{mW}}} \right) 1 0 8 \left( {{f_{{\text{j}},t}} = {F_2},{p_{{\text{j}},t}} = 8{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_2},{p_{{\text{c}},t}} = 28{\text{ }}{\rm{mW}}} \right) 0.80 0.20 18 \left( {{f_{{\text{j}},t}} = {F_5},{p_{{\text{j}},t}} = 4{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_5},{p_{{\text{c}},t}} = 14{\text{ }}{\rm{mW}}} \right) 1 0 9 \left( {{f_{{\text{j}},t}} = {F_3},{p_{{\text{j}},t}} = 2{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_3},{p_{{\text{c}},t}} = 7{\text{ }}{\rm{mW}}} \right) 1 0 19 \left( {{f_{{\text{j}},t}} = {F_5},{p_{{\text{j}},t}} = 6{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_5},{p_{{\text{c}},t}} = 21{\text{ }}{\rm{mW}}} \right) 0.87 0.13 10 \left( {{f_{{\text{j}},t}} = {F_3},{p_{{\text{j}},t}} = 4{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_3},{p_{{\text{c}},t}} = 14{\text{ }}{\rm{mW}}} \right) 1 0 20 \left( {{f_{{\text{j}},t}} = {F_5},{p_{{\text{j}},t}} = 8{\text{ }}{\rm{mW}},{f_{{\text{c}},t}} = {F_5},{p_{{\text{c}},t}} = 28{\text{ }}{\rm{mW}}} \right) 0.76 0.24 平均概率 0.94 0.06 注:表中有部分结果为0,实际上其值为小于{10^{ - 3}}的值,对结果的影响极小。为了表述方便,本文将其忽略。 表 5 各算法耗时(ms)
算法 仿真实验1 仿真实验2 仿真实验3 IPHC算法 12.0 11.1 10.8 PHC算法 14.5 13.8 14.0 Q-learning算法 7.4 5.4 4.8 -
[1] HAN Hao, XU Yifan, JIN Zhu, et al. Primary-User-Friendly Dynamic Spectrum Anti-Jamming Access: A GAN-Enhanced Deep Reinforcement Learning Approach[J]. IEEE Wireless Communications Letters, 2022, 11(2): 258–262. doi: 10.1109/LWC.2021.3125337. [2] NI Gang, HE Chong, JIN Ronghong. Single-Channel Anti-Jamming Receiver With Harmonic-Based Space-Time Adaptive Processing[J]. IEEE Wireless Communications Letters, 2022, 11(4): 776–780. doi: 10.1109/LWC.2022.3143505. [3] ZHU Xinyu, HUANG Yang, WANG Shaoyu, et al. Dynamic Spectrum Anti-Jamming With Reinforcement Learning Based on Value Function Approximation[J]. IEEE Wireless Communications Letters, 2023, 12(2): 386–390. doi: 10.1109/LWC.2022.3228045. [4] 汪志勇, 张沪寅, 徐宁, 等. 认知无线电网络中基于随机学习博弈的信道分配与功率控制[J]. 电子学报, 2018, 46(12): 2870–2877. doi: 10.3969/j.issn.0372-2112.2018.12.008.WANG Zhiyong, ZHANG Huyin, XU Ning, et al. Channel assignment and power control based on stochastic learning game in cognitive radio networks[J]. Acta electronica sinica, 2018, 46(12): 2870–2877. doi: 10.3969/j.issn.0372-2112.2018.12.008. [5] 饶宁, 许华, 蒋磊, 等. 基于多智能体深度强化学习的分布式协同干扰功率分配算法[J]. 电子学报, 2022, 50(6): 1319–1330. doi: 10.12263/DZXB.20210818.RAO Ning, XU Hua, JIANG Lei, et al. Allocation algorithm of distributed cooperative jamming power based on multi-agent deep reinforcement learning[J]. Acta electronica sinica, 2022, 50(6): 1319–1330. doi: 10.12263/DZXB.20210818. [6] 宋佰霖, 许华, 齐子森, 等. 一种基于深度强化学习的协同通信干扰决策算法[J]. 电子学报, 2022, 50(6): 1301–1309. doi: 10.12263/DZXB.20210814.SONG Bailin, XU Hua, QI Ziseng, et al. A collaborative communication jamming decision algorithm based on deep reinforcement learning[J]. Acta electronica sinica, 2022, 50(6): 1301–1309. doi: 10.12263/DZXB.20210814. [7] AMURU S, TEKIN C, SCHAAR M V D, et al. Jamming Bandits—A Novel Learning Method for Optimal Jamming[J]. IEEE Transactions on Wireless Communications, 2016, 15(4): 2792–2808. doi: 10.1109/TWC.2015.2510643. [8] ZHUANSUN Shaoshuai, YANG Junan, LIU Hui, et al. A novel jamming strategy-greedy bandit[C]. Proceedings of the 2017 IEEE 9th International Conference on Communication Software and Networks (ICCSN). Guangzhou, China: IEEE, 2017: 1142-1146. doi: 10.1109/ICCSN.2017.8230289. [9] 张君毅, 张冠杰, 杨鸿杰. 针对未知通信目标的干扰策略智能生成方法研究[J]. 电子测量技术, 2019, 42(16): 148–153. doi: 10.19651/j.cnki.emt.1903103.ZHANG Junyi, ZHANG Guanjie, YANG Hongjie. Research on intelligent interference strategy generation method for unknown communication target[J]. Electronic measurement technology, 2019, 42(16): 148–153. doi: 10.19651/j.cnki.emt.1903103. [10] ZHUANSUN Shaoshuai, YANG Junan, LIU Hui. An algorithm for jamming strategy using OMP and MAB[J]. EURASIP Journal on Wireless Communications and Networking, 2019(1): 85–95. doi: 10.1186/s13638-019-1414-4. [11] 颛孙少帅, 杨俊安, 刘辉, 等. 采用双层强化学习的干扰决策算法[J]. 西安交通大学学报, 2018, 52(2): 63–69. doi: 10.7652/xjtuxb201802010.ZHUANSUN Shaoshuai, YANG Junan, LIU Hui, et al. An algorithm for jamming decision using dual reinforcement learning[J]. Journal of Xi’an jiaotong university, 2018, 52(2): 63–69. doi: 10.7652/xjtuxb201802010. [12] ZHOU Cheng, MA Congshan, LIN Qian, et al. Intelligent bandit learning for jamming strategy generation[J]. Wireless Networks, 2023, 29(5): 2391–2403. doi: 10.1007/s11276-023-03286-9. [13] 李芳, 熊俊, 赵肖迪, 等. 基于快速强化学习的无线通信干扰规避策略[J]. 电子与信息学报, 2022, 44(11): 3842–3849. doi: 10.11999/JEIT210965.LI Fang, XIONG Jun, ZHAO Xiaodi, et al. Wireless communications interference avoidance based on fast reinforcement learning[J]. Journal of electronics and information technology, 2022, 44(11): 3842–3849. doi: 10.11999/JEIT210965. [14] 潘筱茜, 张姣, 刘琰, 等. 基于深度强化学习的多域联合干扰规避[J]. 信号处理, 2022, 38(12): 2572–2581. doi: 10.16798/j.issn.1003-0530.2022.12.012.PAN Xiaoqian, ZHANG Jiao, LIU Yan, et al. Multi-domain joint interference avoidance based on deep reinforcement learning[J]. Journal of signal processing, 2022, 38(12): 2572–2581. doi: 10.16798/j.issn.1003-0530.2022.12.012. [15] TOM V. 9 Reinforcement Learning: The Markov Decision Process Approach[M]. MIT Press. 2021: 133-152. [16] 杨鸿杰, 张君毅. 基于强化学习的智能干扰算法研究[J]. 电子测量技术, 2018, 41(20): 49–54. doi: 10.19651/j.cnki/emt.1802113.YANG Hongjie, ZHANG Junyi. Research on intelligent interference algorithm based on reinforcement learning[J]. Electronic measurement technology, 2018, 41(20): 49–54. doi: 10.19651/j.cnki/emt.1802113. [17] MARTIN A, ANDERS H. Reinforcement Learning[M]. Wiley. 2023: 327-349. [18] 裴绪芳, 陈学强, 吕丽刚, 等. 基于随机森林强化学习的干扰智能决策方法研究[J]. 通信技术, 2019, 52(9): 2118–2124. doi: 10.3969/j.issn.1002-0802.2019.09.009.PEI Xufang, CHEN Xueqiang, LV Ligang, et al. Research on jamming intelligent decision-making method based on random forest reinforcement learning[J]. Communications technology, 2019, 52(9): 2118–2124. doi: 10.3969/j.issn.1002-0802.2019.09.009. [19] 张双义, 沈箬怡, 陈学强, 等. 基于强化学习的功率与信道联合干扰方法研究[J]. 通信技术, 2020, 53(8): 1859–1868. doi: 10.3969/j.issn.1002-0802.2020.08.004.ZHANG Shuangyi, SHEN Ruoyi, CHEN Xueqiang, et al. Joint jamming method of channel and power based on reinforcement learning[J]. Communications technology, 2020, 53(8): 1859–1868. doi: 10.3969/j.issn.1002-0802.2020.08.004. [20] BOWLING M, VELOSO M M. Rational and Convergent Learning in Stochastic Games[C]. Proceedings of the International Joint Conference on Artificial Intelligence. Seattle, WA, 2001: 1021-1026. [21] XU B, ZENG W. A Combat Decision Support Method Based on OODA and Dynamic Graph Reinforcement Learning[C]. Proceedings of the 2022 34th Chinese Control and Decision Conference (CCDC). Hefei, China: IEEE , 2022: 4872-4878. doi: 10.1109/CCDC55256.2022.10033986. 期刊类型引用(3)
1. 李旻,何婷婷. 基于随机数三角阵映射的高维大数据二分聚类初始中心高效鲁棒生成算法. 电子与信息学报. 2021(04): 948-955 . 本站查看
2. 刘瑞杰,王瑛,王铁流. 基于STM32F4的超短基线定位系统设计. 国外电子测量技术. 2021(05): 158-162 . 百度学术
3. 庞菲菲,温祥西,王晓华. 基于SVDD去除异常值的水下目标定位方法. 振动与冲击. 2021(22): 182-187 . 百度学术
其他类型引用(3)
-