基金项目: 国家自然科学基金(61871282, U20A20162),西藏自治区重点研发计划,平安西藏重大专项(XZ202201ZD0006G03)







  • 中图分类号: TN794

Automatic Generation of General Electromagnetic Countermeasures under an Unknown Game Paradigm

Funds: The National Natural Science Foundation of China (61871282, U20A20162), The Key Research and Development Program of Xizang Autonomous Region, and the Science and Technology Major Project of Xizang Autonomous Region of China (XZ202201ZD0006G03)
  • 摘要: 电磁空间对抗通常被建模为零和博弈,但是当作战环境变化时零和博弈双方需要适应新的未知任务,人工设定的博弈规则不再适用。为了避免人为设计显式博弈策略,该文提出一种基于种群的多智能体电磁对抗方法(PMAEC),以实现在未知博弈范式下的通用电磁对抗策略自动生成。首先,基于模拟电磁博弈对抗环境的多智能体对抗平台(MaCA),采用元博弈框架建立电磁对抗策略种群优化问题模型,并将其分解为内部和外部优化目标。其次,结合元学习技术,通过自动课程学习(ACL)优化元求解器模型。最后,通过迭代更新最佳响应策略,扩充并强化策略种群以适应不同难度的博弈挑战。在MaCA平台上的仿真结果表明,所提的PMAEC方法能使元博弈收敛到更低的可利用度,并且训练得到的电磁对抗策略种群可以泛化到更复杂的零和博弈,实现模型从简单场景训练扩展至复杂电磁对抗环境的大规模博弈,增强电磁对抗策略的泛化能力。
  • 图  1  MaCA电磁对抗作战场景示意图

    图  2  PMAEC算法流程图

    图  3  基于GRU的元求解器结构

    图  4  异构地图对抗环境训练阶段可利用度变化

    图  5  同构地图对抗环境训练阶段可利用度变化

    图  6  异构地图在不同策略维度测试的最终可利用度

    图  7  同构地图在不同策略维度测试的最终可利用度

    图  8  不同维度下异构地图泛化到同构地图的最终可利用度

    图  9  异构地图反向传播窗口大小对最佳可利用度的影响

    图  10  同构地图反向传播窗口大小对最佳可利用度的影响

    图  11  异构地图环境下不同模型对可利用度的影响

    图  12  同构地图环境下不同模型对可利用度的影响

    算法1 基于种群的多智能体电磁对抗算法(PMAEC)
     (1) 给定博弈分布 $ p(\mathcal{G}) $,学习率 $ \eta $和 $ \mu $,时间窗 $ T $,初始化策略池
      ${\varPhi ^0}$和元求解器参数 $ \theta $
     (2) for每次训练迭代
     (3)  从 $ p(\mathcal{G}) $中采样 $ K $个博弈
     (4)    for每个博弈
     (5)     for时间窗内每个时刻
     (6)     计算 $ t - 1 $时刻的元策略 ${\sigma ^{t - 1} } = {f_\theta }({ {\boldsymbol{M} }^{t - 1} })$
     (7)     初始化最佳响应策略 $ {\phi ^0} $
     (8)     根据式(23)计算最佳响应 $\phi _{{\rm{BR}}}^t$
     (9)     将 $\phi _{{\rm{BR}}}^t$添加至种群 ${\varPhi ^t} = {\varPhi ^{t - 1} } \cup \phi _{{\rm{BR}}}^t$
     (10)     end for
     (11)    计算 $ T $时刻的元策略 ${\sigma^T} = {f_\theta }({ {\boldsymbol{M} }^T})$
     (12)    根据式(1)计算可利用度 ${\rm{Exp} }\left( {\sigma _\theta ^T,\varPhi _\theta ^T} \right)$
     (13)    end for
     (14)   根据式(10)、式(24) 、式(25)计算元梯度 ${\nabla _\theta }\mathcal{J}_{{\rm{out}}}^k(\theta )$
     (15)   根据式(27)更新元求解器参数 $ \theta $
     (16) end for
     (17) 储存当前元求解器模型 $ {f_\theta } $
    表  1  PMAEC算法参数列表

    参数名称 数值
    外部学习率 $ \mu $ 0.01
    元训练迭代次数 100
    元批尺寸 5
    模型类型 GRU
    窗口大小 [1, 3, 5]
    内部学习率 $ \eta $ 25.0
    内部梯度迭代次数 5
    可利用度学习率 10.0
    内部可利用度迭代次数 20
    表  2  可利用度均值和标准差对比

    算法 异构地图 同构地图
    均值 标准差 均值 标准差
    PMAEC 0.0017 0.0064 0.0186 0.0079
    PSRO 0.0464 0.013 0.056 0.015
    Self-Play 0.0465 0.0133 0.0558 0.0151
    [35] 罗俊仁, 张万鹏, 袁唯淋, 等. 面向多智能体博弈对抗的对手建模框架[J]. 系统仿真学报, 2022, 34(9): 1941–1955. doi: 10.16182/j.issn1004731x.joss.21-0363

    LUO Junren, ZHANG Wanpeng, YUAN Weilin, et al. Research on opponent modeling framework for multi-agent game confrontation[J]. Journal of System Simulation, 2022, 34(9): 1941–1955. doi: 10.16182/j.issn1004731x.joss.21-0363
