Loading [MathJax]/jax/element/mml/optable/BasicLatin.js
Advanced Search
Volume 44 Issue 7
Jul.  2022
Turn off MathJax
Article Contents
HU Langtao, BI Songjiao, LIU Quanjin, WU Jianlan, YANG Rui, WANG Hong. Physical Layer Security Algorithm of Reconfigurable Intelligent Surface-assisted Unmanned Aerial Vehicle Communication System Based on Reinforcement Learning[J]. Journal of Electronics & Information Technology, 2022, 44(7): 2407-2415. doi: 10.11999/JEIT211613
Citation: HU Langtao, BI Songjiao, LIU Quanjin, WU Jianlan, YANG Rui, WANG Hong. Physical Layer Security Algorithm of Reconfigurable Intelligent Surface-assisted Unmanned Aerial Vehicle Communication System Based on Reinforcement Learning[J]. Journal of Electronics & Information Technology, 2022, 44(7): 2407-2415. doi: 10.11999/JEIT211613

Physical Layer Security Algorithm of Reconfigurable Intelligent Surface-assisted Unmanned Aerial Vehicle Communication System Based on Reinforcement Learning

doi: 10.11999/JEIT211613
Funds:  The National Natural Science Foundation of China (62171002), The Natural Science Foundation of Anhui Provincial Department of Education (KJ2019A0554)
  • Received Date: 2021-12-24
  • Rev Recd Date: 2022-05-03
  • Available Online: 2022-05-08
  • Publish Date: 2022-07-25
  • In this paper, the optimization problem of the 3D trajectory for Unmanned Aerial Vehicle (UAV) assisted by Reconfigurable Intelligent Surface (RIS) in physical layer security is studied. Specifically, when the RIS assisted UAV transmits wirelessly information to the ground user, the physical layer security rate is maximized by jointly optimizing the RIS phase shift and the UAV's 3D trajectory. However, because the objective function is non convex, the traditional optimization technology is difficult to solve it directly. The dynamic and complex optimization problems in wireless communication can be solved by deep reinforcement learning. Based on reinforcement learning Double Deep Q Network (DDQN), a joint optimization algorithm of RIS phase shift and UAV 3D trajectory is designed in this paper to maximize the achievable average safety rate. The simulation results show that the designed RIS assisted UAV communication optimization algorithm can obtain higher safety rate than the Successive Convex Approximation (SCA) algorithm with fixed flight altitude, RIS algorithm with random phase shift and algorithm without RIS.
  • 随着5G无线网络的快速发展,无人机(Unmanned Aerial Vehicle, UAV)因其具有低成本、高机动性、覆盖范围广、可以按需部署等优点,在无线通信领域引起了广泛的研究[1-6]。UAV可以按需部署至当前地面通信设备无法覆盖的区域,用于缓解突发状况下场景的通信压力,进而提高通信质量。UAV作为一个空中基站为服务区内的用户提供信号的覆盖[1, 2]。例如,当地面出现紧急情况,地面基站被摧毁,UAV可临时代替被损坏的基站,以维持正常的通信;考虑较远的用户之间的通信场景,采用UAV作为中继,可改善传播环境,增强信号的传播范围,提高系统的通信性能[3, 4];此外,UAV还作为空中用户,用于辅助信息传播和数据收集[5]

    在上述UAV通信应用中,由于无线信道的广播特性,其传播没有明确的物理边界,这将导致通过无线方式传播的机密信息很容易被非授权用户窃听或者受到攻击。UAV网络的安全和隐私问题受到研究者的广泛关注[7-10]。传统的加密技术可以部分解决UAV网络的安全问题。然而,找到一种有效的方法来解决其潜在的数学问题是困难的,加密技术的安全性将受到极大的限制。因此,物理层安全成为解决UAV网络安全问题的理想选择,通过传输设计基本实现了安全通信[7,8]。文献[9]考虑UAV和地面用户的双向通信中,在窃听者存在的情况下,通过联合优化UAV轨迹和合法发射机的发射功率,提高合法信号质量并降低窃听信号质量,以最大化平均安全速率。文献[10]提出一种新型的UAV移动干扰方案,利用UAV来传输干扰信号,以防止窃听者窃听机密信息,通过联合优化UAV的轨迹和干扰功率,提高安全速率。

    然而在复杂的城市环境中,UAV和地面用户之间的视距链路可能会被阻挡[11],这严重降低了信道质量。针对这一问题,智能超表面(Reconfigurable Intelligent Surface, RIS)可以通过反射UAV和用户之间的传输信号来辅助UAV安全通信,改善无线环境[12-14]。RIS是目前被广泛认可的潜在6G关键技术之一[15],RIS由大量低成本的可重构反射单元组成,不需要复杂的编码、解码和射频处理操作,可以有效地控制入射信号的相位、振幅、频率等,改善无线传播环境,可以实现更快、更可靠数据传输[16-19]。在UAV通信中搭建智能反射面,通过直射与反射信号叠加,可增强用户收到的信号。由于RIS 的低成本、易部署特性,有望实现大范围的航路信号覆盖。文献[12] RIS引入UAV网络并被证明可以显著提高数据速率,但未考虑其安全性能。文献[13]研究了RIS辅助下的UAV网络的安全通信问题,通过联合优化RIS的相移、UAV的轨迹和功率最大化安全速率。文献[14]考虑了一种RIS辅助的UAV网络,其中UAV加装一个RIS作为无源中继,提出了一种迭代算法,通过联合优化UAV位置和RIS的相移最大限度地提高系统的保密率。

    上述研究主要是利用传统的优化技术,对RIS辅助安全通信系统中的UAV轨迹和RIS相移进行联合优化,对于大规模系统效率较低。受深度强化学习可以实现对高维数据处理的启发,一些研究者尝试利用人工智能算法进行优化RIS的反射波束形成[20]和UAV轨迹[21-23]。然而,文献[21-23]没有引入RIS这一先进技术,文献[13]引入了RIS技术,但是UAV的轨迹是在2维平面上进行优化,UAV的高度是固定的,这在真实的系统中是不现实的。本文基于双深度Q网络(Double Deep Q Network, DDQN)设计了一种联合优化RIS相移矩阵和UAV的3D轨迹算法,最大化系统可达到的安全速率。

    图1所示,本文考虑了一个由RIS辅助的UAV网络,其中部署了一个RIS来协助从UAV(Alice)到合法地面用户(Bob,即用户m)的安全通信,以对抗窃听者(Eve) ,其中用户m和Eve均位于地面。UAV服务区域被离散为大小相等的L个单元格,与m个合法用户进行安全通信,其中m={1,2,,M}。采用笛卡儿坐标系来描述这些节点的位置,第m个用户的坐标可以表示为qm=(xm,ym)T, Eve的坐标为qe=(xe,ye)T。RIS中部署了N个反射单元和1个控制器,以提高合法用户所接收的平均安全速率,RIS的对角相移矩阵为Φ=diag[ejθ1,ejθ2,,ejθT]CN×N,其中[θ1,θ2,,θT][0,2π]。RIS的水平坐标为qR=(xR,yR)T,高度为zR

    图  1  RIS辅助UAV安全通信系统

    UAV的飞行周期和最大飞行速度设置为TVmax,假设UAV在小区i的中心为Lui=(xi,yi)T, xsys分别是 x 轴和y轴上两个相邻单元格的距离。假设UAV在时隙t的飞行高度为Hut,其中Hut=hs×hut,hs=hmax/H为UAV的每个高度级别之间的距离,H是高度级别的总数。hutH{1,2,,H},是每个时隙t中UAV的高度级别。UAV在时隙t的水平坐标可以表示为LutL,L{1,2,,L}, tT{1,2,,T},即UAV水平方向的轨迹为{Lu0,Lu1,,LuT,Luf}, Lu0Luf是预先确定的UAV初始位置和最终位置。假设UAV每个时隙t的飞行时间为τut,可知 τminτutτmax,UAV飞行任务的完成时间为τ=Tt=1τut。UAV的垂直速度为vvt=Hut+1Hut/τutVvmax, tT,Vvmax为UAV垂直方向速度的最大值。同理可得,UAV的水平速度为vht=Lut+1Lut/τutVhmax, tT, Vvmax为UAV水平方向速度的最大值。

    假设UAV-RIS链路在第t时隙的信道增益由gurtCN×1表示,由式(1)给出

    gurt = ξdurt[1,ej2πλdϕurt,,ej2πλ(N - 1)dϕurt]T (1)

    其中,ξ是参考距离D0=1m处的路径损耗, durt = (HutzR)2+(LutqR)2, ϕurt = (xRxi)/durt表示信号在第t个时隙的到达角(Angle Of Arrival, AOA)的余弦,d是天线间距,λ为载波波长。此外,RIS到第m个地面用户及Eve处的信道增益gummCN×1, greeCN×1分别由式(2)和式(3)给出

    gumm = ξdrmm[1,ej2πλdϕrmm,,ej2πλ(N1)dϕrmm]T (2)
    guee = ξdree[1,ej2πλdϕree,,ej2πλ(N1)dϕree]T (3)

    其中,drmm=(zR)2+(qRqm)2, dree=(zR)2+(qRqe)2ϕrmm = (xRxm)/drmm表示信号到第m个用户的出发角(Angle of Departure, AoD)余弦值。ϕree=(xRxe)/dree表示信号到Eve的AoD余弦值。

    为了评估UAV与Eve、用户m直连链路被阻塞的可能性。本文考虑城市环境中的空对地信道模型[24]pet,pmt分别为UAV与Eve及用户m之间在时隙t的阻塞概率,由式(4)和式(5)给出

    pet=111+aexp(b(arctan(Hutduee)a)) (4)
    pmt=111+aexp(b(arctan(Hutdumm)a)) (5)

    其中,ab为阻塞参数,取决于环境的量值,duee=(Hut)2+(Lutqe)2, dumm=(Hut)2+(Lutqm)2

    用户m和Eve的接收信号为

    ym[i]=P(pmtgurtΦtgrmmBdumm+(1pmt)gummBdurmm)s[i]+nm[i] (6)
    ye[i]=P(petgurtΦtgreeBduee+(1pet)gueeBduree)s[i]+ne[i] (7)

    nm[i]ne[i]分别为用户m和Eve的加性高斯白噪声,均值为0,方差为σ2P为UAV固定发射功率。s(i)表示UAV在信道i中发送的信号,i[1,2,,L]s(i)服从高斯分布,即s(i)CN(0,1)。用户m及Eve处的SNR由式(8)和式(9)给出

    SNRmmt = (Ppmt(gurtΦtgrmw)2B2σ2mUAVRISm+P(1pwt)ξ2(Bσmdumm)2UAVm) (8)
    SNReet = (Ppet(gurtΦtgree)2B2σ2eUAVRISEve+P(1pet)ξ2(Bσeduee)2UAVEve) (9)

    其中,B是信道带宽,P是UAV的固定发射功率,σ2m,σ2e分别是用户m, Eve处的噪声方差。RIS辅助UAV安全通信系统的相移优化,在时隙t,UAV为第m个用户服务时,grmmΦtgurt表示为grmmΦtgurt = ξ/durtdrmmNn=1ej(θnt+2πλ(n1)d(ϕrmmϕurt)。为了最大化用户m处可得到的平均安全速率,可得到θnt = (2π/λ)(n1)d(ϕurtϕrmm),即在给定UAV的轨迹下,实现了用户m处信号的相位对准。grmmΦtgurt可改写为grmmΦtgurt = Nξ/durtdrmm

    根据式(6)和式(7),第t个时隙用户m和Eve处可实现的数据速率可表示为

    Rmt=cmtBlog2(1+SNRmmt) (10)
    Ret=Blog2(1+SNReet) (11)

    本文通过联合优化UAV的3D轨迹和RIS的相移最大化平均安全速率。UAV的3D坐标为{Lut,Hut},tT,RIS相移Φ={Φt,tT},UAV每个时隙的飞行时间为Γ={τut,tT},在t时隙的用户调度表示为C={cmt,tT}。可达平均安全速率受Eve影响较大。由式(9)可知,Eve与UAV的距离相关,随着UAV与Eve距离的增加,路径损耗增大,Eve得到的信号较低。通过优化3D轨迹,让UAV与合法用户通信时尽可能远离Eve,以达到更高的平均安全速率。系统的平均安全速率为Ravest=1/1MτMτMm=1Tt=1τut[RmtRet]+,其中[z]+=max。则UAV到合法用户m的最大平均安全速率优化问题可以表示为 R_{{\text{st}}}^{{\text{ave}}}

    \mathop {\max }\limits_{{\boldsymbol{L}},{H},{\boldsymbol{\varPhi }},{C}{\boldsymbol{,}}{\varGamma }} R_{st}^{{\rm{ave}}} (12)
    {\text{s}}{\text{.t}}{\text{.}}\;\;{c_{{{mt}}}} \in \{ 0,1\} ,\forall m \in M\;,\;\forall t \in T \tag{12a}
    \quad\;\;\; \sum\limits_{t = 1}^T {\tau _{{t}}^{\text{u}}{R_{{{mt}}}} \ge {D_{{m}}},\forall m \in M} \tag{12b}
    \quad\;\;\;v_{{t}}^{\text{h}} \le V_{{\text{max}}}^{\text{h}},\forall t \in T \tag{12c}
    \quad\;\;\; v_{{t}}^{\text{v}} \le V_{{\text{max}}}^{\text{v}},\forall t \in T \tag{12d}
    \quad\;\;\; {h_{{\text{min}}}} \le {\boldsymbol{H}}_{{t}}^{\text{u}} \le {h_{{\text{max}}}},\forall t \in T \tag{12e}
    \quad\;\;\; {\tau _{{\text{min}}}} \le \tau _{{t}}^{\text{u}} \le {\tau _{{\text{max}}}},\forall t \tag{12f}

    其中,式(12a)表示在时隙 t 的用户调度,式(12b)表示传输数据的任务量约束,式(12c)、式(12d)分别表示在UAV的水平速度、垂直方向速度约束,式(12e)表示UAV飞行高度约束,式(12f)表示每个时隙的飞行时间约束。式(12)描述的优化问题是非凸的。为求解此类问题,本文提出一个基于DDQN的数据驱动学习算法。

    动态的无线环境可以建模为马尔可夫决策过程(Markov Decision Process, MDP),强化学习中的智能体通过与未知环境交互不断学习,最大化智能体得到的奖励。在动态的网络环境中,经常使用无模型强化学习算法,学习估计每个状态-动作值函数 (称为Q值函数)。在t时隙,智能体从环境中获取状态{s^{{t}}},执行动作{a^{{t}}},与环境交互后对应的到达下一个状态{s^{{{t + 1}}}},并得到奖励值{r^{{t}}}

    本文的目标是优化UAV的3D轨迹和RIS的相移以最大化合法用户平均安全速率。为此,本文将平均安全速率最大化问题表述为 MDP并随后采用深度强化学习算法获得累积平均安全速率奖励。本文以深度Q网络(Deep Q Network, DQN)为基础,为克服DQN的Q值高估问题,本文采用了DDQN框架,通过训练深度神经网络,以最大化可实现的平均安全速率。将RIS辅助的UAV安全通信系统建模为一个环境,UAV可视为一个智能体。

    3.1.1   Q学习

    Q学习算法[25]中使用Q函数表示智能体在状态s下,采取动作a,所获得的累计奖励值,Q函数表示为{Q_{\pi}}\;\left( {{s^{{t}}},{a^{{t}}}} \right)

    \begin{split} {Q_{\pi}}\;\left( {{s^{{t}}},{a^{{t}}}} \right) =& {E_{\pi}}\;[{r^{\;{{t + 1}}}}|{s^{{t}}} = s,\;{a^{{t}}} = a] \\ & +\gamma \sum\limits_{s{{'}} \in S} {P_{{{s}}{{{s}}'}}^{\;{{a}}}\;\left( {\sum\limits_{a{{'}} \in A} {{\pi}\;({s'},{a'})\;{Q^{\;{\pi}}}({s'},{a'})} } \right)} \end{split} (13)

    \gamma \in [0,1) 为折扣因子,P_{s{s'}}^{\;a}表示在s执行a转移到{s'}的概率。

    学习到策略π的Q 值后,在状态s的可选动作集中执行最大Q值对应的动作即可得到策略π*。由式(13),与最优策略相关的最优Q函数为

    \begin{split} {Q^{\text{*}}}\left( {{s^{{t}}},{a^{{t}}}} \right) =& {r^{{{t + 1}}}}\;\;({s^{{t}}} = s,\;{a^{{t}}} = a,\;{\pi} = {{\pi}^{\text{*}}}) \\ & +\gamma \sum\limits_{s{{'}} \in \;S} {P_{{{s}}{{{s}}'}}^{\;{{a}}}\;\mathop {\;\max }\limits_{a{{'}} \in \;A} {Q^{\text{*}}}({s'},{a'})} \end{split} (14)

    由贝尔曼方程式(14)递归求解得到最优Q值。对Q值的更新公式为

    \begin{split} & {Q^{\text{*}}}\left( {{s^{{t+1}}},{a^{{t+1}}}} \right) = {Q^{\text{*}}}\left( {{s^{{t}}},{a^{{t}}}} \right) \\ & \quad +\alpha \left( {{r^{{{t + 1}}}} + \;\gamma \mathop {\max }\limits_{{a'}} {Q_{\pi}}({s^{{{t + 1}}}},{a'}) - {Q^*}\left( {{s^{{t}}},{a^{{t}}}} \right)} \right) \end{split} (15)

    \;\alpha \; 是用以更新Q函数的学习率。

    3.1.2   深度Q网络(DQN)

    Q学习用表格存储Q值,对于维度较大的状态空间和动作空间实时更新难以实现,DQN将值函数估计与神经网络相结合,解决Q学习的“维度爆炸”问题。

    在DQN( NIPS 2015)[26]中,提出双神经网络结构,双神经网络分别为当前值网络(参数 \theta )和目标值网络(参数 {\theta ^ - } ),引入目标值主要解决算法训练不稳定的问题[27],两个网络具有相同的结构,初始参数设置相同,即 \theta = {\theta ^ - } 。当前值网络输出相应动作的Q 值,根据­ \varepsilon -贪婪策略选择对应的动作,目标值网络用来计算目标Q值。DQN中引入经验回放技术,可以减少智能体所需的学习经验,解决样本关联性和效率利用的问题[27] 。当前值网络实时更新,而目标Q 网络的参数是每隔固定步数后,将当前值网络的参数复制给目标Q 网络。目标Q值的计算如式(16)所示

    {{y}}_{{t}}^{^{{\text{DQN}}}} = {r^{{t}}} + \gamma \mathop {\max }\limits_{{a'}} {\theta ^{{ - }}}({s^{{{t + 1}}}},{a{{'}}};{\theta ^{{ - }}}) (16)

    损失函数计算如式(17)所示

    {L^{{\text{DQN}}}}(\theta ) = {\rm{E}}\left[ {{{(y_{{t}}^{{\text{DQN}}} - Q({s^{{t}}},{a^{{t}}},\theta ))}^2}} \right] (17)
    3.1.3   双深度Q网络(DDQN)

    Q学习与DQN通过执行当前策略最大Q值对应动作来优化策略,容易过高估计Q值。DDQN是在DQN的基础上改进而来的。DDQN的模型结构和DQN的模型结构一样,唯一不同的就是它们的目标函数。在DDQN算法中,当前值网络用来选取最大Q值对应的动作 {a^*} ,再利用目标值网络生成动作 {a^*} Q值,这样使动作选择和策略评估得以分离,有效降低了Q值过估计的风险。

    DDQN中的目标值为{{y}}_{^{{t}}}^{{\text{DDQN}}}

    {{y}}_{{t}}^{^{{\text{DDQN}}}} = {r^{{t}}} + \gamma {\theta ^{{ - }}}({s^{{{t + 1}}}},\arg {\max _{{a{{'}}}}}Q({s^{{t}}},{a{{'}}};\theta );{\theta ^{{ - }}}) (18)

    损失函数如式(19)

    {L^{{\text{DDQN}}}}(\theta ) = {\rm{E}}\left[ {{{(y_{{t}}^{{\text{DDQN}}} - Q({s^{{t}}},{a^{{t}}},\theta ))}^2}} \right] (19)

    目标网络的参数更新为

    {\theta ^ - } = \eta \theta + (1 - \eta ){\theta ^ - } (20)

    其中, \eta 为软更新参数。

    UAV的3维轨迹,服务用户m及飞行时间由 \varepsilon -贪婪策略得到,如果UAV飞出服务区域或超出最长飞行时间( L_{\max }^u,H_{\max }^u,{\tau _{\max }} ),智能体会得到相应的惩罚,以约束智能体能够更好地通信。RIS辅助无人机DDQN网络结构见图2

    图  2  RIS辅助无人机DDQN网络结构图

    通常将MDP定义为一个4元组 \left\{ {S,{\text{ }}A,{\text{ }}R,{\text{ }}\gamma {\text{ }}} \right\} ,元素设计如下。

    3.2.1   状态空间

    S 为智能体状态的集合, {s^t} 表示智能体在时隙 t 的状态, {s^t} \in S ,由当前UAV的坐标决定,即{s^{{t}}} = \{ {\boldsymbol{L}}_{{t}}^{{u}},{\boldsymbol{H}}_{{t}}^{{u}}\} \in {\boldsymbol{L}} \times {\boldsymbol{H}}

    在一个时隙内,假设UAV在水平方向从其当前小区移动到4个相邻小区之一或保持不变,并且在垂直维度仅移动到其相邻高度级别。UAV的下一个时隙水平位置{\boldsymbol{L}}_{{{t + 1}}}^{{u}}可以表示为

    {\boldsymbol{L}}_{{{t + 1}}}^{{u}} = {\boldsymbol{L}}_{{t}}^{{u}} + {{\boldsymbol{l}}_{{t}}} (21)

    其中, {l_{{t}}} \in {{\boldsymbol{L}}_{{u}}} \triangleq \{ ({x_{{u}}},0),( - {x_{{u}}},0),(0,{y_{{u}}}),(0, - {y_{{u}}}), (0,0)\}分别表示UAV向东、向西、向北、向南移动或保持在原位置。对于垂直方向,UAV的下一个时隙的垂直位置为{\boldsymbol{H}}_{{{t + 1}}}^{{u}}

    {\boldsymbol{H}}_{{{t + 1}}}^{{u}} = {\boldsymbol{H}}_{{t}}^{{u}} + {h_{{t}}} (22)

    其中,{h_{{t}}} \in {{\boldsymbol{H}}_{{u}}} \triangleq \left\{ {{h_{{u}}}, - {h_{{u}}},0} \right\}分别表示UAV上升、下降或保持在当前高度。

    3.2.2   动作空间

    A为智能体动作的集合, {a^t} 表示智能体在时隙 t 的动作, {a^t} \in A ,智能体的动作由4部分组成:(1)UAV的水平坐标{\boldsymbol{L}}_{{t}}^{{u}};(2)UAV的竖直方向坐标{\boldsymbol{H}}_{{t}}^{{u}};(3)本文使用一个变量{c_{{{mt}}}} \in \{ 0,1\}表示第 t 个时隙内用户调度;(4)UAV在时隙t的持续飞行时间\tau _{{t}}^{{u}},由于DDQN只能处理离散的动作空间,故将飞行时间离散为 ({\tau _{\max }} - {\tau _{\min }})/0.1 ,即{a}^{{t}}=\{{{\boldsymbol{L}}}_{{t}}^{{u}},{{\boldsymbol{H}}}_{{t}}^{{u}},{c}_{{mt}},{\tau }_{{t}}^{{u}}\} \in \boldsymbol{L}\times {\boldsymbol{H}}\times {\boldsymbol{C}}\times {\boldsymbol{\varGamma}}

    3.2.3   奖励设计

    R:奖励函数, {r^t} 表示智能体在状态 {s^t} 执行 {a^t} 得到的即时奖励,若想要让智能体较快地达到目标,提供奖励函数应使得智能体在最大化收益的同时可实现平均安全速率最大化。奖励函数的设置分两种情况,UAV在飞行区域内,将平均安全速率直接设置为奖励函数{r^{{t}}} = \;R_{{{st}}}^{{\text{ave}}},UAV在飞行超出给定服务区域,{r^{{t}}} = R_{{{st}}}^{{\text{ave}}}/100

    本文设计了基于DDQN算法来优化UAV的3D轨迹,通过介绍该算法的结构,给出了优化UAV轨迹过程。DDQN优化算法见表1

    表  1  联合优化UAV轨迹和RIS相移算法(算法1)
     初始化RIS辅助UAV安全通信环境, 时隙数T, 经验回放池D
     当前网络参数 \theta , 目标网络参数 {\theta ^ - }
     for episode = 1:E
       获得 {s^1}
       for t = 1:T
         通过 \varepsilon -贪婪算法,在状态{s^{{t} } }下选取动作{a^{{t} } }
         if UAV 超出服务区域或者速度超出最大值;
           动作不再执行,并且UAV将会得到惩罚;
         end
         执行动作{a^{{t} } },调整UAV的轨迹,得到奖励{r^{{t} } }{s^{ {{t + 1} } } }
         将{\text{(} }{s^{{t} } },{a^{{t} } },{r^{{t} } },{s^{ {{t + 1} } } }) 收集到经验回放池;
         {s^{{t} } } = {s^{ {{t + 1} } } }
       end
       计算RIS最优相移{\theta _{ {{nt} } } }{\text{ = (} }2{\pi }/\lambda )(n - 1)d(\phi _{{t} }^{ {\text{ur} } } - \phi _{{m} }^{ {\text{rm} } })
       从经验池中选择一批数据{\text{(} }{s^{{t} } },{a^{{t} } },{r^{{t} } },{s^{ {{t + 1} } } })
       通过式(18)计算目标Q值;
       通过式(19)最小化损失函数;
       通过式(20)对每个K步更新目标网络;
     end
    下载: 导出CSV 
    | 显示表格

    本节通过仿真验证所提算法在RIS辅助UAV无线通信系统安全传输的数值结果,并将数值结果与没有RIS辅助的系统、有RIS但不优化相移的系统进行比较。

    本文使用Python 3.7, TensorFlow 1.15.0搭建RIS辅助UAV安全通信模型:选用两层的神经网络,输入层包含3个神经元,隐含层包含20个神经元,使用RMSProp优化器训练深度神经网络,激活函数为ReLU函数,每个回合包含3000个时隙。将 \{ {s^t},{a^t},{r^t},{s^{t + 1}}\} 存入经验池,待经验值存满后,随机抽取32个经验序列进入神经网络进行训练。

    UAV在所给定服务范围内飞行,m个用户被随机地分配在UAV服务区域内,设 {\boldsymbol{L}}_{\text{0}}^{\text{u}} = {[0,0]^{\text{T}}} , {z_{\text{R}}} = 50 , {{\boldsymbol{q}}_{\text{w}}} = [700,320] , d = \lambda /2 。参数设置见表2 [24]

    表  2  仿真参数设置
    参数
    服务区域, 小区个数C1000 m × 1000 m, 10000
    用户M, 时隙T, 回合E6, 3000, 300
    带宽B, UAV功率 P, 噪声值 \sigma 2 MHz, 5 mW, –169 dBm/Hz
    {\tau _{\min }} , {\tau _{\max }} , N, {\theta _i}[1] 1 s, 3 s, 100, 0°
    V_{\max }^h , V_{ {\text{max} } }^{{v} },任务Dk10 m/s,10 m/s, 512~1024 kb
    飞行高度 h_0^u , {h_{\min }} , {h_{\max }} 100 m, 30 m, 100 m
    折扣因子 \gamma 0.9
    阻塞参数a, b9.61, 0.16
    下载: 导出CSV 
    | 显示表格

    本文将DDQN的优化效果与DQN的优化效果进行比较,本文算法框架通过将选择动作网络与目标Q值生成网络分离,克服了DQN的Q值过高的问题,而获得比DQN更好的最优奖励。图3显示了4种方案的平均安全速率对比,随着迭代次数增加,动作价值函数随着步长增加而收敛。从图3可以看出,所有方案的安全速率随着步长的增加而逐渐增加。本文所提RIS辅助UAV方案(DDQN_优化RIS相移)的平均安全速率分别是DQN算法(DQN_优化RIS相移)、有RIS但没有优化相移(DDQN_RIS随机相移)和没有RIS辅助(DDQN_无RIS)的1.58倍、1.97倍和5.21倍。仿真表明部署优化后的RIS辅助UAV是可以提高无线通信安全性。

    图  3  4种方案下的平均安全速率对比

    图4仿真了优化UAV的3D轨迹算法和固定高度算法的平均安全速率,优化3D轨迹的方案(优化H)和固定高度的方案,固定高度方案分别为60 m和100 m。从仿真中可以看出,用户所达到的安全速率与UAV的飞行高度也有着密切的关系。优化UAV的3D轨迹明显比固定高度的方案取得更好的性能。当UAV高度的增加时,路径损耗增加,所达到的安全速率的值较低。由图4可知,本文所提方案即优化UAV的3D轨迹达到的平均安全速率分别是固定高度60 m和100 m的1.31倍、1.83倍,即本文所提优化UAV的3D轨迹算法的可以实现较高的平均安全速率。

    图  4  不同高度下所达到的平均安全速率

    图5所示,本文所提基于DDQN的优化算法与文献[13]中使用到的传统连续凸逼近SCA算法和基于DDQN未部署RIS算法进行对比。仿真3种智能反射单元个数,即{N=128, 192, 256},文献[13]中设置无人机的高度为100 m保持不变。在本文DDQN算法中,UAV在3D空间里飞行,高度需要优化。从图5比较3种算法可以看出:优化RIS的相移和UAV的3D轨迹,可以取得比固定高度的SCA算法获得更大的安全速率,没有部署RIS算法的UAV获得最差的安全速率。从实验结果可以看出,优化UAV的高度非常重要。另外仿真结果还可以看出,不同反射单元个数情况下,平均安全速率随着反射单元的增加而增加。

    图  5  不同反射面下不同算法所达到的平均安全速率

    本文采用的是视距/非视距混合信道模型,因为存在障碍物等因素使得通信环境的信道增益是随机的,相应的UAV优化轨迹也不是唯一的。UAV希望在服务用户时尽可能远离Eve,降低合法用户传输被Eve发现的概率。将本文所提RIS辅助UAV方案与有RIS但没有优化相移、没有RIS两个方案对比。图6图7分别为UAV飞行3D轨迹图和2D平面图,图中黄色菱形小方块表示RIS,黑色菱形小方块表示Eve,黑色“×”号表示合法用户。由图6图7可知,优化RIS相移的UAV在获得信息传输速率的保障下,优化自己的水平位置和高度,靠近用户飞行,从2D平面上看,它尽可能地远离窃听者。没有RIS的方案UAV更接近Eve,这显然降低系统的安全性能。RIS随机相移方案的性能是在优化相移和无RIS方案之间,从水平面上看,它远离Eve,但是它也远离了用户。RIS辅助UAV方案在满足用户所需服务的同时,试图远离Eve,从2D平面图和3D轨迹图可以看出本文所提方案具有可行性。

    图  6  UAV的3D轨迹图
    图  7  UAV的2D平面图

    在SCA算法中,算法的复杂度为O({N_{{\text{ite}}}}{N^{3.5}}), {N_{{\text{ite}}}}表示迭代的次数,N表示智能反射面单元数;在本算法中,神经网络包含两个全连接层和1个批标准化(Batch Normalization, BN)层,忽略BN层的开销,计算全连接层的计算复杂度,UAV的3维坐标作为输入层,即神经元个数为3,中间隐含层的神经元个数为20,输出层为动作的个数 {\boldsymbol{L}} \times {\boldsymbol{H}} \times {\boldsymbol{C}} \times {\boldsymbol{\varGamma}} ,1次训练的计算量为3 \times 20 + 20 \times ({\boldsymbol L} \times {\boldsymbol{H}} \times {\boldsymbol{C}} \times {\boldsymbol{\varGamma }}):那么总体的复杂度为O\left( E \times T \times \left( {3 \times 20 + 20 \times ({\boldsymbol L} \times {\boldsymbol{H}} \times {\boldsymbol{C}} \times {\boldsymbol{\varGamma }})} \right) \right),其中E表示回合数,T表示1个回合的训练步长数目。和SCA算法对比,所提算法训练的复杂度较高,但是强化学习一旦训练完毕,进行预测时,算法的复杂度就非常小了。 算法的收敛性是通过在每个回合中不断地降低DDQN目标网络的Q值和训练网络的Q值之间的误差来实现的。随着回合步长的增加,误差会逐渐减小,从而算法达到收敛。

    本文基于深度强化学习中的DDQN算法提出一种联合优化RIS相移和UAV的3D轨迹以保障物理层通信安全的方法,目的是在Eve存在的情况下,UAV基站向合法用户发送的消息被安全传输,最大化平均安全速率。仿真表明,本文所提的算法可以对UAV的3D轨迹进行优化,尽可能远离Eve,降低被窃听的概率。本文所提方案与固定飞行高度的传统SCA方案、RIS辅助没有优化相移和没有RIS辅助的方案相比,可以达到最高的平均安全速率,验证了所提算法的可行性。

  • [1]
    ZHOU Xiaobo, WU Qingqing, YAN Shihao, et al. UAV-enabled secure communications: Joint trajectory and transmit power optimization[J]. IEEE Transactions on Vehicular Technology, 2019, 68(4): 4069–4073. doi: 10.1109/TVT.2019.2900157
    [2]
    WU Qingqing, ZENG Yong, and ZHANG Rui. Joint trajectory and communication design for multi-UAV enabled wireless networks[J]. IEEE Transactions on Wireless Communications, 2018, 17(3): 2109–2121. doi: 10.1109/TWC.2017.2789293
    [3]
    ZENG Yong, ZHANG Rui, and LIM T J. Throughput maximization for UAV-enabled mobile relaying systems[J]. IEEE Transactions on Communications, 2016, 64(12): 4983–4996. doi: 10.1109/TCOMM.2016.2611512
    [4]
    ZHAO Nan, CHENG Fen, YU F R, et al. Caching UAV assisted secure transmission in hyper-dense networks based on interference alignment[J]. IEEE Transactions on Communications, 2018, 66(5): 2281–2294. doi: 10.1109/TCOMM.2018.2792014
    [5]
    ZHAN Cheng, ZENG Yong, and ZHANG Rui. Energy-efficient data collection in UAV enabled wireless sensor network[J]. IEEE Wireless Communications Letters, 2018, 7(3): 328–331. doi: 10.1109/LWC.2017.2776922
    [6]
    FU Yujing, MEI Haibo, WANG Kezhi, et al. Joint optimization of 3D trajectory and scheduling for solar-powered UAV systems[J]. IEEE Transactions on Vehicular Technology, 2021, 70(4): 3972–3977. doi: 10.1109/TVT.2021.3063310
    [7]
    YAN Shihao, ZHOU Xiangyun, YANG Nan, et al. Artificial-noise-aided secure transmission in wiretap channels with transmitter-side correlation[J]. IEEE Transactions on Wireless Communications, 2016, 15(12): 8286–8297. doi: 10.1109/TWC.2016.2613860
    [8]
    YAN Shihao, YANG Nan, LAND I, et al. Three artificial-noise-aided secure transmission schemes in wiretap channels[J]. IEEE Transactions on Vehicular Technology, 2018, 67(4): 3669–3673. doi: 10.1109/TVT.2017.2779508
    [9]
    ZHANG Guangchi, WU Qingqing, CUI Miao, et al. Securing UAV communications via joint trajectory and power control[J]. IEEE Transactions on Wireless Communications, 2019, 18(2): 1376–1389. doi: 10.1109/TWC.2019.2892461
    [10]
    LI An, WU Qingqing, and ZHANG Rui. UAV-enabled cooperative jamming for improving secrecy of ground wiretap channel[J]. IEEE Wireless Communications Letters, 2019, 8(1): 181–184. doi: 10.1109/LWC.2018.2865774
    [11]
    WU Qingqing, LIU Liang, and ZHANG Rui. Fundamental trade-offs in communication and trajectory design for UAV-enabled wireless network[J]. IEEE Wireless Communications, 2019, 26(1): 36–44. doi: 10.1109/MWC.2018.1800221
    [12]
    LI Sixian, DUO Bin, YUAN Xiaojun, et al. Reconfigurable intelligent surface assisted UAV communication: Joint trajectory design and passive beamforming[J]. IEEE Wireless Communications Letters, 2020, 9(5): 716–720. doi: 10.1109/LWC.2020.2966705
    [13]
    FANG Sisai, CHEN Gaojie, and LI Yonghui. Joint optimization for secure intelligent reflecting surface assisted UAV networks[J]. IEEE Wireless Communications Letters, 2021, 10(2): 276–280. doi: 10.1109/LWC.2020.3027969
    [14]
    FANG Junhao, YANG Zhaohui, ANJUM N, et al. Secure intelligent reflecting surface assisted UAV communication networks[C]. 2021 IEEE International Conference on Communications Workshops (ICC Workshops), Montreal, Canada, 2021.
    [15]
    陈新颖, 盛敏, 李博, 等. 面向6G的无人机通信综述[J]. 电子与信息学报, 2022, 44(3): 781–789. doi: 10.11999/JEIT210789

    CHEN Xinying, SHENG Min, LI Bo, et al. Survey on unmanned aerial vehicle communications for 6G[J]. Journal of Electronics &Information Technology, 2022, 44(3): 781–789. doi: 10.11999/JEIT210789
    [16]
    XU Yongjun, XIE Hao, WU Qingqing, et al. Robust max-min energy efficiency for RIS-aided HetNets with distortion noises[J]. IEEE Transactions on Communications, 2022, 70(2): 1457–1471. doi: 10.1109/TCOMM.2022.3141798
    [17]
    XU Yongjun, GAO Zhengnian, WANG Zhengqiang, et al. RIS-enhanced WPCNs: Joint radio resource allocation and passive beamforming optimization[J]. IEEE Transactions on Vehicular Technology, 2021, 70(8): 7980–7991. doi: 10.1109/TVT.2021.3096603
    [18]
    ZHANG Jiayi, DU Hongyang, SUN Qiang, et al. Physical layer security enhancement with reconfigurable intelligent surface-aided networks[J]. IEEE Transactions on Information Forensics and Security, 2021, 16: 3480–3495. doi: 10.1109/TIFS.2021.3083409
    [19]
    HUANG Chongwen, ZAPPONE A, ALEXANDROPOULOS G C, et al. Reconfigurable intelligent surfaces for energy efficiency in wireless communication[J]. IEEE Transactions on Wireless Communications, 2019, 18(8): 4157–4170. doi: 10.1109/TWC.2019.2922609
    [20]
    HUANG Chongwen, MO Ronghong, and YUEN C. Reconfigurable intelligent surface assisted multiuser MISO systems exploiting deep reinforcement learning[J]. IEEE Journal on Selected Areas in Communications, 2020, 38(8): 1839–1850. doi: 10.1109/JSAC.2020.3000835
    [21]
    ZHANG Yu, ZHUANG Zirui, GAO Feifei, et al. Multi-agent deep reinforcement learning for secure UAV communications[C]. 2020 IEEE Wireless Communications and Networking Conference (WCNC), Seoul, Korea, 2020: 1–5.
    [22]
    FU Fang, JIAO Qi, YU F R, et al. Securing UAV-to-vehicle communications: A curiosity-driven deep Q-learning network (C-DQN) approach[C]. 2021 IEEE International Conference on Communications Workshops (ICC Workshops), Montreal, Canada, 2021.
    [23]
    ZHANG Yu, MOU Zhiyu, GAO Feifei, et al. UAV-enabled secure communications by multi-agent deep reinforcement learning[J]. IEEE Transactions on Vehicular Technology, 2020, 69(10): 11599–11611. doi: 10.1109/TVT.2020.3014788
    [24]
    MEI Haibo, YANG Kun, LIU Qiang, et al. 3D-trajectory and phase-shift design for RIS-assisted UAV systems using deep reinforcement learning[J]. IEEE Transactions on Vehicular Technology, 2022, 71(3): 3020–3029. doi: 10.1109/TVT.2022.3143839
    [25]
    WATKINS C J C H and DAYAN P. Q-learning[J]. Machine Learning, 1992, 8(3/4): 279–292. doi: 10.1007/BF00992698
    [26]
    MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[EB/OL]. https://arxiv.org/abs/1312.5602, 2013.
    [27]
    NASIR Y S and GUO Dongning. Multi-agent deep reinforcement learning for dynamic power allocation in wireless networks[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(10): 2239–2250. doi: 10.1109/JSAC.2019.2933973
  • Cited by

    Periodical cited type(7)

    1. 胡浪涛,杨瑞,刘全金,吴建岚,嵇文,吴磊. 深度强化学习下连续和离散相位RIS毫米波通信. 电子科技大学学报. 2024(01): 50-59 .
    2. 艾雪瑞,许放,张涛,程方圆,曹瑾. 基于HMAC算法的网络通信安全数据传输系统设计. 电子设计工程. 2024(06): 175-179 .
    3. 呼和,费丹,韩福勇,张天乐,郑鹏,陈浩然,张思宇,艾渤. 面向移动用户的RIS波束追踪与覆盖增强技术. 信号处理. 2024(08): 1460-1468 .
    4. 张楠,胡庆丰,邱波. 先进技术在军机无人机调试放飞中的应用与挑战. 中国军转民. 2024(17): 40-41 .
    5. 王庆,孙玮,张程程,秦真,廖勇. 基于深度强化学习的无人机集群通信与网络资源优化调度. 无线电工程. 2024(12): 2942-2949 .
    6. 乔晓磊. 无人机测量技术在铁路工程测绘实践中的应用研究. 中国高新科技. 2023(12): 150-152 .
    7. 费丹,陈晨,郑鹏,游明博,丁建文,王玮,章嘉懿,艾渤,金石,崔铁军. 基于智能超表面的室内覆盖增强技术研究与实验验证. 电子与信息学报. 2022(07): 2374-2381 . 本站查看

    Other cited types(6)

  • 加载中

Catalog

    通讯作者: 陈斌, bchen63@163.com
    • 1. 

      沈阳化工大学材料科学与工程学院 沈阳 110142

    1. 本站搜索
    2. 百度学术搜索
    3. 万方数据库搜索
    4. CNKI搜索

    Figures(7)  / Tables(2)

    Article Metrics

    Article views (1500) PDF downloads(231) Cited by()
    Proportional views
    Related

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return