
Citation: | HU Langtao, BI Songjiao, LIU Quanjin, WU Jianlan, YANG Rui, WANG Hong. Physical Layer Security Algorithm of Reconfigurable Intelligent Surface-assisted Unmanned Aerial Vehicle Communication System Based on Reinforcement Learning[J]. Journal of Electronics & Information Technology, 2022, 44(7): 2407-2415. doi: 10.11999/JEIT211613 |
随着5G无线网络的快速发展,无人机(Unmanned Aerial Vehicle, UAV)因其具有低成本、高机动性、覆盖范围广、可以按需部署等优点,在无线通信领域引起了广泛的研究[1-6]。UAV可以按需部署至当前地面通信设备无法覆盖的区域,用于缓解突发状况下场景的通信压力,进而提高通信质量。UAV作为一个空中基站为服务区内的用户提供信号的覆盖[1, 2]。例如,当地面出现紧急情况,地面基站被摧毁,UAV可临时代替被损坏的基站,以维持正常的通信;考虑较远的用户之间的通信场景,采用UAV作为中继,可改善传播环境,增强信号的传播范围,提高系统的通信性能[3, 4];此外,UAV还作为空中用户,用于辅助信息传播和数据收集[5]。
在上述UAV通信应用中,由于无线信道的广播特性,其传播没有明确的物理边界,这将导致通过无线方式传播的机密信息很容易被非授权用户窃听或者受到攻击。UAV网络的安全和隐私问题受到研究者的广泛关注[7-10]。传统的加密技术可以部分解决UAV网络的安全问题。然而,找到一种有效的方法来解决其潜在的数学问题是困难的,加密技术的安全性将受到极大的限制。因此,物理层安全成为解决UAV网络安全问题的理想选择,通过传输设计基本实现了安全通信[7,8]。文献[9]考虑UAV和地面用户的双向通信中,在窃听者存在的情况下,通过联合优化UAV轨迹和合法发射机的发射功率,提高合法信号质量并降低窃听信号质量,以最大化平均安全速率。文献[10]提出一种新型的UAV移动干扰方案,利用UAV来传输干扰信号,以防止窃听者窃听机密信息,通过联合优化UAV的轨迹和干扰功率,提高安全速率。
然而在复杂的城市环境中,UAV和地面用户之间的视距链路可能会被阻挡[11],这严重降低了信道质量。针对这一问题,智能超表面(Reconfigurable Intelligent Surface, RIS)可以通过反射UAV和用户之间的传输信号来辅助UAV安全通信,改善无线环境[12-14]。RIS是目前被广泛认可的潜在6G关键技术之一[15],RIS由大量低成本的可重构反射单元组成,不需要复杂的编码、解码和射频处理操作,可以有效地控制入射信号的相位、振幅、频率等,改善无线传播环境,可以实现更快、更可靠数据传输[16-19]。在UAV通信中搭建智能反射面,通过直射与反射信号叠加,可增强用户收到的信号。由于RIS 的低成本、易部署特性,有望实现大范围的航路信号覆盖。文献[12] RIS引入UAV网络并被证明可以显著提高数据速率,但未考虑其安全性能。文献[13]研究了RIS辅助下的UAV网络的安全通信问题,通过联合优化RIS的相移、UAV的轨迹和功率最大化安全速率。文献[14]考虑了一种RIS辅助的UAV网络,其中UAV加装一个RIS作为无源中继,提出了一种迭代算法,通过联合优化UAV位置和RIS的相移最大限度地提高系统的保密率。
上述研究主要是利用传统的优化技术,对RIS辅助安全通信系统中的UAV轨迹和RIS相移进行联合优化,对于大规模系统效率较低。受深度强化学习可以实现对高维数据处理的启发,一些研究者尝试利用人工智能算法进行优化RIS的反射波束形成[20]和UAV轨迹[21-23]。然而,文献[21-23]没有引入RIS这一先进技术,文献[13]引入了RIS技术,但是UAV的轨迹是在2维平面上进行优化,UAV的高度是固定的,这在真实的系统中是不现实的。本文基于双深度Q网络(Double Deep Q Network, DDQN)设计了一种联合优化RIS相移矩阵和UAV的3D轨迹算法,最大化系统可达到的安全速率。
如图1所示,本文考虑了一个由RIS辅助的UAV网络,其中部署了一个RIS来协助从UAV(Alice)到合法地面用户(Bob,即用户m)的安全通信,以对抗窃听者(Eve) ,其中用户m和Eve均位于地面。UAV服务区域被离散为大小相等的L个单元格,与m个合法用户进行安全通信,其中
UAV的飞行周期和最大飞行速度设置为T和
假设UAV-RIS链路在第
gurt = √ξdurt[1,e−j2πλdϕurt,⋯,e−j2πλ(N - 1)dϕurt]T | (1) |
其中,
gumm = √ξdrmm[1,e−j2πλdϕrmm,⋯,e−j2πλ(N−1)dϕrmm]T | (2) |
guee = √ξdree[1,e−j2πλdϕree,⋯,e−j2πλ(N−1)dϕree]T | (3) |
其中,
为了评估UAV与Eve、用户m直连链路被阻塞的可能性。本文考虑城市环境中的空对地信道模型[24],
pet=1−11+aexp(−b(arctan(Hutduee)−a)) | (4) |
pmt=1−11+aexp(−b(arctan(Hutdumm)−a)) | (5) |
其中,a和b为阻塞参数,取决于环境的量值,
用户m和Eve的接收信号为
ym[i]=√P(pmtgurt⋅Φt⋅grmmBdumm+(1−pmt)gummBdurmm)⋅s[i]+nm[i] | (6) |
ye[i]=√P(petgurt⋅Φt⋅greeBduee+(1−pet)gueeBduree)⋅s[i]+ne[i] | (7) |
SNRmmt = (P⋅pmt(gurt⋅Φt⋅grmw)2B2σ2m⏟UAV−RIS−m+P⋅(1−pwt)ξ2(Bσmdumm)2⏟UAV−m) | (8) |
SNReet = (P⋅pet(gurt⋅Φt⋅gree)2B2σ2e⏟UAV−RIS−Eve+P⋅(1−pet)ξ2(Bσeduee)2⏟UAV−Eve) | (9) |
其中,B是信道带宽,P是UAV的固定发射功率,
根据式(6)和式(7),第
Rmt=cmtBlog2(1+SNRmmt) | (10) |
Ret=Blog2(1+SNReet) | (11) |
本文通过联合优化UAV的3D轨迹和RIS的相移最大化平均安全速率。UAV的3D坐标为
\mathop {\max }\limits_{{\boldsymbol{L}},{H},{\boldsymbol{\varPhi }},{C}{\boldsymbol{,}}{\varGamma }} R_{st}^{{\rm{ave}}} | (12) |
{\text{s}}{\text{.t}}{\text{.}}\;\;{c_{{{mt}}}} \in \{ 0,1\} ,\forall m \in M\;,\;\forall t \in T \tag{12a} |
\quad\;\;\; \sum\limits_{t = 1}^T {\tau _{{t}}^{\text{u}}{R_{{{mt}}}} \ge {D_{{m}}},\forall m \in M} \tag{12b} |
\quad\;\;\;v_{{t}}^{\text{h}} \le V_{{\text{max}}}^{\text{h}},\forall t \in T \tag{12c} |
\quad\;\;\; v_{{t}}^{\text{v}} \le V_{{\text{max}}}^{\text{v}},\forall t \in T \tag{12d} |
\quad\;\;\; {h_{{\text{min}}}} \le {\boldsymbol{H}}_{{t}}^{\text{u}} \le {h_{{\text{max}}}},\forall t \in T \tag{12e} |
\quad\;\;\; {\tau _{{\text{min}}}} \le \tau _{{t}}^{\text{u}} \le {\tau _{{\text{max}}}},\forall t \tag{12f} |
其中,式(12a)表示在时隙
动态的无线环境可以建模为马尔可夫决策过程(Markov Decision Process, MDP),强化学习中的智能体通过与未知环境交互不断学习,最大化智能体得到的奖励。在动态的网络环境中,经常使用无模型强化学习算法,学习估计每个状态-动作值函数 (称为Q值函数)。在t时隙,智能体从环境中获取状态
本文的目标是优化UAV的3D轨迹和RIS的相移以最大化合法用户平均安全速率。为此,本文将平均安全速率最大化问题表述为 MDP并随后采用深度强化学习算法获得累积平均安全速率奖励。本文以深度Q网络(Deep Q Network, DQN)为基础,为克服DQN的Q值高估问题,本文采用了DDQN框架,通过训练深度神经网络,以最大化可实现的平均安全速率。将RIS辅助的UAV安全通信系统建模为一个环境,UAV可视为一个智能体。
Q学习算法[25]中使用Q函数表示智能体在状态s下,采取动作a,所获得的累计奖励值,Q函数表示为
\begin{split} {Q_{\pi}}\;\left( {{s^{{t}}},{a^{{t}}}} \right) =& {E_{\pi}}\;[{r^{\;{{t + 1}}}}|{s^{{t}}} = s,\;{a^{{t}}} = a] \\ & +\gamma \sum\limits_{s{{'}} \in S} {P_{{{s}}{{{s}}'}}^{\;{{a}}}\;\left( {\sum\limits_{a{{'}} \in A} {{\pi}\;({s'},{a'})\;{Q^{\;{\pi}}}({s'},{a'})} } \right)} \end{split} | (13) |
学习到策略π的Q 值后,在状态s的可选动作集中执行最大Q值对应的动作即可得到策略π*。由式(13),与最优策略相关的最优Q函数为
\begin{split} {Q^{\text{*}}}\left( {{s^{{t}}},{a^{{t}}}} \right) =& {r^{{{t + 1}}}}\;\;({s^{{t}}} = s,\;{a^{{t}}} = a,\;{\pi} = {{\pi}^{\text{*}}}) \\ & +\gamma \sum\limits_{s{{'}} \in \;S} {P_{{{s}}{{{s}}'}}^{\;{{a}}}\;\mathop {\;\max }\limits_{a{{'}} \in \;A} {Q^{\text{*}}}({s'},{a'})} \end{split} | (14) |
由贝尔曼方程式(14)递归求解得到最优Q值。对Q值的更新公式为
\begin{split} & {Q^{\text{*}}}\left( {{s^{{t+1}}},{a^{{t+1}}}} \right) = {Q^{\text{*}}}\left( {{s^{{t}}},{a^{{t}}}} \right) \\ & \quad +\alpha \left( {{r^{{{t + 1}}}} + \;\gamma \mathop {\max }\limits_{{a'}} {Q_{\pi}}({s^{{{t + 1}}}},{a'}) - {Q^*}\left( {{s^{{t}}},{a^{{t}}}} \right)} \right) \end{split} | (15) |
Q学习用表格存储Q值,对于维度较大的状态空间和动作空间实时更新难以实现,DQN将值函数估计与神经网络相结合,解决Q学习的“维度爆炸”问题。
在DQN( NIPS 2015)[26]中,提出双神经网络结构,双神经网络分别为当前值网络(参数
{{y}}_{{t}}^{^{{\text{DQN}}}} = {r^{{t}}} + \gamma \mathop {\max }\limits_{{a'}} {\theta ^{{ - }}}({s^{{{t + 1}}}},{a{{'}}};{\theta ^{{ - }}}) | (16) |
损失函数计算如式(17)所示
{L^{{\text{DQN}}}}(\theta ) = {\rm{E}}\left[ {{{(y_{{t}}^{{\text{DQN}}} - Q({s^{{t}}},{a^{{t}}},\theta ))}^2}} \right] | (17) |
Q学习与DQN通过执行当前策略最大Q值对应动作来优化策略,容易过高估计Q值。DDQN是在DQN的基础上改进而来的。DDQN的模型结构和DQN的模型结构一样,唯一不同的就是它们的目标函数。在DDQN算法中,当前值网络用来选取最大Q值对应的动作
DDQN中的目标值为
{{y}}_{{t}}^{^{{\text{DDQN}}}} = {r^{{t}}} + \gamma {\theta ^{{ - }}}({s^{{{t + 1}}}},\arg {\max _{{a{{'}}}}}Q({s^{{t}}},{a{{'}}};\theta );{\theta ^{{ - }}}) | (18) |
损失函数如式(19)
{L^{{\text{DDQN}}}}(\theta ) = {\rm{E}}\left[ {{{(y_{{t}}^{{\text{DDQN}}} - Q({s^{{t}}},{a^{{t}}},\theta ))}^2}} \right] | (19) |
目标网络的参数更新为
{\theta ^ - } = \eta \theta + (1 - \eta ){\theta ^ - } | (20) |
其中,
UAV的3维轨迹,服务用户m及飞行时间由
通常将MDP定义为一个4元组
在一个时隙内,假设UAV在水平方向从其当前小区移动到4个相邻小区之一或保持不变,并且在垂直维度仅移动到其相邻高度级别。UAV的下一个时隙水平位置
{\boldsymbol{L}}_{{{t + 1}}}^{{u}} = {\boldsymbol{L}}_{{t}}^{{u}} + {{\boldsymbol{l}}_{{t}}} | (21) |
其中,
{\boldsymbol{H}}_{{{t + 1}}}^{{u}} = {\boldsymbol{H}}_{{t}}^{{u}} + {h_{{t}}} | (22) |
其中,
A为智能体动作的集合,
R:奖励函数,
本文设计了基于DDQN算法来优化UAV的3D轨迹,通过介绍该算法的结构,给出了优化UAV轨迹过程。DDQN优化算法见表1。
初始化RIS辅助UAV安全通信环境, 时隙数T, 经验回放池D, |
当前网络参数 \theta , 目标网络参数 {\theta ^ - } ; |
for episode = 1:E |
获得 {s^1} ; |
for t = 1:T |
通过 \varepsilon -贪婪算法,在状态{s^{{t} } }下选取动作{a^{{t} } }; |
if UAV 超出服务区域或者速度超出最大值; |
动作不再执行,并且UAV将会得到惩罚; |
end |
执行动作{a^{{t} } },调整UAV的轨迹,得到奖励{r^{{t} } }和{s^{ {{t + 1} } } }; |
将{\text{(} }{s^{{t} } },{a^{{t} } },{r^{{t} } },{s^{ {{t + 1} } } }) 收集到经验回放池; |
{s^{{t} } } = {s^{ {{t + 1} } } }; |
end |
计算RIS最优相移{\theta _{ {{nt} } } }{\text{ = (} }2{\pi }/\lambda )(n - 1)d(\phi _{{t} }^{ {\text{ur} } } - \phi _{{m} }^{ {\text{rm} } }); |
从经验池中选择一批数据{\text{(} }{s^{{t} } },{a^{{t} } },{r^{{t} } },{s^{ {{t + 1} } } }); |
通过式(18)计算目标Q值; |
通过式(19)最小化损失函数; |
通过式(20)对每个K步更新目标网络; |
end |
本节通过仿真验证所提算法在RIS辅助UAV无线通信系统安全传输的数值结果,并将数值结果与没有RIS辅助的系统、有RIS但不优化相移的系统进行比较。
本文使用Python 3.7, TensorFlow 1.15.0搭建RIS辅助UAV安全通信模型:选用两层的神经网络,输入层包含3个神经元,隐含层包含20个神经元,使用RMSProp优化器训练深度神经网络,激活函数为ReLU函数,每个回合包含3000个时隙。将
UAV在所给定服务范围内飞行,m个用户被随机地分配在UAV服务区域内,设
参数 | 值 |
服务区域, 小区个数C | 1000 m × 1000 m, 10000 |
用户M, 时隙T, 回合E | 6, 3000, 300 |
带宽B, UAV功率 P, 噪声值 \sigma | 2 MHz, 5 mW, –169 dBm/Hz |
{\tau _{\min }} , {\tau _{\max }} , N, {\theta _i}[1] | 1 s, 3 s, 100, 0° |
V_{\max }^h , V_{ {\text{max} } }^{{v} },任务Dk | 10 m/s,10 m/s, 512~1024 kb |
飞行高度 h_0^u , {h_{\min }} , {h_{\max }} | 100 m, 30 m, 100 m |
折扣因子 \gamma | 0.9 |
阻塞参数a, b | 9.61, 0.16 |
本文将DDQN的优化效果与DQN的优化效果进行比较,本文算法框架通过将选择动作网络与目标Q值生成网络分离,克服了DQN的Q值过高的问题,而获得比DQN更好的最优奖励。图3显示了4种方案的平均安全速率对比,随着迭代次数增加,动作价值函数随着步长增加而收敛。从图3可以看出,所有方案的安全速率随着步长的增加而逐渐增加。本文所提RIS辅助UAV方案(DDQN_优化RIS相移)的平均安全速率分别是DQN算法(DQN_优化RIS相移)、有RIS但没有优化相移(DDQN_RIS随机相移)和没有RIS辅助(DDQN_无RIS)的1.58倍、1.97倍和5.21倍。仿真表明部署优化后的RIS辅助UAV是可以提高无线通信安全性。
图4仿真了优化UAV的3D轨迹算法和固定高度算法的平均安全速率,优化3D轨迹的方案(优化H)和固定高度的方案,固定高度方案分别为60 m和100 m。从仿真中可以看出,用户所达到的安全速率与UAV的飞行高度也有着密切的关系。优化UAV的3D轨迹明显比固定高度的方案取得更好的性能。当UAV高度的增加时,路径损耗增加,所达到的安全速率的值较低。由图4可知,本文所提方案即优化UAV的3D轨迹达到的平均安全速率分别是固定高度60 m和100 m的1.31倍、1.83倍,即本文所提优化UAV的3D轨迹算法的可以实现较高的平均安全速率。
如图5所示,本文所提基于DDQN的优化算法与文献[13]中使用到的传统连续凸逼近SCA算法和基于DDQN未部署RIS算法进行对比。仿真3种智能反射单元个数,即{N=128, 192, 256},文献[13]中设置无人机的高度为100 m保持不变。在本文DDQN算法中,UAV在3D空间里飞行,高度需要优化。从图5比较3种算法可以看出:优化RIS的相移和UAV的3D轨迹,可以取得比固定高度的SCA算法获得更大的安全速率,没有部署RIS算法的UAV获得最差的安全速率。从实验结果可以看出,优化UAV的高度非常重要。另外仿真结果还可以看出,不同反射单元个数情况下,平均安全速率随着反射单元的增加而增加。
本文采用的是视距/非视距混合信道模型,因为存在障碍物等因素使得通信环境的信道增益是随机的,相应的UAV优化轨迹也不是唯一的。UAV希望在服务用户时尽可能远离Eve,降低合法用户传输被Eve发现的概率。将本文所提RIS辅助UAV方案与有RIS但没有优化相移、没有RIS两个方案对比。图6、图7分别为UAV飞行3D轨迹图和2D平面图,图中黄色菱形小方块表示RIS,黑色菱形小方块表示Eve,黑色“×”号表示合法用户。由图6和图7可知,优化RIS相移的UAV在获得信息传输速率的保障下,优化自己的水平位置和高度,靠近用户飞行,从2D平面上看,它尽可能地远离窃听者。没有RIS的方案UAV更接近Eve,这显然降低系统的安全性能。RIS随机相移方案的性能是在优化相移和无RIS方案之间,从水平面上看,它远离Eve,但是它也远离了用户。RIS辅助UAV方案在满足用户所需服务的同时,试图远离Eve,从2D平面图和3D轨迹图可以看出本文所提方案具有可行性。
在SCA算法中,算法的复杂度为
本文基于深度强化学习中的DDQN算法提出一种联合优化RIS相移和UAV的3D轨迹以保障物理层通信安全的方法,目的是在Eve存在的情况下,UAV基站向合法用户发送的消息被安全传输,最大化平均安全速率。仿真表明,本文所提的算法可以对UAV的3D轨迹进行优化,尽可能远离Eve,降低被窃听的概率。本文所提方案与固定飞行高度的传统SCA方案、RIS辅助没有优化相移和没有RIS辅助的方案相比,可以达到最高的平均安全速率,验证了所提算法的可行性。
[1] |
ZHOU Xiaobo, WU Qingqing, YAN Shihao, et al. UAV-enabled secure communications: Joint trajectory and transmit power optimization[J]. IEEE Transactions on Vehicular Technology, 2019, 68(4): 4069–4073. doi: 10.1109/TVT.2019.2900157
|
[2] |
WU Qingqing, ZENG Yong, and ZHANG Rui. Joint trajectory and communication design for multi-UAV enabled wireless networks[J]. IEEE Transactions on Wireless Communications, 2018, 17(3): 2109–2121. doi: 10.1109/TWC.2017.2789293
|
[3] |
ZENG Yong, ZHANG Rui, and LIM T J. Throughput maximization for UAV-enabled mobile relaying systems[J]. IEEE Transactions on Communications, 2016, 64(12): 4983–4996. doi: 10.1109/TCOMM.2016.2611512
|
[4] |
ZHAO Nan, CHENG Fen, YU F R, et al. Caching UAV assisted secure transmission in hyper-dense networks based on interference alignment[J]. IEEE Transactions on Communications, 2018, 66(5): 2281–2294. doi: 10.1109/TCOMM.2018.2792014
|
[5] |
ZHAN Cheng, ZENG Yong, and ZHANG Rui. Energy-efficient data collection in UAV enabled wireless sensor network[J]. IEEE Wireless Communications Letters, 2018, 7(3): 328–331. doi: 10.1109/LWC.2017.2776922
|
[6] |
FU Yujing, MEI Haibo, WANG Kezhi, et al. Joint optimization of 3D trajectory and scheduling for solar-powered UAV systems[J]. IEEE Transactions on Vehicular Technology, 2021, 70(4): 3972–3977. doi: 10.1109/TVT.2021.3063310
|
[7] |
YAN Shihao, ZHOU Xiangyun, YANG Nan, et al. Artificial-noise-aided secure transmission in wiretap channels with transmitter-side correlation[J]. IEEE Transactions on Wireless Communications, 2016, 15(12): 8286–8297. doi: 10.1109/TWC.2016.2613860
|
[8] |
YAN Shihao, YANG Nan, LAND I, et al. Three artificial-noise-aided secure transmission schemes in wiretap channels[J]. IEEE Transactions on Vehicular Technology, 2018, 67(4): 3669–3673. doi: 10.1109/TVT.2017.2779508
|
[9] |
ZHANG Guangchi, WU Qingqing, CUI Miao, et al. Securing UAV communications via joint trajectory and power control[J]. IEEE Transactions on Wireless Communications, 2019, 18(2): 1376–1389. doi: 10.1109/TWC.2019.2892461
|
[10] |
LI An, WU Qingqing, and ZHANG Rui. UAV-enabled cooperative jamming for improving secrecy of ground wiretap channel[J]. IEEE Wireless Communications Letters, 2019, 8(1): 181–184. doi: 10.1109/LWC.2018.2865774
|
[11] |
WU Qingqing, LIU Liang, and ZHANG Rui. Fundamental trade-offs in communication and trajectory design for UAV-enabled wireless network[J]. IEEE Wireless Communications, 2019, 26(1): 36–44. doi: 10.1109/MWC.2018.1800221
|
[12] |
LI Sixian, DUO Bin, YUAN Xiaojun, et al. Reconfigurable intelligent surface assisted UAV communication: Joint trajectory design and passive beamforming[J]. IEEE Wireless Communications Letters, 2020, 9(5): 716–720. doi: 10.1109/LWC.2020.2966705
|
[13] |
FANG Sisai, CHEN Gaojie, and LI Yonghui. Joint optimization for secure intelligent reflecting surface assisted UAV networks[J]. IEEE Wireless Communications Letters, 2021, 10(2): 276–280. doi: 10.1109/LWC.2020.3027969
|
[14] |
FANG Junhao, YANG Zhaohui, ANJUM N, et al. Secure intelligent reflecting surface assisted UAV communication networks[C]. 2021 IEEE International Conference on Communications Workshops (ICC Workshops), Montreal, Canada, 2021.
|
[15] |
陈新颖, 盛敏, 李博, 等. 面向6G的无人机通信综述[J]. 电子与信息学报, 2022, 44(3): 781–789. doi: 10.11999/JEIT210789
CHEN Xinying, SHENG Min, LI Bo, et al. Survey on unmanned aerial vehicle communications for 6G[J]. Journal of Electronics &Information Technology, 2022, 44(3): 781–789. doi: 10.11999/JEIT210789
|
[16] |
XU Yongjun, XIE Hao, WU Qingqing, et al. Robust max-min energy efficiency for RIS-aided HetNets with distortion noises[J]. IEEE Transactions on Communications, 2022, 70(2): 1457–1471. doi: 10.1109/TCOMM.2022.3141798
|
[17] |
XU Yongjun, GAO Zhengnian, WANG Zhengqiang, et al. RIS-enhanced WPCNs: Joint radio resource allocation and passive beamforming optimization[J]. IEEE Transactions on Vehicular Technology, 2021, 70(8): 7980–7991. doi: 10.1109/TVT.2021.3096603
|
[18] |
ZHANG Jiayi, DU Hongyang, SUN Qiang, et al. Physical layer security enhancement with reconfigurable intelligent surface-aided networks[J]. IEEE Transactions on Information Forensics and Security, 2021, 16: 3480–3495. doi: 10.1109/TIFS.2021.3083409
|
[19] |
HUANG Chongwen, ZAPPONE A, ALEXANDROPOULOS G C, et al. Reconfigurable intelligent surfaces for energy efficiency in wireless communication[J]. IEEE Transactions on Wireless Communications, 2019, 18(8): 4157–4170. doi: 10.1109/TWC.2019.2922609
|
[20] |
HUANG Chongwen, MO Ronghong, and YUEN C. Reconfigurable intelligent surface assisted multiuser MISO systems exploiting deep reinforcement learning[J]. IEEE Journal on Selected Areas in Communications, 2020, 38(8): 1839–1850. doi: 10.1109/JSAC.2020.3000835
|
[21] |
ZHANG Yu, ZHUANG Zirui, GAO Feifei, et al. Multi-agent deep reinforcement learning for secure UAV communications[C]. 2020 IEEE Wireless Communications and Networking Conference (WCNC), Seoul, Korea, 2020: 1–5.
|
[22] |
FU Fang, JIAO Qi, YU F R, et al. Securing UAV-to-vehicle communications: A curiosity-driven deep Q-learning network (C-DQN) approach[C]. 2021 IEEE International Conference on Communications Workshops (ICC Workshops), Montreal, Canada, 2021.
|
[23] |
ZHANG Yu, MOU Zhiyu, GAO Feifei, et al. UAV-enabled secure communications by multi-agent deep reinforcement learning[J]. IEEE Transactions on Vehicular Technology, 2020, 69(10): 11599–11611. doi: 10.1109/TVT.2020.3014788
|
[24] |
MEI Haibo, YANG Kun, LIU Qiang, et al. 3D-trajectory and phase-shift design for RIS-assisted UAV systems using deep reinforcement learning[J]. IEEE Transactions on Vehicular Technology, 2022, 71(3): 3020–3029. doi: 10.1109/TVT.2022.3143839
|
[25] |
WATKINS C J C H and DAYAN P. Q-learning[J]. Machine Learning, 1992, 8(3/4): 279–292. doi: 10.1007/BF00992698
|
[26] |
MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[EB/OL]. https://arxiv.org/abs/1312.5602, 2013.
|
[27] |
NASIR Y S and GUO Dongning. Multi-agent deep reinforcement learning for dynamic power allocation in wireless networks[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(10): 2239–2250. doi: 10.1109/JSAC.2019.2933973
|
1. | 胡浪涛,杨瑞,刘全金,吴建岚,嵇文,吴磊. 深度强化学习下连续和离散相位RIS毫米波通信. 电子科技大学学报. 2024(01): 50-59 . ![]() | |
2. | 艾雪瑞,许放,张涛,程方圆,曹瑾. 基于HMAC算法的网络通信安全数据传输系统设计. 电子设计工程. 2024(06): 175-179 . ![]() | |
3. | 呼和,费丹,韩福勇,张天乐,郑鹏,陈浩然,张思宇,艾渤. 面向移动用户的RIS波束追踪与覆盖增强技术. 信号处理. 2024(08): 1460-1468 . ![]() | |
4. | 张楠,胡庆丰,邱波. 先进技术在军机无人机调试放飞中的应用与挑战. 中国军转民. 2024(17): 40-41 . ![]() | |
5. | 王庆,孙玮,张程程,秦真,廖勇. 基于深度强化学习的无人机集群通信与网络资源优化调度. 无线电工程. 2024(12): 2942-2949 . ![]() | |
6. | 乔晓磊. 无人机测量技术在铁路工程测绘实践中的应用研究. 中国高新科技. 2023(12): 150-152 . ![]() | |
7. | 费丹,陈晨,郑鹏,游明博,丁建文,王玮,章嘉懿,艾渤,金石,崔铁军. 基于智能超表面的室内覆盖增强技术研究与实验验证. 电子与信息学报. 2022(07): 2374-2381 . ![]() |
初始化RIS辅助UAV安全通信环境, 时隙数T, 经验回放池D, |
当前网络参数 \theta , 目标网络参数 {\theta ^ - } ; |
for episode = 1:E |
获得 {s^1} ; |
for t = 1:T |
通过 \varepsilon -贪婪算法,在状态{s^{{t} } }下选取动作{a^{{t} } }; |
if UAV 超出服务区域或者速度超出最大值; |
动作不再执行,并且UAV将会得到惩罚; |
end |
执行动作{a^{{t} } },调整UAV的轨迹,得到奖励{r^{{t} } }和{s^{ {{t + 1} } } }; |
将{\text{(} }{s^{{t} } },{a^{{t} } },{r^{{t} } },{s^{ {{t + 1} } } }) 收集到经验回放池; |
{s^{{t} } } = {s^{ {{t + 1} } } }; |
end |
计算RIS最优相移{\theta _{ {{nt} } } }{\text{ = (} }2{\pi }/\lambda )(n - 1)d(\phi _{{t} }^{ {\text{ur} } } - \phi _{{m} }^{ {\text{rm} } }); |
从经验池中选择一批数据{\text{(} }{s^{{t} } },{a^{{t} } },{r^{{t} } },{s^{ {{t + 1} } } }); |
通过式(18)计算目标Q值; |
通过式(19)最小化损失函数; |
通过式(20)对每个K步更新目标网络; |
end |
参数 | 值 |
服务区域, 小区个数C | 1000 m × 1000 m, 10000 |
用户M, 时隙T, 回合E | 6, 3000, 300 |
带宽B, UAV功率 P, 噪声值 \sigma | 2 MHz, 5 mW, –169 dBm/Hz |
{\tau _{\min }} , {\tau _{\max }} , N, {\theta _i}[1] | 1 s, 3 s, 100, 0° |
V_{\max }^h , V_{ {\text{max} } }^{{v} },任务Dk | 10 m/s,10 m/s, 512~1024 kb |
飞行高度 h_0^u , {h_{\min }} , {h_{\max }} | 100 m, 30 m, 100 m |
折扣因子 \gamma | 0.9 |
阻塞参数a, b | 9.61, 0.16 |
初始化RIS辅助UAV安全通信环境, 时隙数T, 经验回放池D, |
当前网络参数 \theta , 目标网络参数 {\theta ^ - } ; |
for episode = 1:E |
获得 {s^1} ; |
for t = 1:T |
通过 \varepsilon -贪婪算法,在状态{s^{{t} } }下选取动作{a^{{t} } }; |
if UAV 超出服务区域或者速度超出最大值; |
动作不再执行,并且UAV将会得到惩罚; |
end |
执行动作{a^{{t} } },调整UAV的轨迹,得到奖励{r^{{t} } }和{s^{ {{t + 1} } } }; |
将{\text{(} }{s^{{t} } },{a^{{t} } },{r^{{t} } },{s^{ {{t + 1} } } }) 收集到经验回放池; |
{s^{{t} } } = {s^{ {{t + 1} } } }; |
end |
计算RIS最优相移{\theta _{ {{nt} } } }{\text{ = (} }2{\pi }/\lambda )(n - 1)d(\phi _{{t} }^{ {\text{ur} } } - \phi _{{m} }^{ {\text{rm} } }); |
从经验池中选择一批数据{\text{(} }{s^{{t} } },{a^{{t} } },{r^{{t} } },{s^{ {{t + 1} } } }); |
通过式(18)计算目标Q值; |
通过式(19)最小化损失函数; |
通过式(20)对每个K步更新目标网络; |
end |
参数 | 值 |
服务区域, 小区个数C | 1000 m × 1000 m, 10000 |
用户M, 时隙T, 回合E | 6, 3000, 300 |
带宽B, UAV功率 P, 噪声值 \sigma | 2 MHz, 5 mW, –169 dBm/Hz |
{\tau _{\min }} , {\tau _{\max }} , N, {\theta _i}[1] | 1 s, 3 s, 100, 0° |
V_{\max }^h , V_{ {\text{max} } }^{{v} },任务Dk | 10 m/s,10 m/s, 512~1024 kb |
飞行高度 h_0^u , {h_{\min }} , {h_{\max }} | 100 m, 30 m, 100 m |
折扣因子 \gamma | 0.9 |
阻塞参数a, b | 9.61, 0.16 |