Joint Secure Transmission and Trajectory Optimization for Reconfigurable Intelligent Surface-aided Non-Terrestrial Networks
-
摘要: 由于卫星与地面用户之间的直连受限于覆盖范围和链路质量以及非地面网络存在窃听威胁等问题,该文考虑一个无人机中继的非地面网络安全传输系统,引入可重构智能超表面(RIS),提高合法用户信号质量。同时为了兼顾系统高传输速率和高安全需求,该文设计卫星到无人机的传输速率与地面合法用户的安全速率的加权和作为系统效用,并以此作为优化目标,进而提出一种基于双层双延迟深度确定性策略梯度(TTD3)的联合卫星与无人机波束成形、RIS相移矩阵以及无人机轨迹优化方法,通过采用双层深度强化学习结构解耦波束成形和轨迹优化两个子问题,实现系统效用最大化。仿真结果验证了所提方法在动态非地面网络环境下的有效性,同时在高安全需求下,通过对比不同算法、不同配置方案以及不同RIS元件数量下的仿真结果,证明了该文所提方法能够提升系统安全传输性能。Abstract:
Objective The proliferation of technologies such as the Internet of Things, smart cities, and next-generation mobile communications has made Non-Terrestrial Networks (NTNs) increasingly important for global communication. Future communication systems are expected to rely heavily on NTNs to provide seamless global coverage and efficient data transmission. However, current NTNs face challenges, including limited coverage and link quality in direct satellite-to-ground user connections, as well as eavesdropping threats. To address these challenges, a system integrating Reconfigurable Intelligent Surfaces (RIS) with a twin-layer Deep Reinforcement Learning (DRL) algorithm is proposed. This approach aims to satisfy the system’s requirements for high transmission rates and enhanced security, improving the signal strength for legitimate users while facilitating real-time updates and optimization of channel state information in NTNs. Methods First, an RIS-aided downlink NTNs system using an Unmanned Aerial Vehicle (UAV) as a relay is established. To balance the system’s transmission rate and security requirements, the weighted sum of the satellite-to-UAV transmission rate and the secure rate of the legitimate ground user is designed as the system utility, which serves as the optimization objective. A joint optimization method based on the Twin-Twin Delayed Deep Deterministic Policy Gradient (TTD3) algorithm is then proposed. This method jointly optimizes satellite and UAV beamforming, the RIS phase shift matrix, and UAV trajectory. The algorithm divides the optimization problem into two layers for solution. The first-layer DRL optimizes satellite and UAV beamforming, as well as the RIS phase shift matrix. The second-layer DRL optimizes the UAV’s trajectory based on its position, user mobility, and channel state information. The twin DRL shares the same reward function, guiding the agents in each layer to adjust their actions and explore optimal strategies, ultimately enhancing the system’s utility. Results and Discussions (1) Compared to the Deep Deterministic Policy Gradient (DDPG), the proposed TTD3 algorithm exhibits smaller dynamic fluctuations, demonstrating greater stability and robustness ( Fig. 2 ). (2) The UAV trajectory and user secrecy rate performance under four different schemes and algorithms show that the proposed method balances service for legitimate users. The UAV trajectory is smoother compared to that based on DDPG, and the overall user secrecy rate is also higher. This confirms that the proposed method can adapt to dynamically changing NTNs environments while improving user secrecy rates (Fig. 3 ,Fig. 4 ). (3) As the number of RIS reflecting elements increases, the degrees of freedom and precision of beamforming improve. Therefore, the overall user secrecy rates of different algorithms increase, resulting in enhanced system performance (Fig. 5 ).Conclusions This paper investigates an RIS-assisted downlink secure transmission system for NTNs, addressing the presence of eavesdropping threats. To meet the requirements of high transmission rates and security across different scenarios, the optimization objective is formulated as the weighted sum of the transmission rate from the satellite to the UAV and the secrecy rate of legitimate ground users. A TTD3-based joint optimization method for satellite and UAV beamforming, RIS phase shift matrix, and UAV trajectory is proposed. By adopting a twin-layer DRL structure, the beamforming and trajectory optimization subproblems are decoupled to maximize system utility. Simulation results validate the effectiveness of the proposed algorithm. Additionally, comparisons across different algorithms, RIS element counts, and schemes in high-security-demand scenarios demonstrate that the TTD3 algorithm is well-suited for dynamically changing NTNs environments and can significantly enhance system transmission performance. Future research will explore integrating emerging technologies, such as federated learning and meta-learning, to achieve distributed, low-latency policy optimization, thereby facilitating network resource optimization and interference analysis in large-scale, multi-satellite, and multi-UAV complex scenarios. -
1. 引言
近年来,非地面网络(Non-Terrestrial Networks, NTNs)随着科学技术的进步和通信需求的增加而迅速发展。NTNs主要包括卫星通信网络、高空平台系统以及无人机组网等,这些网络在覆盖范围、传输速率和服务质量等方面展示了显著的优势[1]。随着物联网、智慧城市和下一代移动通信等技术的普及,NTNs在全球范围内的重要性愈发凸显。未来通信系统将越来越依赖于NTNs,以实现无缝的全球覆盖和高效的数据传输。
然而,由于NTNs中卫星通信具有动态切换快、传输距离长和通信范围广等特点,在实现全球覆盖的同时也带来了诸多挑战。例如,在长距离传输过程中往往面临高自由空间损耗和严重的阴影效应,这不仅降低了信号的强度和稳定性,还使得传输质量在动态环境中变得难以保障。无人机(Unmanned Aerial Vehicle, UAV)作为中继节点与地面用户进行交互传输时易受到多径效应、遮挡物的干扰以及视距受限等复杂环境因素的影响[2],导致信道状态频繁变化。此外,NTNs的开放通信特性也使其容易受到恶意干扰和窃听攻击等安全威胁,特别是在物理层。窃听用户可以利用窃听或干扰手段破坏通信的安全性,导致信息泄露甚至通信中断。因此如何提升NTNs系统在复杂环境下的安全传输性能,已经成为学术界关注的热点问题[3]。
现有研究大多采用波束成形、自适应噪声以及协作干扰等技术优化安全传输性能。波束成形技术主要将保密信号的大部分能量集中于合法接收者的方向,从而使窃听者只能接收到微弱的信号,甚至完全无法接收。自适应噪声技术在发送保密信号的同时,主动利用部分功率生成干扰信号,削弱窃听者的接收信号,同时结合波束成形技术确保合法信道质量受到的影响尽可能小。协作干扰技术则通过引入中继和干扰节点,最大化合法信道与窃听信道之间的差异。这些技术在一定程度上提升了物理层安全性,抑制了窃听者对通信信息的截获。然而,这些研究在实际应用中仍面临诸多挑战,特别是在信道状态信息实时获取与优化方面有待展开进一步研究。传统的安全传输技术难以在这种高动态、不确定的环境下及时调整参数以优化性能。同时,NTNs中的窃听者或恶意干扰节点具有一定的智能性,能够主动适应或破坏现有的安全传输策略,进一步增加了系统安全保障的难度。因此,如何在NTNs动态环境中增强合法用户信号,实现信道状态信息的高效实时更新与优化,是当前研究面临的重要挑战和亟待解决的问题。
可重构智能超表面(Reconfigurable Intelligent Surface, RIS)由多个反射单元组成,通过超材料调控无线信号的传播特性,具有增强无线信号质量、部署简单成本低等优点[4],RIS辅助的卫星通信系统或者UAV通信系统在提高频谱效率[5]、能量效率[6]以及安全通信[7]方面已经展开了相关研究。文献[8–10]研究了RIS辅助的UAV下行系统中的资源分配与安全传输方法。文献[8]考虑了利用UAV的高机动性和IRS的可调能力对抗潜在窃听者的保密率最大化问题。文献[9]在RIS辅助的UAV下行通信系统中,提出一种基于深度强化学习(Deep Reinforcement Learning, DRL)的联合优化波束成形和UAV轨迹优化方法,以实现最大化系统安全速率。文献[10]联合设计发射波束成形、人工噪声、UAV-RIS放置和RIS的无源波束成形,最大限度地提高可实现系统最坏情况下的保密率。文献[11–13]研究了RIS辅助的星地网络下行系统中的资源分配与安全传输方法。文献[11]在星地融合网络中采用速率拆分多址技术,将系统间干扰与波束成形技术结合,提出一种鲁棒安全传输方案。文献[12]考虑空分多址和多个RIS增强非正交多址技术与多个地面用户通信,基于角度信息的非完美信道信息通过逐次凸近似与交替优化算法实现对星地网络系统的资源优化。文献[13]在RIS辅助的卫星安全下行通信系统中,提出了一种快速DRL算法实现对混合RIS和卫星波束成形的联合优化,在最坏情况下最大化系统的安全速率。UAV在NTNs中作为中继通信平台时,文献[14]在UAV辅助的星地通信网络中,以最大化保密率为目标,提出一种迭代优化的联合干扰、发射功率和UAV轨迹优化方法,同时提高系统的频谱效率。然而,目前在DRL与RIS技术结合UAV辅助的NTNs安全传输性能相关研究还有所欠缺。
本文建立一个RIS辅助的NTNs下行传输系统,提出一种基于双层双延迟深度确定性策略梯度算法(Twin-Twin Delayed Deep Deterministic policy gradient, TTD3)的联合卫星波束成形、UAV波束成形、RIS相移矩阵以及UAV轨迹优化方法,通过利用两个双延迟深度确定性策略梯度算法(Twin Delayed Deep Deterministic policy gradient, TD3)分别解耦波束成形和UAV轨迹优化子问题。仿真结果验证了所提方法在动态NTNs环境下的有效性,同时在高安全需求下,通过对比不同算法、不同配置方案以及不同RIS元件数量下的仿真结果,验证了本文所提方法对于系统安全传输性能的提升。
2. 系统模型
本文考虑RIS辅助的NTNs下行传输系统,如图1所示,该系统由卫星、UAV, RIS、地面用户与窃听用户组成。由于卫星距离地面的距离过远,直连卫星到用户的链路容易受到遮挡、信号衰减等因素,因此本文假设卫星无法直接连接到用户,UAV作为空中中继平台,协助卫星与地面用户的通信,UAV配备A个元件组成的均匀线性阵列(Uniform Linear Array, ULA)。RIS放置在建筑物上可以改善链路安全性,提高UAV到地面用户的链路安全,RIS为由N=n2个元件组成的平面阵列(Uniform Planar Array, UPA)。假设卫星和UAV均具备多个传输天线,地面用户和窃听用户均为单天线用户,卫星、UAV, RIS、地面合法用户以及窃听用户分别用S, U, R, M={1,2,⋯,M}, P={1,2,⋯,P}表示。
2.1 UAV移动模型
本文假设旋翼UAV在有限的时间范围T内以固定的高度从初始位置开始飞行,时间范围可以被划分为t个时隙,也就是T=tδt,UAV的最大飞行速度为velUmax,UAV的移动速度velU(t)可以表示为
velU(t)=√‖q(t+1)−q(t)‖2δt (1) UAV在实际移动过程中在移动距离和移动边界等方面应满足约束为
‖q(t+1)−q(t)‖2≤velUmaxδt (2a) |x(t),y(t)|≤Bound (2b) 其中,式(2a)表示UAV移动在时隙t内的移动距离约束,式(2b)表示UAV移动过程中不能超出移动边界Bound,x(t)和y(t)对应为UAV的坐标系x轴和y轴上的位置。
2.2 信道模型
(1)卫星-UAV信道模型:对于卫星-UAV下行传输过程,信道模型需要考虑自由空间损耗、波束增益和衰落模型等因素。卫星-UAV的信道增益hS,U可以表示为
hS,U=√GSFS,U⊙ξ−12⊙GS,U (3) 其中,GS是卫星天线增益,FS,U=32.4+20lg(DS,U)+20lg(fS,U)是自由空间损耗,c是光速,fS,U是卫星到UAV之间的频率载波,DS,U是卫星与UAV之间的传播距离。ξ−12是雨衰因子,以dB为单位服从对数正态随机分布ln(ξdB)∼CN(μ,σ2),μ和σ2分别为均值和方差,卫星通信频率、极化模式和服务用户的位置有关。GS,U是卫星到UAV的波束增益,可以表示为
GS,U(θS,U)=Gmax(J1(uS,U)2uS,U+36J3(uS,U)u3S,U)2 (4) 其中,θS,U为UAV到卫星波束中心的夹角,J1(⋅)和J3(⋅)分别为1阶和3阶的第1类贝塞尔函数。
(2)UAV信道模型:分别用hU,m, hU,p, hU,R, hR,m, hR,p表示UAV到第m个合法用户的信道增益、UAV到第p个窃听用户的信道增益、UAV到RIS的信道增益、RIS到第m个合法用户的信道增益、RIS到第p个窃听用户的信道增益。本文假设UAV到全部用户间信道模型遵循3D SV信道模型[15],由此UAV到任意用户、RIS到任意用户以及UAV到RIS的信道模型可以表示为
hU,i=√1LUMLUM∑l=1gUi,lαL(φAoDi,l),∀i∈M∪P (5) hR,i=√1LRMLRM∑l=1gRi,lαP(φAoDi,l,ϑAoDi,l),∀i∈M∪P (6) hU,R=√1LURLUR∑l=1gURi,lαP(φAoAi,l,ϑAoAi,l)αL(φAoDl)H (7) 其中,这3个信道模型中LUM, LRM和LUR分别为UAV到任意用户、RIS到任意用户以及UAV到RIS的散射路径个数,gUi,l, gRi,l, gURi,l是大尺度衰落系数,遵循高斯分布CN(0,10PL/10), PL(dB)=−C0−10εlg(D)−PLs, C0是1 m参考距离的路径损耗,D是链路距离,ε是路径损耗指数,PLs∼CN(0,σ2s)服从阴影衰落分布。αL(φ)是ULA的导向矢量,αP(φ,ϑ)是UPA的导向矢量,(φ,ϑ)是RIS相对于UAV信号的到达方位角和离开方位角。
2.3 信号模型
在所提RIS辅助的NTNs下行传输系统中,地面合法用户的通信过程包括2个阶段。第1阶段卫星将信号传输到UAV。第2阶段中UAV充当高空中继平台,将接收到的卫星信号进行解码并转发给合法用户,同时将信号转发到RIS,通过RIS反射增强合法用户的信号,进一步提高安全传输性能。对于第1阶段,UAV接收到来自卫星的信号可以表示为
yU=hS,UωSxS+InfS,U (8) 其中,ωS是卫星的波束成形向量,InfS,U表示UAV接收到的高斯白噪声。
UAV接收到的信干噪比(Signal to Interference and Noise Ratio, SINR)可以表示为
SINRS,U=‖hS,UωS‖2InfS,U (9) 因此,卫星到UAV之间的数据可达速率可以表示为
RS,U=log2(1+‖hS,UωS‖2InfS,U) (10) 对于第2阶段,UAV应用解码转发模型[16],将接收到的卫星信号通过直接转发和RIS反射形式给合法用户。对于第i个用户来说所接收的信号可以表示为
yi=(hU,i+hR,iΘhi)vUx+Infi, i∈M∪P (11) 其中,Θ=diag(ejθ1,ejθ2,⋯,ejθN)∈CN×N是RIS的相移矩阵,θN在[0,2π)上均匀随机分布,vU表示UAV的波束赋形向量,Infi表示第i个用户接收到的高斯白噪声。
对于第m个合法用户来说接收到的SINR可以表示为
SINRU,m=‖(hU,m+hR,mΘhU,R)vU‖2∑m′∈M,m′≠m‖(hU,m′+hR,m′ΘhU,R)vU‖2+Infm (12) 第m个合法用户可获得的数据可达速率可以表示为
RU,m=log2(1+SINRU,m) (13) 进一步地,窃听者p对第m个合法用户的窃听速率可以表示为
Rep,m=log2(1+‖(hU,p+hR,pΘhU,R)vU‖2∑m′∈M,m′≠m‖(hU,p+hR,pΘhU,R)vU‖2+Infp) (14) 因此,第m个合法用户的可达保密速率可以表示为
RSecm=[RU,m(t)−maxRep,m]+ (15) 其中,[z]+=max(0,z)。
2.4 问题描述
在RIS辅助的UAV中继NTNs系统中存在多种场景需求,一方面要保证UAV满足高传输速率要求,另一方面由于地面合法用户受到窃听用户的影响,需要保证合法用户的安全性需求。基于上述考虑,本文建立了系统效用函数,由卫星到UAV的传输速率和地面合法用户的保密速率组成,具体可以表示为
Rsys=ηRS,U(t)+(1−η)∑m∈MRSecm (16) 其中,η∈(0,1)。
卫星和UAV的最大传输功率约束可以表示为
Tr(ωSωHS)≤PU,max (17a) Tr(vUvHU)≤PU,max (17b) RIS的反射相移约束表示为
θn∈[0,2π],n={1,2,⋯,N} (18) 每个地面合法用户m能够成功解码消息概率约束表示为
Pr{RSecm≥RSec,thm}≥1−ρm,m={1,2,⋯,M} (19) 因此,本文面向系统效用最大的优化问题可以建模为
maxw,v,Θ,qRsyss.t. 式(2)、式(17)−式(19)} (20) 从上述优化问题来看,UAV在NTNs环境中是动态移动的,导致了卫星与UAV以及UAV与用户之间的信道状态信息是时变的。同时变量间存在耦合特性以及非凸的约束条件,该优化目标具备高度非凸性。为了解决这个问题,本文考虑采用DRL算法联合优化卫星波束成形、UAV波束成形、RIS相移以及UAV轨迹,通过智能体与环境进行智能交互,在每个决策阶段中根据外部环境状态采取最优动作得到最大回报,当智能体与环境交互次数足够多时,可以获得最优策略或者近似最优策略。
3. 基于DRL的联合优化问题求解
由于UAV轨迹和信道状态信息高度耦合,难以同时优化所有变量,导致较差的收敛性和整体性能。针对上述问题并结合本文所考虑的复杂网络系统特点,提出一种基于双层DRL的UAV中继NTNs优化方法,DRL算法分别采用深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)和TD3进行优化。这是因为DDPG和TD3能够有效处理连续动作空间、高维状态信息以及动态复杂环境。DDPG通过Actor-Critic架构和经验回放机制实现稳定的策略学习,而TD3进一步改进了DDPG的过估计偏差问题,通过双Q网络、延迟策略更新和动态噪声增强探索能力,提升了优化效率和可靠性。因此,特别适用于NTNs动态场景中需要实时调整UAV轨迹和RIS反射矩阵,以最大化安全速率的资源优化任务。该双层DRL算法将优化问题分为两个部分进行求解,第1层DRL主要优化卫星和UAV的波束成形和RIS的相移矩阵,第2层DRL根据UAV的位置坐标信息、用户移动位置坐标以及信道状态信息优化UAV的运动轨迹。双层DRL共享相同的奖励函数指导对应层的智能体通过不断调整动作探索最佳选择策略,最终有效提升系统效用。
3.1 DRL算法
(1)DDPG算法:本文所提的RIS相移优化和UAV轨迹优化数据均为高维数据,且需要较大的状态空间和连续的动作空间,DDPG是一种基于策略梯度的DRL算法,专门用于解决连续动作空间中的控制问题。DDPG结合了策略梯度方法和Q学习的优势,将动作空间扩展到了连续域,通过使用Actor-Critic结构,能够高效地在高维、连续的动作空间中学习最优策略。DDPG包括2个Actor-Critic结构,其中Actor网络的作用是根据网络状态信息生成合适的动作,以最大化动作价值函数,Critic网络的作用是评价在状态F时采取动作G的优劣,目标Actor网络和目标Critic网络的作用是为了提升算法的收敛性。当处于状态st时,通过Actor网络所产生的动作at为
at=μ(st|θμ)+Nt (21) 其中,Nt表示探索噪声,防止算法陷入局部最优解。
智能体在给定的状态st下执行动作at后,环境会给出下一个状态st+1和奖励rt作为响应,形成一个经验元组et=(st,at,rt,st+1),将经验元组存储在经验回放缓冲区B中,进而通过小批量采样来训练Actor网络和Critic网络。此两个网络主要用于计算目标ydt
ydt=rt+γQμ′(st+1,μ′(st+1|θμ′)|θQ′) (22) Critic网络通过最小化Critic损失来进行优化,Critic损失可以通过目标ydt和Q值计算均方误差得到,可以表示为
L(θQ)=E[(ydt−Qμ(st,at|θQ))2] (23) Actor网络通过最大化Critic网络Q值得期望进行优化,Critic网络Q值可以表示为
J(θμ)=E[(st−μ(st|θμ)|θQ)] (24) 为了优化Actor网络,对式(23)进行梯度运算并更新参数,可以表示为
∇Jθμ(θ)=∇θμQ(st,μ(st|θμ))∇θμμ(st|θμ) (25) 为了保障算法更新的稳定性,目标Actor网络和目标Critic网络进行软更新,更新策略为
θQ′←θQ+(1−ψ)θQ′θμ′←θμ+(1−ψ)θμ′} (26) 其中,ψ是软更新因子,0<ψ<1。
(2)TD3算法:TD3算法主要针对DDPG中一些缺陷进行了优化,尤其是在训练过程中的过度估计问题。主要在以下3个方面进行了改进:(a)引入了策略延迟更新机制,通过延迟Actor网络的更新频率,减少策略在更新过程中的波动,即每2次Critic网络更新后才更新1次Actor网络,以确保策略的稳定收敛。(b)引入了目标平滑策略,即在目标动作上加入噪声,降低因剧烈变动导致的模型不稳定性。(c)TD3相较于DDPG引入了两个Critic网络,同时计算Q值并选取较小的Q值作为目标,以此达到减少值函数过高估计,同时增强模型的稳定性的目的。具体过程可以表示为
ydt=rt+γmini=1,2Qμ′(st+1,μ′(st+1|θμ′)|θQ′) (27) 3.2 基于TTD3的NTNs安全传输与轨迹优化
基于上述算法的参数更新过程,本文提出一种基于TTD3算法的NTNs安全传输与轨迹优化方法,具体的算法流程如算法1所示。TTD3算法相对应的每层TD3的状态空间、动作空间、奖励函数等设置如下:
表 1 基于TTD3算法的NTNs安全传输与轨迹优化流程初始化1:TTD3中的第1层TD3的6个神经网络参数以及第2层
TD3的6个神经网络参数;初始化2:软更新因子ψ,每次迭代步数Nstep,迭代次数
Eposide,经验存放空间B,更新间隔C,批次大小v;(1) for step=1 to Eposide do (2) 初始化UAV的位置、用户的位置以及信道状态; (3) for step=1 to Nstep do (4) 获得hS,U,SINRS,U,hU,i+hR,iΘhU,R作为s1, q作
为s2;(5) 根据式(21)产生动作a1和a2; (6) 执行相应的动作获得相应的即时奖励r1和r2,并观察
新状态s′1和s′2;(7) 将状态转移元组(s1,a1,r1,s′1)和
(s2,a2,r2,s2′)存储在B中;(8) 随机抽取v条经验进行训练; (9) 根据式(27)获得目标值; (10) 根据策略延迟更新机制更新Actor网络和Critic网络参数; (11) 以式(26)对目标Actor网络和Critic网络参数更新; (12) end for (13) end for (1)基于TD3的联合卫星与UAV的波束成形、RIS相移矩阵优化:
状态空间s1:包括卫星到UAV的信道状态信息hS,U和SINRS,U,以及UAV到所有合法用户和窃听用户的信道状态信息hU,i+hR,iΘhU,R。即可以表示为
s1=[hS,U,SINRS,U,hU,i+hR,iΘhU,R] (28) 动作空间a1:包括卫星的波束形成矩阵ωS、UAV波束形成矩阵vU以及RIS无源反射波束形成矩阵Θ。需要注意的是,考虑到TD3中神经网络的实数输入问题,本文将上述动作转化为实部和虚部输入到算法中计算。
奖励函数r1:本文的奖励函数结合优化目标和约束条件,引入惩罚因子以达到平衡约束与系统效用的作用。即可以表示为
R1=tanh(Rsys−c1p1−c2p2−c3p3) (29) 其中,p1, p2, p3分别表示式(2)、式(17)、式(19)的惩罚,c1, c2, c3为对应的惩罚因子。
(2)基于TD3的UAV轨迹优化:
状态空间s2:UAV的位置坐标信息q。
动作空间a2:UAV的轨迹移动方向dir与移动速度vel,即q(t+1)−q(t)=vel(t)δt(cos(dir(t))ex+sin(dir(t))ey),其中,ex和ey为坐标系x轴和y轴的单位向量。
奖励函数r2:同上奖励函数r1。
4. 仿真结果分析
在RIS辅助的NTNs下行传输系统中,仿真环境考虑在一个大小为30 m×50 m位于卫星点波束内的范围内,卫星位于此范围的上方(30 m, 15 m, 6×105 m),2个合法用户的初始位置分别为(47 m, 4 m, 0 m), (25 m, 25 m, 0 m),UAV的初始位置为(25 m, 0 m, 100 m),窃听用户的位置为(47 m, 0 m, 0 m),RIS的位置为(50 m, 10 m, 20 m)。UAV的最大移动速度velUmax为2.5 m/s,加性白高斯噪声为–114 dBm/Hz, RIS元件个数为4,卫星天线数量为6,UAV天线数量为4,fS,U为5.2 GHz,fU,m为2.4 GHz。卫星和UAV的最大发射功率为30 dBm。本文设置优化目标系统效用时考虑了多种场景需求,本文重点关注于高安全需求,因此仿真时η=0.2,后续的仿真结果分析也聚焦于用户保密速率方面的体现。
图2给出了本文所提方法和TDDPG不同算法训练过程中的奖励收敛情况,可以看出虽然TDDPG算法前期具有较快的收敛速度,但是后期出现较大的波动。相比于TDDPG,所提TTD3算法的动态波动相对较小,表现得更为稳定,具有更好的鲁棒性。同时,本文所提方法的奖励值优于TDDPG的奖励值。因此可以验证本文所提方法具有良好性能。
图3展示了本文所提系统中各部分的位置分布情况,给出了4种不同方案下的UAV轨迹优化情况,其中,“TTD3-RIS-MU”是本文所提方案,“TTD3-randomRIS-MU”是考虑RIS随机相移和移动用户方案,“TDDPG-RIS-MU”是基于TDDPG的优化方案,“TTD3-RIS-SU”是考虑RIS和静态用户方案。“TTD3-randomRIS-MU”中可以看出UAV轨迹没有接近两个用户终点的中间点,同时结合图4观察到此方案的曲线波动幅度较大,尤其是临近训练轮次400时,表明随机RIS相移会降低用户保密速率进而降低系统效用。“TTD3-RIS-SU”方案在静态用户状态下UAV先向RIS方向移动增强用户信号,随着两个合法用户的移动轨迹发生转变是合理的。结合图3和图4中不同算法下的UAV轨迹变化以及用户保密速率性能变化,可以看出两个算法都考虑了合法用户的均衡服务,本文所提方法的UAV轨迹相对于基于TDDPG的UAV轨迹更加平滑,同时所提方法的用户保密速率整体也更优,验证了本文所提方法能够适应动态变化的NTNs环境,同时能够提高用户保密速率。
图5给出了不同RIS反射元件个数下不同算法的用户保密速率性能对比情况,可以看出在相同算法下随着RIS反射元件个数的增加,用户保密速率整体速率也随之增加。这是因为随着RIS反射元件个数的增加,波束成形的自由度和精度逐渐增加,系统性能得到提升。
5. 结束语
本文研究了RIS辅助的NTNs下行安全传输系统,其中卫星通过UAV中继传输信号至地面合法用户,并考虑了系统中存在窃听威胁。为满足不同场景下的高传输速率与高安全性需求,本文将卫星到UAV的传输速率与地面合法用户的安全速率的加权和作为优化目标,提出一种基于TTD3的联合卫星与UAV的波束成形、RIS相移矩阵及UAV轨迹优化方法,通过采用双层DRL结构分别解耦波束成形和轨迹优化子问题,以最大化系统效用。仿真结果验证了所提算法的有效性,同时在高安全需求场景下分别对比了不同算法、不同RIS元件数量以及不同方案下的安全保密速率,验证了TTD3算法能够适用于动态变化的NTNs环境,且能够有效提升系统传输性能。本文研究主要关注高安全需求,未来研究将把核心问题推广到如何结合联邦学习、元学习等新兴技术实现分布式、低延迟的策略优化,从而适应大规模多卫星多UAV复杂场景的网络资源优化与干扰分析等方面。
-
1 基于TTD3算法的NTNs安全传输与轨迹优化流程
初始化1:TTD3中的第1层TD3的6个神经网络参数以及第2层
TD3的6个神经网络参数;初始化2:软更新因子ψ,每次迭代步数Nstep,迭代次数
Eposide,经验存放空间B,更新间隔C,批次大小v;(1) for step=1 to Eposide do (2) 初始化UAV的位置、用户的位置以及信道状态; (3) for step=1 to Nstep do (4) 获得hS,U,SINRS,U,hU,i+hR,iΘhU,R作为s1, q作
为s2;(5) 根据式(21)产生动作a1和a2; (6) 执行相应的动作获得相应的即时奖励r1和r2,并观察
新状态s′1和s′2;(7) 将状态转移元组(s1,a1,r1,s′1)和
(s2,a2,r2,s2′)存储在B中;(8) 随机抽取v条经验进行训练; (9) 根据式(27)获得目标值; (10) 根据策略延迟更新机制更新Actor网络和Critic网络参数; (11) 以式(26)对目标Actor网络和Critic网络参数更新; (12) end for (13) end for -
[1] AZARI M M, SOLANKI S, CHATZINOTAS S, et al. Evolution of non-terrestrial networks from 5G to 6G: A survey[J]. IEEE Communications Surveys & Tutorials, 2022, 24(4): 2633–2672. doi: 10.1109/COMST.2022.3199901. [2] ZHOU Di, SHENG Min, LI Jiandong, et al. Aerospace integrated networks innovation for empowering 6G: A survey and future challenges[J]. IEEE Communications Surveys & Tutorials, 2023, 25(2): 975–1019. doi: 10.1109/COMST.2023.3245614. [3] JIANG Bin, YAN Yingchun, YOU Li, et al. Robust secure transmission for satellite communications[J]. IEEE Transactions on Aerospace and Electronic Systems, 2023, 59(2): 1598–1612. doi: 10.1109/TAES.2022.3203027. [4] LI Yabo, ZHANG Haijun, LONG Keping, et al. Exploring sum rate maximization in UAV-based Multi-IRS networks: IRS association, UAV altitude, and phase shift design[J]. IEEE Transactions on Communications, 2022, 70(11): 7764–7774. doi: 10.1109/TCOMM.2022.3206884. [5] KHAN W U, LAGUNAS E, MAHMOOD A, et al. RIS-assisted energy-efficient LEO satellite communications with NOMA[J]. IEEE Transactions on Green Communications and Networking, 2024, 8(2): 780–790. doi: 10.1109/TGCN.2023.3344102. [6] ZHANG Haijun, HUANG Miaolin, ZHOU Huan, et al. Capacity maximization in RIS-UAV networks: A DDQN-based trajectory and phase shift optimization approach[J]. IEEE Transactions on Wireless Communications, 2023, 22(4): 2583–2591. doi: 10.1109/TWC.2022.3212830. [7] KHAN W U, LAGUNAS E, ALI Z, et al. Opportunities for physical layer security in UAV communication enhanced with intelligent reflective surfaces[J]. IEEE Wireless Communications, 2022, 29(6): 22–28. doi: 10.1109/MWC.001.2200125. [8] LI Jingyi, XU Sai, LIU Jiajia, et al. Reconfigurable intelligent surface enhanced secure aerial-ground communication[J]. IEEE Transactions on Communications, 2021, 69(9): 6185–6197. doi: 10.1109/TCOMM.2021.3086517. [9] GUO Xufeng, CHEN Yuanbin, and WANG Ying. Learning-based robust and secure transmission for reconfigurable intelligent surface aided millimeter wave UAV communications[J]. IEEE Wireless Communications Letters, 2021, 10(8): 1795–1799. doi: 10.1109/LWC.2021.3081464. [10] YANG Helin, LIU Shuai, XIAO Liang, et al. Learning-based reliable and secure transmission for UAV-RIS-assisted communication systems[J]. IEEE Transactions on Wireless Communications, 2024, 23(7): 6954–6967. doi: 10.1109/TWC.2023.3336535. [11] 赵柏, 林敏, 肖圣杰, 等. 基于速率分割的可重构智能表面辅助星地融合网络鲁棒安全传输方案[J]. 通信学报, 2023, 44(12): 50–60. doi: 10.11959/j.issn.1000-436x.2023221.ZHAO Bai, LIN Min, XIAO Shengjie, et al. Rate splitting based robust secure transmission scheme in RIS-assisted satellite-terrestrial integrated network[J]. Journal on Communications, 2023, 44(12): 50–60. doi: 10.11959/j.issn.1000-436x.2023221. [12] ZHAO Bai, LIN Min, CHENG Ming, et al. Robust downlink transmission design in IRS-assisted cognitive satellite and terrestrial networks[J]. IEEE Journal on Selected Areas in Communications, 2023, 41(8): 2514–2529. doi: 10.1109/JSAC.2023.3288234. [13] NGO Q T, PHAN K T, MAHMOOD A, et al. Hybrid IRS-assisted secure satellite downlink communications: A fast deep reinforcement learning approach[J]. IEEE Transactions on Emerging Topics in Computational Intelligence, 2024, 8(4): 2858–2869. doi: 10.1109/TETCI.2024.3378605. [14] LI Huifang, LI Jing, LIU Meng, et al. UAV-assisted secure communication for coordinated satellite-terrestrial networks[J]. IEEE Communications Letters, 2023, 27(7): 1709–1713. doi: 10.1109/LCOMM.2023.3267119. [15] ZHOU Gui, PAN Chunhua, REN Hong, et al. Stochastic learning-based robust beamforming design for RIS-aided millimeter-wave systems in the presence of random blockages[J]. IEEE Transactions on Vehicular Technology, 2021, 70(1): 1057–1061. doi: 10.1109/TVT.2021.3049257. [16] LIN Zhi, NIU Hehao, AN Kang, et al. Refracting RIS-aided hybrid satellite-terrestrial relay networks: Joint beamforming design and optimization[J]. IEEE Transactions on Aerospace and Electronic Systems, 2022, 58(4): 3717–3724. doi: 10.1109/TAES.2022.3155711. -