Loading [MathJax]/extensions/TeX/boldsymbol.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向用户移动场景的无人机中继功率分配与轨迹设计

颜志 陆元媛 丁聪 何代钰 欧阳博 杨亮 王耀南

施建锋, 陈忻阳, 李宝龙. 面向物联网的云边端协同计算中任务卸载与资源分配算法研究[J]. 电子与信息学报, 2025, 47(2): 458-469. doi: 10.11999/JEIT240659
引用本文: 颜志, 陆元媛, 丁聪, 何代钰, 欧阳博, 杨亮, 王耀南. 面向用户移动场景的无人机中继功率分配与轨迹设计[J]. 电子与信息学报, 2024, 46(5): 1896-1907. doi: 10.11999/JEIT231337
SHI Jianfeng, CHEN Xinyang, LI Baolong. Research on Task Offloading and Resource Allocation Algorithms in Cloud-edge-end Collaborative Computing for the Internet of Things[J]. Journal of Electronics & Information Technology, 2025, 47(2): 458-469. doi: 10.11999/JEIT240659
Citation: YAN Zhi, LU Yuanyuan, DING Cong, HE Daiyu, OUYANG Bo, YANG Liang, WANG Yaonan. Power Allocation and Trajectory Design for Unmanned Aerial Vehicle Relay Network with Mobile Users[J]. Journal of Electronics & Information Technology, 2024, 46(5): 1896-1907. doi: 10.11999/JEIT231337

面向用户移动场景的无人机中继功率分配与轨迹设计

doi: 10.11999/JEIT231337
基金项目: 国家重点研发计划(2021YFC1910402),湖南省自然科学基金面上项目(2024JJ5090)
详细信息
    作者简介:

    颜志:男,副教授,研究方向为无线通信系统(5G/6G)的新理论与技术

    陆元媛:女,硕士,研究方向为无人机辅助无线网络、轨迹设计和优化技术

    丁聪:男,硕士生,研究方向为无人机自组网技术

    何代钰:男,硕士,研究方向为多机器人系统、无线通信技术

    欧阳博:男,副教授,研究方向为机器学习、多机器人系统、复杂系统分析与控制、无线通信技术

    杨亮:男,教授,研究方向为智能通信技术、无线通信中的机器学习

    王耀南:男,院士,研究方向为机器人感知与控制技术及工程应用研究

    通讯作者:

    颜志 yanzhi@hnu.edu.cn

  • 中图分类号: TN92; V279

Power Allocation and Trajectory Design for Unmanned Aerial Vehicle Relay Network with Mobile Users

Funds: The National Key Research and Development Program of China (2021YFC1910402), Hunan Provincial Natural Science Foundation General Project (2024JJ5090)
  • 摘要: 在无人机(UAV)中继通信中,中继无人机的通信资源分配与运动规划是需要重点解决的问题。为了提升无人机中继通信系统的通信效率,该文提出一种基于近端策略优化算法的无人机中继功率分配与轨迹设计联合规划方法。该方法将用户移动场景下无人机中继功率分配与轨迹设计联合规划问题建模为马尔可夫决策过程,考虑用户位置信息获取不精确的情形,在满足用户中断概率约束的前提下,以中继通信系统的吞吐量最大为优化目标设置奖励函数,采用一种收敛速度较快的深度强化学习算法——近端策略优化算(PPO)法求解,实现中继无人机飞行轨迹优化和中继发射功率合理有效分配。仿真实验结果表明,针对用户随机移动的无人机中继通信场景,该文所提方法与基于随机策略和传统深度确定性策略梯度(DDPG)的方法相比,系统吞吐量分别提升22%和15%。结果表明,所提方法能够有效地提高系统的通信效率。
  • 随着经济社会数字化转型和智能升级步伐加快,物联网已经成为新型基础设施的重要组成部分[1],在智能家居、智慧城市、智慧交通、医疗健康等诸多领域发挥着重要的作用[2]。现有的广域物联网网络主要建立在第5代移动通信(5th Generation mobile communication technology, 5G)地面网络的基础上[2]。虽然地面网络已经随着科技的不断发展而逐渐完善,但是受到环境和经济限制,仍然存在许多挑战[3,4]。地面网络基站部署面临挑战,尤其是在远郊地区,难以实现经济效益且易受自然灾害影响。与此相比,卫星网络因其无缝覆盖、灵活性和可靠性,正迅速成为重要通信基础设施,推动全球互联互通的发展。卫星网络可作为地面网络的补充,为远郊或灾区的物联网设备提供服务,形成卫星辅助物联网(Satellite-assisted Internet of Things, SIoT)。SIoT被视为一种极具潜力的网络,可为全球IoT设备提供无处不在和可靠的连接[5,6]

    SIoT网络下的任务卸载与资源分配问题成为了一个新的研究热点。由于IoT设备通常功率有限,可用于通信、计算和缓存的可用资源很少,因此,IoT设备产生的传感数据通常需要转发到云或边缘计算节点[7]进行进一步处理。移动边缘计算(Mobile Edge Computing, MEC)将计算能力赋予网络的边缘,通过内容缓存和在IoT设备附近部署边缘计算服务器,可以有效降低处理时延。随着星载处理技术的发展,带有星载处理单元的卫星也可以看作是一个边缘计算节点,为地面用户提供计算服务[8]。与卫星节点相比,云平台具备更强的计算能力和能量供应,但通常距离物联网设备较远,导致较高的通信时延。随着5G技术发展,物联网设备激增,产生大量数据交互和处理需求。通过设计云-边-端协同的分布式计算架构,可以挖掘分布式算力资源,提升任务响应速度、减轻网络负担,并支持高效的资源分配。

    近年来,支持MEC的SIoT得到了广泛的关注。文献[9]研究了多轨道卫星网络中的动态卸载问题,采用基于Stackelberg博弈的方法求解了最优卸载决策。文献[10]设计了多卫星辅助网络中用户关联与计算卸载决策的联合优化问题,优化目标为最小化任务计算能耗。文献[11]提出了空天地一体化网络(Space-Air-Ground Integrated Network, SAGIN)中的计算卸载和缓存问题以减少任务完成时延。文献[12]研究了节能SAGIN下的计算卸载问题,IoT设备可以根据自身通信条件和计算能力选择最合适的LEO卫星或无人机进行任务卸载。文献[13]提出了一种联合优化通信和计算资源分配和计算卸载决策的随机计算卸载问题,以最小化地面用户和低地球轨道(Low Earth Orbit, LEO)卫星的长期平均总功率成本。文献[14]提出了一种基于学习的天空地一体化网络任务卸载方法,但忽略了卫星处理任务的能力。这些研究主要集中在边缘计算或云计算单独应用的情况下。然而,随着设备激增和应用多样化,单一依赖卫星边缘或云计算难以满足需求。因此,本文提出基于终端-边缘(LEO卫星)-云的SIoT网络,以满足用户的多样化需求。

    文献[15]研究了卫星辅助MEC系统中的任务划分和资源分配问题,旨在最大限度地减少工业IoT设备的任务完成时延。文献[16]提出了一种混合云和边缘计算的LEO卫星网络,可以为用户提供异构计算资源。文献[17]提出了一种基于软件定义网络和网络功能虚拟化的SAGIN-车联网(Internet of Vehicles, IoV)边缘云架构,优化业务时延、系统能耗、资源利用率和业务安全性。由于卫星边缘计算的计算卸载问题复杂,许多研究未考虑星间协同计算。然而,LEO卫星的计算资源受体积和重量限制,仅依靠单颗LEO卫星辅助所有用户计算任务有时无法满足所有用户对服务性能的期望[18]。因此,本文考虑了多卫星协同计算对于提高服务质量和资源利用率至关重要。已有研究通过光通信或可见光通信系统实现星间链路(Inter-Satellite Link, ISL),实现快速、可靠、高效的卫星网络[19]。通过星间协作(Inter-Satellite Collaboration, ISC)利用ISL,既能扩大系统容量和覆盖范围,满足更多用户需求,又能减少单卫星资源消耗,提升卫星网络的整体生存能力。

    文献[20]提出了一种由终端-卫星-云组成的3层边缘计算架构,通过ISC实现星上负载均衡,对卸载决策、通信和计算资源分配变量进行了联合优化。文献[21]研究了协同卫星边缘计算中计算卸载与资源分配的联合优化问题,提出了一种分层动态资源分配算法来解决该问题。上述研究大多基于静态场景,假设卫星网络拓扑和用户关联固定。然而,SIoT网络中的卫星高速运动,地面用户需频繁切换卫星,这对任务调度和资源分配提出更高要求。系统需实时调整卸载策略和资源分配参数,以适应卫星轨迹和可用性。因此,在LEO卫星高速运动和资源受限的情况下,如何确定任务的卸载策略是一个挑战性问题。

    为了补充相关工作,本文研究基于终端-边缘-云的动态SIoT网络,利用ISC技术提升边缘性能,并通过将任务卸载到最合适的节点实现负载均衡,综合考虑时延与能耗需求,将卸载决策、通信和计算资源联合分配问题建模为混合整数非线性规划(Mixed Integer Non-Linear Programming, MINLP)问题。结合传统优化与深度强化学习,提出模型辅助的自适应深度强化学习(Model-assisted Adaptive Deep Reinforcement Learning, MADRL)算法,优化任务卸载、CPU频率及传输功率,最终实现系统开销最小化。本文的主要贡献总结如下:

    (1) 构建了基于终端-边缘-云的动态SIoT网络模型,以服务远郊与灾区的IoT设备。针对卫星边缘资源受限的问题,利用ISC技术来提高边缘的性能。同时,为了有效应对卫星高速移动性带来的挑战,通过对卫星移动性的建模,以及对卫星服务范围和调度周期的合理界定,动态确定用户的接入卫星。

    (2) 构造了满足通信资源与计算资源约束下,系统开销最小化问题。通过设计高效的资源分配与任务卸载算法,确保任务在最合适的节点上顺利完成卸载与执行。

    (3) 大量的仿真表明,本文所提出的算法具有良好的收敛性能。卫星移动性的引入使得系统开销降低了41%。ISC的引入使系统开销降低了22.1%。与(Deep Q Learning, DQN)等基准算法相比,MADRL可进一步降低系统开销3%。

    本节首先构建了LEO卫星移动性模型和带ISC的卫星辅助物联网(Satellite-assited Internet of Things, SIoT)网络模型,描述了本地计算、边缘计算、云计算3种模式下的端到端时延与系统能耗。最后,提出了系统开销最小化的任务卸载与资源分配联合优化问题。表1列出了基本符号及其含义。

    表 1  基本符号及其含义
    符号含义
    M设备集合
    D灾区设备集合
    R远郊设备集合
    SLEO卫星集合
    dnm时隙n设备m生成任务的大小
    cnm时隙n设备m的工作负载
    wnm时隙n设备m处理任务所需CPU周期数
    Tn,maxm时隙n设备m处理任务的最大容忍时延
    xnm时隙n设备m的任务卸载决策
    fnm时隙n设备m的CPU工作频率
    pnm时隙n设备m的传输功率
    tnm时隙n设备m的系统时延
    enm时隙n设备m的系统能耗
    cnm时隙n设备m的系统开销
    下载: 导出CSV 
    | 显示表格

    LEO卫星s与设备m之间的几何关系如图1所示。考虑到LEO卫星的移动性[22],假设LEO卫星在离地面高度H的轨道上以Vs匀速飞行,αm,s[n]为卫星s在时隙n时与水平正方向的夹角,γm,s[n]为卫星s在时隙n时到卫星用户m的剩余覆盖弧长对应的几何夹角,R为地球半径,H为LEO卫星的高度。忽略其他因素的影响,当0<αm,s<180时,LEO卫星可以与设备m建立通信链路。

    图 1  LEO卫星s与设备m之间的几何关系

    据几何关系,当0<αm,s<90时,γm,s[n]表示为

    γm,s[n]=arccos(RR+H)arccos(Rcosαm,s[n]R+H)+αm,s[n] (1)

    90<αm,s<180时,γm,s[n]表示为

    γm,s[n]=arccos(RR+Hcosαm,s[n])+arccos(RR+H)παm,s[n] (2)

    卫星s在时隙n与设备m的距离表示为式(3)

    Dm,s[n]={{R+Hsin(arccosRR+Hγm,s[n])}/cosαm,s[n],0<αm,s[n]<90H,αm,s[n]<90{R+Hsin(γm,s[n]arccosRR+H)}/cosαm,s[n],90<αm,s[n]<180 (3)

    本文考虑动态场景,SIoT网络模型随时间变化。系统中包含M个IoT设备,S个LEO卫星和1个云计算中心。其中Rd个设备在远郊,D个设备在灾区。假设远郊、灾区和云中心在地面上从左到右依次分布。灾区因突发事件导致人口密集和通信需求紧急,系统需快速响应大量任务请求。为此,接入卫星与周围四颗卫星建立ISL,同一轨道上相邻卫星以及相邻轨道上的卫星通过ISL相连[23],形成边缘云,提升通信能力并确保快速响应。而远郊地区人口稀疏,通信需求和任务生成频率较低,系统可专注于长期稳定性和资源利用率,单颗接入卫星即可满足需求,降低系统复杂性并提高资源效率。

    为不失一般性,本文将卫星的服务范围设定为一个圆形区域。虽然LEO卫星的高速移动会导致覆盖的地理区域不断变化,但是固定且相对较大的服务范围为任务卸载和切换提供了缓冲时间,使算法能够在动态变化中平稳地进行卸载和资源分配,确保优化逻辑稳定。

    LEO卫星表示为集合S={S1,S2,S3,S4,S5},其中{S1,S2}为接入卫星。将卫星S1的服务范围刚覆盖到云计算中心的时刻视为时刻0,此时,灾区的接入卫星为S1,协作卫星为S2,S3,S4,S5,远郊的接入卫星为S2。随着时间的推移,灾区的接入卫星切换为S2,协作卫星为S1,S3,S4,S5,远郊的接入卫星仍为S2。直到卫星S1的服务范围脱离云计算中心,将卫星S2的服务范围刚好覆盖到云计算中心的时刻视为下一个周期的时刻0,将这个过程视为一个调度周期,重点研究一个周期内任务卸载与资源分配问题。

    设一个时隙的长度为τ,一个周期分为N个时隙,假设在一个时隙内信道状态不变。将设备m在时隙n的任务建模为knm={dnm,cnm,Tn,maxm},表示任务knm包含dnmbit数据,需要在时间Tn,maxm内完成,其工作负载为cnm kcycle/bit,处理任务需要的CPU周期数为wnm=dnm×cnm,用xnm表示任务knm的卸载决策。

    对于卫星通信,信道衰落与地面通信完全不同。这里,本文考虑一个更贴近真实场景的卫星信道模型,包括自由空间损耗(Free-Space Loss, FSL)、雨和云衰减。FSL表示为

    ϕfs=(4πdFλ)2=(4πdFfCc)2 (4)

    其中,dF(km)为通信距离,λ为波长,fC(GHz)为载波频率,c为光速。当载波频率在10 GHz以上时,降雨是卫星通信信号衰减的主要原因之一。降雨衰减由式(5)给出

    ϕrain=aRb0.01deff (5)

    其中,Rb0.01为每年超过0.01%的降雨率,deff为有效路径,ab为雨滴大小分布、温度和频率相关的回归系数。云的衰减由式(6)给出

    ϕcloud=Lkcsinθ=Lsinθ0.819fCε/Lsinθ0.819fCε[1+(2+εε)2][1+(2+εε)2] (6)

    其中,L为云中液态水总柱状含量,kc为云层的特定衰减系数,εε分别为水介电常数的实部和虚部。因此,卫星通信过程中的总信道衰落可表示为

    h=ϕfsϕrainϕcloud (7)
    2.2.1   本地计算模型

    设备m在时隙n的CPU工作频率为fnm,设备m在时隙n的任务处理时延表示为

    tn,lm=wnmfnm (8)

    设备m在时隙n的任务处理能耗表示为

    en,lm=εwnm(fnm)2 (9)

    设备m在时隙n的开销表示为式(10)

    cn,lm=λltn,lm+(1λl)en,lm (10)

    其中,λl为本地计算模式下的时延敏感系数。

    2.2.2   边缘计算模型

    通过对卫星运动过程的研究,可以将1个周期分为两个阶段,设中间时刻t=tmid,当t<tmid时,灾区与云计算中心在卫星S1的服务范围内,远郊在卫星S2的服务范围内。当t>tmid时,云计算中心在卫星S1的服务范围内,灾区与远郊在卫星S2的服务范围内。设卫星S1, S2在时隙n的CPU工作频率为fn1, fn2,传输功率为pn1, pn2。信号传输速率由香农公式计算得出。假设物联网设备具有足够数量的正交信道,可以忽略多个设备之间的信道分配。这一假设是基于多频时分多址[24]技术的应用,该技术可以根据当前需求和交通状况对这些正交信道进行动态分配。

    设备m在时隙n的时延表示为式(11),其中,cm,1表示设备m将任务卸载到卫星S1的信号传输速率,cm,2表示设备m将任务卸载到卫星S2的信号传输速率,cs表示接入卫星与协作卫星之间的信号传输速率,Dm,1表示设备m与卫星S1之间的距离,Dm,2表示设备m与卫星S2之间的距离,DS表示接入卫星与协作卫星之间的距离。t<tmid时,灾区用户使用边缘计算时将任务卸载给接入卫星S1t>tmid时,灾区用户将任务卸载给接入卫星S2。总时延包括传输时延[25]、任务处理时延和传播时延[26]

    tn,em={dnmcm,1+wnmfn1+Dm,1c,t<tmid(NoISL),mDdnmcm,2+wnmfn2+Dm,2c,t>tmid(NoISL),mDdnmcm,1+wnmfn1+Dm,1c+dnmcs+DSc,t<tmid(ISL),mDdnmcm,2+wnmfn2+Dm,2c+dnmcs+DSc,t>tmid(ISL),mDdnmcm,2+wnmfn2+Dm,2c,mR (11)
    en,em={pnmdnmcm,1+εwnm(fn1)2,t<tmid(NoISL),mDpnmdnmcm,2+εwnm(fn2)2,t>tmid(NoISL),mDpnmdnmcm,1+pn,dnmcs+εwnm(fn1)2,t<tmid(ISL),mDpnmdnmcm,2+pn,dnmcs+εwnm(fn2)2,t>tmid(ISL),mDpnmdnmcm,2+εwnm(fn2)2,mR (12)

    设备m在时隙n的能耗表示为式(12),其中,pnm表示设备m在时隙n的传输功率。

    边缘计算模式下设备m在时隙n的开销为

    cn,em=λetn,em+(1λe)en,em (13)

    其中,λe为边缘计算模式下的时延敏感系数。

    式(11)与式(12)中,判断是否需要ISL的规则是:任务卸载到接入卫星时,无需通过ISL进行任务传输。任务卸载到协作卫星时,则需要通过ISL将任务从接入卫星传输至协作卫星。

    2.2.3   云计算模型

    设云计算中心单核CPU工作频率为fc,核心数为Nc。设备m在时隙n的时延表示为式(14),其中cm,1表示设备m将任务卸载到卫星S1的信号传输速率,cm,2表示设备m将任务卸载到卫星S2的信号传输速率,c2,1表示卫星S2将任务卸载到卫星S1的信号传输速率,c1,c表示卫星S1将任务卸载到云计算中心c的信号传输速率,Dm,1表示设备m与卫星S1之间的距离,Dm,2表示设备m与卫星S2之间的距离,D2,1表示卫星S1与卫星S2之间的距离,D1,c表示卫星S1与云计算中心之间的距离。

    tn,cm={dnmcm,1+dnmc1,c+wnmfc×Nc+(Dm+1+D1,c)c,t<tmid,mD,nNdnmcm,2+dnmc2,c+dnmc1,c+wnmfc×Nc+(Dm+2+D2,1+D1,c)c,t>tmid,mD,nNdnmcm,2+dnmc2,c+dnmc1,c+wnmfc×Nc+(Dm+2+D2,1+D1,c)c,mR,nN (14)

    由于云的能量供应充足[27],本文参考文献[28]中的问题表述,忽略了此时的计算能耗。设备m在时隙n的能耗表示为式(15)。

    en,cm={pnmdnmcm,1+pn1dnmc1,c,t<tmid,mDpnmdnmcm,2+p2dnmc2,1+pn1dnmc1,c,t>tmid,mDpnmdnmcm,2+pn2dnmc2,1+pn1dnmc1,c,mR (15)

    云计算模式下设备m在时隙n的总开销为

    cn,cm=λctn,cm+(1λc)en,cm (16)

    其中,λc为云计算模式下的时延敏感系数。

    根据动态SIoT网络中不同的任务处理方式,设备m在时隙n不同处理方式下生成的任务的端到端时延tnm和能耗enm分别为

    tnm={tn,lm,xnm=0tn,em,xnm=1,2,3,4,5tn,cm,xnm=6 (17)
    enm={en,lm,xnm=0en,em,xnm=1,2,3,4,5en,cm,xnm=6 (18)

    xnm表示任务处理方式,当xnm等于0时,任务在本地处理,当xnm等于1时,任务卸载到接入卫星S1中处理,当xnm等于2,3,4,5时,任务卸载到协作卫星S2,S3,S4,S5中处理,当xnm等于6时,任务卸载到云计算中心处理。卸载到边缘的任务循环分配给S1,S2,S3,S4,S5 5颗卫星。简单分析显示,本地处理能耗低但计算能力有限,可能无法满足时延要求;边缘处理减少计算时延但增加卫星能耗;云中心处理降低计算时延但传播时延增加。因此,不同处理方式下的任务卸载决策与资源分配对时延和能耗有显著影响。本文研究动态网络场景中,在时延与能耗约束下,最小化系统开销的优化问题。优化目标是最小化一个周期内系统开销,优化变量包括任务卸载决策、IoT设备与LEO卫星的传输功率及CPU工作频率。式(19)给出了该优化问题的数学模型。针对时延敏感系数λ,本地节点因设备电池寿命,对能耗更敏感,系数应较低;边缘节点因卫星计算能力有限,对时延和能耗均敏感;云节点计算能力强,但传播时延高,对时延更敏感,因此系数应设置较高。

    P1:min{xnm,pm,ps,fm,fs}Nn=1Mm=1λtnm+(1λ)enms.t.C1:xnm{0,1,,6} C2:tnmTn,maxm,mM,nN C3:enmEmaxm,mM,nN C4:ensEmaxs,sS,nN C5:0<fnmFmaxm,mM,nN C6:0<pnmPmaxm,mM,nN C7:0<fnsFmaxs,sS,nN C8:0<pnsPmaxs,sS,nN C9:|fn+1sfns|<εf,sS,nN C10:|pn+1spns|<εp,sS,nN} (19)

    约束条件如下:C1定义任务处理方式为本地、边缘或云计算;C2限制任务的端到端时延需小于任务需求;C3和C4确保设备和卫星的能耗不超过最大值;C5和C7约束设备与卫星的CPU频率小于最大工作频率;C6和C8限制设备与卫星的传输功率不超过最大功率;C9和C10为卫星CPU频率和传输功率的连续性约束。连续性约束确保相邻时隙资源调整的渐进性,避免因卫星移动引发频繁资源分配调整。如果没有连续性约束会导致两大问题:(1)系统开销增加,每次调整需重新规划资源,浪费带宽与计算资源;(2)性能不稳定,频繁变动引发任务执行波动,难以及时响应需求。引入连续性约束可平滑调整资源分配,提升系统性能稳定性。

    在问题式(19)中,CPU工作频率和传输功率为连续变量,卸载决策为离散变量。目标函数相对于这些变量是非线性的。因此,问题式(19)是一个MINLP问题。本文提出一种MADRL算法,第1层通过模型辅助并使用二分搜索算法和梯度下降法优化CPU工作频率和传输功率。第2层利用自适应DRL算法适应动态网络场景,通过自学习生成Q网络。

    对于问题式(19),本文首先通过模型辅助对CPU工作频率和传输功率进行优化。

    3.1.1   本地计算

    当任务采用本地计算时,优化问题可以转化为

    P1:min{fm}Nn=1Mm=1λltn,lm+(1λl)en,lms.t.C1:tn,lmTn,maxm,mM,nN C2:en,lmEmaxm,mM,nN C3:0<fnmFmaxm,mM,nN} (20)

    本地计算模式下的开销函数可以表示为

    F1=λlWnm/fnm+(1λl)εWnm(fnm)2 (21)

    通过简单的计算,可以发现函数F1是一个先增后减的函数,极值点为fnm=3[λl/(1λl)]/2ε,约束C1, C2可以简化为fnmWnm/Tn,maxmfnmEmaxm/εWnmF1可行解范围的下界和上界为

    f1=max{0,Wnm/Tn,maxm}f2=min{Emaxm/εWnm,Fmaxm}} (22)

    本地计算的最优开销表示为

    F1={F1(f1),fnm<f1F1(fm),f1fnmf2F1(f2),fnm>f2 (23)

    在本地计算的场景中,目标函数仅涉及1个未知数,即本地计算工作频率。由于这是一个单变量问题,因此本文可以直接使用二分法[29]来高效地求解该问题。

    3.1.2   边缘计算

    当任务采用边缘计算时,优化问题可以转化为

    P1:min{pm,fs}Nn=1Mm=1λetn,em+(1λe)en,ems.t.C1:tnmTn,maxm,mM,nN C2:ensEmaxs,sS,nN C3:0<pnmPmaxm,mM,nN C4:0<fnsFmaxs,sS,nN C5:|fn+1sfns|<εf,sS,nN} (24)
    3.1.3   云计算

    当任务采用云计算时,优化问题可以转换为

    P1:min{pm,ps}Nn=1Mm=1λctn,cm+(1λc)en,cms.t.C1:tnmTn,maxm,mM,nN C2:0<pnmPmaxm,mM,nN C3:0<pnsPmaxs,sS,nN C4:|pn+1spns|<εp,sS,nN} (25)

    由于边缘计算模式下参数pnmfns相互约束,云计算模式下pnmpns相互约束,不能直接推导出最优开销的表达式。本文使用梯度下降法[30]找出在特定约束条件下每个时隙中,使目标函数值最小的参数。

    任务卸载决策由深度Q网络[31] (Deep Q-Network, DQN)和双重深度Q网络[32] (Double Deep Q-Network, DDQN)确定。DQN因目标网络选择动作而存在Q值过估计问题,DDQN通过在线网络选择动作加以改进。两者主要区别在于学习过程中y值的计算方式。然而,在数据量较小时,DDQN因网络参数训练不足,性能不如DQN;而数据量大时,DDQN表现更优。基于此,灾区设备多、数据量大,适合使用DDQN;远郊设备少、数据量小,DQN更具优势。为此,本文提出自适应DRL算法,针对不同场景动态训练Q网络实现任务卸载决策,其伪代码如算法1所示。

    表 1  自适应DRL算法
     输入:开销矩阵
     (1)初始化在线网络Q和目标网络Q_hat
     (2)初始化训练参数
     (3)  for episode =1 to n_ep do
     (4)   初始化状态 s
     (5)   for n=1 to N do
     (6)    根据ε贪婪策略选择动作a
     (7)    更新状态 {\boldsymbol{s}}'
     (8)   end for
     (9)  end for
     (10) if {\mathcal{D}} 的大小≥ n_b:
     (11)  从D中随机抽取最小批量转移元组
     (12)  根据任务状态选择DQN或DDQN计算y
     (13) end if
     (14)计算损失函数{\text{Loss}}(\theta )
     (15)更新在线网络Q
     (16)每隔X步,更新目标网络:Q_hat=Q
     (17)更新状态 {\boldsymbol{s}} \leftarrow {\boldsymbol{s}}'
     (18)返回Q网络
    下载: 导出CSV 
    | 显示表格

    为了实现全面而有效的解决方案,综合考虑前两节的优化策略,将模型辅助资源分配与学习优化卸载决策结合,提出MADRL算法,MADRL算法流程图如图2所示。

    图 2  MADRL 算法流程图

    Q网络中的各个元素描述如下:

    状态空间:在每个时隙中,系统观察当前状态,获取环境信息。本文分别用每个用户的任务状态来表示环境勘探信息s,包括任务大小d_m(m \in {\mathcal{M}}),工作负载c_m(m \in {\mathcal{M}}),最大容忍时延T_m^{\max }(m \in {\mathcal{M}})。在时隙n时刻的状态空间定义为{{\boldsymbol{s}}_n} = \{ d_1^n, \cdots ,d_M^n,c_1^n, \cdots ,c_M^n,T_1^{n,\max }, \cdots ,T_M^{n,\max }\}

    动作空间:在线网络得到状态空间{{\boldsymbol{s}}_n}后,将产生相应的离散卸载决策{{\boldsymbol{a}}_n}, {{\boldsymbol{a}}_n} = \{ x_1^n, x_2^n, \cdots ,x_M^n\} , x_m^n \in \{ 0,1,2,3,4,5,6\} ,(m \in {\mathcal{M}})

    奖励函数:在状态s下采取行动a后,环境进入下一个状态 {\boldsymbol{s}}' 并返回奖励r,奖励值r定义为系统开销的倒数。

    在计算环境中,算法的效率与复杂度是衡量其可行性和应用价值的重要指标。本节将分析组成MADRL算法的3种子算法的复杂度,并进行总体复杂度分析。

    (1)二分搜索算法:

    搜索范围为 \left( {\left. {0,F_m^{\max }} \right]} \right. ,每次搜索完成搜索范围减小1/2,假设搜索进行了k次,搜索范围缩小到1,即F_m^{\max }/\mathop 2\nolimits^k = 1,通过取对数,可以解出k = {\log _2}F_m^{\max },因此,二分搜索需要进行O({\log _2}F_m^{\max })次比较,才能找到目标元素。算法复杂度为O({\log _2}F_m^{\max })

    (2)梯度下降法:

    梯度下降法的关键步骤包括对参数求偏导,求解偏导数仅涉及常数时间的基本运算,其计算复杂度为O(1)。更新参数的过程同样只需加法和乘法运算,因此其复杂度为O(1)。每次迭代的总计算复杂度为O(2),大O记法忽略常数项,即O(1)。对于凸函数,梯度下降法的收敛速度通常是O(1/ \in ),其中 \in 为收敛精度,因此,计算复杂度为O(1) \times O(1/ \in ) = O(1/ \in )

    (3)自适应深度强化学习算法:

    DQN算法的计算复杂度主要来源于以下几个步骤(a)前向传播:在每一步训练中,DQN需要通过深度神经网络预测Q值。对于一个有L层,每层包含q个神经元的神经网络,每层的计算复杂度为O({q^2}),前向传播的总复杂度为O(L \cdot {q^2})。(b)经验回放:在训练过程中,每个样本都进行一次前向传播和反向传播,从经验回放池中提取一个批量大小为n_b的样本,提取样本的复杂度为O({\text{n\_b}})。(c)反向传播:反向传播的复杂度与前向传播相同。因此,处理一个批次的复杂度为O(2 \cdot {\text{n\_b}} \cdot L \cdot {q^2})。忽略常数项,因此每个回合DQN算法的复杂度为O({\text{n\_b}} \cdot L \cdot {q^2})。算法共执行n_ep个回合,算法的总复杂度为O({\text{n\_ep}} \cdot {\text{n\_b}} \cdot L \cdot {q^2})。DDQN算法较DQN多出了一次目标Q网络的前向传播,但不涉及额外的反向传播,因此DDQN算法的总复杂度也为O({\text{n\_ep}} \cdot {\text{n\_b}} \cdot L \cdot {q^2})。自适应深度强化学习算法能够根据不同地区的需求灵活选择DQN算法或DDQN算法,算法的总体复杂度也为O({\text{n\_ep}} \cdot {\text{n\_b}} \cdot L \cdot {q^2}),与前述两种算法一致。

    综上所述,MADRL算法总复杂度为O({\log _2}F_m^{\max }) + O(1/ \in ) + O({\text{n\_ep}} \cdot {\text{n\_b}} \cdot L \cdot {q^2})

    本节通过仿真分析来评估所提算法的性能。首先设置仿真参数。其次,通过实验说明参数对学习过程的影响并进行分析。最后,将所提算法与基准算法的性能进行了比较。

    表2提供了仿真中使用的主要参数设置。基于激光链路部署,ISL的通信容量设置为10 Gbit/(s·Hz)[19]

    表 2  主要参数设置
    参数
    灾区设备数D 300
    远郊设备数R 5
    卫星服务范围半径r 1 400 km
    任务大小d_m^n [1e2,1e3,1e4,1e5,1e6] bit
    任务负载c_m^n [1,1.5] kcycle/bit
    最大容忍时延T_m^{n,\max } [0.05,0.1] s
    电气系数{{\varepsilon }} 10–28
    信道带宽B 10 MHz
    天线增益G 20 dBi
    噪声温度T 290 K
    IoT设备m的最大能耗E_m^{\max } 5 W
    LEO卫星s的最大能耗E_s^{\max } 2 000 W
    云计算中心单核CPU工作频率f_{\text{c}} 1.45 GHz
    云计算中心核心数{N_{\text{c}}} 256
    下载: 导出CSV 
    | 显示表格

    本文将提出的MADRL算法与3种基准算法进行比较:全边缘计算(Full Edge Computing, FEC):所有任务都卸载到边缘进行计算;全云计算(Full Cloud Computing, FCC):所有任务都卸载到云端进行计算; DQN算法:通过DQN算法优化任务卸载策略;基于分布式深度学习的动态优化[33](Distributed Deep Learning-based Dynamic Offloading, DDLDO)算法。

    本节通过仿真实验比较了学习率对算法收敛性能的影响。奖励值的稳定表明算法开始收敛,本文将奖励值定义为开销的负数。

    图3显示,不同学习率下奖励值随迭代次数的变化情况。当学习率为0.1或0.01时,奖励值波动剧烈,训练效果较差;当学习率降至0.001或0.000 1时,收敛性能显著提高,奖励值波动较小。

    图 3  不同学习率下的收敛性能

    图4显示了不同学习率下算法累计开销随时间的变化。当学习率为0.001时,系统开销最低,说明此学习率在网络更新速度和结果精度间达到了平衡。学习率过大会导致结果迅速收敛于较差值,过小则更新缓慢,需更多迭代,因此学习率应适当选择。

    图 4  不同学习率下的系统累积开销

    图5展示了不同探索衰减因子下算法累计开销的变化。当衰减因子为0.95或0.999 5时,系统开销高于衰减因子为0.995。本文选择衰减因子为0.995的系统开销,以平衡探索与利用,既保证训练初期的充分探索,又能在后期高效利用已学策略,快速收敛至较优奖励值。

    图 5  不同衰减因子下的系统累积开销

    接下来测试了不同卸载算法在不同指标下的性能,以验证本文所提MADRL算法的有效性。

    图6展示了1个调度周期内,考虑与不考虑卫星移动性情况下各算法的系统累计开销变化。M为移动性(Mobility)的缩写,不考虑卫星移动性时,固定的资源分配导致资源浪费和系统开销增加。相比之下,考虑卫星移动性可使系统开销降低41%,因其动态调整资源分配,提高效率。本文提出的MADRL算法系统开销始终低于DQN和DDLDO算法,能实时监测用户需求并根据卫星位置灵活优化资源分配与任务卸载,展现出在动态环境中的显著优越性。

    图 6  卫星移动性对DQN, MADRL算法性能的影响

    图7展示了1个调度周期内,考虑与不考虑ISC情况下各算法的系统累计开销变化。不考虑ISC时,任务卸载到接入卫星处理,导致时延和能耗增加。采用ISC技术可降低系统开销22.1%,因其提升了边缘计算性能。此外,本文提出的MADRL算法系统开销始终低于DQN和DDLDO算法,进一步体现了其优越性。

    图 7  ISC对DQN, MADRL算法性能的影响

    图8展示了系统累计开销随时间变化的过程。从时间t=240 s开始,所有算法的系统开销随时间逐渐升高,本文提出的MADRL算法始终保持最低开销,与DDLDO相比降低3%,与FEC和FCC相比分别降低1.3%。这表明MADRL算法能够更高效地进行任务卸载决策。

    图 8  不同算法下的累积系统开销

    图9展示了系统开销与LEO卫星移动速率的关系。随着卫星高度增加,移动速率降低,通信距离和信号传播时延增加,导致系统开销上升。尤其在云计算环境中,较高的卫星高度显著增加传输时延,影响系统性能。当卫星速率为7.255 8 km/s、高度达1 200 km时,FEC因距离用户更近,传输时延显著减少,开销低于FCC,而随着卫星高度降低,卫星速率增加,FCC的性能优于FEC。图中显示,随着卫星移动速率增加,本文提出的MADRL算法在系统开销上始终优于其他算法,体现了其自适应能力。MADRL通过动态调整参数优化性能,在不同操作环境下均能保持较低的系统开销。

    图 9  不同算法下系统开销与LEO卫星速率的关系

    本研究提出了一种创新的动态卫星物联网模型,该模型融合了物联网终端、LEO卫星和云计算中心,以解决远郊及灾区物联网设备的时延和能耗问题。通过引入ISC技术提升卫星边缘性能,并综合考虑卫星移动性,构造了最小化系统开销的任务卸载和资源分配问题。通过引入一种MADRL算法,本文有效地实现了任务卸载决策与资源配置的最优化。仿真结果显示,该模型和算法有效降低了系统开销,其中引入卫星移动性和ISC技术分别减少41%和22.1%的开销。与基准算法相比,MADRL在多种测试环境下均表现出更优性能,展现显著的应用优势。未来可进一步扩展状态空间复杂性,探索边缘缓存与边缘学习技术的结合,以更贴近真实SIoT场景。

  • 图  1  用户随机移动的无人机中继通信系统

    图  2  策略网络结构图

    图  3  用户数量为10时使用PPO-PATD算法规划的无人机轨迹图

    图  4  3种算法下每回合的累计奖励

    图  7  3种算法每回合的平均功耗

    图  5  3种算法每回合平均吞吐量

    图  6  3种算法每回合的平均中断概率

    图  8  不同用户位置信息噪声下采用PPO-PATD算法和DDPG算法的平均系统吞吐量和无人机平均功耗对比图

    图  9  不同用户数量下采用PPO-PATD算法和DDPG算法的平均系统吞吐量和无人机平均功耗对比图

    表  1  奖励函数的参数

    奖励参数
    {\xi _{{\text{out}}}} –0.5
    \zeta 1 \times {\text{10}}^{-\text{3}}
    {\xi _{\text{c}}} 1 \times {\text{10}}^{-\text{9}}
    {\varepsilon _{{\text{ec}}}} 73 J
    {\xi _{{\text{ec}}}} 0.02
    {\xi _{{\text{bd}}}} –1.5
    {\xi _{{\text{acc}}}} –1
    下载: 导出CSV

    1  PPO-PATD算法

     (1) 初始化网络参数 \theta ,缓冲区D
     (2) for each episode do
     (3)  初始化UAV、基站和各用户的初始位置,UAV的初始速
        度为0,电池总能量为 {e_{{\text{total}}}}
     (4)  for each time slot k do
     (5)   UAV的位置,UAV获取到的各用户非精确位置,基站
         位置和UAV的速度构成当前时隙下的状态 {s^k}
     (6)   选择动作 {a^k} = {\pi _{{\theta _{{\text{old}}}}}}({s^k}) ,保存动作概率
         P({\pi _{{\theta _{{\text{old}}}}}}({a^k}\left| {{s^k}} \right.))
     (7)   if 动作 {a^k} 违反加速度约束,then
     (8)     {\boldsymbol{a}}_{{\text{uav}}}^k = {a_{\max }}({\boldsymbol{a}}_{{\text{uav}}}^k/\left\| {{\boldsymbol{a}}_{{\text{uav}}}^k} \right\|)
     (9)   end if
     (10)   UAV执行调整后的动作;
     (11)   计算UAV速度: {\boldsymbol{v}}_{{\text{uav}}}^{k + 1} = {\boldsymbol{v}}_{{\text{uav}}}^k + {\boldsymbol{a}}_{{\text{uav}}}^k\delta
     (12)   if \left\| {{\boldsymbol{v}}_{{\text{uav}}}^k} \right\| > {v_{\max }} then
     (13)    {\boldsymbol{v}}_{{\text{uav}}}^{k + 1} = {v_{\max }}({\boldsymbol{v}}_{{\text{uav}}}^{k + 1}/\left\| {{\boldsymbol{v}}_{{\text{uav}}}^{k + 1}} \right\|)
     (14)   end if
     (15)   if 执行动作后违反边界约束,then
     (16)    调整UAV的位置和速度以符合边界约束;
     (17)   end if
     (18)   各用户随机移动至新的位置,进入下一状态 {s^{k + 1}} ,获
         取奖励 {r^k}
     (19)   将 \left\{ {{s^k},{a^k},P({\pi _{{\theta _{{\text{old}}}}}}({a^k}\left| {{s^k}} \right.)),{r^k}} \right\} 保存至D
     (20)   if D 中数据已经足够,then
     (21)    根据式计算折扣奖励;
     (22)    根据式计算优势估计;
     (23)    for each update-time=1, {n_{{\text{update}}}}do
     (24)     由评估网络获取状态价值;
     (25)     根据式(34)计算目标函数: L_{{\text{clip + vf + }}{{\text{S}}_{\text{e}}}}^k
     (26)     通过最大化 L_{{\text{clip + vf + }}{{\text{S}}_{\text{e}}}}^k 更新网络参数θ
     (27)    end for
     (28)    \theta \to {\theta _{{\text{old}}}} , 清空缓冲区 D
     (29)   end if
     (30)   更新状态 {s^k} \to {s^{k + 1}}
     (31) end for
     (32) end for
    下载: 导出CSV

    表  2  UAV中继通信系统仿真参数

    参数
    用户数量 N 10
    时隙 \delta\text{} 0.2 s
    单位路径损耗 {\beta _0} –42 dB
    非视距链路衰减因子 {a_0} 0.18
    路径损耗指数α 2.07
    视距概率 {P_{{\text{LoS}}}} 0.95
    {\sigma ^2} –95 dBm
    基站发射功率 {p_{{\text{bs}}}} 10 W
    无人机最大发射功率 p_{{\text{uav,}}\max }^{} 2 W
    信噪比阈值 {G_{{\text{th}}}} 0.42 dB
    总带宽B 100 MHz
    无人机重量G 40.18 N
    空气密度ρ 1.201 kg/m2
    转盘面积S 0.19 m2
    与转子叶片形状相关的阻力系数 {C_{{\text{blade}}}} 0.09
    评估网络目标函数所占权重值 {{\mathrm{c}}_1} –0.5
    策略模型的熵所占权重值 {{\mathrm{c}}_2} –0.01
    动作值概率分布的标准差的最大值 {\sigma _{a,\max }} 0.6
    动作值概率分布的标准差的最小值 {\sigma _{a,\min }} 0.1
    关于动作值概率分布标准差的衰减因子 {\partial _a} 0.999 5
    仿真回合数Episodes 5 000
    缓冲区D的大小Baffer-size 4 096
    网络连续更新次数 {n_{{\text{update}}}} 64
    PPO的裁剪参数 \varepsilon 0.2
    计算奖励期望的折扣系数 \gamma 0.99
    策略网络学习率 0.000 1
    评估网络学习率 0.000 3
    下载: 导出CSV
  • [1] 胡钰林, 文玄, 原晓鹏, 等. 面向无线能量传输的三维无人机轨迹设计[J]. 电子与信息学报, 2022, 44(3): 852–859. doi: 10.11999/JEIT211280.

    HU Yulin, WEN Xuan, YUAN Xiaopeng, et al. 3D unmanned aerial vehicle trajectory design for wireless power transfer[J]. Journal of Electronics & Information Technology, 2022, 44(3): 852–859. doi: 10.11999/JEIT211280.
    [2] 张天魁, 陈超, 王子端, 等. 无人机辅助蜂窝网络中的无人机与用户协同缓存算法[J]. 通信学报, 2020, 41(9): 130–138. doi: 10.11959/j.issn.1000-436x.2020029.

    ZHANG Tiankui, CHEN Chao, WANG Ziduan, et al. Cooperative caching algorithm of UAV and user in UAV-assisted cellular network[J]. Journal on Communications, 2020, 41(9): 130–138. doi: 10.11959/j.issn.1000-436x.2020029.
    [3] GHANAVI R, KALANTARI E, SABBAGHIAN M, et al. Efficient 3D aerial base station placement considering users mobility by reinforcement learning[C]. 2018 IEEE Wireless Communications and Networking Conference (WCNC), Barcelona, Spain, 2018: 1–6. doi: 10.1109/WCNC.2018.8377340.
    [4] ZHANG Shuo, SHI Shuo, GU Shushi, et al. Power control and trajectory planning based interference management for UAV-assisted wireless sensor networks[J]. IEEE Access, 2020, 8: 3453–3464. doi: 10.1109/ACCESS.2019.2962547.
    [5] ZHONG Xijian, GUO Yan, LI Ning, et al. Joint optimization of relay deployment, channel allocation, and relay assignment for UAVs-aided D2D networks[J]. IEEE/ACM Transactions on Networking, 2020, 28(2): 804–817. doi: 10.1109/TNET.2020.2970744.
    [6] LI Lei, CHANG T H, and CAI Shu. UAV positioning and power control for two-way wireless relaying[J]. IEEE Transactions on Wireless Communications, 2020, 19(2): 1008–1024. doi: 10.1109/TWC.2019.2950301.
    [7] LIANG Fengzhu, ZHANG Jun, LI Bin, et al. The optimal placement for caching UAV-assisted mobile relay communication[C]. 2019 IEEE 19th International Conference on Communication Technology (ICCT), Xi’an, China, 2019: 540–544. doi: 10.1109/ICCT46805.2019.8947051.
    [8] CHEN Yunfei, ZHAO Nan, DING Zhiguo, et al. Multiple UAVs as relays: Multi-hop single link versus multiple dual-hop links[J]. IEEE Transactions on Wireless Communications, 2018, 17(9): 6348–6359. doi: 10.1109/TWC.2018.2859394.
    [9] WEI Wei, CHEN Shukang, YAN Jun, et al. Optimal relay placement for UAV-assisted wireless regenerative communication system[C]. 2017 13th International Conference on Natural Computation, Fuzzy Systems and Knowledge Discovery (ICNC-FSKD), Guilin, China, 2017: 2850–2854. doi: 10.1109/FSKD.2017.8393232.
    [10] PAN Cunhua, REN Hong, DENG Yansha, et al. Joint blocklength and location optimization for URLLC-enabled UAV relay systems[J]. IEEE Communications Letters, 2019, 23(3): 498–501. doi: 10.1109/LCOMM.2019.2894696.
    [11] REN Hong, PAN Cunhua, WANG Kezhi, et al. Joint transmit power and placement optimization for URLLC-enabled UAV relay systems[J]. IEEE Transactions on Vehicular Technology, 2020, 69(7): 8003–8007. doi: 10.1109/TVT.2020.2992736.
    [12] ZENG Yong, ZHANG Rui, and LIM T J. Throughput maximization for UAV-enabled mobile relaying systems[J]. IEEE Transactions on Communications, 2016, 64(12): 4983–4996. doi: 10.1109/TCOMM.2016.2611512.
    [13] WANG Haichao, WANG Jinlong, DING Guoru, et al. Spectrum sharing planning for full-duplex UAV relaying systems with Underlaid D2D communications[J]. IEEE Journal on Selected Areas in Communications, 2018, 36(9): 1986–1999. doi: 10.1109/JSAC.2018.2864375.
    [14] WANG Lei, HU Bo, CHEN Shanzhi, et al. UAV-enabled reliable mobile relaying based on downlink NOMA[J]. IEEE Access, 2020, 8: 25237–25248. doi: 10.1109/ACCESS.2020.2970206.
    [15] ZENG Yong and ZHANG Rui. Energy-efficient UAV communication with trajectory optimization[J]. IEEE Transactions on Wireless Communications, 2017, 16(6): 3747–3760. doi: 10.1109/TWC.2017.2688328.
    [16] XIAO Lin, XU Yu, YANG Dingcheng, et al. Secrecy energy efficiency maximization for UAV-enabled mobile relaying[J]. IEEE Transactions on Green Communications and Networking, 2020, 4(1): 180–193. doi: 10.1109/TGCN.2019.2949802.
    [17] GU Jiangchun, DING Guoru, XU Yitao, et al. Proactive optimization of transmission power and 3D trajectory in UAV-assisted relay systems with mobile ground users[J]. Chinese Journal of Aeronautics, 2021, 34(3): 129–144. doi: 10.1016/j.cja.2020.09.028.
    [18] ZENG Shuhao, ZHANG Hongliang, DI Boya, et al. Trajectory optimization and resource allocation for OFDMA UAV relay networks[J]. IEEE Transactions on Wireless Communications, 2021, 20(10): 6634–6647. doi: 10.1109/TWC.2021.3075594.
    [19] SUN Zhongxiang, YANG Dingcheng, XIAO Lin, et al. Joint energy and trajectory optimization for UAV-enabled relaying network with multi-pair users[J]. IEEE Transactions on Cognitive Communications and Networking, 2021, 7(3): 939–954. doi: 10.1109/TCCN.2020.3048392.
    [20] XU Yongjun, LIU Zijian, HUANG Chongwen, et al. Robust resource allocation algorithm for energy-harvesting-based D2D communication underlaying UAV-assisted networks[J]. IEEE Internet of Things Journal, 2021, 8(23): 17161–17171. doi: 10.1109/JIOT.2021.3078264.
    [21] XU Yongjun, GUI Guan, GACANIN H, et al. A survey on resource allocation for 5G heterogeneous networks: Current research, future trends, and challenges[J]. IEEE Communications Surveys & Tutorials, 2021, 23(2): 668–695. doi: 10.1109/COMST.2021.3059896.
    [22] 李国权, 林金朝, 徐勇军, 等. 无人机辅助的NOMA网络用户分组与功率分配算法[J]. 通信学报, 2020, 41(9): 21–28. doi: 10.11959/j.issn.1000-436x.2020194.

    LI Guoquan, LIN Jinzhao, XU Yongjun, et al. User grouping and power allocation algorithm for UAV-aided NOMA network[J]. Journal on Communications, 2020, 41(9): 21–28. doi: 10.11959/j.issn.1000-436x.2020194.
    [23] WU Qingqing, ZENG Yong, and ZHANG Rui. Joint trajectory and communication design for multi-UAV enabled wireless networks[J]. IEEE Transactions on Wireless Communications, 2018, 17(3): 2109–2121. doi: 10.1109/TWC.2017.2789293.
    [24] ZHANG Guangchi, OU Xiaoqi, CUI Miao, et al. Cooperative UAV enabled relaying systems: Joint trajectory and transmit power optimization[J]. IEEE Transactions on Green Communications and Networking, 2022, 6(1): 543–557. doi: 10.1109/TGCN.2021.3108147.
    [25] WANG Zhen, ZHOU Fuhui, WANG Yuhao, et al. Joint 3D trajectory and resource optimization for a UAV relay-assisted cognitive radio network[J]. China Communications, 2021, 18(6): 184–200. doi: 10.23919/JCC.2021.06.015.
    [26] WANG Liang, WANG Kezhi, PAN Cunhua, et al. Deep Q-network based dynamic trajectory design for UAV-aided emergency communications[J]. Journal of Communications and Information Networks, 2020, 5(4): 393–402. doi: 10.23919/JCIN.2020.9306013.
    [27] CHANG Zheng, DENG Hengwei, YOU Li, et al. Trajectory design and resource allocation for multi-UAV networks: Deep reinforcement learning approaches[J]. IEEE Transactions on Network Science and Engineering, 2023, 10(5): 2940–2951. doi: 10.1109/TNSE.2022.3171600.
    [28] ZHAO Nan, CHENG Yiqiang, PEI Yiyang, et al. Deep reinforcement learning for trajectory design and power allocation in UAV networks[C]. ICC 2020 - 2020 IEEE International Conference on Communications (ICC), Dublin, Ireland, 2020: 1–6. doi: 10.1109/ICC40277.2020.9149196.
  • 加载中
图(9) / 表(3)
计量
  • 文章访问数:  484
  • HTML全文浏览量:  196
  • PDF下载量:  71
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-12-04
  • 修回日期:  2024-05-09
  • 网络出版日期:  2024-05-18
  • 刊出日期:  2024-05-30

目录

/

返回文章
返回