Research on Wired and Wireless Time Slots Converged Scheduling Scheme for Satellite Formation Flying
-
摘要: 针对卫星编队飞行场景中星内有线和星间无线链路传输速率以及调度机制的差异性引起的时敏任务在星上转发时延不确定性的问题,该文提出一种有线无线融合的时隙调度方案。首先,分别构建星间无线链路传输速率、星间无线调度以及星内有线调度模型;其次,联合有线和无线链路传输速率以及二者时隙位置关系,建立有线无线融合调度与星上转发时延关联分析模型;最后,为确保时敏业务每次在星上传输的时延稳定性,在时延分析模型基础上以抖动最小为融合调度优化目标,并采用遗传禁忌搜索算法进行求解。仿真结果表明,相比于非融合调度方案,所提融合调度方案的抖动不高于40 μs,转发时延平均降低了20%。Abstract: Considering the uncertainty of the forwarding delay of time sensitive missions on the satellite caused by the difference of the transmission rate and scheduling mechanism between the intra-satellite wired and inter-satellite wireless link in the satellite formation flying scenario, a wired and wireless converged time slot scheduling scheme is proposed. Firstly, the inter-satellite wireless link transmission rate, inter-satellite wireless scheduling and intra-satellite wired scheduling are constructed respectively. Secondly, the forwarding delay analysis model of the wired and wireless converged scheduling on the satellite is established by considering the transmission rate and the time slot position relationship between the wired and wireless link. Finally, to ensure the stability of delay when the time sensitive traffic is transmitted on the satellite each time, the converged scheduling optimization goal with the minimum jitter is constructed based on the delay analysis model, and the genetic tabu search algorithm is introduced to solve the problem. Simulation results indicate that, compared with the non-converged scheduling scheme, the jitter of the proposed converged scheduling scheme is not higher than 40 μs, and the forwarding delay is reduced by an average of 20%.
-
1. 引言
随着经济社会数字化转型和智能升级步伐加快,物联网已经成为新型基础设施的重要组成部分[1],在智能家居、智慧城市、智慧交通、医疗健康等诸多领域发挥着重要的作用[2]。现有的广域物联网网络主要建立在第5代移动通信(5th Generation mobile communication technology, 5G)地面网络的基础上[2]。虽然地面网络已经随着科技的不断发展而逐渐完善,但是受到环境和经济限制,仍然存在许多挑战[3,4]。地面网络基站部署面临挑战,尤其是在远郊地区,难以实现经济效益且易受自然灾害影响。与此相比,卫星网络因其无缝覆盖、灵活性和可靠性,正迅速成为重要通信基础设施,推动全球互联互通的发展。卫星网络可作为地面网络的补充,为远郊或灾区的物联网设备提供服务,形成卫星辅助物联网(Satellite-assisted Internet of Things, SIoT)。SIoT被视为一种极具潜力的网络,可为全球IoT设备提供无处不在和可靠的连接[5,6]。
SIoT网络下的任务卸载与资源分配问题成为了一个新的研究热点。由于IoT设备通常功率有限,可用于通信、计算和缓存的可用资源很少,因此,IoT设备产生的传感数据通常需要转发到云或边缘计算节点[7]进行进一步处理。移动边缘计算(Mobile Edge Computing, MEC)将计算能力赋予网络的边缘,通过内容缓存和在IoT设备附近部署边缘计算服务器,可以有效降低处理时延。随着星载处理技术的发展,带有星载处理单元的卫星也可以看作是一个边缘计算节点,为地面用户提供计算服务[8]。与卫星节点相比,云平台具备更强的计算能力和能量供应,但通常距离物联网设备较远,导致较高的通信时延。随着5G技术发展,物联网设备激增,产生大量数据交互和处理需求。通过设计云-边-端协同的分布式计算架构,可以挖掘分布式算力资源,提升任务响应速度、减轻网络负担,并支持高效的资源分配。
近年来,支持MEC的SIoT得到了广泛的关注。文献[9]研究了多轨道卫星网络中的动态卸载问题,采用基于Stackelberg博弈的方法求解了最优卸载决策。文献[10]设计了多卫星辅助网络中用户关联与计算卸载决策的联合优化问题,优化目标为最小化任务计算能耗。文献[11]提出了空天地一体化网络(Space-Air-Ground Integrated Network, SAGIN)中的计算卸载和缓存问题以减少任务完成时延。文献[12]研究了节能SAGIN下的计算卸载问题,IoT设备可以根据自身通信条件和计算能力选择最合适的LEO卫星或无人机进行任务卸载。文献[13]提出了一种联合优化通信和计算资源分配和计算卸载决策的随机计算卸载问题,以最小化地面用户和低地球轨道(Low Earth Orbit, LEO)卫星的长期平均总功率成本。文献[14]提出了一种基于学习的天空地一体化网络任务卸载方法,但忽略了卫星处理任务的能力。这些研究主要集中在边缘计算或云计算单独应用的情况下。然而,随着设备激增和应用多样化,单一依赖卫星边缘或云计算难以满足需求。因此,本文提出基于终端-边缘(LEO卫星)-云的SIoT网络,以满足用户的多样化需求。
文献[15]研究了卫星辅助MEC系统中的任务划分和资源分配问题,旨在最大限度地减少工业IoT设备的任务完成时延。文献[16]提出了一种混合云和边缘计算的LEO卫星网络,可以为用户提供异构计算资源。文献[17]提出了一种基于软件定义网络和网络功能虚拟化的SAGIN-车联网(Internet of Vehicles, IoV)边缘云架构,优化业务时延、系统能耗、资源利用率和业务安全性。由于卫星边缘计算的计算卸载问题复杂,许多研究未考虑星间协同计算。然而,LEO卫星的计算资源受体积和重量限制,仅依靠单颗LEO卫星辅助所有用户计算任务有时无法满足所有用户对服务性能的期望[18]。因此,本文考虑了多卫星协同计算对于提高服务质量和资源利用率至关重要。已有研究通过光通信或可见光通信系统实现星间链路(Inter-Satellite Link, ISL),实现快速、可靠、高效的卫星网络[19]。通过星间协作(Inter-Satellite Collaboration, ISC)利用ISL,既能扩大系统容量和覆盖范围,满足更多用户需求,又能减少单卫星资源消耗,提升卫星网络的整体生存能力。
文献[20]提出了一种由终端-卫星-云组成的3层边缘计算架构,通过ISC实现星上负载均衡,对卸载决策、通信和计算资源分配变量进行了联合优化。文献[21]研究了协同卫星边缘计算中计算卸载与资源分配的联合优化问题,提出了一种分层动态资源分配算法来解决该问题。上述研究大多基于静态场景,假设卫星网络拓扑和用户关联固定。然而,SIoT网络中的卫星高速运动,地面用户需频繁切换卫星,这对任务调度和资源分配提出更高要求。系统需实时调整卸载策略和资源分配参数,以适应卫星轨迹和可用性。因此,在LEO卫星高速运动和资源受限的情况下,如何确定任务的卸载策略是一个挑战性问题。
为了补充相关工作,本文研究基于终端-边缘-云的动态SIoT网络,利用ISC技术提升边缘性能,并通过将任务卸载到最合适的节点实现负载均衡,综合考虑时延与能耗需求,将卸载决策、通信和计算资源联合分配问题建模为混合整数非线性规划(Mixed Integer Non-Linear Programming, MINLP)问题。结合传统优化与深度强化学习,提出模型辅助的自适应深度强化学习(Model-assisted Adaptive Deep Reinforcement Learning, MADRL)算法,优化任务卸载、CPU频率及传输功率,最终实现系统开销最小化。本文的主要贡献总结如下:
(1) 构建了基于终端-边缘-云的动态SIoT网络模型,以服务远郊与灾区的IoT设备。针对卫星边缘资源受限的问题,利用ISC技术来提高边缘的性能。同时,为了有效应对卫星高速移动性带来的挑战,通过对卫星移动性的建模,以及对卫星服务范围和调度周期的合理界定,动态确定用户的接入卫星。
(2) 构造了满足通信资源与计算资源约束下,系统开销最小化问题。通过设计高效的资源分配与任务卸载算法,确保任务在最合适的节点上顺利完成卸载与执行。
(3) 大量的仿真表明,本文所提出的算法具有良好的收敛性能。卫星移动性的引入使得系统开销降低了41%。ISC的引入使系统开销降低了22.1%。与(Deep Q Learning, DQN)等基准算法相比,MADRL可进一步降低系统开销3%。
2. 系统模型和问题描述
本节首先构建了LEO卫星移动性模型和带ISC的卫星辅助物联网(Satellite-assited Internet of Things, SIoT)网络模型,描述了本地计算、边缘计算、云计算3种模式下的端到端时延与系统能耗。最后,提出了系统开销最小化的任务卸载与资源分配联合优化问题。表1列出了基本符号及其含义。
表 1 基本符号及其含义符号 含义 M 设备集合 D 灾区设备集合 R 远郊设备集合 S LEO卫星集合 dnm 时隙n设备m生成任务的大小 cnm 时隙n设备m的工作负载 wnm 时隙n设备m处理任务所需CPU周期数 Tn,maxm 时隙n设备m处理任务的最大容忍时延 xnm 时隙n设备m的任务卸载决策 fnm 时隙n设备m的CPU工作频率 pnm 时隙n设备m的传输功率 tnm 时隙n设备m的系统时延 enm 时隙n设备m的系统能耗 cnm 时隙n设备m的系统开销 2.1 LEO卫星移动性模型
LEO卫星s与设备m之间的几何关系如图1所示。考虑到LEO卫星的移动性[22],假设LEO卫星在离地面高度H的轨道上以Vs匀速飞行,αm,s[n]为卫星s在时隙n时与水平正方向的夹角,γm,s[n]为卫星s在时隙n时到卫星用户m的剩余覆盖弧长对应的几何夹角,R为地球半径,H为LEO卫星的高度。忽略其他因素的影响,当0∘<αm,s<180∘时,LEO卫星可以与设备m建立通信链路。
据几何关系,当0∘<αm,s<90∘时,γm,s[n]表示为
γm,s[n]=arccos(RR+H)−arccos(Rcosαm,s[n]R+H)+αm,s[n] (1) 当90∘<αm,s<180∘时,γm,s[n]表示为
γm,s[n]=arccos(RR+H−cosαm,s[n])+arccos(RR+H)−π−αm,s[n] (2) 卫星s在时隙n与设备m的距离表示为式(3)
Dm,s[n]={{R+Hsin(arccosRR+H−γm,s[n])}/cosαm,s[n],0∘<αm,s[n]<90∘H,αm,s[n]<90∘{R+Hsin(γm,s[n]−arccosRR+H)}/cosαm,s[n],90∘<αm,s[n]<180∘ (3) 2.2 网络模型
本文考虑动态场景,SIoT网络模型随时间变化。系统中包含M个IoT设备,S个LEO卫星和1个云计算中心。其中Rd个设备在远郊,D个设备在灾区。假设远郊、灾区和云中心在地面上从左到右依次分布。灾区因突发事件导致人口密集和通信需求紧急,系统需快速响应大量任务请求。为此,接入卫星与周围四颗卫星建立ISL,同一轨道上相邻卫星以及相邻轨道上的卫星通过ISL相连[23],形成边缘云,提升通信能力并确保快速响应。而远郊地区人口稀疏,通信需求和任务生成频率较低,系统可专注于长期稳定性和资源利用率,单颗接入卫星即可满足需求,降低系统复杂性并提高资源效率。
为不失一般性,本文将卫星的服务范围设定为一个圆形区域。虽然LEO卫星的高速移动会导致覆盖的地理区域不断变化,但是固定且相对较大的服务范围为任务卸载和切换提供了缓冲时间,使算法能够在动态变化中平稳地进行卸载和资源分配,确保优化逻辑稳定。
LEO卫星表示为集合S={S1,S2,S3,S4,S5},其中{S1,S2}为接入卫星。将卫星S1的服务范围刚覆盖到云计算中心的时刻视为时刻0,此时,灾区的接入卫星为S1,协作卫星为S2,S3,S4,S5,远郊的接入卫星为S2。随着时间的推移,灾区的接入卫星切换为S2,协作卫星为S1,S3,S4,S5,远郊的接入卫星仍为S2。直到卫星S1的服务范围脱离云计算中心,将卫星S2的服务范围刚好覆盖到云计算中心的时刻视为下一个周期的时刻0,将这个过程视为一个调度周期,重点研究一个周期内任务卸载与资源分配问题。
设一个时隙的长度为τ,一个周期分为N个时隙,假设在一个时隙内信道状态不变。将设备m在时隙n的任务建模为knm={dnm,cnm,Tn,maxm},表示任务knm包含dnmbit数据,需要在时间Tn,maxm内完成,其工作负载为cnm kcycle/bit,处理任务需要的CPU周期数为wnm=dnm×cnm,用xnm表示任务knm的卸载决策。
对于卫星通信,信道衰落与地面通信完全不同。这里,本文考虑一个更贴近真实场景的卫星信道模型,包括自由空间损耗(Free-Space Loss, FSL)、雨和云衰减。FSL表示为
ϕfs=(4πdFλ)2=(4πdFfCc)2 (4) 其中,dF(km)为通信距离,λ为波长,fC(GHz)为载波频率,c为光速。当载波频率在10 GHz以上时,降雨是卫星通信信号衰减的主要原因之一。降雨衰减由式(5)给出
ϕrain=aRb0.01deff (5) 其中,Rb0.01为每年超过0.01%的降雨率,deff为有效路径,a和b为雨滴大小分布、温度和频率相关的回归系数。云的衰减由式(6)给出
ϕcloud=Lkcsinθ=Lsinθ0.819fCε″/Lsinθ0.819fCε″[1+(2+ε′ε″)2][1+(2+ε′ε″)2] (6) 其中,L为云中液态水总柱状含量,kc为云层的特定衰减系数,ε′和ε″分别为水介电常数的实部和虚部。因此,卫星通信过程中的总信道衰落可表示为
h=ϕfsϕrainϕcloud (7) 2.2.1 本地计算模型
设备m在时隙n的CPU工作频率为fnm,设备m在时隙n的任务处理时延表示为
tn,lm=wnmfnm (8) 设备m在时隙n的任务处理能耗表示为
en,lm=εwnm(fnm)2 (9) 设备m在时隙n的开销表示为式(10)
cn,lm=λltn,lm+(1−λl)en,lm (10) 其中,λl为本地计算模式下的时延敏感系数。
2.2.2 边缘计算模型
通过对卫星运动过程的研究,可以将1个周期分为两个阶段,设中间时刻t=tmid,当t<tmid时,灾区与云计算中心在卫星S1的服务范围内,远郊在卫星S2的服务范围内。当t>tmid时,云计算中心在卫星S1的服务范围内,灾区与远郊在卫星S2的服务范围内。设卫星S1, S2在时隙n的CPU工作频率为fn1, fn2,传输功率为pn1, pn2。信号传输速率由香农公式计算得出。假设物联网设备具有足够数量的正交信道,可以忽略多个设备之间的信道分配。这一假设是基于多频时分多址[24]技术的应用,该技术可以根据当前需求和交通状况对这些正交信道进行动态分配。
设备m在时隙n的时延表示为式(11),其中,cm,1表示设备m将任务卸载到卫星S1的信号传输速率,cm,2表示设备m将任务卸载到卫星S2的信号传输速率,cs表示接入卫星与协作卫星之间的信号传输速率,Dm,1表示设备m与卫星S1之间的距离,Dm,2表示设备m与卫星S2之间的距离,DS表示接入卫星与协作卫星之间的距离。t<tmid时,灾区用户使用边缘计算时将任务卸载给接入卫星S1,t>tmid时,灾区用户将任务卸载给接入卫星S2。总时延包括传输时延[25]、任务处理时延和传播时延[26]。
tn,em={dnmcm,1+wnmfn1+Dm,1c,t<tmid(NoISL),m∈Ddnmcm,2+wnmfn2+Dm,2c,t>tmid(NoISL),m∈Ddnmcm,1+wnmfn1+Dm,1c+dnmcs+DSc,t<tmid(ISL),m∈Ddnmcm,2+wnmfn2+Dm,2c+dnmcs+DSc,t>tmid(ISL),m∈Ddnmcm,2+wnmfn2+Dm,2c,m∈R (11) en,em={pnmdnmcm,1+εwnm(fn1)2,t<tmid(NoISL),m∈Dpnmdnmcm,2+εwnm(fn2)2,t>tmid(NoISL),m∈Dpnmdnmcm,1+pn,dnmcs+εwnm(fn1)2,t<tmid(ISL),m∈Dpnmdnmcm,2+pn,dnmcs+εwnm(fn2)2,t>tmid(ISL),m∈Dpnmdnmcm,2+εwnm(fn2)2,m∈R (12) 设备m在时隙n的能耗表示为式(12),其中,pnm表示设备m在时隙n的传输功率。
边缘计算模式下设备m在时隙n的开销为
cn,em=λetn,em+(1−λe)en,em (13) 其中,λe为边缘计算模式下的时延敏感系数。
式(11)与式(12)中,判断是否需要ISL的规则是:任务卸载到接入卫星时,无需通过ISL进行任务传输。任务卸载到协作卫星时,则需要通过ISL将任务从接入卫星传输至协作卫星。
2.2.3 云计算模型
设云计算中心单核CPU工作频率为fc,核心数为Nc。设备m在时隙n的时延表示为式(14),其中cm,1表示设备m将任务卸载到卫星S1的信号传输速率,cm,2表示设备m将任务卸载到卫星S2的信号传输速率,c2,1表示卫星S2将任务卸载到卫星S1的信号传输速率,c1,c表示卫星S1将任务卸载到云计算中心c的信号传输速率,Dm,1表示设备m与卫星S1之间的距离,Dm,2表示设备m与卫星S2之间的距离,D2,1表示卫星S1与卫星S2之间的距离,D1,c表示卫星S1与云计算中心之间的距离。
tn,cm={dnmcm,1+dnmc1,c+wnmfc×Nc+(Dm+1+D1,c)c,t<tmid,m∈D,n∈Ndnmcm,2+dnmc2,c+dnmc1,c+wnmfc×Nc+(Dm+2+D2,1+D1,c)c,t>tmid,m∈D,n∈Ndnmcm,2+dnmc2,c+dnmc1,c+wnmfc×Nc+(Dm+2+D2,1+D1,c)c,m∈R,n∈N (14) 由于云的能量供应充足[27],本文参考文献[28]中的问题表述,忽略了此时的计算能耗。设备m在时隙n的能耗表示为式(15)。
en,cm={pnmdnmcm,1+pn1dnmc1,c,t<tmid,m∈Dpnmdnmcm,2+p2dnmc2,1+pn1dnmc1,c,t>tmid,m∈Dpnmdnmcm,2+pn2dnmc2,1+pn1dnmc1,c,m∈R (15) 云计算模式下设备m在时隙n的总开销为
cn,cm=λctn,cm+(1−λc)en,cm (16) 其中,λc为云计算模式下的时延敏感系数。
2.3 问题描述
根据动态SIoT网络中不同的任务处理方式,设备m在时隙n不同处理方式下生成的任务的端到端时延tnm和能耗enm分别为
tnm={tn,lm,xnm=0tn,em,xnm=1,2,3,4,5tn,cm,xnm=6 (17) enm={en,lm,xnm=0en,em,xnm=1,2,3,4,5en,cm,xnm=6 (18) xnm表示任务处理方式,当xnm等于0时,任务在本地处理,当xnm等于1时,任务卸载到接入卫星S1中处理,当xnm等于2,3,4,5时,任务卸载到协作卫星S2,S3,S4,S5中处理,当xnm等于6时,任务卸载到云计算中心处理。卸载到边缘的任务循环分配给S1,S2,S3,S4,S5 5颗卫星。简单分析显示,本地处理能耗低但计算能力有限,可能无法满足时延要求;边缘处理减少计算时延但增加卫星能耗;云中心处理降低计算时延但传播时延增加。因此,不同处理方式下的任务卸载决策与资源分配对时延和能耗有显著影响。本文研究动态网络场景中,在时延与能耗约束下,最小化系统开销的优化问题。优化目标是最小化一个周期内系统开销,优化变量包括任务卸载决策、IoT设备与LEO卫星的传输功率及CPU工作频率。式(19)给出了该优化问题的数学模型。针对时延敏感系数λ,本地节点因设备电池寿命,对能耗更敏感,系数应较低;边缘节点因卫星计算能力有限,对时延和能耗均敏感;云节点计算能力强,但传播时延高,对时延更敏感,因此系数应设置较高。
P1:min{xnm,pm,ps,fm,fs}N∑n=1M∑m=1λtnm+(1−λ)enms.t.C1:xnm∈{0,1,⋯,6} C2:tnm≤Tn,maxm,∀m∈M,∀n∈N C3:enm≤Emaxm,∀m∈M,∀n∈N C4:ens≤Emaxs,∀s∈S,∀n∈N C5:0<fnm≤Fmaxm,∀m∈M,∀n∈N C6:0<pnm≤Pmaxm,∀m∈M,∀n∈N C7:0<fns≤Fmaxs,∀s∈S,∀n∈N C8:0<pns≤Pmaxs,∀s∈S,∀n∈N C9:|fn+1s−fns|<εf,∀s∈S,∀n∈N C10:|pn+1s−pns|<εp,∀s∈S,∀n∈N} (19) 约束条件如下:C1定义任务处理方式为本地、边缘或云计算;C2限制任务的端到端时延需小于任务需求;C3和C4确保设备和卫星的能耗不超过最大值;C5和C7约束设备与卫星的CPU频率小于最大工作频率;C6和C8限制设备与卫星的传输功率不超过最大功率;C9和C10为卫星CPU频率和传输功率的连续性约束。连续性约束确保相邻时隙资源调整的渐进性,避免因卫星移动引发频繁资源分配调整。如果没有连续性约束会导致两大问题:(1)系统开销增加,每次调整需重新规划资源,浪费带宽与计算资源;(2)性能不稳定,频繁变动引发任务执行波动,难以及时响应需求。引入连续性约束可平滑调整资源分配,提升系统性能稳定性。
3. 基于深度强化学习的任务卸载与资源分配算法
在问题式(19)中,CPU工作频率和传输功率为连续变量,卸载决策为离散变量。目标函数相对于这些变量是非线性的。因此,问题式(19)是一个MINLP问题。本文提出一种MADRL算法,第1层通过模型辅助并使用二分搜索算法和梯度下降法优化CPU工作频率和传输功率。第2层利用自适应DRL算法适应动态网络场景,通过自学习生成Q网络。
3.1 模型辅助资源分配
对于问题式(19),本文首先通过模型辅助对CPU工作频率和传输功率进行优化。
3.1.1 本地计算
当任务采用本地计算时,优化问题可以转化为
P1:min{fm}N∑n=1M∑m=1λltn,lm+(1−λl)en,lms.t.C1:tn,lm≤Tn,maxm,∀m∈M,∀n∈N C2:en,lm≤Emaxm,∀m∈M,∀n∈N C3:0<fnm≤Fmaxm,∀m∈M,∀n∈N} (20) 本地计算模式下的开销函数可以表示为
F1=λlWnm/fnm+(1−λl)εWnm(fnm)2 (21) 通过简单的计算,可以发现函数F1是一个先增后减的函数,极值点为fn∗m=3√[λl/(1−λl)]/2ε,约束C1, C2可以简化为fnm≥Wnm/Tn,maxm,fnm≤√Emaxm/εWnmF1可行解范围的下界和上界为
f1=max{0,Wnm/Tn,maxm}f2=min{√Emaxm/εWnm,Fmaxm}} (22) 本地计算的最优开销表示为
F1={F1(f1),fn∗m<f1F1(f∗m),f1≤fn∗m≤f2F1(f2),fn∗m>f2 (23) 在本地计算的场景中,目标函数仅涉及1个未知数,即本地计算工作频率。由于这是一个单变量问题,因此本文可以直接使用二分法[29]来高效地求解该问题。
3.1.2 边缘计算
当任务采用边缘计算时,优化问题可以转化为
P1:min{pm,fs}N∑n=1M∑m=1λetn,em+(1−λe)en,ems.t.C1:tnm≤Tn,maxm,∀m∈M,∀n∈N C2:ens≤Emaxs,∀s∈S,∀n∈N C3:0<pnm≤Pmaxm,∀m∈M,∀n∈N C4:0<fns≤Fmaxs,∀s∈S,∀n∈N C5:|fn+1s−fns|<εf,∀s∈S,∀n∈N} (24) 3.1.3 云计算
当任务采用云计算时,优化问题可以转换为
P1:min{pm,ps}N∑n=1M∑m=1λctn,cm+(1−λc)en,cms.t.C1:tnm≤Tn,maxm,∀m∈M,∀n∈N C2:0<pnm≤Pmaxm,∀m∈M,∀n∈N C3:0<pns≤Pmaxs,∀s∈S,∀n∈N C4:|pn+1s−pns|<εp,∀s∈S,∀n∈N} (25) 由于边缘计算模式下参数pnm与fns相互约束,云计算模式下pnm与pns相互约束,不能直接推导出最优开销的表达式。本文使用梯度下降法[30]找出在特定约束条件下每个时隙中,使目标函数值最小的参数。
3.2 学习优化卸载决策
任务卸载决策由深度Q网络[31] (Deep Q-Network, DQN)和双重深度Q网络[32] (Double Deep Q-Network, DDQN)确定。DQN因目标网络选择动作而存在Q值过估计问题,DDQN通过在线网络选择动作加以改进。两者主要区别在于学习过程中y值的计算方式。然而,在数据量较小时,DDQN因网络参数训练不足,性能不如DQN;而数据量大时,DDQN表现更优。基于此,灾区设备多、数据量大,适合使用DDQN;远郊设备少、数据量小,DQN更具优势。为此,本文提出自适应DRL算法,针对不同场景动态训练Q网络实现任务卸载决策,其伪代码如算法1所示。
表 1 自适应DRL算法输入:开销矩阵 (1)初始化在线网络Q和目标网络Q_hat (2)初始化训练参数 (3) for episode =1 to n_ep do (4) 初始化状态 s (5) for n=1 to N do (6) 根据ε贪婪策略选择动作a (7) 更新状态 {\boldsymbol{s}}' (8) end for (9) end for (10) if {\mathcal{D}} 的大小≥ n_b: (11) 从D中随机抽取最小批量转移元组 (12) 根据任务状态选择DQN或DDQN计算y值 (13) end if (14)计算损失函数{\text{Loss}}(\theta ) (15)更新在线网络Q (16)每隔X步,更新目标网络:Q_hat=Q (17)更新状态 {\boldsymbol{s}} \leftarrow {\boldsymbol{s}}' (18)返回Q网络 3.3 MADRL算法
为了实现全面而有效的解决方案,综合考虑前两节的优化策略,将模型辅助资源分配与学习优化卸载决策结合,提出MADRL算法,MADRL算法流程图如图2所示。
Q网络中的各个元素描述如下:
状态空间:在每个时隙中,系统观察当前状态,获取环境信息。本文分别用每个用户的任务状态来表示环境勘探信息s,包括任务大小d_m(m \in {\mathcal{M}}),工作负载c_m(m \in {\mathcal{M}}),最大容忍时延T_m^{\max }(m \in {\mathcal{M}})。在时隙n时刻的状态空间定义为{{\boldsymbol{s}}_n} = \{ d_1^n, \cdots ,d_M^n,c_1^n, \cdots ,c_M^n,T_1^{n,\max }, \cdots ,T_M^{n,\max }\} 。
动作空间:在线网络得到状态空间{{\boldsymbol{s}}_n}后,将产生相应的离散卸载决策{{\boldsymbol{a}}_n}, {{\boldsymbol{a}}_n} = \{ x_1^n, x_2^n, \cdots ,x_M^n\} , x_m^n \in \{ 0,1,2,3,4,5,6\} ,(m \in {\mathcal{M}})。
奖励函数:在状态s下采取行动a后,环境进入下一个状态 {\boldsymbol{s}}' 并返回奖励r,奖励值r定义为系统开销的倒数。
3.4 算法复杂度分析
在计算环境中,算法的效率与复杂度是衡量其可行性和应用价值的重要指标。本节将分析组成MADRL算法的3种子算法的复杂度,并进行总体复杂度分析。
(1)二分搜索算法:
搜索范围为 \left( {\left. {0,F_m^{\max }} \right]} \right. ,每次搜索完成搜索范围减小1/2,假设搜索进行了k次,搜索范围缩小到1,即F_m^{\max }/\mathop 2\nolimits^k = 1,通过取对数,可以解出k = {\log _2}F_m^{\max },因此,二分搜索需要进行O({\log _2}F_m^{\max })次比较,才能找到目标元素。算法复杂度为O({\log _2}F_m^{\max })。
(2)梯度下降法:
梯度下降法的关键步骤包括对参数求偏导,求解偏导数仅涉及常数时间的基本运算,其计算复杂度为O(1)。更新参数的过程同样只需加法和乘法运算,因此其复杂度为O(1)。每次迭代的总计算复杂度为O(2),大O记法忽略常数项,即O(1)。对于凸函数,梯度下降法的收敛速度通常是O(1/ \in ),其中 \in 为收敛精度,因此,计算复杂度为O(1) \times O(1/ \in ) = O(1/ \in )。
(3)自适应深度强化学习算法:
DQN算法的计算复杂度主要来源于以下几个步骤(a)前向传播:在每一步训练中,DQN需要通过深度神经网络预测Q值。对于一个有L层,每层包含q个神经元的神经网络,每层的计算复杂度为O({q^2}),前向传播的总复杂度为O(L \cdot {q^2})。(b)经验回放:在训练过程中,每个样本都进行一次前向传播和反向传播,从经验回放池中提取一个批量大小为n_b的样本,提取样本的复杂度为O({\text{n\_b}})。(c)反向传播:反向传播的复杂度与前向传播相同。因此,处理一个批次的复杂度为O(2 \cdot {\text{n\_b}} \cdot L \cdot {q^2})。忽略常数项,因此每个回合DQN算法的复杂度为O({\text{n\_b}} \cdot L \cdot {q^2})。算法共执行n_ep个回合,算法的总复杂度为O({\text{n\_ep}} \cdot {\text{n\_b}} \cdot L \cdot {q^2})。DDQN算法较DQN多出了一次目标Q网络的前向传播,但不涉及额外的反向传播,因此DDQN算法的总复杂度也为O({\text{n\_ep}} \cdot {\text{n\_b}} \cdot L \cdot {q^2})。自适应深度强化学习算法能够根据不同地区的需求灵活选择DQN算法或DDQN算法,算法的总体复杂度也为O({\text{n\_ep}} \cdot {\text{n\_b}} \cdot L \cdot {q^2}),与前述两种算法一致。
综上所述,MADRL算法总复杂度为O({\log _2}F_m^{\max }) + O(1/ \in ) + O({\text{n\_ep}} \cdot {\text{n\_b}} \cdot L \cdot {q^2})。
4. 仿真与性能分析
本节通过仿真分析来评估所提算法的性能。首先设置仿真参数。其次,通过实验说明参数对学习过程的影响并进行分析。最后,将所提算法与基准算法的性能进行了比较。
4.1 仿真设置
表2提供了仿真中使用的主要参数设置。基于激光链路部署,ISL的通信容量设置为10 Gbit/(s·Hz)[19]。
表 2 主要参数设置参数 值 灾区设备数D 300 远郊设备数R 5 卫星服务范围半径r 1 400 km 任务大小d_m^n [1e2,1e3,1e4,1e5,1e6] bit 任务负载c_m^n [1,1.5] kcycle/bit 最大容忍时延T_m^{n,\max } [0.05,0.1] s 电气系数{{\varepsilon }} 10–28 信道带宽B 10 MHz 天线增益G 20 dBi 噪声温度T 290 K IoT设备m的最大能耗E_m^{\max } 5 W LEO卫星s的最大能耗E_s^{\max } 2 000 W 云计算中心单核CPU工作频率f_{\text{c}} 1.45 GHz 云计算中心核心数{N_{\text{c}}} 256 本文将提出的MADRL算法与3种基准算法进行比较:全边缘计算(Full Edge Computing, FEC):所有任务都卸载到边缘进行计算;全云计算(Full Cloud Computing, FCC):所有任务都卸载到云端进行计算; DQN算法:通过DQN算法优化任务卸载策略;基于分布式深度学习的动态优化[33](Distributed Deep Learning-based Dynamic Offloading, DDLDO)算法。
4.2 参数分析
本节通过仿真实验比较了学习率对算法收敛性能的影响。奖励值的稳定表明算法开始收敛,本文将奖励值定义为开销的负数。
图3显示,不同学习率下奖励值随迭代次数的变化情况。当学习率为0.1或0.01时,奖励值波动剧烈,训练效果较差;当学习率降至0.001或0.000 1时,收敛性能显著提高,奖励值波动较小。
图4显示了不同学习率下算法累计开销随时间的变化。当学习率为0.001时,系统开销最低,说明此学习率在网络更新速度和结果精度间达到了平衡。学习率过大会导致结果迅速收敛于较差值,过小则更新缓慢,需更多迭代,因此学习率应适当选择。
图5展示了不同探索衰减因子下算法累计开销的变化。当衰减因子为0.95或0.999 5时,系统开销高于衰减因子为0.995。本文选择衰减因子为0.995的系统开销,以平衡探索与利用,既保证训练初期的充分探索,又能在后期高效利用已学策略,快速收敛至较优奖励值。
4.3 性能对比
接下来测试了不同卸载算法在不同指标下的性能,以验证本文所提MADRL算法的有效性。
图6展示了1个调度周期内,考虑与不考虑卫星移动性情况下各算法的系统累计开销变化。M为移动性(Mobility)的缩写,不考虑卫星移动性时,固定的资源分配导致资源浪费和系统开销增加。相比之下,考虑卫星移动性可使系统开销降低41%,因其动态调整资源分配,提高效率。本文提出的MADRL算法系统开销始终低于DQN和DDLDO算法,能实时监测用户需求并根据卫星位置灵活优化资源分配与任务卸载,展现出在动态环境中的显著优越性。
图7展示了1个调度周期内,考虑与不考虑ISC情况下各算法的系统累计开销变化。不考虑ISC时,任务卸载到接入卫星处理,导致时延和能耗增加。采用ISC技术可降低系统开销22.1%,因其提升了边缘计算性能。此外,本文提出的MADRL算法系统开销始终低于DQN和DDLDO算法,进一步体现了其优越性。
图8展示了系统累计开销随时间变化的过程。从时间t=240 s开始,所有算法的系统开销随时间逐渐升高,本文提出的MADRL算法始终保持最低开销,与DDLDO相比降低3%,与FEC和FCC相比分别降低1.3%。这表明MADRL算法能够更高效地进行任务卸载决策。
图9展示了系统开销与LEO卫星移动速率的关系。随着卫星高度增加,移动速率降低,通信距离和信号传播时延增加,导致系统开销上升。尤其在云计算环境中,较高的卫星高度显著增加传输时延,影响系统性能。当卫星速率为7.255 8 km/s、高度达1 200 km时,FEC因距离用户更近,传输时延显著减少,开销低于FCC,而随着卫星高度降低,卫星速率增加,FCC的性能优于FEC。图中显示,随着卫星移动速率增加,本文提出的MADRL算法在系统开销上始终优于其他算法,体现了其自适应能力。MADRL通过动态调整参数优化性能,在不同操作环境下均能保持较低的系统开销。
5. 结束语
本研究提出了一种创新的动态卫星物联网模型,该模型融合了物联网终端、LEO卫星和云计算中心,以解决远郊及灾区物联网设备的时延和能耗问题。通过引入ISC技术提升卫星边缘性能,并综合考虑卫星移动性,构造了最小化系统开销的任务卸载和资源分配问题。通过引入一种MADRL算法,本文有效地实现了任务卸载决策与资源配置的最优化。仿真结果显示,该模型和算法有效降低了系统开销,其中引入卫星移动性和ISC技术分别减少41%和22.1%的开销。与基准算法相比,MADRL在多种测试环境下均表现出更优性能,展现显著的应用优势。未来可进一步扩展状态空间复杂性,探索边缘缓存与边缘学习技术的结合,以更贴近真实SIoT场景。
-
算法1 基于遗传禁忌搜索的融合调度算法(GTS-CSA) 输入:所有流fi的5元组信息,卫星编队拓扑信息,迭代次数Q 输出:平均抖动,有线时隙调度集合O,无线时隙调度集合R (1) 计算TDMA超帧长度H=lcm{T1, T2,···,TN}; (2) 计算流fi在一个TDMA超帧内的子周期数目Mi; (3) 计算流fi在第m个子周期内需要的时隙个数si,m; (4) 按照转发时延要求由高到低对流fi进行排序; (5) FOR EACH {{\boldsymbol{f}}_i} \in F DO (6) 采用贪婪算法计算初始解; (7) WHILE q ≤Q DO (8) 锦标赛选择算法; (9) 两点交叉算法; (10) 基于禁忌搜索的变异算法; (11) q=q+1; (12) END WHILE (13) END FOR 表 1 仿真参数设置
参数 值 编队中卫星的数目 10颗 卫星轨道高度 900 km 平均SNR 22.4 dB 每颗卫星内部终端数目 5~8台 时敏业务流数目 1~20条 有线链路传输速率 100 Mbit/s 无线链路传输速率 10~15 Mbit/s 单位无线时隙长度 500 μs 时敏业务发送周期取值范围 8~60 ms 时敏业务数据量大小取值范围 1~12 kbit 非时敏业务数据量大小取值范围 1~20 Mbit -
[1] DENG Ruoqi, DI Boya, and SONG Lingyang. Ultra-dense LEO satellite based formation flying[J]. IEEE Transactions on Communications, 2021, 69(5): 3091–3105. doi: 10.1109/TCOMM.2021.3058370 [2] CUI Zhaojing, DONG Zhenhui, ZHANG Hongjun, et al. A hybrid service scheduling strategy of satellite data based on TSN[C]. 9th International Conference in Communications, Signal Processing, and Systems, Singapore, 2020: 362–367. [3] NASRALLAH A, THYAGATURU A S, ALHARBI Z, et al. Ultra-low latency (ULL) networks: The IEEE TSN and IETF DetNet standards and related 5G ULL research[J]. IEEE Communications Surveys & Tutorials, 2019, 21(1): 88–145. doi: 10.1109/COMST.2018.2869350 [4] 杨辉, 白巍, 张杰. 时间敏感空间信息网络关键技术研究[J]. 无线电通信技术, 2017, 43(3): 8–12. doi: 10.3969/j.issn.1003-3114.2017.03.02YANG Hui, BAI Wei, and ZHANG Jie. Research on key technologies of time sensitive space information network[J]. Radio Communications Technology, 2017, 43(3): 8–12. doi: 10.3969/j.issn.1003-3114.2017.03.02 [5] 黄韬, 汪硕, 黄玉栋, 等. 确定性网络研究综述[J]. 通信学报, 2019, 40(6): 160–176. doi: 10.11959/j.issn.1000-436x.2019119HUANG Tao, WANG Shuo, HUANG Yudong, et al. Survey of the deterministic network[J]. Journal on Communications, 2019, 40(6): 160–176. doi: 10.11959/j.issn.1000-436x.2019119 [6] CHAINE P J, BOYER M, PAGETTI C, et al. TSN support for quality of service in space[C]. 10th European Congress on Embedded Real Time Software and Systems (ERTS 2020), Toulouse, France, 2020: 1–11. [7] BOSK M, REZABEK F, HOLZINGER K, et al. Methodology and infrastructure for TSN-based reproducible network experiments[J]. IEEE Access, 2022, 10: 109203–109239. doi: 10.1109/ACCESS.2022.3211969 [8] SANCHEZ-GARRIDO J, APARICIO B, RAMÍREZ J G, et al. Implementation of a time-sensitive networking (TSN) ethernet bus for microlaunchers[J]. IEEE Transactions on Aerospace and Electronic Systems, 2021, 57(5): 2743–2758. doi: 10.1109/TAES.2021.3061806 [9] REN Bo, LIU Jianping, LI Zhiyuan, et al. Satellite requirement preference driven TT&C resources scheduling algorithm for time sensitive missions[C]. 2020 IEEE 3rd International Conference on Electronic Information and Communication Technology (ICEICT), Shenzhen, China, 2020: 15–19. [10] 吕梦昭. 空间时延敏感通信关键技术研究[D]. [硕士论文], 电子科技大学, 2020.LV Mengzhao. Research on key technologies of space time delay sensitive communication[D]. [Master dissertation], University of Electronic Science and Technology of China, 2020. [11] SEIJO Ó, FERNÁNDEZ Z, VAL I, et al. SHARP: Towards the integration of time-sensitive communications in legacy LAN/WLAN[C]. 2018 IEEE Globecom Workshops (GC Wkshps), Abu Dhabi, United Arab Emirates, 2018: 1–7. [12] SEIJO Ó, ITURBE X, and VAL I. SHARP: Implementation of a hybrid wired-wireless TSN network to enable flexible smart factories[C]. 2021 17th IEEE International Conference on Factory Communication Systems (WFCS), Linz, Austria, 2021: 95–98. [13] SEIJO Ó, LÓPEZ-FERNÁNDEZ J A, and VAL I. w-SHARP: Implementation of a high-performance wireless time-sensitive network for low latency and ultra-low cycle time industrial applications[J]. IEEE Transactions on Industrial Informatics, 2021, 17(5): 3651–3662. doi: 10.1109/TII.2020.3007323 [14] VAL I, SEIJO Ó, TORREGO R, et al. IEEE 802.1AS clock synchronization performance evaluation of an integrated wired–wireless TSN architecture[J]. IEEE Transactions on Industrial Informatics, 2022, 18(5): 2986–2999. doi: 10.1109/TII.2021.3106568 [15] CRUCES C, TORREGO R, ARRIOLA A, et al. Deterministic hybrid architecture with time sensitive network and wireless capabilities[C]. 2018 IEEE 23rd International Conference on Emerging Technologies and Factory Automation (ETFA), Turin, Italy, 2018: 1119–1122. [16] SEIJO Ó, ITURBE X, and VAL I. Tackling the challenges of the integration of wired and wireless TSN with a technology proof-of-concept[J]. IEEE Transactions on Industrial Informatics, 2022, 18(10): 7361–7372. doi: 10.1109/TII.2021.3131865 [17] ROST M P and KOLDING T. Performance of integrated 3GPP 5G and IEEE TSN networks[J]. IEEE Communications Standards Magazine, 2022, 6(2): 51–56. doi: 10.1109/MCOMSTD.0001.2000013 [18] GINTHÖR D, GUILLAUME R, VON HOYNINGEN-HUENE J, et al. End-to-end optimized joint scheduling of converged wireless and wired time-sensitive networks[C]. 2020 25th IEEE International Conference on Emerging Technologies and Factory Automation (ETFA), Vienna, Austria, 2020: 222–229. [19] ISO, IEC. 802.1Qbv-2015 IEEE standard for local and metropolitan area networks - bridges and bridged networks - amendment 25: Enhancements for scheduled traffic[S]. IEEE, 2016. [20] WANG Yin, LI Jinhong, CHEN Minglong, et al. Joint route selection and time-slot allocation for energy consumption optimization in satellite communication systems[C]. 2021 IEEE 94th Vehicular Technology Conference (VTC2021-Fall), Norman, USA, 2021: 1–5. [21] GOLKAR A and CRUZ I L I. The federated satellite systems paradigm: Concept and business case evaluation[J]. Acta Astronautica, 2015, 111: 230–248. doi: 10.1016/j.actaastro.2015.02.009 [22] 周笛. 面向任务的空间信息网络资源管理方法[D]. [博士论文], 西安电子科技大学, 2019.ZHOU Di. Mission-oriented resource management technology in space information networks[D]. [Ph. D. dissertation], Xidian University, 2019. [23] ZHU Yan, SHENG Min, LI Jiandong, et al. Modeling and performance analysis for satellite data relay networks using two-dimensional Markov-modulated process[J]. IEEE Transactions on Wireless Communications, 2020, 19(6): 3894–3907. doi: 10.1109/TWC.2020.2979126 [24] 徐川, 曾日辉, 邢媛, 等. 面向工业无线网络的动态TDMA系统设计与实现[J]. 自动化学报, 2022, 48(11): 2812–2822. doi: 10.16383/j.aas.c190797XU Chuan, ZENG Rihui, XING Yuan, et al. Design and implementation of dynamic TDMA system for industrial wireless networks[J]. Acta Automatica Sinica, 2022, 48(11): 2812–2822. doi: 10.16383/j.aas.c190797 [25] WEI Y H, LENG Quan, HAN Song, et al. RT-WiFi: Real-time high-speed communication protocol for wireless cyber-physical control applications[C]. 2013 IEEE 34th Real-Time Systems Symposium, Vancouver, Canada, 2013: 140–149. -