Energy Consumption and Delay-aware Resource Allocation Mechanism for Virtualization Cloud Radio Access Network
-
摘要:
针对现有虚拟化云无线接入网络(C-RAN)资源利用率低、能耗高、用户服务质量无法得到保证等问题,该文提出一种能耗和时延感知的虚拟化资源分配机制。根据虚拟化C-RAN的网络特点及业务流量特征,考虑资源约束和比例公平,建立能耗和时延优化模型。进而,利用启发式算法为不同类型虚拟C-RAN和用户虚拟基站分配资源,完成资源的全局优化配置。仿真结果表明,所提资源分配机制在提高网络资源利用率的同时,不但使能耗节省了62.99%,还使时延降低了32.32%。
-
关键词:
- 云无线接入网 /
- 网络虚拟化 /
- 时波分复用无源光网络 /
- 资源分配
Abstract:To solve the problems of low resource utilization rate, high energy consumption and poor user service quality in the existing virtualized Cloud Radio Access Network (C-RAN), a virtual resource allocation mechanism based on energy consumption and delay is proposed. According to the network and traffic characteristics of the virtualized C-RAN, considering the resource constraints and proportional fairness, an energy consumption and delay optimization model is established. Furthermore, a heuristic algorithm is used to allocate resources for different types of virtual C-RAN and user virtual base stations to complete resource global optimization configuration. Simulation results show that the proposed resource allocation mechanism can effectively save energy by 62.99% and reduce the latency by 32.32% while improving the network resource utilization.
-
1. 引言
随着5G,6G通信技术发展,促进物联网的应用越来越广泛,如车联网、智能医疗、智能家居、智能城市、工业4.0等,引发了新一轮产业、经济、社会发展浪潮。然而,由于物联网允许具有计算、通信和感知能力的事物之间无处不在的连接,不仅使节点对通信安全性能要求提升,也导致攻击者更容易发现攻击目标,发起各种被动和主动攻击[1]。因此,通信安全是影响物联网应用的关键因素之一,引起业界广泛关注。
为解决通信安全问题,在物联网中使用传统密钥加密技术时,由于物联网大规模分布式异构层次结构,增加了密钥分发和管理的开销,同时这些开销也增加了网络中低成本、低能耗设备的负担。物联网特性使得结合物理层安全的安全机制更适合物联网[2]。物理层安全借助无线通信信道的随机性、广播性,实现信息安全传输,无须加密和解密。因此,物理层安全可以作为传统密钥加密方法的额外保护机制,减少密钥分发和管理开销,为物联网通信提供更高效的保护。
随着5G和6G通信技术发展,物联网攻击者也会不断更新和增强自身能力。例如全双工技术可获得双倍信道容量,并减少反馈延时和端到端延迟;当窃听者工作于全双工模式时,可同时被动窃听和主动干扰[3,4],即通过向合法接收机发射干扰信号,以降低合法用户信道容量,进而提高窃听性能。尽管被动窃听和主动干扰的同时实施,为通信安全带来更大威胁,但主动干扰信号为估计窃听者位置提供了新思路,窃听者位置估计有助于获得窃听信道容量。例如窃听者不是完全被动的,即偶尔主动发射信号,该信号被合法接收机收集可用于估计窃听者位置[5]。然而,窃听者为隐藏自己,主动发射的信号频次和强度都会有限,进而增加了对其位置估计的难度。为此,本文针对主动发射干扰信号的窃听者,利用辅助合法用户通信的中继节点作为锚点,结合贝叶斯测距和最小二乘法迭代的方法,估计窃听者位置信息,提高位置估计的准确性。
在获得窃听者位置的基础上,通过向窃听者发射人工噪声以降低窃听信道容量,是提升物理层安全性能的有效方法[6,7]。传统的人工噪声发射机固定部署在地面,无法适应物联网中设备的移动性,尤其在窃听设备位置发生变化时,无法实施有效干扰。近年来,无人机由于其部署灵活、可移动性强,易动态跟踪地面设备的移动,且空中与地面之间视距信道的存在,可形成比地面信号强度更强的干扰信号,因而可用作空中人工噪声发射机[8]。无人机作为人工噪声发射机,为保证对窃听信道干扰效果、获得最大保密容量,需优化飞行轨迹以找到发射人工噪声的最佳位置。无人机轨迹优化通常为非凸问题,可将其近似转换为凸问题,借助凸优化工具求解[9];或借助块坐标下降迭代算法求解次优解[10]。近年来,机器学习在解决无线通信网络优化问题中取得显著进步。作为机器学习算法之一的强化学习,因其动态决策特性,在无人机辅助的无线通信场景下,实现了无人机部署、轨迹规划和资源分配的优化[11,12]。类似地,在无人机辅助物理层安全通信中,如文献[13]借助深度强化学习算法,优化了作为干扰发射机的无人机飞行轨迹,保证了保密速率最大。此外,在进行无人机轨迹优化时,无人机能量也是不容忽视的约束条件。由于尺寸和重量受限,无人机机载能量有限;而机载能量大部分消耗在产生飞机前行的动力上[12],这意味着采用强化学习算法如Q-learning对飞行轨迹优化过程中,无人机为找到最优位置而执行多次位置移动,消耗的能量不可忽略。
综上,针对物联网中带有主动攻击的全双工窃听者,本文利用无人机辅助发射人工噪声,提升系统物理层安全性能。同时,本文在估计窃听者位置的基础上,提出基于Q-learning的无人机轨迹优化算法,获得最大系统保密容量。此外,为探究轨迹优化中无人机能量消耗因素的影响,在约束轨迹优化能耗的同时,分析了无人机离线和在线学习下的能耗与系统保密性能。
2. 系统模型
2.1 系统描述
假设在某个大规模集体活动场景中,如体育赛事或演唱会,如图1所示,远程基站发射机(Alice)与活动现场内合法接收机(Bob)之间没有直接链路,需借助
K 个中继R={R1,R2,⋯,RK} 进行通信,Alice、中继、Bob之间通信链路称为主信道。K个中继和Bob工作于半双工模式,均配置单根天线;现场内窃听者Eve工作于全双工模式,配置两根天线包括同时同频工作的发射天线和接收天线,具有向主信道发射干扰信号和窃听主信道信息功能,Eve能根据需要移动位置,以保证最佳干扰或窃听性能。Eve位置移动采用随机游走模型[14],也称为马尔科夫移动模型,该模型多用于描述一般性随机移动;Eve移动方向服从均匀分布,分别为前、后、左、右;移动速度范围为[0,cmax] ,其中cmax 为最大移动速度。为避免因Eve连续移动而远离Bob失去窃听意义,限定Eve移动范围在Bob为圆心的圆环内,圆环半径限定在[l1,l2] 。空中部署发射机(Jammer,即无人机)发射人工噪声干扰Alice到Eve的窃听信道,以降低窃听信道容量。考虑3维空间坐标,假设Alice,Bob,Eve和
K 个中继处于同一平面,其中Alice和Bob位置坐标分别为(0,0,0) 和(xB,yB,0) ,第ℓ 个中继坐标为(xRℓ,yRℓ,0) ,ℓ∈Ω={1,2,⋯,K} 。Eve和Jammer位置随时间改变,则在t时刻Eve坐标为(xE(t),yE(t),0) ,Jammer坐标为(xJ(t),yJ(t),h(t)) 。假设地面节点间信道为独立准静态瑞利衰落,即信道之间相互独立,同一信道的信道增益在一个时隙内保持不变,则地面节点O到P的信道系数hOP 服从瑞利分布;根据瑞利分布与指数分布关系可知,信道增益|hOP|2 服从指数分布,设其均值为gOP ;为简化符号说明,统一用O 代表发射节点Alice, Eve,Rℓ ,记为O∈{A, E, Rℓ} ,P 代表接收节点Bob, Eve,Rℓ ,记为P∈{B, E, Rℓ} ,并且除了表示Eve收发天线之间的信道系数hEE 时O=P,其他情况O≠P。(xO,yO,0) 和(xP,yP,0) 分别表示节点O和P的坐标,O与P间距离为lOP=√(xO−xP)2+(yO−yP)2 ;Jammer与节点P 间距离为lJP(t)=√(xP−xJ(t))2+(yP−yJ(t))2+h(t)2 。由于Eve工作于全双工,其发射信号会引起残留自干扰,假设发射天线到接收天线的自干扰系数为ρ ,0<ρ≤1 ,ρ=0 表示无自干扰。地面节点O和P通信时,节点P接收功率是发射信号经大尺度衰减和小尺度衰落后得到的,即[15]
POP=POK−10l−∂1OP|hOP|2 (1) 其中,
PO 为节点O发射功率;K0=(4πfc/4πfccc)2 ,c为光速,fc 为载波频率;l−∂1OP 表示信号大尺度衰减,∂1 为地面路径损耗系数。 Jammer与地面节点P之间存在视距信道和非视距信道,其中视距信道存在概率,与环境、地面节点和Jammer的位置以及仰角有关,表示为[4]PLJP(θJP)=1/1(1+φexp(−β(θJP−φ)))(1+φexp(−β(θJP−φ))) (2) 其中,
θJP=(180/180ππ)arcsin[h(t)/h(t)lJP(t)lJP(t)] 为Jammer与地面节点P之间的仰角,φ 和β 是由环境决定的参数。由此,Jammer与节点P之间非视距信道存在概率为PNLJP=1−PLJP 。本文场景为城市环境,则节点P从Jammer接收到的平均功率为[16]¯PJP(t)=PJK−10l−∂2JP(t)(PLJPηLJP+PNLJPηNLJP)−1 (3) 其中,
gJP(t)=K−10l−∂2JP(t)(PLJPηLJP+PNLJPηNLJP)−1 表示从Jammer到节点P的信道功率增益;∂2 表示自由空间路径损耗系数;PJ 为Jammer发射功率;ηLJP 和ηNLJP 分别表示视距和非视距信道衰减因子,且ηNLJP>ηLJP 。2.2 信号模型
系统工作过程分两个阶段。第1阶段,利用Eve发射的主动干扰信号,并借助
K 个中继充当位置估计锚点估计Eve位置;第2阶段,根据Eve位置估计信息,Jammer进行动态轨迹优化,跟踪Eve以找到最佳干扰位置,达到系统保密容量最大。Eve位置估计和Jammer轨迹优化方法,在第4节详述。在第2阶段,中继分两个子阶段辅助Alice到Bob通信。第1子阶段Alice广播信号xs 给K 个中继,同时Eve以功率PE 发射干扰信号xv ,Jammer以功率PJ 发射人工噪声信号xAN ,则第l个中继Rℓ 接收信号为yℓ(t)=√PARℓxs+√PERℓxv+√¯PJRℓ(t)xAN+nℓ (4) 其中,
PARℓ 和PERℓ 分别为Alice和Eve到Rℓ 的接收功率,表达式见式(1);¯PJRℓ(t) 为Jammer到Rℓ 平均接收功率,表达式见式(3);E[|xs|2]=E[|xv|2]=E[|xAN|2]=1 ,E[⋅] 表示均值;nℓ 是均值为0、方差为σ2ℓ 的高斯噪声,记为nℓ∼N(0,σ2ℓ) 。将式(1)和式(3)代入式(4),可得第1子阶段Alice到Rℓ 信道容量为CARℓ(t)=12log2(1+PAK−10l−∂1ARℓ|hARℓ|2¯PJRℓ(t)+PEK−10l−∂1ERℓ(t)|hERℓ|2+σ2ℓ) (5) 其中,
1/122 是因Alice到Bob信息传输需两个子阶段。类似地,可得第1子阶段Alice到Eve的信道容量为CAE(t)=12log2(1+PAK−10l−∂1AE(t)|hAE|2¯PJE(t)+ρPEK−10|hEE|2+σ2E) (6) 其中,
ρPEK−10|hEE|2 为Eve自身干扰;¯PJE(t) 为Jammer到Eve的平均接收功率,表达式见式(3);σ2E 为高斯噪声信号功率。这里假设了Alice 和 Eve间有直接链路,即本文在窃听信道条件优于主信道情况下,实现最大化可达安全速率。第2子阶段,假设中继工作于解码转发(Decode and Froward, DF)方式,并选择最佳中继转发信号给Bob(最佳中继的定义在式(9)中给出)。此阶段Bob接收信号为yB(t)=√PRℓBxs+√PEB(t)xv+√¯PJB(t)xAN+nB (7) 其中,
PRℓB 和PEB(t) 分别为Rℓ 和Eve到Bob的接收功率,表达式见式(1);¯PJB(t) 为Jammer到Bob的平均接收功率,表达式见式(3);nB 是高斯噪声,记为nB∼N(0,σ2B) 。将式(1)和式(3)代入式(7),可得第2子阶段Rℓ 到Bob的信号噪声干扰比(Signal to Interference plus Noise Ratio, SINR)为SINRRℓB(t)=PRℓK−10l−∂1RℓB|hRℓB|2¯PJB(t)+PEK−10l−∂1EB(t)|hEB|2+σ2B (8) 这里“最佳”中继定义为,从中继
Rℓ 到Bob的信道中具有最大SINR的中继,记为Rbest 。选择规则表示为Rbest=argmaxℓ∈ΩSINRRℓB(t) (9) 由此,Bob通过最佳链路接收到的SINR为
SINRRbestB ,则第2子阶段Rbest 到Bob的信道容量为CRbestB(t)=12log2(1+SINRRbestB(t)) (10) 类似地,第2子阶段
Rbest 到Eve的信道容量为CRbestE(t)=12log2(1+PRbestK−10l−∂1RbestE(t)|hRbestE|2¯PJE(t)+ρPEK−10|hEE|2+σ2E) (11) 根据信息论定理,Alice到Bob等效端到端信道容量为Alice到中继的信道容量和中继到Bob的信道容量中最小值,即表示为
CB(t)=min(CARbest(t),CRbestB(t)) (12) 其中,
CARbest(t) 为Alice到Rbest 的信道容量,由式(5)可得其表达式。为获得更好的窃听效果,假设Eve采用选择性合并方式处理接收信息,即选择第1和第2子阶段接收信号中强的进行解码[6],由此Alice到Eve等效端到端信道容量为CE(t)=max(CAE(t),min(CARbest(t),CRbestE(t))) (13) 则Alice到Bob的可达安全速率为
Cs(t)=max(CB(t)−CE(t),0) (14) 将式(5)、式(6)、式(11)代入式(14)可知,可达安全速率受Jammer与地面节点间功率增益影响。由式(2)和式(3)可知,Jammer与地面节点间功率增益与视距概率相关;而随着Jammer与地面节点间距离增加,路径损耗增大,使得视距概率增加,进而影响可达安全速率。为此,接下来将研究如何优化Jammer飞行轨迹,以获得其最佳位置保证可达安全速率最大。
3. 系统保密性能优化问题建模
系统保密性能的优化目标是通过优化无人机(即Jammer)空间位置,获得对Eve的最佳干扰,进而使系统可达安全速率最大。实现此优化目标需要满足的约束条件是无人机在指定区域内飞行,且剩余能量保证其能安全返航充电。上述优化问题数学表达为
max(xJ(t),yJ(t),h(t))Cs(t),s.t.C1: a1≤xJ(t)≤a2,C2: b1≤yJ(t)≤b2,C3: c1≤h(t)≤c2,C4: EJ\_remain(t)≥EJ\_min} (15) 其中,C1, C2, C3表示无人机空间坐标
x ,y ,z 轴范围;C4表示第t时刻无人机剩余能量EJ\_remain(t) 大于等于返航所需最小能量EJ\_min ;EJ\_remain(t)=EJ\_initial−∑t−1t=0EJ\_move(t) 表示无人机初始能量EJ\_initial 与t时刻前耗能总和之差,其中EJ\_move(t) 为第t时刻无人机耗能。为计算方便,将无人机消耗单位能量数(无量纲)定义为飞行单位距离或悬浮单位时间消耗的能量。由C4可见,无人机初始能量直接影响飞行最大时长,进而影响无人机最终轨迹优化位置,这一点将在第6节讨论。根据文献[17]附录推导可知,式(15)为非凸优化问题,求解困难;应用Q-learning强化学习算法,无需环境状态转移模型,可以有效解决无人机轨迹优化问题。因此,接下来设计Q-learning算法求解式(15)。
4. 保密性能优化问题求解
由于窃听者位置未知,在对无人机轨迹优化前先估计窃听者位置。方法是利用Eve发射的主动干扰信号,并借助
K 个中继充当位置估计锚点,应用文献[18]的贝叶斯测距和最小二乘法迭代估计Eve位置坐标(xE(t),yE(t),0) 。首先由贝叶斯测距法得到Eve到中继Rℓ 之间距离lERℓ(t) 的估计值ˆlERℓ(t)=10(P0−ˆθℓ)/(10∂1) ,其中P0 为距锚点参考距离d0 处的接收功率,ˆθℓ=ˆB¯PRℓ(t)+(1−ˆB)PRℓ(t) ,¯PRℓ(t) 为中继Rℓ 在时刻t接收到Eve的平均功率,ˆB 和¯PRℓ(t) 表达式见文献[18]式(6)。然后通过最小二乘迭代法,得到Eve坐标估计值。具体迭代过程为:假定Eve初始坐标为(xE,yE) ,求lERℓ(t) 在点(xE,yE) 的全微分δlERℓ ,并借助伪逆矩阵分别得到xE 和yE 的增量δxE 和δyE ,表示为δlERℓ 的函数;通过迭代式xE=xE−δxE ,yE=yE−δyE 更新xE 和yE ,并借助δlERℓ 计算δxE 和δyE ,其中δlERℓ 表示lERℓ(t) 与ˆlERℓ(t) 的差值;直至满足√δ2xE+δ2yE≤ζ 迭代过程结束,ζ 为门限值;迭代结束时获得的xE 和yE 即为Eve坐标估计值。在估计得到Eve位置坐标后,无人机作为智能体,采用Q-learning算法对飞行轨迹进行优化,以达到最大化系统可达安全速率的目标。根据式(15)的优化问题,定义Q-learning算法相关物理量如下。
(1) 状态空间S:无人机空间位置的3维坐标,记为
S≜(xJ,yJ,h) ,其中xJ∈[a1,a2] ,yJ∈[b1,b2] ,h∈[c1,c2] 。(2) 动作空间A:无人机在空间移动,这里将无人机移动简化为7个动作,记为
A≜ {向右,向左,向前,向后,向上,向下,静止},并分别用相应方向坐标值增减表示为向右(1,0,0) ,向左(−1,0,0) ,向前(0,1,0) ,向后(0,−1,0) ,向上(0,0,1) ,向下(0,0,−1) ,静止(0,0,0) 。(3) 奖励函数R:由系统瞬时可达安全速率决定。无人机比较前一时刻和当前时刻可达安全速率,若在当前时刻t状态
st∈S ,执行at∈A 后,可达安全速率Cs(t) 大于前一时刻的值Cs(t−1) ,则无人机获得正奖励值,否则获得负奖励值。由此得第t时刻奖励函数为Rt={1,Cs(t)>Cs(t−1)0,Cs(t)=Cs(t−1)−1,Cs(t)<Cs(t−1) (16) (4) 状态动作值函数
Q(s,a) :在当前状态st 和当前动作at 下的值函数记为Q(st,at) ;执行动作at 后,获得奖励值Rt ,状态st 转移为st+1 ,此时Q(st,at) 更新为Q(st,at)←(1−α)Q(st,at)+α[Rt+γmaxaQ(st+1,a)] (17) 其中,
0<α≤1 为学习率;0≤γ≤1 为折扣因子(discount factor),表示未来的奖励相对于当前奖励的重要程度;状态st+1 下每个可能动作a 对应一个值函数Q(st+1,a) ,其最大值即maxaQ(st+1,a) 。为避免Q-learning算法停留在局部最大值,采用ε -greedy策略选择动作at ,即状态st 下以大概率1−ε (0<ε<1 )选择最大Q值对应的动作,以小概率ε 随机选择其他动作。基于Q-learning的无人机轨迹优化算法如表1所示。表 1 基于Q-learning的无人机动态轨迹优化算法输入 以Bob为圆心的圆环内,根据随机移动模型产生Eve位置。 While EJ\_remain(t)≥EJ\_min do 采用贝叶斯测距和最小二乘法迭代估计Eve位置坐标;初始化Q(s,a), s∈S,a∈A,初始化无人机位置状态st。 重复(每个回合) 在当前状态st下,根据ε−greedy策略从动作空间A中选择动作at; 执行动作at,获得奖励值Rt,状态st转移为下一个状态st+1,根据式(17)更新Q(st,at); st←st+1; 更新无人机当前能量EJ\_remain(t);if EJ\_remain(t)<EJ\_min, break; until st为终止状态(含边界和超出边界)或 Eve位置移动 无人机获得当前Eve位置下的最优位置。 输出 无人机跟踪Eve移动的动态运动轨迹。 说明:实际中算法程序实时检测无人机空间位置坐标,当发现无人机当前位置等于或超出边界坐标,程序发一个指令给无人机控制系统,
使控制系统控制飞机飞回到算法给定的初始位置,进而避免无人机在边界之外。5. 仿真结果与性能分析
本节通过数值结果分析基于Q-learning的无人机轨迹优化算法性能。假设Alice,Bob,Eve以及15个中继随机独立分布在地理位置为1
× 1 km的城市环境中,Eve按照随机游走模型移动。仿真参数设置为:载波频率fc=2GHz ,环境因数常数分别为φ=11.95 ,β=0.14 ,地面路径损耗系数∂1=3 ,自由空间路径损耗系数∂2=2 ,视距和非视距信道衰减因子分别为ηLJP=3 ,ηNLJP=23 ,Eve发射功率PE=5dBm ,无人机发射功率PJ=10dBm ,接收机噪声功率σ2B=−170dBm ,σ2E=−175dBm ,学习率α=0.001 ,折扣因子γ=0.7 ,ε -greedy 策略ε=10−4 ,无人机飞行速度为每秒15 m,各信道增益均值分别设置为gARℓ=30 ,gRℓB=30 ,gEB=10 ,gRℓE=20 ,gEE=2 ,gERℓ=10 ,gAE=10 。首先分析算法的收敛性。图2(a)和图2(b)分别是在无人机不同初始位置和移动步长下,回合奖励总值与训练回合数之间的关系。可见,随着训练回合数增加,每回合得到的奖励值由初始的振荡,逐渐增加至稳定,表明无人机能够从错误中吸取教训,提高总奖励值,实现算法收敛。由图2(a)可见,无人机初始位置不同时,算法收敛速度不同,但均在约600回合后收敛,说明算法收敛性不受无人机初始位置影响;4个初始位置中,距离最优位置
(170,200,700) 最近的初始位置4,算法收敛最快,距离增大后会降低收敛速度,说明算法能够学到有利于求解的环境条件,帮助无人机尽快找到最优解。由图2(b)可见,无人机在每次训练中移动步长越大,算法收敛越快;当无人机移动步长为7时,约50个回合后收敛,比移动步长为1时少了250回合;当无人机增大移动步长时,收敛所得回合奖励总值降低,相应的最优位置解准确性降低,这说明通过增大移动步长加快算法收敛速度时,还应考虑对最优解准确性的影响,二者需要均衡。其次,比较基于Q-learning的无人机轨迹优化算法和穷搜、遗传算法、随机部署的性能。穷搜算法指在无人机飞行范围内逐一枚举坐标位置搜索最优解;遗传算法是一种模拟自然进化的优化算法;随机部署算法是在可行解范围内随机给定无人机位置作为解。图3(a)为窃听者位置固定,无人机飞行范围为
xJ∈[300,350] ,yJ∈[300,350] ,h∈[450,500] 时,不同算法得到的Alice发射功率与可达安全速率Cs之间的关系,可见,随着Alice发射功率增加,可达安全速率增大,这是由于当增大Alice发射功率时,虽然同时改善主信道和窃听信道容量,但由于无人机发射人工噪声对窃听信道干扰,更多地降低了窃听信道容量,进而保证了主信道容量优于窃听信道;另外,与遗传算法和随机部署相比,Q-learning算法与穷搜得到的最优解重合,表明Q-learning算法的解是最优解。图3(b)比较了穷搜和Q-learning算法在窃听者位置固定、无人机在不同飞行区域中获得最优位置所耗时间。飞行区域1,2,3空间大小依次递增,分别为xJ1∈[300,350] ,yJ1∈[300,350] ,h1∈[450,500] ;xJ2∈[300,350] ,yJ2∈[300,350] ,h2∈[450,550] ;xJ3∈[300,400] ,yJ3∈[300,400] ,h3∈[450,500] ;消耗时间为无人机飞到初始位置、无人机学习寻找最优位置、无人机从当前位置飞到最优位置耗时总和。从图3(b)可见,无论飞行区域是否相同,Q-learning算法耗时都比穷搜短;随着飞行区域增大,穷搜算法耗时成倍增加,Q-learning算法增加不足2倍,使得两者耗时差异明显增大,说明Q-learning算法时间复杂度低于穷搜,尤其在大范围内搜索最优解时,Q-learning算法优势更为明显。再次,分析无人机优化飞行轨迹跟踪Eve位置移动的情况。图4(a)—图4(c)描述Eve(位置坐标(300, 230))静止时无人机不同初始位置下获得最优位置的飞行轨迹,其中圆点代表无人机位置,圆点旁边的数字对应可达安全速率Cs;可见,无人机始终朝着Cs增大的方向飞行,表明无人机能够学得最优轨迹,这一点也验证了图2(a)和图2(b)所述Q-learning算法收敛的结论。图4(d)描述了Eve移动时无人机轨迹优化结果,图中代表无人机位置的圆点颜色与代表Eve的圆点颜色相同时,表示Eve当前位置下对应的无人机最优位置;不同颜色圆点间箭头分别表示Eve移动方向和跟踪Eve的无人机最优位置移动方向;综合图4(a)—图4(d)可见,无人机能够跟踪Eve移动来确定自身最佳位置,进而保证对应每个Eve位置可达安全速率都最大。
最后,比较本文基于Q-learning的无人机轨迹优化算法采用离线和在线学习两种方式时的性能。在线学习指无人机实时获取位置信息和环境反馈的奖励值,并实时改变位置直至飞到最优位置;离线学习过程与文献[19]类似,即无人机悬浮于空中,通过计算获得最优位置,然后直接飞行至最优位置。无人机能耗包括从起飞点飞至空中初始位置的能耗、最优位置解获得过程的能耗、从当前位置飞到最优位置的能耗。图5描述离线和在线学习在无人机初始能量
EJ\_initial 不同时的性能。图5(a)假设EJ\_initial 始终大于无人机能耗时,离线和在线学习能耗与飞行区域大小之间的关系。可见,随着飞行区域1, 2, 3范围依次递增,离线与在线学习的能耗都增大,而离线学习能耗增加速度远小于在线学习;在同一飞行区域,离线学习也比在线学习能耗小。以上现象说明无人机在空中悬浮完成离线学习比实时与环境交互执行飞行动作的在线学习消耗更少能量。图5(b)比较了EJ\_initial 不同时,离线和在线学习所得可达安全速率与Alice发射功率之间的关系,其中EJ\_initial=660 时,该能量数小于学到最优位置解的能耗数,此时无人机在未学到最优解情况下,飞回地面起始点充电;EJ\_initial=1500 时,该能量数大于离线学习下学到最优位置解的能耗数,但小于在线学习下的能耗数。从图5(b)可见,无论是离线还是在线学习,EJ\_initial=1500 时获得的可达安全速率比EJ\_initial=660 时大,说明初始能量大有利于提升系统保密性能;而且EJ\_initial=1500 时离线学习的可达安全速率最大,这是因为此能量数可以保证离线学习学得最优解。此外,无论EJ\_initial 为600还是1500,离线比在线学习的可达安全速率更大;结合图5(a)离线比在线学习能耗小,这表明离线比在线学习在能耗和保密性能上都更有优势;但同时也要看到,本文数据是在数值仿真环境中获得的;在真实环境中,无人机离线计算所得的环境状态数据会与环境反馈的真实值之间存在差异,从而影响最终学得的最优解以及可达安全速率值。因此,选择Q-learning离线或在线学习模式时,需要从能量消耗和系统保密性能两方面折衷考虑。图6描述了Eve位置移动时长T对本文所提算法求解的影响。由图6可见,在Alice发射功率一定时,随着T增加,算法所得最大可达安全速率增加。这是由于时间T越大,算法学习的时间越长,越可能学得最优解;而在T=50 s时,算法所得最大可达安全速率减小。因此,在窃听者短时间位置移动时,如何缩短算法优化时间以保证系统保密性能,是算法性能提升的方向,也是本文未来工作需要解决的问题。
6. 结束语
本文针对物联网中主动攻击的全双工窃听者,利用无人机部署灵活、与地面通信具有视距信道的优势,辅助发射人工噪声,提升系统物理层安全性能。在估计窃听者位置基础上,提出基于Q-learning的无人机轨迹优化算法,跟踪窃听者移动,实现系统保密性能最优。仿真结果表明,本文所提优化算法能快速收敛,当无人机初始位置离最优位置近、移动步长大时,收敛速度提高;与穷搜、遗传算法、随机部署等相比,本文所提算法获得了最优解,并耗时最短;无人机能够跟踪窃听者移动来确定自身最佳位置,对窃听信道实施干扰,从而保证系统可达安全速率最大。未来工作中,将考虑在更符合实际的多用户场景下,存在多个合法接收者和窃听者时,无人机的部署和轨迹、功率优化问题。
-
CISCO. Global mobile data traffic forecast update, 2016–2021 White Paper[R]. San Jose: CISCO/1465272001663118, 2017. AROUK O, KSENTINI A, and TALEB T. Group paging-based energy saving for massive MTC accesses in LTE and beyond networks[J]. IEEE Journal on Selected Areas in Communications, 2016, 34(5): 1086–1102. doi: 10.1109/JSAC.2016.2520222 HOSSAIN E and HASAN M. 5G cellular: Key enabling technologies and research challenges[J]. IEEE Instrumentation & Measurement Magazine, 2015, 18(3): 11–21. doi: 10.1109/MIM.2015.7108393 China Mobile Research Institute. C-RAN-The road towards green RAN[R]. Beijing: CMRI/Version 3.0, 2013. THOMAS P. Next generation mobile fronthaul architectures[C]. 2015 Optical Fiber Communications Conference and Exhibition, Los Angeles, USA, 2015: 1–3. MOHAMAD K, ARAFAT A D, MOHAMED S, et al. A framework for joint wireless network virtualization and cloud radio access networks for next generation wireless networks[J]. IEEE Access, 2017, 5: 20814–20827. doi: 10.1109/ACCESS.2017.2746666 LIANG Chengchao and YU F R. Wireless network virtualization: A survey, some research issues and challenges[J]. IEEE Communications Surveys & Tutorials, 2015, 17(1): 358–380. doi: 10.1109/COMST.2014.2352118 WANG Xinbo, CAVDAR C, WANG Lin, et al. Joint allocation of radio and optical resources in virtualized cloud RAN with CoMP[C]. 2016 IEEE Global Communications Conference (GLOBECOM), Washington, USA, 2016: 1–6. WANG Xinbo, THOTA S, TORNATORE M, et al. Green virtual base station in optical-access-enabled cloud-RAN[C]. 2015 IEEE International Conference on Communications (ICC), London, UK, 2015: 5002–5006. WANG Xinbo, THOTA S, TORNATORE M, et al. Energy-efficient virtual base station formation in optical-access-enabled cloud-RAN[J]. IEEE Journal on Selected Areas in Communications, 2016, 34(5): 1130–1139. doi: 10.1109/JSAC.2016.2520247 WANG Xinbo, CAVDAR C, WANG Lin, et al. Virtualized cloud radio access network for 5G transport[J]. IEEE Communications Magazine, 2017, 55(9): 202–209. doi: 10.1109/MCOM.2017.1600866 TAN Zhongwei, YANG Chuanchuan, and WANG Ziyu. Energy consume analysis for ring-topology TWDM-PON fronthaul enabled cloud RAN[J]. IEEE Journal of Lightwave Technology, 2017, 35(20): 4526–4534. doi: 10.1109/JLT.2017.2745998 LI Yi, GURSOY M C, and VELIPASALAR S. Intercell interference-aware scheduling for delay sensitive applications in C-RAN[OL]. http://arxiv.org/abs/1708.00852v1, 2017. AMEL A, SOUMAYA H, LOUTFI N, et al. Minimization of delays in multi-service cloud-RAN BBU pools[C]. 13th International Wireless Communications and Mobile Computing Conference (IWCMC), Valencia, Spain, 2017: 1846–1850. LI Jian, PENG Mugen, CHEN Aolin, et al. Resource allocation optimization for delay-sensitive traffic in fronthaul constrained cloud radio access networks[J]. IEEE Systems Journal, 2017, 11(4): 2267–2278. doi: 10.1109/JSYST.2014.2364252 NIU Binglai, ZHOU Yong, HAMED S M, et al. A dynamic resource sharing mechanism for cloud radio access networks[J]. IEEE Transactions on Wireless Communications, 2017, 15(12): 8325–8338. doi: 10.1109/TWC.2016.2613896 IMAD A S, MATTEO A, HENRIK C, et al. Envisioning spectrum management in virtualised C-RAN[C]. 2017 IEEE Wireless Communications and Networking Conference (WCNC), San Francisco, USA, 2017: 1–6. BERND H, FARIBORZ D, HEIDRUN G L, et al. Radio base stations in the cloud[J]. Bell Labs Technical Journal, 2013, 18(1): 129–152. doi: 10.1002/bltj.21596 期刊类型引用(3)
1. 吴嘉鑫,孙一飞,吴亚兰,武继刚. 面向安全传输的低能耗无人机轨迹优化算法. 计算机工程. 2024(02): 59-67 . 百度学术
2. 曾晓婉,王海军,黄蕾,马东堂. 无人机辅助D2D通信网络安全通信资源分配算法. 通信学报. 2024(02): 115-126 . 百度学术
3. 刘硕. 全双工窃听下的无人机通信保密性能分析. 信息与电脑(理论版). 2024(10): 222-224 . 百度学术
其他类型引用(8)
-