Energy Consumption Optimization of Unmanned Aerial Vehicle Assisted Mobile Edge Computing Systems Based on Deep Reinforcement Learning
-
摘要: 近年来,部署搭载有移动边缘计算(MEC)服务器的无人机(UAVs)为地面用户提供计算资源已成为一种新兴的技术。针对无人机辅助多用户移动边缘计算系统,该文构建了以最小化用户平均能耗为目标的模型,联合优化无人机的飞行轨迹和用户计算策略的调度。通过深度强化学习(DRL)求解能耗优化问题,提出基于柔性参与者-评论者(SAC)的优化算法。该算法应用最大熵的思想来探索最优策略并使用高效迭代更新获得最优策略,通过保留所有高回报值的策略,增强算法的探索能力,提高训练过程的收敛速度。仿真结果表明与已有算法相比,所提算法能有效降低用户的平均能耗,并具有很好的稳定性和收敛性。Abstract: In recent years, the deployment of Unmanned Aerial Vehicles (UAVs) equipped with Mobile Edge Computing (MEC) servers to provide computing services for ground users has become an emerging method. Considering an UAV-assisted MEC system with multi-users, a scheme is investigated to minimize the average energy consumption for all users to complete their computation tasks via optimizing the trajectory of UAV and computation strategies of the users during the UAV’s whole flight duration. A Deep Reinforcement Learning (DRL)-based Soft Actor-Critic (SAC) algorithm is proposed to tackle the energy consumption optimization problem. With the iteration of the network training procedure, the best action is obtained according to the maximum entropy rule, which does not neglect any action with high reward value and thus can enhance the exploration and convergence performance of the proposed algorithm. Simulation results reveal that the proposed SAC algorithm can effectively decrease the average energy consumption of all users and achieves better stability and convergence performance, as compared to some existing baseline algorithms.
-
1. 引言
以奈奎斯特采样理论为基础的传统信息处理技术,目前在雷达电子监视、认知无线电频谱感知等应用中正面临着采样率过高的压力[1–3]。近年来,压缩感知(Compressive Sensing, CS)理论[4,5]提出了一种充满前景的信息获取方法。该理论指出,对于稀疏或可压缩的信号,当测量矩阵满足约束等距特性时,可以从少量低速采样中恢复出原信号。CS理论掀起了亚奈奎斯特信息处理技术的发展新高潮。近年来,基于CS理论,学者们提出了随机解调[6]、随机采样[7]、多陪集采样[8]、调制宽带转换[9,10]等一系列亚奈奎斯特采样方法。研究的焦点主要集中在采样处理和重构算法两个方面。在这些方法中,调制宽带转换器(Modulated Wideband Converter, MWC)亚奈奎斯特采样,以其所适用的稀疏宽带信号模型应用广泛、重构框架运算负担轻、可采用现有商用元器件实现等优势,受到了雷达通信、医疗成像、认知无线电等多个领域学者的广泛关注[11]。
MWC的信息获取过程由采样和重构两个阶段组成。在采样阶段采用多个通道的结构来获取稀疏模拟信号,通道数量决定着硬件的复杂程度,并影响重构成功率。如何采用更少的通道,以更高成功率从低速数据流中重构原始信号,是MWC的核心问题[12]。MWC的重构模型可归结为多测量向量(Multiple Measurement Vectors, MMV)问题,属于CS理论的一个分支。MMV重构算法大致可以分为贪婪算法[13]和凸松弛算法[14]两大类。前者运算耗时较长难以达到测量系统对实时性的要求,后者具有理论保障且执行效率较高,近年来发展快、应用多。在MWC提出之初,贪婪类的正交匹配追踪(Orthogonal Matching Pursuit, OMP)算法被用于MWC重构。在一定条件下,以较高的概率实现了精确重构。文献[15]对迭代硬门限(IHT)、正则化IHT(NIHT)、硬门限追踪(IHP)、压缩感知匹配追踪(CoSaMP)等4种贪婪类单测量向量(Single Measurement Vector, SMV)算法进行了推广,从理论保障方面进行了推导论证,得出了与之对应的MMV重构算法:SIHT, SNIHT, SIHP, SCoSaMP,其中SCoSaMP算法与其他贪婪算法相比重构性能有较大提高。文献[16]在剖析CS与阵列信号处理之间关系的基础上,将多信号分类(MUSIC)思想在压缩感知框架下进行了改进,提出了可压缩MUSIC(CSMUSIC)算法,该算法充分利用CS与MUSIC算法各自的优点,即使源信号相干时,只要能够通过压缩感知算法估计出特定的部分支撑集,便可以确定性地得到剩余支撑集。但鉴于MWC重构问题的具体特点(如随机频谱分割、采样矩阵与未知矩阵均共轭对称),并不是所有高性能MMV重构算法都可以在MWC重构过程中发挥出优势。上述算法当用于MWC重构时其性能距离理论上限仍存在较大的改进空间。文献[17]针对一般的MMV问题提出了一种降维多测量向量与性能提升(Reduce MMV and Boost, ReMBo)重构算法,该算法将MMV问题随机地组合成SMV问题进行求解,通过多次尝试的方法来提升重构性能,使得ReMBo算法的重构性能在无噪声条件下呈现出了优势,然而在有噪声条件下用于MWC重构时,该算法立即失效。
本文为提高MWC重构算法性能,将核空间思想引入MWC重构算法。为满足核空间(Kernel Space, KS)条件,针对采样值矩阵的秩较大的问题,提出K列随机压缩(Randem Compression, RC)降低维度的方法,在不改变未知矩阵的稀疏性的前提下,实现了降秩功能。将两种思想相结合最终得到一种名为RCKS的高性能重构算法。理论分析和实验结果验证了本文算法的有效性。
2. MWC理论简介
2.1 信号模型
设信号
x(t) 为实值连续时间信号,带限于一个较宽的频率范围F=[−fNYQ/2,fNYQ/2] 内(fNYQ 为奈奎斯特率),F 内仅存在N个非零子频带,子频带可分布在F 中的任意位置,子频带最大宽度小于等于B Hz。该类信号被称为稀疏宽带信号。图1给出了典型稀疏宽带信号频谱示意图。2.2 采样原理
MWC采样前端由m个通道组成,输入信号
x(t) 同时进入m个通道,在第i通道信号x(t) 被周期为Tp (fp=1/Tp) 的伪随机信号pi(t) 混频。混频后的信号在频域被截止频率为1/2T 的低通滤波器h(t) 截断,最后利用采样率为fs=1/T 的低速ADC采样,获取m组低速采样值序列yi[n],i∈{1,2,...,m} 。如图2所示。从频域分析MWC第i个通道可得
DTFT(yi[n])=Yi(ej2πfT)=λ0∑n=−λ0ci,nX(f−nfp),f∈FS (1) 式中,DTFT表示离散时间傅里叶变换,
ci,n 为pi(t) 的傅里叶级数的系数,X(f) 为x(t) 的连续时间傅里叶变换,λ0=[(fNYQ+fs)/2fp]−1 ,[⋅] 表示向上取整,FS≜[−fs/2,fs/2] 。从式(1)可以看出,MWC采样相当于原信号频谱
X(f) 以fp 为步进进行移位,并由滤波器截断成宽度为fs 的频谱片段,最后以ci,n,n∈[−λ0,λ0] 为系数进行线性组合。综合考虑m个通道,令y(f)=[Y1(ej2πfT),···,Yi(ej2πfT),···,Ym(ej2πfT)]T ,z(f)=[X(f+λ0fp),···,X(f),···,X(f−λ0fp)]T ,则式(1)可表示为y(f)=Φz(f),f∈FS (2) 式中,
Φi,n=ci,n−λ0−1 ,文中称其为采样矩阵,维数为m×λ (λ=2λ0+1 ),通常m<λ 。式(2)两边同时右乘傅里叶反变换矩阵,可得到对应的时域形式
Y(n)=ΦZ(n),n∈[1,L] (3) 其中,
Y(n)=[y1[n],y2[n],···,ym[n]]T ,Z(n)= DTFT−1(z(f)) , L为采样记录长度。假设图1为输入信号
x(t) 的频谱,fs=fp≥B ,则MWC的时域采样方程如图3所示,图中DTFT–1表示对z(f) 的每个行向量取DTFT逆运算。可见只要由采样方程得到z(f) ,通过频谱搬移等处理方法立即恢复出图1所示的原始信号。2.3 重构方法
MWC重构是指从采样值矩阵
Y(n) 通过特定算法恢复出未知矩阵z(f) 或Z(n) 的过程。由于m<λ ,式(2)和式(3)均为欠定性方程组,常规方法有无穷多解。考虑z(f) 或Z(n) 具有联合稀疏特性,即只有少量不全为零的行,当满足定理1条件时,存在唯一的稀疏解。定理 1[9] 设多带信号
x(t) 由N个子频带构成,各子频带最大带宽为B,按照图2所示的MWC结构进行采样,如果以下条件成立:(1)
fs≥fp≥B 并且fs/fp 数值不是很大;(2) 一个周期内序列
pi(t) 的符号(±1 )数M≥ 2[fNYQ2fp+12]−1 ;(3)
m≥2N ;(4) 矩阵
Φ 的任意2N列线性无关。则对于
∀f∈FS ,z(f) 是式(2)唯一的N-稀疏解。定理1满足时,MWC重构过程可分成两个步骤进行:首先通过稀疏优化等算法获得支撑集
Ω=supp(Z(n)) ,然后通过式(4)伪逆运算计算未知矩阵。ZΩ(n)=Φ†ΩY(n)Zi(n)=0,i∉Ω} (4) 其中,
Φ†Ω=(ΦHΩΦΩ)−1ΦHΩ 为ΦΩ 的左伪逆矩阵。MWC提出时将OMP作为MMV问题的支撑重构算法,在一定条件下实现了精确重构。然而OMP算法在重构成功率等性能方面距离理论上限还存在较大的改进空间。针对该问题本文将核空间思想引入到MWC重构过程中。为了满足核空间思想的重构条件,提出一种采样值K列随机压缩降秩变换思想。3. 所提出的算法
3.1 基于核空间思想的MMV问题支撑求解方法
前已述及,MWC重构的关键在于求解MMV问题未知矩阵的联合稀疏支撑集
Ω 。下面提出一种利用采样值矩阵的核空间矩阵来判断支撑集的方法。设
Y=AX 为某一MMV问题,其中,采样值矩阵Y∈Rm×K ,Y 的秩rank(Y)=K ,采样矩阵A∈Cm×λ ,A 的Kruskal秩σ(A)≥K+1 ,即A 的任意K+1 列均线性无关,X 的联合稀疏支撑集定义为Ω={i|Xi≠0} 且|Ω|=K ,其中,Xi 表示以i 为索引X 的行子集,|Ω| 表示集合Ω 的势(cardinality)。考虑支撑集的定义,采样值矩阵
Y 可以表示为Y=AΩXΩ ,其中AΩ 表示以Ω 为索引A 的列子集。设Q 为Y 各列所张成的空间的核空间矩阵,即有QTY=0 成立。于是可得QTY=QTAΩXΩ=0 。根据前提假设易知K=rank(Y)≤min {\rm{rank}}({{{X}}^{{Ω} }})\bigr] ,即有{\rm{rank}}({{{X}}^{Ω} }) \ge K ,结合{{X}} 的联合稀疏度为K ,因此{\rm{rank}}({{{X}}^{Ω} }) = K ,即{{{X}}^{Ω} } 可逆,于是有{{{Q}}^{\rm{T}}}{{{A}}_{Ω} } = 0 成立,即对于支撑集中的任意元素j \in {\varOmega } 均有{{{Q}}^{\rm{T}}}{{{A}}_j} = 0 成立。由此可见,核空间思想为我们提供了一种可能的支撑集判决条件。问题是满足{{{Q}}^{\rm{T}}}{{{A}}_j} = 0 的所有{{A}} 的列索引都是支撑集的元素吗?假设除了
j \in {\varOmega } 外,还存在{j_0} \notin {\varOmega } 使{{{Q}}^{\rm{T}}}{{{A}}_{{j_0}}} = 0 成立,则有{{{Q}}^{\rm{T}}}{{{A}}_{[{Ω} ,{j_0}]}} = 0 成立。然而由{{{Q}}^{\rm{T}}}{{Y}} = 0 可知{{Q}} 的秩{\rm{rank}}({{{Q}}^{\rm{T}}}) = m - K ,于是由{{{Q}}^{\rm{T}}}{{{A}}_{[{Ω} ,{j_0}]}} = 0 可推出{\rm{rank}}({{{A}}_{[{\varOmega },{j_0}]}}) \!=\! K ,这与前提条件\sigma ({{A}}) \!\ge\! K \!+\! 1 即{{A}} 的任意K + 1 列均线性无关相矛盾,因此综上所述,当且仅当j \in {\varOmega } 时{{{Q}}^{\rm{T}}}{{{A}}_j} = 0 成立。需要注意的是,核空间思想假设采样值矩阵的秩与未知信号的稀疏度相同,然而在MWC实际系统中,一般采样长度较长,即
{{Y}} 包含的列向量较多,导致{\rm{rank}}({{Y}}) \ge K 。图4给出了不同条件下采样值矩阵的秩{\rm{rank}}({{Y}}) 的统计结果。如图4所示,信号的频带数N=6时(此时稀疏度为12),在采样长度分别为L = 13,20,40,60,80 时,通道数m 以3为步进在区间[13,78] 内变化,在不同信噪比(Signal to Noise Ratio, SNR)条件下,只要m \ge 13 ,采样值矩阵的秩尽管随着m 有波动,但均大于未知矩阵的稀疏度12。前面分析中可知若想采用核空间思想,必须保证
{{Y}} 的秩等于K ,若{\rm{rank}}({{Y}}) > K 则{\rm{rank}}({{Q}}) < m - K ,造成集合\{ j|{{{Q}}^{\rm{T}}}{{{A}}_j} = 0\} 的势大于K 以至于最终按照核空间方法求出的支撑元素数量会增加,即\left| {\varOmega } \right| \ge K ,导致重构失败。为此,需要寻找一种矩阵降秩方法,在不影响未知矩阵稀疏性的前提下达到压缩维度的目的。3.2 K列随机压缩降秩方法
文献[17]为了获取支撑集,提出了一种名为ReMBo的随机线性组合方法将MMV问题变成SMV问题来求解,同时证明了随机组合前后MMV问题的未知矩阵与SMV问题的未知向量的(联合)支撑集不变。受此启发,本文提出一种K列随机压缩变换方法,采用符合特定分布的K列“窄”随机矩阵将采样值矩阵进行线性变换,进而达到降秩的目的。本节引入K列随机压缩变换方法有两个目的:一是降低采样值矩阵的秩以满足核空间思想的条件,进而利用采样值矩阵的核空间判断支撑集合;二是将MWC采样方程压缩变换成与之具有相同支撑的多个新的MMV问题,利用新的MMV问题间接地求解原MWC采样方程的支撑集,并在有可能的条件下提高重构性能。ReMBo方法中,线性组合相当于采样值矩阵及未知矩阵各行向量在随机向量上进行投影,若采用K个随机向量构成的矩阵作为变换矩阵,可将采样值矩阵压缩变换成
m \times K 的新矩阵。需要注意的是压缩变换后MMV问题的唯一解的稀疏性不应发生改变,下面采用定理的形式描述如下:定理 2 设
{\hat{ X}} 为MMV问题{{Y}} = {{AX}} 的唯一K 稀疏解,其中{{Y}} \in {{\mathbb{R}}^{m \times L}} ,\sigma ({{A}}) \ge 2K 。令{T} = \{ {T_1},{T_2},·\!·\!·,{T_K}\} 为K (K < m) 个长度为L 的单位范数随机列向量,其元素符合某一特定连续分布。令{\bar{ Y}} = {{YT}} ,{\bar{ X}} = {\hat{X T\,}} ,则{\bar{ X}} 为新MMV问题{\bar{ Y}} = {{AU}} 的唯一K 稀疏解,且\operatorname{supp} ({\bar{ X}}) = \operatorname{supp} ({\hat{ X}}) 成立的概率为1。证明 令
{\bar y_n} = {{Y}}{T_n} ,{\bar x_n} = {\hat{ X}}{T_n} ,其中n \in \{ 1,2,·\!·\!·,K\} 。由文献[17]可知,{\bar x_n} 为SMV问题{\bar y_n} = {{A}}u 的唯一K 稀疏解,且{\rm{P[}}\operatorname{supp} ({\hat{ X}}) = \operatorname{supp} ({\bar x_n})] = 1成立,即\operatorname{supp} ({\hat{ X}}) = \operatorname{supp} ({\bar x_1}) =\operatorname{supp} ({\bar x_2})·\!··= \operatorname{supp} ({\bar x_K}) 成立的概率为1。由{\bar{ Y}} \!\!\!=\!\! {{YT}} \!\!=\!\! \{ {\bar y_1},{\bar y_2},·\!·\!·,{\bar y_K}\} ,{\bar{ X}} = {\hat{ XT}} = \{ {\bar x_1},{\bar x_2},·\!·\!·,{\bar x_K}\} ,因此{\bar{ Y}} = {{A}\bar {X}} 成立。结合联合支撑集定义知:\begin{align} \operatorname{supp} ({\bar{ X}}) & = \operatorname{supp} \{ {\bar x_1},{\bar x_2},·\!·\!·{\bar x_K}\} \\ & = \bigcup\limits_{n \in \{ 1,2,···,K\} } {\operatorname{supp} } ({\bar x_n}) = \operatorname{supp} ({\bar x_n}) \end{align} (5) 于是有
\operatorname{supp} ({\bar{ X}}) = \operatorname{supp} ({\bar x_n}) = \operatorname{supp} ({\hat{ X}}) 成立概率为1,且|\operatorname{supp} ({\bar{ X}})| = |\operatorname{supp} ({\hat{ X}})| = K ,即{\bar{ X}} 联合稀疏度为K。考虑{\bar{ Y}} = {{A}\bar {X}} ,|\operatorname{supp} ({\bar{ X}})| = K ,\sigma ({{A}}) \ge 2K ,由文献[14]中定理2.2知{\bar{ X}} 为{\bar{ Y}} = {{AU}} 的唯一K 稀疏解。 证毕定理2保证了
K 列随机压缩后新MMV问题稀疏解的支撑集与原MMV问题稀疏解的支撑集相同。因此可以通过求解压缩变换后的MMV问题间接求解原MMV问题。由
{\bar{ Y}} \!=\! {{YT}} 知,理论上{\rm{rank}}({\bar{ Y}}) \!\le \! {\rm{rank}}({{T}}) \!=\! K 。在MWC实际采样中,由于信号频谱分割的随机性及频谱泄露效应,大量实验表明实际采样值矩阵在K 列随机压缩后的秩恰好为K 。图5给出了在不同的通道数m 、不同采样长度L 及不同信噪比条件下,当信号的频带数为6时(稀疏度为12)随机压缩后采样值矩阵{\bar{ Y}} 的秩的情况。从图5中可以看出,由于随机矩阵的满秩特性及MWC处理信号的实际情况,随机压缩变换保证了变换后采样值矩阵的秩与未知矩阵的稀疏度相同(K = 12 )。可见通过K 列随机压缩的方法可以达到应用核空间方法的基本条件,K 列随机压缩方法为核空间思想应用于MWC重构奠定了基础。3.3 多次K列随机压缩与支撑判据
本文提出的随机压缩方法,采用
K 列随机矩阵作为变换矩阵,鉴于随机性,每次重构时可以利用多个随机矩阵进行多次压缩变换,得到多个不同的MMV问题,进而增加MMV问题的多样性。问题是,每次重构时的支撑集判据如何确定。由核空间思想可知无噪声时采样值矩阵的核空间与以支撑集为索引的采样矩阵列子集正交,对于每次压缩得到的MMV问题可以采用{\ell _2} 范数的方法通过计算||{Q^{\rm{T}}}{{{A}}_j}|{|_{{\ell _2}}} 是否为0来判断j 是否属于支撑集。当然有噪声时可以通过判断||{Q^{\rm{T}}}{{{A}}_j}|{|_{{\ell _2}}} 的大小的方法,通过排序来确定支撑集合。一次重构过程进行r 次压缩变换时,考虑到各MMV问题解的联合稀疏性特征,可以将r 个支撑集判据综合起来,将和式\displaystyle\sum\nolimits_{i = 1}^r {||{Q_{(i)}}^{\rm{T}}{{{A}}_j}|{|_{{\ell _2}}}}\, ,\ \,j \in \{ 1,2,·\!·\!·,\lambda \} 作为最终排序依据。由于该式反映了r 个MMV问题采样值矩阵与采样矩阵之间的正交关系,即反映了r 个未知矩阵之间的公共信息(联合稀疏信息),当个别随机压缩过程不利于重构时,由于综合条件\displaystyle\sum\nolimits_{i = 1}^r {||{Q_{(i)}}^{\rm{T}}{{{A}}_j}|{|_{{\ell _2}}}} 保留了MMV问题的多样性,仍然有希望完成最终重构,进而提高判决的成功概率。3.4 算法描述
本文提出的MWC重构算法结合了
K 列RC与KS思想,简称为RCKS算法,具体算法描述如下。输入:采样值矩阵
{{Y}}(n) \in {{\mathbb{R}}^{m \times L}} ,采样矩阵{{{Φ}}} \in {{\mathbb{C}}^{m \times \lambda }} ,频带数量N ,随机压缩次数r 。输出:支撑集估计
{\hat \Omega } ,未知矩阵估计{\hat{ X}}(n) 。步骤 1 取
r 个随机矩阵作为压缩变换矩阵{{{T}}_{(i)}} = {\rm{randn}}(L,2N) \,i \in \{ 1,2,·\!·\!·,r\} ,实现r 次压缩变换{{\bar{ Y}}_{(i)}} = {{Y}}{{{T}}_{(i)}} ,其中{{{T}}_{(i)}} 表示第i个随机矩阵,{{\bar{ Y}}_{(i)}} 表示第i个压缩后的采样值矩阵;步骤 2 求解
{{\bar{ Y}}_{(i)}} 的核空间矩阵{{{Q}}_{(i)}} ,\,i \in \{ 1,2, ·\!·\!·r\} ;步骤 3 计算
{{P}_j} \!=\! \displaystyle\sum\nolimits_{i = 1}^r \!\!\!{||{{{Q}}_{(i)}}^{\rm{T}}{{{{Φ}}}_j}|{|_{{\ell _2}}}} ,j \in \{ 1,2, ·\!·\!·,\lambda \} ;步骤 4 从向量
{{P}} = [{{P}_1}\,{{P}_2}\,\,·\!·\!·\,\,{{P}_\lambda }] 中找到2N 个最小值所对应的索引值,即支撑集{\hat \varOmega } \!=\! \min ({{P}},2N) ;步骤 5 按照式(4)伪逆运算完成重构,返回未知矩阵的估计
{\hat{ X}}(n) 。4. 实验结果及分析
为了验证所提出的RCKS算法的有效性,本节设计了3个实验:首先考察K列随机压缩的次数
r 对重构性能的影响;其次在相同条件下对比RCKS算法及当前典型MMV算法用于MWC重构时的成功率情况;最后给出RCKS算法用于频谱感知时的重构效果。为了便于说明问题,实验中稀疏宽带信号由学者们普遍采用的通用表达式产生[9,12]\begin{align} x(t) =& \sum\limits_{n = 1}^N \sqrt {{E_n}{B_n}} {\rm{sinc}}({B_n}(t - {\tau _n}))\\ & \cdot \cos (2{{π}}{f_n}(t - {\tau _n})) + n(t) \end{align} (6) 其中,参数N, En, Bn, fn,
{\tau _n} 分别代表子频带数、第n个子频带的能量系数、子带宽度、载波频率和延迟时间,n(t) 为高斯白噪声。每个实验中,以下过程重复500次,将成功次数的百分率作为成功概率:(1) 在
{p_i}(t) 的一个周期内,等概率随机产生\pm 1 作为调制波形;(2) 在区间[–fNYQ/2, fNYQ/2]内按均匀分布随机产生各子频带的载波频率fn;
(3) 用重构算法估计支撑集,当估计支撑集与实际支撑集相同即
{\hat \varOmega = \varOmega } 时,则称重构成功,如果{\hat \varOmega } \supset {\varOmega } 且{{{{Φ}}}_{{\hat \varOmega }}} 列满秩,也作为成功标志[9]。首先,考察RCKS算法中随机压缩次数
r 对重构性能的影响。前已述及,本文提出的RCKS算法采用随机压缩实现降秩功能,对于同一个重构问题,该过程可以随机进行多次,而且次数r 对算法重构性能有影响。为此,本实验检验在不同的r 值时,RCKS的重构成功率情况。不失一般性,以具有6个(对称的3对)子频带的稀疏宽带信号为例。信号参数设置如下:SNR=30 dB; En={1, 2, 3}; Bn={50, 50, 50} MHz;{\tau _n} ={0.394, 0.985, 1.379} μs;载波频率fn随机地分布在[–5, 5] GHz内。MWC采样参数设置如下:\lambda = 2{\lambda _0} + 1 = 195 ;{f_s} = {f_p} = {f_{{\rm{NYQ}}}}/\lambda = 51.28 MHz。图6给出了RCKS算法的重构成功率随通道数m 的变化情况,图中分别给出了压缩变换次数r =1, 2, 3, 4, 6, 8, 10时所对应的曲线。如图6所示,当12 < m < 20 时,总体上随着r 增大,RCKS的重构成功率具有逐渐提高的趋势。如当m=14,r =1, 2, 3, 4, 6, 8, 10时,成功率分别为36.0%, 60.6%, 66.2%, 74.4%, 80.2%, 82.8%, 82.6%。为了清楚地看到该特点,图7统计了m=14, 15, 16, 17时重构成功率随压缩次数的变化曲线。从图7可以看出,当r 数值较小时(如r \le 4 时),随着r 增大,重构性能改进较大,当r 较大时,重构成功率并不是无限度的提高,当r \ge 5 时,曲线开始上下波动,此时重构性能提高较小或没有提高。可见采用RCKS算法实现MWC重构时,随机压缩的次数并不需要太多,后文取r = 4 。其次,比较在相同条件下RCKS(
r = 4 )与典型的MMV算法(CSMUSIC, SCoSaMP, OMPMMV)用于MWC重构时的重构性能。本实验中,被测信号的信噪比分别设置为无噪声,40 dB, 30 dB和20 dB,信号其它参数及MWC采样参数与前面实验设置相同。如图8所示,在各种信噪比下,当通道数m < 25 时在重构成功率方面RCKS(r = 4 )与其它算法相比均表现出了较大的优势。如当m = 14 ,信号中无噪声及SNR=40 dB, 30 dB, 20 dB时,RCKS(r = 4 )的重构成功率分别比CSMUSIC高37.4%, 35.8%, 28.6%, 7.2%,比SCoSaMP 高75.0%, 69.8%, 57.4%, 18.2%,比OMPMMV高86.6%, 81.0%, 61.4%, 21.8%。此外从图中还可以看出,信号无噪声及SNR=40 dB, 30 dB, 20 dB时,RCKS(r = 4 )高概率(大于99%)重构所需要的最小通道数分别比OMPMMV少9, 5, 4, 2。由于通道数与硬件开销及总体采样率有直接关联,因此RCKS算法可降低MWC系统的硬件复杂度。最后,为了进一步说明本文算法有效性,图9展示了RCKS(
r = 4 )算法用于亚奈奎斯特频谱感知时的重构效果。本实验中N=20,fn={2.30, 2.50, 2.90, 4.00, 4.04, 4.08, 3.00, 3.10, 3.30, 4.58} GHz, En={5, 4, 4, 2, 2, 2, 4, 3, 4, 4}, Bn={40, 37, 48, 40, 50, 40, 15, 6, 6, 50} MHz,{\tau _n} ={ 0.319, 0.798, 0.957, 0.128, 0.160, 0.479, 0.798, 1.117, 1.197, 1.037} μs, SNR = 25 dB,m = 50 ,MWC其它采样参数与前面实验相同。从图9可以看出,尽管原信号的奈奎斯特率高达9.16 GHz,而MWC等效采样率仅为m{f_{{\rm{NYQ}}}}/\lambda =2.3487 GHz,采用RCKS(r = 4 )算法仍然能够实现重构,在子频带位置、频带宽度及幅度等方面均实现了精确恢复,进一步说明了本文算法的有效性。5. 结论
针对现有MWC重构算法性能不高的问题,本文结合随机压缩与核空间思想,提出一种基于采样值随机压缩矩阵核空间的重构算法。该算法首先对采样值矩阵进行多次K列随机压缩,在不改变未知量稀疏特性的前提下实现降秩变换,同时获得多个MMV问题,然后将多个基于核空间思想的支撑集判据综合起来,实现最终支撑重构。实验结果表明,与现有CSMUSIC, SCoSaMP, OMPMMV等典型重构算法相比,本文提出的算法在相同条件下具有重构成功率高、高概率重构所需通道数少等优点。
-
算法1 基于SAC的最小化用户设备平均能量损耗算法的算法流程 (1)初始化经验缓冲区,Actor网络,Critic网络及目标网络,初始化无人机起始位置坐标及终点位置坐标,随机生成用户坐标以及计算任务; (2)循环训练幕数 Episode = 1,2,···, M : (3) 重新初始化无人机起始坐标以及初始状态 s\left( 0 \right) ; (4) 循环时间步数 Time = 1,2,···, T : (5) 由状态 s\left( t \right) 根据策略 {\pi _\phi } 选择动作 a\left( t \right) ; (6) 无人机在状态 s\left( t \right) 下执行动作 a\left( t \right) ,进入下一状态 s\left( {t + 1} \right) 且更新无人机坐标 \left[ {X\left( t \right),Y\left( t \right),H} \right] ,并根据式(24)得到回报 r\left( t \right) 以及
根据式(8)计算所有用户的能耗 \sum\nolimits_{i = 1}^N {{E_i}\left( t \right)} ;(7) 将 \left[ {s\left( t \right),a\left( t \right),r\left( t \right),s\left( {t + 1} \right)} \right] 存储在经验缓冲区; (8) 更新状态 s\left( t \right) = s\left( {t + 1} \right) ; (9) 从经验缓冲区中随机采样批次经验样本,根据式(21)、式(22)和式(23)分别计算损失函数 {L_{{{\text{C}}_i}}}\left( {{\theta _i}} \right) , {L_{\text{A}}}\left( \phi \right) 和 L\left( \alpha \right) ,并更新Critic网
络参数 {\theta _i} 、Actor网络参数 \phi 和熵正则化系数 \alpha ;更新Critic目标函数参数, {\hat \theta _i} \leftarrow \tau {\theta _i} + \left( {1 - \tau } \right){\hat \theta _i} ;(10) 直到Episode = M ; (11) 直到Time = T ; (12) 输出无人机飞行轨迹以及用户平均能量损耗。 表 1 实验仿真参数
参数 符号表示 设定值 无人机最大覆盖用户数量 {K_{\max }} 3 最大时延( s) {T_{\max }} 1 无人机最大飞行距离( m) {d_{\max }} 10 用户发射功率(W) {P^{{\text{Tr}}}} 0.1 无人机总带宽( MHz) W 6 无人机接收天线的最大接收角度 \theta \pi /4 参考距离(1 m)的信道功率增益 {g_0} 1.42 \times {10^{ - 4}} 噪声功率(dBm) {n^2} –90 无人机提供的CPU周期数( Hz) {f^{\text{U}}} 5 \times {10^9} -
[1] MAO Yuyi, YOU Changsheng, ZHANG Jun, et al. A survey on mobile edge computing: The communication perspective[J]. IEEE Communications Surveys & Tutorials, 2017, 19(4): 2322–2358. doi: 10.1109/COMST.2017.2745201 [2] MAO Yuyi, ZHANG Jun, and LETAIEF K B. Dynamic computation offloading for mobile-edge computing with energy harvesting devices[J]. IEEE Journal on Selected Areas in Communications, 2016, 34(12): 3590–3605. doi: 10.1109/JSAC.2016.2611964 [3] LIU Tianyu, CUI Miao, ZHANG Guangchi, et al. 3D trajectory and transmit power optimization for UAV-enabled multi-link relaying systems[J]. IEEE Transactions on Green Communications and Networking, 2021, 5(1): 392–405. doi: 10.1109/TGCN.2020.3048135 [4] LYU Xinchen, TIAN Hui, NI Wei, et al. Energy-efficient admission of delay-sensitive tasks for mobile edge computing[J]. IEEE Transactions on Communications, 2018, 66(6): 2603–2616. doi: 10.1109/TCOMM.2018.2799937 [5] WU Qingqing and ZHANG Rui. Common throughput maximization in UAV-enabled OFDMA systems with delay consideration[J]. IEEE Transactions on Communications, 2018, 66(12): 6614–6627. doi: 10.1109/TCOMM.2018.2865922 [6] LI Zhiyang, CHEN Ming, PAN Cunhua, et al. Joint trajectory and communication design for secure UAV networks[J]. IEEE Communications Letters, 2019, 23(4): 636–639. doi: 10.1109/LCOMM.2019.2898404 [7] LI Yuxi. Deep reinforcement learning: An overview[EB/OL]. https://arxiv.org/abs/1701.07274, 2021. [8] PENG Yingsheng, LIU Yong, and ZHANG Han. Deep reinforcement learning based path planning for UAV-assisted edge computing networks[C]. 2021 IEEE Wireless Communications and Networking Conference, Nanjing, China, 2021: 1–6. [9] SEID A M, BOATENG G O, ANOKYE S, et al. Collaborative computation offloading and resource allocation in multi-UAV-assisted IoT networks: A deep reinforcement learning approach[J]. IEEE Internet of Things Journal, 2021, 8(15): 12203–12218. doi: 10.1109/JIOT.2021.3063188 [10] FUJIMOTO S and GU S S. A minimalist approach to offline reinforcement learning[C]. The 34th Annual Conference on Neural Information Processing Systems, Vancouver, Canada, 2021. [11] HAARNOJA T, ZHOU A, HARTIKAINEN K, et al. Soft actor-critic algorithms and applications[EB/OL]. https://arxiv.org/abs/1812.05905, 2021. [12] LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[C]. The 4th International Conference on Learning Representations, San Juan, Puerto Rico, 2021. [13] ZHANG Guangchi, YAN Haiqiang, ZENG Yong, et al. Trajectory optimization and power allocation for multi-hop UAV relaying communications[J]. IEEE Access, 2018, 6: 48566–48576. doi: 10.1109/ACCESS.2018.2868117 [14] YU Zhe, GONG Yanmin, GONG Shimin, et al. Joint task offloading and resource allocation in UAV-enabled mobile edge computing[J]. IEEE Internet of Things Journal, 2020, 7(4): 3147–3159. doi: 10.1109/JIOT.2020.2965898 [15] HUANG Yingqian, CUI Miao, ZHANG Guangchi, et al. Bandwidth, power and trajectory optimization for UAV base station networks with backhaul and user QoS constraints[J]. IEEE Access, 2020, 8: 67625–67634. doi: 10.1109/ACCESS.2020.2986075 [16] YANG Zhaohui, PAN Cunhua, WANG Kezhi, et al. Energy efficient resource allocation in UAV-enabled mobile edge computing networks[J]. IEEE Transactions on Wireless Communications, 2019, 18(9): 4576–4589. doi: 10.1109/TWC.2019.2927313 [17] ZHANG Guangchi, WU Qingqing, CUI Miao, et al. Securing UAV communications via joint trajectory and power control[J]. IEEE Transactions on Wireless Communications, 2019, 18(2): 1376–1389. doi: 10.1109/TWC.2019.2892461 [18] WANG Xinhou, WANG Kezhi, WU Song, et al. Dynamic resource scheduling in mobile edge cloud with cloud radio access network[J]. IEEE Transactions on Parallel and Distributed Systems, 2018, 29(11): 2429–2445. doi: 10.1109/TPDS.2018.2832124 [19] JIANG Feibo, WANG Kezhi, DONG Li, et al. Deep-learning-based joint resource scheduling algorithms for hybrid MEC networks[J]. IEEE Internet of Things Journal, 2020, 7(7): 6252–6265. doi: 10.1109/JIOT.2019.2954503 -