An Autofocus Algorithm Based on Doppler-domain Multichannel for Airborne SAR
-
摘要: 在多通道自聚焦(MCA)和傅里叶域多通道自聚焦(FMCA)的基础上,该文提出一种基于多普勒域多通道的机载合成孔径雷达自聚焦算法。该算法同样是直接在线性代数的理论框架下推导得到,能够在不迭代的情况下进行相位误差的估计和补偿以实现SAR图像的聚焦。该算法不像MCA和FMCA那样在图像域估计相位误差,而是在距离压缩方位多普勒域(方位未压缩)里进行相位误差估计。同时该算法不需要SAR成像场景中含有低散射区的假设,从而使其能够应用于条带模式SAR。不同情况下条带SAR数据的处理结果验证了该算法的有效性和可行性。
-
关键词:
- 机载合成孔径雷达(SAR) /
- 多普勒域多通道自聚焦 /
- 相位误差估计 /
- 奇异值分解(SVD)
Abstract: On the basis of the MultiChannel Autofocus (MCA) algorithm and the Fourier-domain MultiChannel Autofocus (FMCA) algorithm, an autofocus algorithm for airborne SAR based on Doppler-domain multichannel is proposed. The proposed autofocus algorithm is also directly derived under a linear algebraic framework, allowing the phase error to be estimated and removed in a noniterative fashion to achieve the well-focused SAR image. However, unlike MCA or FMCA applied to the image domain, the proposed autofocus algorithm is used to estimate the phase error in the range compressed azimuth Doppler domain (azimuth uncompressed). In addition, it does not require the assumption of a low-return region contained to the SAR image, which makes it applicable to the strip-map mode SAR. The processing results of strip-map SAR data in different cases demonstrate the validity and feasibility of the proposed autofocus algorithm. -
1. 引言
在传统计算范式中,用户设备通常将原始数据上传至集中云服务器进行处理,但是这不可避免地造成极大的传输开销和数据隐私泄露。针对该问题,联合利用移动边缘计算(Mobile Edge Computing, MEC) [1]和联邦学习[2]设计解决方案逐渐成为研究焦点。一方面,边缘服务器分担用户设备的联邦学习本地训练任务,既减轻用户设备的计算负载,又降低向云端传输数据造成的开销;另一方面,利用本地化模型训练结果聚合成全局共享模型,避免了隐私数据泄露的弊端,有利于实现快速、高效的训练过程。然而,边缘服务器通常是位置固定的且覆盖范围有限的,这将导致其无法灵活有效地处理复杂变化的强实时性任务[3]。
随着下一代网络系统如6G通信网络的快速发展,高性能无人机(Unmanned Aerial Vehicle, UAV)已被视为具备感知、计算和存储能力的空中边缘服务器[4]。与传统的安装在地面基站上的固定边缘服务器相比,无人机利用其高度敏捷性、灵活性和移动性实现按需部署,增强了系统的覆盖范围[5]。在许多强实时性应用场景(如交通管理、环境和灾难监测、战场监视等[6])中,多个无人机在不同区域中移动,及时接收众多分散的用户数据,以协作的方式完成复杂的移动边缘计算任务,训练具有高可用性和高实时性的机器学习模型(例如,图像分类模型)[7]。进一步地,在联邦学习模式下,多无人机完成训练后只需要将本地模型参数上传至云服务器进行全局模型聚合,实现训练模型的共享和隐私保护。
值得注意的是,无人机的感知半径有限,且有限的机载电池会约束无人机的移动范围,因此无法保证每个用户设备产生的数据都能及时地被无人机接收并处理。而在移动边缘计算场景中,数据的实时处理对其可用性和模型的实时更新非常重要。为此,文献[8]在模型中采用数据的信息年龄(Age-of-Information, AoI) 来刻画数据的新鲜程度,将其定义为数据最近一次成功传输后经过的时间[9]。但是,它们忽略了数据在区域中等待的时间,这对 MEC 场景中无人机的模型训练和通信决策是至关重要的,特别是在多无人机协作训练的情况下。本文将数据的新鲜程度,即数据在端设备上等待的时间与被无人机接收并处理的时间之和定义为数据的信息年龄[10],通过最小化信息年龄来优化无人机移动边缘计算决策,提升联邦学习性能,增强数据处理实时性。因此,如何规划无人机的路径和制定通信决策,以及如何在无人机之间展开协同工作,合理地分配计算资源,同时满足能耗和时延的限制,成为本文需要解决的关键问题。
针对上述挑战,本文提出了一种崭新的基于数据新鲜程度的协作式无人机联邦学习范式,通过多无人机协同地智能地进行移动、通信和计算卸载决策,高效地完成了边缘数据处理任务,显著地降低了无人机的能量消耗并保证了模型高准确率和低数据信息年龄。本文进一步提出一种多智能体深度强化学习(Deep Reinforcement Learning, DRL)算法,有效地处理复杂状态空间,实现多无人机的高效协作和智能决策优化。本文的主要贡献包括4个方面:
(1) 提出面向实时边缘数据处理的多无人机协作式联邦学习范式,能够充分发挥无人机辅助移动边缘计算和联邦学习的优势,避免了云中心集中式数据处理的用户隐私保护弱和任务处理时延大等不足;
(2) 引入信息年龄以描述协作式无人机联邦学习的训练数据的新鲜程度,并据此对多无人机协同决策问题进行建模,以联合优化边缘数据处理的模型准确率、信息年龄以及总体能耗;
(3) 设计了一种新颖的具有全局和局部奖励的优先级多智能体深度强化学习算法,实现多无人机协同地移动、通信和任务卸载决策智能联合优化;
(4) 采用多个真实机器学习数据集进行仿真实验并设置了充分的对比实验,结果表明了本文提出的算法在不同数据分布下和在快速变化的复杂动态环境中都能实现优越的性能表现。
2. 系统模型与问题形式化
2.1 区域模型
如图1所示,感知区域被划分为
M={1,2,⋯,M} 个子区域,每个子区域的中心位置设为用户设备,它感知并传输该子区域的实时数据至边缘服务器进行处理。在本系统中,由于安装在地面基站上的边缘服务器(后文简称为基站(Base Station, BS))的覆盖范围以及用户设备的射频功率有限,用户设备无法与基站直接通信。为了解决计算的局限性,系统部署多个无人机以接收和处理其覆盖范围内用户设备的实时数据。这些无人机配备了完成计算任务所必要的载荷,包括数据收发设备(如天线)、数据存储设备(如存储卡)和数据处理设备(如嵌入式CPU),以及基本设备(如机体、电池、动力控制和飞行控制装置)及其相关传感器。无人机的载荷高度集成化使其数据存储、数据处理和移动的综合能力远在固定的边缘服务器之上。在本文中,无人机作为性能适中的边缘服务器,支持长、短距离无线通信,能够为基站覆盖不了的区域提供计算服务。因此,无人机可以高效地充当边缘计算节点来完成本文的边缘计算任务。在目标感知区域中,一组无人机
N={1,2,⋯,N} 组成的智能体群以固定高度H 飞行。在每个时隙t∈T={1,2,⋯,T} 结束时,无人机i 以方向θti∈[0,2π) 和距离dti∈[0,lmax) 飞往下一个感知子区域,其中lmax 为无人机在单个时隙内的最大飞行距离。考虑采用二元变量oti,k∈{0, 1} 表示无人机i 在时隙t 时的位置:当且仅当无人机i∈N 处于子区域k∈M 上空时,oti,k=1 ;否则oti,k=0 。无人机的移动决策有约束条件M∑k=1oti,k=1,N∑i=1oti,k∈{0,1} (1) 式(1)表示每个时隙内无人机只能停留在一个子区域,并且多个无人机不能停留在同一个子区域。
假设无人机
i 的感知能力定义为其最大通信半径Rmaxi ,任何在最大通信范围内的用户设备都被认为是可感知的并且其数据可收集的。无人机i 从覆盖的子区域集合Mi⊂M 中收集数据信息时,满足约束bti,kRti,k≤Rmaxi (2) 其中,
bti,k∈0,1 是通信决策二元变量,它表示时隙t 时无人机i 是否与子区域k 中的用户设备(以下统称用户设备k )通信:bti,k=1 表示通信,否则bti,k=0 。此外,无人机的通信还存在约束N∑i=1bti,k∈{0,1} (3) 其表示当用户设备
k 同时处于两个及以上无人机的覆盖范围内时,它将至多选择一个无人机进行通信。本文部分参数以及定义如表1所示。表 1 系统参数及其定义参数 定义 参数 定义 Rti,k 无人机i与用户设备k的欧氏距离 ci, cj, cB 无人机i、无人机j、基站的计算能力 W 通信带宽 σ, g0 噪声功率和每米的信道功率增益 ptrai,B, ptrai,U U2B, U2U数据传输功率 λtB, λtj 在基站、无人机j上的排队时延 di,B, di,j 无人机i与基站、无人机j的欧氏距离 dk1,k2 无人机从用户设备k1到k2的移动距离 vmovi, pmovi 无人机i的移动速率、移动功率 pcmpi, previ 无人机i的数据计算功率、数据接收功率 2.2 联邦学习模型
系统的任务是多无人机作为本地训练节点,利用区域的实时数据来协同训练全局模型,为各类数据分析的智能应用提供服务。本文使用联邦学习框架,以多分类预测模型为例,进行多设备之间的协作学习。联邦学习是一个反复迭代直到全局模型收敛的过程,它的每一轮全局迭代包括以下步骤:
(1) 下载全局模型:无人机
i 从云服务器下载最新的全局模型ωt−1 ,将其作为初始本地模型:ωt,0i←ωt−1 ;(2) 本地模型训练:无人机
i 从覆盖区域内的用户设备接收训练数据,执行随机梯度下降方法进行本地模型的训练:ωt,ni=ωt,n−1i−η∇Li(ωt,n−1i),n≥1 ,η 是本地模型的学习率,Li(ωt,ni) 是损失函数。本地模型训练的停止条件是‖∇Li(ωt,ni)‖≤ϵ‖∇Li(ωt,n−1i)‖ ,本地模型精度ϵ∈(0,1) 将影响本地训练的迭代次数[11]。训练停止时得到本地迭代次数Iti(ϵ)=n ,并将此时的本地模型表示为ωti←ωt,ni ;(3) 上传本地模型:每个无人机节点将训练后的本地模型
ωti 上传至云服务器;(4) 全局模型聚合:远程云服务器将接收到的本地模型通过联邦平均算法加权聚合,得到新的全局模型:
ωt=∑Ni=1Atiωti∑Ni=1Ati 。其中,Ati 表示无人机i 从其覆盖区域的用户设备接收并用于本地训练的数据量。本文主要以分类模型的预测准确性来衡量联邦学习的效果。假设
Acct 表示t 时隙的全局模型预测准确率,基于联邦学习的多分类预测模型的优化目标之一是最大化Acct 。2.3 任务卸载模型
假设每个无人机有3种任务卸载决策:本地处理、卸载至其它无人机处理(UAV-to-UAV, U2U)和卸载至基站处理(UAV-to-BS, U2B)。
xti∈[0,1] 表示无人机i 在本地处理的数据比例,yti,j∈[0,1] 表示无人机i 通过U2U方式卸载至无人机j 的数据比例,ztiÎ[0,1] 表示无人机i 通过U2B方式卸载至基站的数据比例。为了刻画无人机之间的任务卸载情况,本文定义U2U有向连接图Gt={N,εt} ,其中εt={<i,j>:lti,j=1,∀i,j∈N} 是边集,它表示在时隙t 时无人机i 与无人机j 的链路连通情况。因此,有卸载决策约束xti+N∑j=1,j≠iyti,jlti,j+zti=1 (4) 式(4)表示无人机
i 执行卸载决策的数据总量要与从覆盖区域内的用户设备接收的数据总量一致。在多无人机协作过程中,每个无人机进行数据通信时主要传输实时数据和模型。相对于任务数据量的大小,模型的大小一致且可以忽略。因此,本文主要考虑任务数据传输时所产生的通信时延开销和通信能耗开销。2.4 信息年龄模型
为了更好满足实时应用需求,本文定义数据的AoI为由用户设备产生直到被无人机处理完成的时间长度。
τtk 是用户设备k 累计到时隙t 的空闲时间长度,它表示从上一次与无人机通信到时隙t 的时间间隔。因此,τtk=(τt−1k+Δt)(1−∑Ni=1bti,k) ,其中Δt 表示时隙长度。用户设备k 与无人机通信后,它的空闲时间为0,否则逐渐递增直到下一次与无人机通信。当用户设备k 不与无人机通信时,它在该时隙内的AoI为其等待时间。由于异构用户设备的数据感知能力存在差异,数据感知速度都不一样,如果已知用户设备
k 的数据感知速度φk ,那么它在空闲时间内产生的数据量为atk=τtkφk 。当用户设备k 与无人机i 通信时,它将数据量atk 全部上传至无人机i 。考虑到一个无人机可以同时与覆盖范围内的多个用户设备通信,因此,无人机i 在时隙t 时接收到的数据量为Ati=∑Mk=1atkbti,k ,所产生的接收时延为Tti,rev=AtiPi 。其中,Pi 为无人机i 的数据接收能力。无人机接收数据后,将根据自身的卸载决策进行数据处理,产生的时延包括以下3种:
(1) 本地处理时延
Tti,i=Iti(ϵ)Ati,ici 。其中,Ati,i=Atixti 表示无人机i 本地计算的数据量。Tti,i 与联邦学习本地模型的迭代次数Iti(ϵ) 有关,迭代次数越多,所需要的计算时延越长。(2) U2B卸载与计算时延
Tti,B=Ati,Bvti,B+Iti(ϵ)Ati,BcB+λtB 。其中,Ati,B=Atizti 表示无人机i 卸载至基站的数据量,vti,B=Wlog2(1+αptrai,Bd2i,B) 是无人机i 到基站的数据传输速率,常数{α}{}{=}{}\dfrac{{{g}}_{{0}}{{G}}_{{0}}}{{{σ}}^{{2}}} [12],{{G}}_{{0}}{}\approx {}{2.284} 。(3) U2U卸载与计算时延
{{T}}_{{i}{,}{j}}^{{}{t}}{}{=}{}\dfrac{{{A}}_{{i}{,}{j}}^{{t}}}{{{v}}_{{i}{,}{j}}^{{}{t}}}{}{+}{}{{I}}_{{i}}^{{}{t}}\left(\epsilon\right)\dfrac{{{A}}_{{i}{,}{j}}^{{t}}}{{{c}}_{{j}}}{} {+}{}{{}{ \lambda }}_{{j}}^{{t}} 。其中,{{A}}_{{i}{,}{j}}^{{t}}{}{=}{}{{A}}_{{i}}^{{t}}{{y}}_{{i}{,}{j}}^{{}{t}}{{l}}_{{i}{,}{j}}^{{}{t}} 表示无人机i 卸载至无人机j 的数据量,{{v}}_{{i}{,}{j}}^{{}{t}}{}{=}{}{W}{{\log}}_{{2}}\left({1}{}{+}{}\dfrac{{\alpha}{{p}}_{{i}{,U}}^{{{\rm{tra}}}}}{{{d}}_{{i}{,}{j}}^{{2}}}\right) 表示无人机{i} 到无人机j 的数据传输速率。假设无人机之间的数据传输可以并行执行,那么无人机{i} 通过U2U方式卸载并计算的时延为{{T}}_{{i}{,U}}^{{}{t}}{=}\underset{{\forall}{j}{}\in {}{\mathcal{N} }{,}{}{i}{}{\ne}{}{j}}{{{\rm{max}}}}\left\{{{T}}_{{i}{,}{j}}^{{}{t}}\right\} 。由于无人机可以同时通过U2U链路和U2B链路传输数据(即不同的传输模式),并且可以同时执行数据传输和数据计算(即I/O和CPU可并行执行),因此,数据处理时延取决于以上3种卸载方式所需时延的最大值。综上所述,用户设备
{k} 在时隙{t} 内的数据的AoI为{{T}}_{{i}}^{{}{t}}{}{=}{}{\tau}_{{k}}^{{}{t}}{}{+}{}\displaystyle\sum\nolimits _{{i}{=1}}^{{N}}{{b}}_{{i}{,}{k}}^{{t}}\left({{T}}_{{i}{,{\rm{rev}}}}^{{}{t}}{}{+} {}{{\rm{{\rm{max}}}}} \left\{{{T}}_{{i}{,}{i}}^{{}{t}}{,}{{}{T}}_{{i}{,{\rm{B}}}}^{{}{t}}{,} {{}{T}}_{{i}{,{\rm{U}}}}^{{}{t}}\right\}\right) 。最后,定义
{t} 时隙内目标感知区域的AoI为所有子区域中用户设备数据的AoI之和,即:{{T}}^{{t}\text{}}\text{}\text{=} \displaystyle\sum\nolimits _{{k}{=1}}^{{M}}{{T}}_{{k}}^{\text{}{t}} 。数据的信息年龄刻画了数据的新鲜程度,“年龄”越小意味着数据越新鲜。本文的一个重要目标是最小化整个目标感知区域的AoI,以保证每一个用户设备中的数据都能保持新鲜。2.5 能耗模型
在每个时隙中,无人机需要完成两项任务:一是训练本地模型,即根据通信决策从覆盖的多个用户设备接收数据并执行卸载决策进行数据处理;二是根据移动决策飞往下一个目标子区域。在移动、数据接收、处理和传输的过程中,无人机会产生大量的能耗。本文对此过程产生的各种能耗进行定义:(1)无人机
{i} 从用户设备{{k}}_{{1}} 飞行到{{k}}_{{2}} 的移动能耗{{E}}_{{i}{,{\rm{mov}}}}^{{}{t}}{}{=}{}\displaystyle\sum _{{{k}}_{{1}}{=1}}^{{M}}\displaystyle\sum _{{{k}}_{{2}}{=1}}^{{M}}{{p}}_{{i}}^{{{\rm{mov}}}}\frac{{{d}}_{{{k}}_{{1}}{,}{{k}}_{{2}}}}{{{v}}_{{i}}^{{{\rm{mov}}}}}{{o}}_{{i}{,}{{k}}_{{1}}}^{{t}{-1}}{{o}}_{{i}{,}{{k}}_{{2}}}^{{t}} ;(2)无人机{i} 的数据接收能耗{{E}}_{{i}{,{\rm{rev}}}}^{{}{t}}{}{=}{}{{p}}_{{i}}^{{{\rm{rev}}}}\dfrac{{{A}}_{{i}}^{{t}}{}{+}{}{{A}}_{{i}{,{\rm{rev}}}}^{{t}}}{{{P}}_{{i}}} ,其中{{A}}_{{i}{,{\rm{rev}}}}^{{t}}{}{=} {}\displaystyle\sum\nolimits _{{j}{=1,}{}{j}{\ne}{i}}^{{N}}{{A}}_{{j}}^{{t}}{{y}}_{{j}{,}{i}}^{{}{t}}{{l}}_{{i}{,}{j}}^{{}{t}} 表示无人机{i} 通过U2U方式从其他无人机接收的数据量;(3)无人机{i} 的计算能耗{{E}}_{{i}{,{\rm{cmp}}}}^{{}{t}}{}{=} {}{{I}}_{{i}}^{{}{t}}\left(\epsilon\right){{p}}_{{i}}^{{{\rm{cmp}}}}\dfrac{{{A}}_{{i}{,}{i}}^{{t}}{}{+}{}{{A}}_{{i}{,{\rm{rev}}}}^{{t}}}{{{c}}_{{i}}} ;(4)无人机{i} 的数据传输能耗为{{E}}_{{i}{,{\rm{tra}}}}^{{}{t}}{}{=}{}{{p}}_{{i}{,U}}^{{{\rm{tra}}}}\displaystyle\sum _{{j}{=1}}^{{N}}\frac{{{A}}_{{i}{,}{j}}^{{t}}}{{{v}}_{{i}{,}{j}}^{{}{t}}}{}{+}{}{{p}}_{{i}{,B}}^{{{\rm{tra}}}}\frac{{{A}}_{{i}{,{\rm{B}}}}^{{}{t}}}{{{v}}_{{i}{,{\rm{B}}}}^{{}{t}}} 。最后,定义无人机
{i} 在时隙{t} 时的总能耗为以上能耗之和,即:{{E}}_{{i}}^{{}{t}}{}{=}{}{{E}}_{{i}{,{\rm{mov}}}}^{{}{t}}{}{+}{}{{E}}_{{i}{,{\rm{rev}}}}^{{}{t}}{}{+}{}{{E}}_{{i}{,{\rm{cmp}}}}^{{}{t}}{}{+}{}{{E}}_{{i}{,{\rm{tra}}}}^{{}{t}} 。本文另一个优化目标是最小化每个无人机的总能耗。2.6 问题形式化
基于所构建的数学模型,本文希望在合理地规划无人机的飞行轨迹、智能地选择通信设备并分配联邦学习本地计算任务的前提下,找到一个可以长期最大限度地保持区域数据新鲜和模型的高预测准确率,同时最小化每个无人机能耗的解决方案。为此,将系统的优化目标表示为
\begin{split} & \mathcal{P}1:\max \frac{1}{T}\sum\limits_{t = 1}^T {\left[ { - {T^t} + {\mu _1}{\text{Ac}}{{\text{c}}^t} - {\mu _2}\sum\limits_{i = 1}^N {E_i^t} } \right]}\\ & \qquad{\rm{s.t.}} 式(1)—式(4) \end{split} (5) 其中,权重因子
{\mu}_{\text{1}} 和{\mu}_{\text{2}} 可以实现AoI、预测准确率和能耗的长期动态平衡。由式(5)可知,为了减少自身能耗,无人机偏向于在原地徘徊并做更少的通信决策;而为了保持区域数据长期新鲜,无人机会频繁移动以收集和处理用户设备的实时数据。但是,无人机频繁收集覆盖区域的用户数据将导致其通信时延和能耗的开销增大。此外,联邦学习模式基于收集到的任务数据进行多分类预测模型训练,以提升模型准确性为目标,却忽略了任务的实时性。但是在实际应用中,数据的实时性对于模型预测是十分重要的。如果基于过时的任务数据训练模型对新鲜的数据进行预测,那么其得到的预测性能将不理想。在本文中,多分类预测模型是通过联邦学习在多分类数据集上训练而得到的,模型的训练效果包括模型的准确性和模型的实时性。其中,模型的准确性是通过多分类预测任务的结果体现的,模型的实时性是由数据的新鲜程度决定的。3. 算法设计
本文所要解决的多无人机协作路径规划、通信决策和任务卸载决策问题属于复杂的离散变量和连续变量耦合的组合优化问题,采用传统的优化方法难以求解。因此,本文将该问题转化为马尔可夫决策问题,并设计基于深度强化学习的新型智能化优化算法来高效求解。
3.1 问题转化
本文采用马尔可夫决策过程来描述该协作式无人机智能决策问题,定义一个3元组
\mathcal{MDP}\text{}{=} < \text{}\mathcal{S}{,}\text{}\mathcal{A}\text{,}\mathcal{R}\text{}\text{ > } :(1)
{{{\boldsymbol{s}}}}^{{t}}{}\in {}{\mathcal S} 表示时隙{t} 时目标区域环境和每个无人机的状态,其中无人机{i} 的状态为{{{\boldsymbol{s}}}}_{{i}}{}{=}{}\left[{{k}}_{{i}}^{{t}}{,}{{\boldsymbol{\tau}}}^{{}{t}}{,}{}{{{\boldsymbol{l}}}}_{{i}}^{{}{t}}{}\right] 。{{k}}_{{i}}^{{t}} 表示无人机{i} 在时隙{t} 时所在的位置,{{\boldsymbol{\tau}}}^{{}{t}}{}{=}{}\left[{\tau}_{{1}}^{{}{t}}{,} {}{\tau}_{{2}}^{{}{t}}{,}{\cdots}{,}{\tau}_{{M}}^{{}{t}}\right] 表示用户设备{\mathcal M} 在时隙{t} 时的空闲时间,{{{\boldsymbol{l}}}}_{{i}}^{{}{t}}{}{=}{}\left[{{l}}_{{i}{,1}}^{{}{t}}{,}{}{{l}}_{{i}{,2}}^{{}{t}}{,}{}{\cdots}{,}{}{{l}}_{{i}{,}{N}}^{{}{t}}{}\right] 表示无人机{i} 在时隙{t} 时是否可以向无人机{j} 传输数据。(2)
{{{\boldsymbol{a}}}}^{{t}}{}\in {}{\mathcal A} 表示时隙{t} 时每个无人机执行的动作,其中无人机{i} 的动作为{{{\boldsymbol{a}}}}_{{i}}{}{=}{}\left[{{\theta}}_{{i}}^{{}{t}}{,}{}{{d}}_{{i}}^{{}{t}}{,}{}{{{\boldsymbol{b}}}}_{{i}}^{{t}}{,}{}{{x}}_{{i}}^{{}{t}}{,}{}{{{\boldsymbol{y}}}}_{{i}}^{{}{t}}{,}{}{{z}}_{{i}}^{{}{t}}\right] 。{{\theta}}_{{i}}^{{}{t}} ,{{d}}_{{i}}^{{}{t}} 分别表示无人机{i} 在时隙{t} 时的飞行方向、飞行距离,{{{\boldsymbol{b}}}}_{{i}}^{{t}}{}{=}{}\left[{{b}}_{{i}{,1}}^{{t}}{,}{}{{b}}_{{i}{,2}}^{{t}}{,}{}{\cdots}{,}{}{{b}}_{{i}{,}{M}}^{{t}}\right] 表示无人机{i} 在时隙{t} 时是否与其覆盖区域内的用户设备{k} 通信,{{x}}_{{i}}^{{}{t}} ,{{{\boldsymbol{y}}}}_{{i}}^{{}{t}}{}{=}{}\left[{{y}}_{{i}{,1}}^{{}{t}}{,} {}{{y}}_{{i}{,2}}^{{}{t}}{,}{}{\cdots}{,}{}{{y}}_{{i}{,}{N}}^{{}{t}}\right] ,{{z}}_{{i}}^{{}{t}} 分别表示无人机{i} 在时隙{t} 时卸载决策为本地处理、U2U方式、U2B方式的数据比例。(3)
{{{\boldsymbol{r}}}}^{{}{t}}{}\in {}{\mathcal R} 表示时隙{t} 时无人机执行动作后获得的奖励,它包含全局奖励{{r}}_{{g}}^{{}{t}}{}{=}{}{-}{{T}}^{{}{t}}{}{+}{}{{μ}}_{{1}}{{{\rm{Acc}}}}^{{t}} ,以及局部奖励{{{\boldsymbol{r}}}}_{{l}}^{{}{t}}{}{=}{}\left[{{r}}_{{1}}^{{}{t}}{,}{}{{r}}_{{2}}^{{}{t}}{,}{}{\cdots}{,}{}{{r}}_{{N}}^{{}{t}}\right] ,其中{{r}}_{{i}}^{{}{t}}{}{=}{}{-}{{E}}_{{i}}^{{}{t}} 表示无人机{i} 在时隙{t} 时能耗的负数形式。全局奖励越大,表示
{t} 时隙内目标区域的数据越新鲜,且预测模型准确率更高;而局部奖励越大,表示{t} 时隙内无人机移动、通信、计算和传输消耗的能量越少。因此,优化目标转化为\begin{split} & \mathcal{P}2:\max \frac{1}{T}\sum\limits_{t = 1}^T {\left[ {r_g^t + {\mu _2}\sum\limits_{i = 1}^N {r_i^t} } \right]}\\ & \qquad {\rm{s.t}}. (1)— (4) \end{split} (6) 3.2 算法设计
传统的多智能DRL算法,如多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient, MADDPG)算法,通常优化单一的整体奖励。但是这可能会使学习过程在优化全局对象和局部对象之间来回波动,从而导致收敛不稳定、收敛速度缓慢等问题。因此,本文将奖励函数分解为全局奖励和局部奖励,其中局部奖励是每个智能体的本地优化目标,即减少无人机的能耗;而全局奖励是智能体群组的共同优化全局目标,即提高目标区域数据的AoI和模型预测准确率。为了实现全局优化目标和局部优化目标之间的动态平衡,本文引入可分解的多智能体深度确定性策略梯度(DEcomposed Multi-Agent Deep Deterministic Policy Gradient, DE-MADDPG)方法[13]。
DE-MADDPG是一种采用双critic网络的多智能体DRL算法,其目标是同时朝着使全局奖励和局部奖励最大化的方向优化策略。在给定当前状态
{{s}}_{{i}} 时,每个智能体{i} 中的分布式actor网络可以生成动作{\boldsymbol a}_{{i}} 。Actor网络使用确定性策略梯度方法进行参数更新,其梯度可以表示为\begin{split} \nabla J({\vartheta _i}) =& \underbrace {\mathbb{E}[{\nabla _{{\vartheta _i}}}{\pi _i}({a_i}|{s_i}){\nabla _{{a_i}}}Q_\psi ^g(s,{a_1},{a_2}, \cdots ,{a_N})]}_{{\text{Global}}} \\ & + \underbrace {\mathbb{E}[{\nabla _{{\vartheta _i}}}{\pi _i}({a_i}|{s_i}){\nabla _{{a_i}}}Q_{{\phi _i}}^l({s_i},{a_i})]}_{{\text{Local}}}\\[-21pt] \end{split} (7) DE-MADDPG引入局部critic网络
{{Q}}_{\phi{{i}}}^{{l}} 来扩展MADDPG算法,其中{{Q}}_{{\phi}_{{i}}}^{{l}} 是无人机i 的分布式Q网络,旨在最大化本地奖励,从而最小化损失函数以更新权重。全局critic网络{{Q}}_{\psi }^{{g}} 的作用是指导全局优化,其参数通过最小化损失函数进行训练。此外,虽然actor网络是分布式地部署在无人机,它根据自身的状态决定动作,但是actor网络的优化过程利用了全局的状态信息和动作信息,实现了全局信息共享。在本文的多无人机动态决策场景中,状态空间和动作空间规模随着无人机数量和目标区域规模的增加而迅速增加。为了学习有价值的样本进而优化策略以加速DRL的收敛过程,本文进一步结合优先级经验回放机制[14]与DE-MADDPG方法,设计了基于优先级的可分解多智能体深度确定性策略梯度算法(Prioritized Decompose Multi-Agent Policy Gradient, PD-MADDPG)。缓存中的每个样本都有一个优先级,为其样本的TD误差。TD误差越大的样本,其估计值与目标值差距越大,网络使用此样本进行训练时可以更快提升性能。
3.3 算法实现
本文将训练一个共享预测模型的联邦学习作为系统的主要任务(表2),在训练过程中调用PD-MADDPG 算法提供阶段性通信和卸载决策(表3),并将预测模型训练结果反馈给PD-MADDPG算法进行优化。PD-MADDPG算法在每一轮联邦学习的本地迭代中在线为无人机提供执行联邦学习的相关决策,并且在每轮全局迭代后,都进行离线网络训练。无人机在探索时依据当前状态执行动作,计算全局奖励
{{r}}_{{g}}^{\text{}{t}} 和局部奖励{{r}}_{{l}}^{\text{}{t}} 。以上离线训练过程结束后,将训练得到的多个actor网络模型部署到对应的无人机上再执行。表 2 联邦学习算法(算法1)初始化最大全局模型训练回合数{ {T} }^{ {}{{\rm{max}}} }、最大本地模型训练回合数{ {N} }^{{{\rm{max}}} }、学习率\eta 、目标准确率 \epsilon 和全局模型参数{{ \omega } }^{{0} }; 调用执行算法2函数INIT(); for全局回合{t}{}{=}{}{1,}{}{2,}{}\cdots {,}{ {}{T} }^{ {{\rm{max}}} } 调用执行算法2的函数EXPLORATION(),获取无人机的决策; for无人机 {i}{}{=}{}{1,}{}{2,}{}\cdots {,}{}{N} 执行无人机与用户设备的通信,获取训练数据; 下载全局模型{ { \omega } }_{ {i} }^{ {t}{,0} }{}\leftarrow{}{ { \omega } }^{ {t}{-1} }; for局部回合{n}{}{=}{}{1,}{}{2,}{}\cdots {,}{}{ {N} }^{ {}{{\rm{max}}} } 更新局部模型参数{ { \omega } }_{ {i} }^{ {t}{,}{n} }{}{=}{}{ { \omega } }_{ {i} }^{ {t}{,}{n}{-1} }-{}\eta{{\text{∇}}}{ {L} }_{ {i} }\left({ { \omega } }_{ {i} }^{ {t}{,}{n}{-1} }\right); if \left\|{{\text{∇}}}{ {L} }_{ {i} }\left({ { \omega } }_{ {i} }^{ {t}{,}{n} }\right)\right\|{}{\le}{}\epsilon \left\|{{\text{∇}}}{ {L} }_{ {i} }\left({ { \omega } }_{ {i} }^{ {t}{,}{n}{-1} }\right)\right\| then break; {{I}}_{{i}}^{{}{t}}\left(\epsilon\right){}{=}{}{n} ; 无人机 {i} 上传局部模型{ { \omega } }_{ {i} }^{ {t} }{}{(}{ { \omega } }_{ {i} }^{ {t} }{}\leftarrow{}{ { \omega } }_{ {i} }^{ {t}{,}{n} }{)}; 进行全局模型聚合,调用执行算法2的函数EXPLOITATION( {{I}}^{{}{t}}\left(\epsilon\right) , { {{\rm{Acc}}} }^{ {t} })。 表 3 PD-MADDPG算法(算法2)函数INIT( ): for无人机 {i}{}{=}{}{1,}{}{2,}{}\cdots {,}{}{N} 初始化局部critic、actor网络的权值为 {\phi}_{{i}} 和 {\vartheta}_{{i}} 、局部目标critic、actor网络的权值为 {\phi}_{{i}}^{{'}}{}\leftarrow{}{\phi}_{{i}} 和{\vartheta }_{{i} }^{{'} }{}\leftarrow{}{\vartheta}_{{i} }; 初始化全局critic网络的权值为 {\psi} 、全局目标critic 网络的权值为 {\psi'}{}\leftarrow{}{\psi} 、基于优先级的经验回放缓存PER。 函数EXPLORATION( ): 获得当前环境状态{ {{\boldsymbol{s}}} }^{ {t} }{}{=}{}\left[{ {{\boldsymbol{s}}} }_{ {1} }^{ {t} }{,}{ {}{{\boldsymbol{s}}} }_{ {2} }^{ {t} }{,}{}\cdots {,}{ {}{{\boldsymbol{s}}} }_{ {N} }^{ {t} }\right],当{t}{=0}时随机初始化状态{ {{\boldsymbol{s}}} }^{ {0} }; for无人机 {i}{}{=}{}{1,}{}{2,}{}\cdots {,}{}{N} while True 根据当前策略选择动作{ { {\boldsymbol{a} } } }_{ {i} }^{ {t} }{}{=}{}{ \pi }_{ {i} }\left({ {s} }_{ {i} }^{ {t} }\right){}{+}{}\rho \mathcal {O},其中{\mathcal O}是高斯随机噪声, \rho 随着 {t} 衰减; if无人机 {i} 没有飞越边界,或与其它他人机的位置重合then break; return {{a}}^{{t}}{}{=}{}\left[{{a}}_{{1}}^{{t}}{,}{}{{a}}_{{2}}^{{t}}{,}{}\cdots {,}{}{{a}}_{{N}}^{{t}}\right] 。 函数EXPLOITATION( {{I}}^{{}{t}}\left({\epsilon}\right) , {\rm{Acc}}^{{t}} ): 执行动作{ {{\boldsymbol{a}}} }^{ {t} }{}{=}{}\left[{ {{\boldsymbol{a}}} }_{ {1} }^{ {t} }{,}{}{ {{\boldsymbol{a}}} }_{ {2} }^{ {t} }{,}{}\cdots {,}{}{ {{\boldsymbol{a}}} }_{ {N} }^{ {t} }\right],获取新状态 {{s}}^{{t}{+1}} ,计算全局奖励 {{r}}_{{g}}^{{}{t}} 和局部奖励 {{r}}_{{l}}^{{}{t}} ; 将{[}{ {{\boldsymbol{s}}} }^{ {t} }{,}{}{ {{\boldsymbol{a}}} }^{ {t} }{,}{}{ {r} }_{ {g} }^{ {}{t} }{,}{}{ {r} }_{ {l} }^{ {}{t} }{,}{}{ {{\boldsymbol{s}}} }^{ {t}{+1} }{]} 保存到PER; if PER满then 从PER抽取一批样本\left[{ {{\boldsymbol{s}}} }^{ {t} }{,}{}{ {{\boldsymbol{a}}} }^{ {t} }{,}{}{ {r} }_{ {g} }^{ {}{t} }{,}{}{ {{\boldsymbol{s}}} }^{ {t}{+1} }\right]; 更新全局critic 网络,根据{\psi'}{}\leftarrow{}{\xi\psi}{}{+}{}{(1}{}{-}{}{\xi}{)}{\psi'}更新全局目标critic网络, {ξ} 是更新速率; for无人机 {i}{}{=}{}{1,}{}{2,}{}\cdots {,}{}{N} 从PER抽取一批样本{[}{ {{\boldsymbol{s}}} }^{ {t} }{,}{}{ {{\boldsymbol{a}}} }^{ {t} }{,}{}{ {r} }_{ {l} }^{ {}{t} }{,}{}{ {{\boldsymbol{s}}} }^{ {t}{+1} }{]}; 更新局部critic, actor网络,根据{\phi}^{ {'} }\leftarrow{\xi}\phi{}{+}\left({1}{}-{}{\xi}\right){\phi}^{ {'} },\vartheta{'}{}\leftarrow{}{\xi}\vartheta{}{+}{}\left({1}{}-{}{\xi}\right){\vartheta'}更新目标局部网络。 3.4 算法复杂性分析
在表3中,无人机的数量
{N} 将直接决定网络中的分支数量。因此,函数INIT( )、EXPLORATION( )和EXPLOITATION({\boldsymbol{I}}^{\text{}{t}}\left(\epsilon\right) ,{\text{Acc}}^{{t}} )的计算复杂度分别为{O}\left({N}\right) ,{O}\left({N}\right) 和{O}\left({N}\text{}\cdot\text{}\text{(}{{n}}_{{l}}\text{}\text{+}\text{}{{n}}_{{a}}\text{)}\text{}\text{+}\text{}{{n}}_{{g}}\right) 。{{n}}_{{l}} ,{{n}}_{{a}} 和{{n}}_{{g}} 分别表示局部critic, actor和全局critic 网络的复杂度,与网络神经元个数和层数有关。在算法1中,系统执行{{T}}^{\text{}\text{max}} 次全局迭代过程,每个无人机进行{{N}}^{\text{max}} 次局部模型参数更新。因此,算法1的计算复杂度为{O}\left({N}\text{}\text{+}\text{}{{T}}^{\text{}\text{max}}\text{}\cdot\text{}\text{(}{N}\text{}\text{+}\text{}{N}\text{}\cdot \text{}{{N}}^{\text{}\text{max}}\text{}\cdot \text{}{{n}}_{{ \omega }}\text{}{+} \text{}{N}\text{}\cdot \text{}\text{(}{{n}}_{\text{l}}\text{}\text{+}\text{}{{n}}_{{a}}\text{)}\text{}\text{+}\text{}{{n}}_{{g}}\text{)}\right) 。{{n}}_{{ \omega }} 是预测模型的复杂度,与模型神经元个数和层数有关。4. 实验结果与分析
4.1 仿真实验设置
在仿真实验中,目标区域被划分为
\text{10 m}\text{}\times \text{}\text{10 m} 的网格。无人机的数量为{N}\text{}\text{=}\text{}\text{3} ,其覆盖半径为{{R}}_{{i}}^{\text{}\text{max}}\text{}\text{=}\text{}\text{1 m} ,其飞行高度为{H}\text{}\text{=}\text{}\text{0.1 m} ,其最大飞行距离为{{l}}^{\text{}\text{max}}\text{}\text{=}\text{}\text{10 m} 。通信带宽为{W}\text{}\text{=}\text{}\text{100 MHz} 。另外,基站固定于目标区域外\text{[}-\text{1,}\text{}-\text{1]} 的位置。在联邦学习的多轮迭代中,本文设置最大的全局迭代回合数为{{T}}^{\text{}\text{max}}\text{}\text{=}\text{}\text{400} ,最大的本地模型训练回合数为{{N}}^{\text{max}}{=500} 。每一轮全局迭代回合包含100次全局模型的更新过程。在每个本地模型迭代时,本地模型的学习率为\eta\text{}\text{=}\text{}\text{0.01} ,目标精度为\epsilon\text{}\text{=}\text{}\text{1.0} 。折扣因子\text{γ}\text{}\text{=}\text{}\text{0.9} ,更新速率\xi \text{}\text{=}\text{}\text{0.01} 。基于优先级的经验回放缓冲区PER的大小为64。在优化目标公式中,参数{\mu}_{\text{1}}\text{}\text{=}\text{}\text{1000} ,{\mu}_{\text{2}}\text{}\text{=}\text{}\text{0.1} 。4.2 数据集与对比算法
本文采用3个真实的10分类数据集来进行仿真测试:(1) MNIST,由250个不同的人手写数字
{0, 1,}\cdots {,9} 构成;(2) Fashion-MNIST,由10个不同类别的28像素 × 28像素的灰度图像组成;(3) CIFAR-10,由10个物品类别的32×32的3通道彩色RGB图片组成。每个数据集中70%的数据用于训练分类预测模型,30%的数据用于测试其预测准确率。将训练集数据平均分配给每个用户设备,并设置非独立同分布程度D来刻画每个用户设备数据的不同用户特性或者地理区域特性。D = 0表示每个子区域的训练样本均匀地包含所有分类标签,{D}\text{}\in \text{}\text{(0,}\text{}\text{1)} 表示所有数据均匀地属于D个标签,D = 1表示每个子区域设备上的所有数据只属于一个标签。本文使用4种优化整体奖励的算法进行对比实验:(1) P-MADDPG,将优先级经验回放缓存技术引入 MADDPG算法,所有无人机共用一个优先级缓存;(2) P-DDPG,将优先级经验回放缓存技术引入 DDPG算法,所有无人机分布式地训练各自的actor网络和critic网络,它们之间不共享信息,并且每个无人机上都设置分布式缓存;(3) GREEDY,列出每个时隙每个无人机所有可能的动作,在其中选择执行使整体奖励最优的动作(其搜索空间庞大和实现复杂度高,难以在实际应用中部署);(4) RANDOM,每个无人机在每个时隙随机地产生动作,包括飞行方向、飞行距离、通信决策和卸载决策。
4.3 实验结果
4.3.1 基于联邦学习的预测模型效果分析
图2展示了本文提出的基于联邦学习的PD-MADDPG算法在不同的数据集和D = [0, 0.5, 1, 2]的预测准确率的表现。随着用户设备数据的非独立同分布程度的增加(从0到1),预测准确率变差,并且收敛速度变慢。这是因为非独立同分布程度的增加导致每个用户设备中的数据标签种类变少。虽然某一种标签的样本数量会相对增加,但是多样性的降低会使得本地模型更加偏向于预测某几种标签的样本。对于全局模型而言,非独立同分布程度越大,本地模型就越发散。聚合发散的本地数据集会使模型性能变差,并使收敛回合数增加。只有当收集了足够多的样本标签后,全局模型的预测准确率才会逐步提高直到收敛。
表4展示了PD-MADDPG与4种对比算法在准确率性能上的差异。对不同数据集而言,所有算法的整体性能都会随着数据集的复杂度变大而变差,并且非独立同分布程度的增加会使模型预测准确率下降。其中,PD-MADDPG算法表现最优,预测准确率平均提升了16.3%,这是因为它将奖励分为全局奖励和局部奖励。P-MADDPG, P-DDPG和GREEDY算法整体优化预测准确率、数据AoI、无人机能耗,因此可能会导致优化目标失衡,即为了确保能耗而牺牲准确率。RANDOM算法的动作没有任何策略,其性能是最差的。
表 4 各算法在不同数据集的不同非独立同分布程度时的全局模型预测准确率算法 MNIST Fashion-MNIST CIFAR-10 D = 0 D = 0.5 D = 1 D = 2 D = 0 D = 0.5 D = 1 D = 2 D = 0 D = 0.5 D = 1 D = 2 PDMADDPG 0.661 0.590 0.519 0.533 0.451 0.371 0.288 0.379 0.343 0.338 0.336 0.328 PMADDPG 0.619 0.384 0.483 0.442 0.361 0.370 0.190 0.367 0.324 0.305 0.302 0.312 PDDPG 0.558 0.450 0.453 0.521 0.435 0.336 0.261 0.359 0.323 0.320 0.306 0.311 GREEDY 0.561 0.544 0.487 0.515 0.400 0.344 0.282 0.358 0.320 0.309 0.325 0.320 RANDOM 0.479 0.278 0.463 0.407 0.291 0.292 0.194 0.289 0.322 0.330 0.326 0.319 4.3.2 算法收敛性和可分解奖励分析
图3是在MNIST数据集中D = 2时的算法奖励变化。在图3(a)中,除GREEDY算法之外,PD-MADDPG算法比其余算法的平均总奖励高48.4%,比基于DRL的算法高38.7%。它分别优化全局奖励和局部奖励,因此两者的性能都是最优的,即它能找到最合适的移动、通信和卸载决策,使得奖励在优化无人机能耗、数据AoI及预测准确率之间找到较好的平衡。当设置较小的局部奖励权重
{\mu}_{\text{2}} 时,总奖励的收敛性主要受全局奖励的影响,因此两者的收敛性非常相似,如图3(b)所示。在该设置中,GREEDY算法偏向选择使全局奖励更大的动作。RANDOM算法中无人机会任意地移动并通信,因此数据新鲜程度普遍较高,全局奖励较高。PD-MADDPG算法通过全局critic网络来优化全局奖励,使得无人机执行有利于维持数据新鲜程度和预测模型准确率的动作,它比基于DRL的算法的平均全局奖励高37.1%。在图3(c)中,PD-MADDPG算法是最优的,因为无人机分布式actor网络的优化同时受全局critic网络和局部critic网络的影响,并且无人机之间是通过相互协作来进行决策的。它比所有算法的平均局部奖励高66.2%,比基于DRL的算法高48.3%。4.3.3 基于实时联邦学习的协作式无人机计算系统的规模可扩展性分析
当无人机数量和通信范围不变时,以MNIST数据集中D = 0.5为例,本文绘制了目标区域边长为5, 10, 15和20时,各算法在收敛后100个回合内平均总奖励的变化,如图4所示。当区域规模增大时,无人机服务的用户设备增多,在保证预测准确率和区域数据新鲜度的前提下,它的移动能耗增加,因此所有算法的平均总奖励都减少。其中,PD-MADDPG算法的平均总奖励的下降速率最慢,比所有算法的下降速率慢38.6%,比基于DRL的算法的下降速率慢23.5%。这说明本文提出的算法受区域变化的影响程度最小,无人机能找到更合适的协作方式,在保证其他优化目标的前提下减少无人机的移动能耗,因此其可扩展性是最好的。
GREEDY算法在每次迭代中遍历所有可能的动作从而执行使整体奖励最优的决策。但是这将产生额外的运行能耗,而该能耗是算法运行代价。本文在能耗建模时更关注多无人机执行决策时产生的通信开销,因此没有在优化目标中考虑算法运行能耗,而是最小化无人机能耗。具体地,GREEDY 算法的计算复杂度为
{O}\left({{a}}^{{N}\text{}\cdot\text{}{M}}\right) ,其中{a} 是问题的动作空间。一次迭代中,GREEDY 算法耗时202.04 s, PD-MADDPG算法耗时20.13 s,这说明GREEDY算法的时间复杂度比PD-MADDPG算法的高约10倍。由图4可知,仅当目标区域规模增加时,GREEDY算法的平均总奖励下降得比PD-MADDPG算法快,目标值之间的差距逐渐加大。随着动作变量和空间规模变大,GREEDY算法的复杂度呈指数级增加,因此其可扩展性是最差的。5. 结束语
本文主要研究了在实时边缘数据处理场景中,以无人机作为边缘服务器,通过智能地进行轨迹规划、通信决策和卸载决策来实现模型预测高准确率、高数据新鲜程度和低无人机能耗的优化问题。考虑到用户设备数据的实时性、隐私性和规模有限性,本文引入联邦学习在无人机上执行本地训练,然后聚合为全局模型,通过多轮迭代获得共享的预测模型。为了解决该多目标优化问题,本文设计了一种全局奖励和局部奖励融合的多智能体深度强化学习的算法,动态地进行多无人机的轨迹规划以及任务卸载和通信决策。最后,大量的仿真实验结果表明本文的PD-MADDPG算法的优越性,验证了所设计的系统和算法的合理性、有效性和可拓展性。
期刊类型引用(2)
1. 贾向东,张鑫,原帅前,李月. IRS辅助的UAV无线传感网络数据采集优化方案. 信号处理. 2024(06): 1041-1051 . 百度学术
2. 姚文云,劳振国,蓝方芳. 基于智能无人机的边缘计算研究. 中国设备工程. 2023(17): 33-35 . 百度学术
其他类型引用(3)
-
计量
- 文章访问数: 2128
- HTML全文浏览量: 101
- PDF下载量: 621
- 被引次数: 5