Adaptively Sparse Federated Learning Optimization Algorithm Based on Edge-assisted Server
-
摘要: 联邦学习中,高模型贡献率的无线网络设备通常由于算力不足、能量有限成为掉队者,进而增加模型聚合时延并影响全局模型精度。针对此问题,该文设计了联合边缘服务器辅助训练和模型自适应稀疏联邦学习架构,并提出了基于边缘辅助训练的自适应稀疏联邦学习优化算法。首先,引入边缘服务器为算力不足或能量受限的设备提供辅助训练。构建了辅助训练和通信、计算资源分配的优化模型,并采用多种深度强化学习方法求解优化的辅助训练决策。其次,基于辅助训练决策,在每个通信轮次自适应地对全局模型进行非结构化剪枝,进一步降低设备的时延和能耗开销。实验结果表明,所提算法极大地减少了掉队设备,其模型测试精度优于经典联邦学习的测试精度;利用深度确定性策略梯度(DDPG)优化辅助资源分配的算法有效地减少了系统训练时延,提升了模型训练效率。Abstract:
Objective Federated Learning (FL) represents a distributed learning framework with significant potential, allowing users to collaboratively train a shared model while retaining data on their devices. However, the substantial differences in computing, storage, and communication capacities across FL devices within complex networks result in notable disparities in model training and transmission latency. As communication rounds increase, a growing number of heterogeneous devices become stragglers due to constraints such as limited energy and computing power, changes in user intentions, and dynamic channel fluctuations, adversely affecting system convergence performance. This study addresses these challenges by jointly incorporating assistance mechanisms and reducing device overhead to mitigate the impact of stragglers on model accuracy and training latency. Methods This paper designs a FL architecture integrating joint edge-assisted training and adaptive sparsity and proposes an adaptively sparse FL optimization algorithm based on edge-assisted training. First, an edge server is introduced to provide auxiliary training for devices with limited computing power or energy. This reduces the training delay of the FL system, enables stragglers to continue participating in the training process, and helps maintain model accuracy. Specifically, an optimization model for auxiliary training, communication, and computing resource allocation is constructed. Several deep reinforcement learning methods are then applied to obtain the optimized auxiliary training decision. Second, based on the auxiliary training decision, unstructured pruning is adaptively performed on the global model during each communication round to further reduce device delay and energy consumption. Results and Discussions The proposed framework and algorithm are evaluated through extensive simulations. The results demonstrate the effectiveness and efficiency of the proposed method in terms of model accuracy and training delay.The proposed algorithm achieves an accuracy rate approximately 5% higher than that of the FL algorithm on both the MNIST and CIFAR-10 datasets. This improvement results from low-computing-power and low-energy devices failing to transmit their local models to the central server during multiple communication rounds, reducing the global model’s accuracy ( Table 3 ).The proposed algorithm achieves an accuracy rate 18% higher than that of the FL algorithm on the MNIST-10 dataset when the data on each device follow a non-IID distribution. Statistical heterogeneity exacerbates model degradation caused by stragglers, whereas the proposed algorithm significantly improves model accuracy under such conditions (Table 4 ).The reward curves of different algorithms are presented (Fig. 7 ). The reward of FL remains constant, while the reward of EAFL_RANDOM fluctuates randomly. ASEAFL_DDPG shows a more stable reward curve once training episodes exceed 120 due to the strong learning and decision-making capabilities of DDPG and DQN. In contrast, EAFL_DQN converges more slowly and maintains a lower reward than the proposed algorithm, mainly due to more precise decision-making in the continuous action space and an exploration mechanism that expands action selection (Fig. 7 ).When the computing power of the edge server increases, the training delay of the FL algorithm remains constant since it does not involve auxiliary training. The training delay of EAFL_RANDOM fluctuates randomly, while the delays of ASEAFL_DDPG and EAFL_DQN decrease. However, ASEAFL_DDPG consistently achieves a lower system training delay than EAFL_DQN under the same MEC computing power conditions (Fig. 9 ).When the communication bandwidth between the edge server and devices increases, the training delay of the FL algorithm remains unchanged as it does not involve auxiliary training. The training delay of EAFL_RANDOM fluctuates randomly, while the delays of ASEAFL_DDPG and EAFL_DQN decrease. ASEAFL_DDPG consistently achieves lower system training delay than EAFL_DQN under the same bandwidth conditions (Fig. 10 ).Conclusions The proposed sparse-adaptive FL architecture based on an edge-assisted server mitigates the straggler problem caused by system heterogeneity from two perspectives. By reducing the number of stragglers, the proposed algorithm achieves higher model accuracy compared with the traditional FL algorithm, effectively decreases system training delay, and improves model training efficiency. This framework holds practical value, particularly for FL deployments where aggregation devices are selected based on statistical characteristics, such as model contribution rates. Straggler issues are common in such FL scenarios, and the proposed architecture effectively reduces their occurrence. Simultaneously, devices with high model contribution rates can continue participating in multiple rounds of federated training, lowering the central server’s frequent device selection overhead. Additionally, in resource-constrained FL environments, edge servers can perform more diverse and flexible tasks, such as partial auxiliary training and partitioned model training. -
1. 引言
近些年,人工智能技术越来越多地应用到物联网领域[1]。大量的物联网设备采集数据进行数据分析和机器学习,以满足用户多样化、实时、安全的计算需求[2–4]。随着物联网数据的剧增,设备收集数据到中心服务器进行集中智能处理的模式遇到了显著的时延和通信带宽瓶颈。为解决这一问题,文献[5]提出了一种分布式智能框架—联邦学习(Federated Learning, FL)。联邦学习允许数据在本地设备上训练,而无需将大量的本地数据上传到中心服务器。参与联邦学习的设备从服务器下载模型、完成本地训练后再上传本地模型,由中心服务器对多个上传模型进行聚合。多个轮次的通信与训练迭代后,可获得精度近似于集中式深度学习的模型。联邦学习使得本地数据不外传,而只传输模型参数,极大地减小了传输数据量,满足了用户低时延响应需求,同时在一定程度上保障了用户隐私和原始数据安全。
作为一种分布式协同训练范式,FL存在掉队者[6–8]问题。这是因为分布于复杂网络中的FL设备在计算、存储和通信能力方面存在显著差异,导致模型训练和回传时延存在较大差距。随着通信轮次的增加,更多异构终端由于能量和算力限制、用户意愿变化以及动态信道波动等原因,无法及时完成模型回传而掉队,进而影响模型的整体收敛性能。
由此可见,掉队者问题多源于系统的高度异构性,目前有较多的研究通过降低设备能量开销、缩减异构终端的训练和通信时延到FL预设范围内、用户参与激励机制等,缓解FL中的掉队效应。例如,分层联邦学习[9–11]通过在设备和中央服务器中间搭建边缘聚合服务器,避免频繁的云聚合,以减少设备通信开销;参数量化、知识蒸馏、稀疏化等模型压缩[12–14]策略在保证模型精度的前提下,致力于减少系统冗余通信量。上述研究主要缓解因通信压力导致的设备掉队问题。众所周知,编码计算[15–17]可以缓解分布式计算中的掉队者问题。文献[15]首次给出了线性模型的联邦学习编码计算方案。不同于其它减少掉队设备的方法,中央服务器通过进行冗余梯度计算来弥补设备掉队后缺失的模型参数,但由于设备在训练初始阶段需与中央服务器共享编码数据,增加了系统通信量。
鉴于FL的随机设备选择策略使系统较易受到掉队设备影响,文献[18]提出一种综合考虑带宽容量、处理和存储能力的自适应设备选择方法,以减少FL过程中掉队者的影响。然而不考虑客户端数据统计特征的设备选择方案在非独立同分布(Non-Independent Identically Distribution, Non-IID)数据上的收敛性能不佳。FL的异步聚合策略[19–21]使全局模型更新不再受制于最落后设备的影响,极大地减少了掉队设备的发生,但其在Non-IID数据上的收敛性难以保证。HeteroFL[22]通过降低隐藏层宽度的方法构建了适配于不同设备的不同复杂度的局部模型,但仍然产生一个全局推理模型,该方法首次挑战了现有工作的基本假设。文献[23–25]通过辅助训练减少异构终端的掉队者效应。
综上,现有研究大都从单一方面缓解系统异构性带来的设备掉队问题,本文从联合引进辅助和降低设备开销的角度出发,提出边缘辅助训练的自适应稀疏联邦学习架构。本架构易与基于数据统计特征选择设备,如高模型贡献率设备选择方案的联邦学习结合,提升数据异构下的联邦学习收敛性能。本文考虑了在自适应稀疏联邦学习中参与多轮训练的设备累积能耗、系统训练时延和模型稀疏比例,减少了掉队设备对FL性能的影响。一方面,自适应地调整全局模型的稀疏度降低设备的开销,另一方面,优化边缘辅助服务器的资源分配,最大限度地辅助算力不足或能量受限设备完成训练任务。具体如下:
(1)构建有边缘服务器辅助训练并进行模型自适应稀疏联邦学习的架构,旨在缓解落后设备的能耗压力,并减少系统的模型更新延迟,提升联邦学习系统的效率。
(2)考虑到资源受限设备的计算频率和累积能耗约束,以最小化系统训练时延为目标,构建边缘服务器在计算频率和通信带宽分配上的优化模型,并转化为马尔可夫过程,使用深度强化学习理论求解。
(3)对FL的全局模型进行非结构化剪枝,在模型训练过程中自适应地调整稀疏比例,降低设备的能耗开销。
(4)通过仿真实验探索了深度强化学习算法的超参数选取,与多种基线算法、采用深度Q网络(Deep Q-Network, DQN)的辅助优化算法进行时延对比,证明所提算法可以有效减少系统训练时延,从而降低设备掉队效应;基于优化的辅助训练决策与无辅助无稀疏的联邦学习进行了模型测试精度的对比实验,验证了所提算法通过减少掉队设备提升模型测试精度的有效性。
2. 系统模型和问题形成
2.1 系统模型
如图1所示,该系统由1个中心服务器、Z个相同配置的可信边缘服务器和多个异构设备组成,其中每个边缘服务器范围内有N个设备参与模型聚合。中心服务器是由云服务提供商提供的服务器集群,执行模型聚合、模型稀疏和模型分发任务,其与边缘服务器和设备之间的通信条件良好。图中设备具有较高的模型贡献率,其中部分设备的算力或能量较低,参与M(M≥1)轮本地训练时存在掉队情况,此时可借助边缘服务器完成模型的本地训练。边缘服务器位于更加靠近设备的网络边缘环境中,具有比设备更强的计算和存储性能以及稳定的电源供应,与设备采用正交频分多址接入技术进行通信。边缘服务器与设备之间数据链路短、带宽资源较充足,因此,样本数据能较快地从设备传输到边缘服务器。出于隐私保护考虑,该系统假设边缘服务器与设备处于可信执行环境中,即传输的样本数据和在边缘服务器训练的模型不存在泄露和被攻击的风险。
2.2 问题形成
在联邦学习中,算力和能量较低的设备严重影响系统的聚合时延,因此,本文引入边缘服务器辅助落后设备完成本地训练。辅助训练时延包括样本数据传输时延和样本数据训练时延。本文构建了样本数据传输模型和样本数据训练模型,主要符号描述如表1所示。
表 1 主要符号描述表符号 含义 符号 含义 Z, N 边缘服务器个数,每个边缘服务器范围内被选中参与
聚合的设备数pz,n 边缘服务器z范围下设备n的传输功率 M 联邦学习的总通信轮次 k 由芯片结构决定的有效开关电容 Dn 每个轮次的本地训练样本数据量 tup_zm,z,n 第m个通信轮次内设备n上传样本数据到边缘服务器z的时延 Dω 联邦学习模型参数数据量 tIOTz,n 边缘服务器z范围下设备n的本地训练时延 r 处理单位比特数据所需的CPU周期数 tMECm,z,n 第m个通信轮次内边缘服务器z训练设备n上传的样本数据的时延 sm 第m个通信轮次的模型稀疏率 tup_cm,z,n 第m个通信轮次内边缘服务器z范围下设备n上传模型到聚合服务器的时延 αm,z,n 第m个通信轮次内边缘服务器z范围下设备n是否
接受辅助训练eup_zm,z,n 第m个通信轮次内设备n上传样本数据到边缘服务器z的能耗 rup_zm,z,n 第m个通信轮次内设备n到边缘服务器z的数据传输速率 eIOTz,n 边缘服务器z范围下设备n的本地训练能耗 rup_cm,z,n 第m个通信轮次内边缘服务器z范围下设备n到聚合服务器
的数据传输速率eup_cm,z,n 第m个通信轮次内边缘服务器z范围下设备n上传模型到聚合服务器的能耗 Bm,z,n 第m个通信轮次内边缘服务器z范围下设备n分配到的
单位带宽数目Estartz,n 边缘服务器z范围下设备n的初始能量 Bz 辅助训练系统带宽 Em,z,n 边缘服务器z范围下设备n在第m个通信轮次的总能耗 bz 辅助训练系统的单位带宽数目 Fm,z,n 第m个通信轮次内边缘服务器z用于设备n上样本训练的计算频率 hz,n 设备n与边缘服务器z之间的传输信道增益 fIOTz,n 边缘服务器z范围下设备n的计算频率 δ2 噪声功率 FMECz 边缘服务器z的计算频率 联邦学习的第m个通信轮次中,设备n与其覆盖范围边缘服务器z之间的数据传输速率如式(1)所示
rup\_zm,z,n=Bm,z,nBZbzlog2(1+pz,nhz,nδ2) (1) Bm,z,n为第m个通信轮次中设备n与边缘服务器z之间通信的单位带宽数目,Bz为辅助训练系统的带宽,bz为单位带宽总数。1个设备可分配到多个单位带宽,每个单位带宽只能分配给1个设备使用。pz,n为边缘服务器z覆盖范围下设备n的传输功率,hz,n为设备n与边缘服务器z之间传输信道的增益,δ2为噪声功率。局部模型在各设备上进行多个批次的本地更新,算力或能量不足的设备可将数据量为Dn的样本数据传输到边缘服务器上训练,其数据传输时延如式(2)所示
tup\_zm,z,n=Dnrup\_zm,z,n (2) Dn代表设备n在每个通信轮次内训练的总数据量,单位为bit。将样本数据传输到边缘服务器的过程中,设备n用于数据传输的能耗如式(3)所示
eup\_zm,z,n=tup\_zm,z,n⋅pz,n (3) 边缘服务器z可以同时辅助多个设备完成模型训练,在第m个通信轮次中来自设备n的样本数据在边缘服务器z上的训练时延如式(4)所示
tMECm,z,n=φnFm,z,n (4) 其中,Fm,z,n为第m个通信轮次中设备n的训练样本从边缘服务器z分配到的计算频率,单位为cycles/s。 φn=Dn⋅r, r为处理每比特数据所需的CPU周期数。
若设备n在本地完成模型训练,则其训练时延如式(5)所示
tIOTz,n=φnfIOTz,n (5) 其中,fIOTz,n为边缘服务器z覆盖范围下设备n的计算频率,单位为cycle/s。此时,设备n训练模型耗费的能量如式(6)所示
eIOTz,n=k⋅φ3n⋅(fIOTz,n) (6) 其中,k表示由芯片结构决定的有效开关电容。综合起来,第m个通信轮次中,边缘服务器z覆盖范围内设备n上的样本数据训练时延如式(7)所示
Tm,z,n=αm,z,n⋅(tup\_zm,z,n+tMECm,z,n)+(1−αm,z,n)⋅tIOTz,n (7) αm,z,n=0代表在设备n上对样本数据进行本地训练,αm,z,n=1代表边缘服务器辅助设备n完成模型训练。鉴于稀疏模型的参数量远小于样本数据量,模型上传时延tup_cm,z,n如式(8)所示,可忽略不计。设备n完成本地训练后,用于上传模型所耗费的能量如式(9)所示
tup_cm,z,n=m∏m0(1−sm)Dωrup_cm,z,n (8) eup_cm,z,n=tup_cm,z,n⋅Pz,n (9) 设备n的能耗如式(10)所示
Em,z,n=αm,z,n⋅eup\_zm,z,n+(1−αm,z,n)⋅(eIOTz,n+eup\_cm,z,n) (10) 在通信条件良好的联邦学习系统中,算力不足或能量受限设备的模型训练时延过大,常导致设备掉队情况,因此,本系统对模型训练时延进行优化。基于上述样本数据传输和训练模型,本文优化问题可表示为式(11)
MinBm,z,n,Fm,z,n,αm,z,nM∑m=1Z∑z=1Max{Tm,z,n} (11) N∑n=1Fm,z,n≤FMECz,∀m,∀z (11a) N∑n=1Bm,z,n≤bz,∀m,∀z (11b) M∑m=1Em,z,n≤Estartz,n,∀n,∀z (11c) αm,z,n={0,1},∀m,∀z,∀n (11d) Fm,z,n≥0,∀m,∀z,∀n (11e) Bm,z,n≥0,∀m,∀z,∀n (11f) 容易看出,上述优化模型是一个混合整数规划问题,且第m个通信轮次的辅助训练和资源分配决策受前m–1个通信轮次的决策影响,因此本文采用深度强化学习智能体不断探索环境进行学习,以给出优化的辅助训练和资源分配决策。约束条件式(11a)保证了分配到所有设备的计算频率之和不超过边缘服务器z的计算能力。约束条件式(11b)保证了分配到边缘服务器z范围下所有设备的带宽之和不超过系统带宽。式(11c)约束了设备的累积能耗不超过设备的初始能量。式(11d)约束了样本数据在设备或边缘服务器上完成训练。式(11e)和式(11f)表示系统分配给落后设备的辅助算力和通信带宽非负。
3. 基于边缘辅助训练的自适应稀疏联邦学习优化算法
本文提出联合辅助训练和模型自适应稀疏的联邦学习架构,确保重要设备能连续参与多轮联邦训练,算法1给出了基本流程。本算法综合考虑各设备算力、能量以及联邦模型训练进程,对每个通信轮次内的模型稀疏度进行自适应调整,动态决策辅助训练设备以及辅助资源的分配情况。首先,在边缘服务器z上部署深度强化学习智能体,智能体收集当前设备选择下的总通信轮次M(若M=1则每个通信轮次都更新聚合设备集合,若M>1则选定的设备参与多轮联邦训练)、其覆盖范围内所有参与模型聚合的设备的状态信息并初始化策略网络和价值网络。为最小化系统训练时延,智能体的奖励函数定义如式(14)所示。通过对各设备剩余能量、前期辅助训练情况等进行探索和分析,智能体将学习到最佳的辅助训练决策并下发给边缘服务器和参与聚合的设备。本算法执行M个通信轮次,依据智能体的决策,每个通信轮次内无需辅助的设备通过小批次随机梯度下降进行局部模型更新,算力或能量较低的设备将样本数据传输到边缘服务器上完成训练,再将各本地模型回传到中央服务器。中央服务器在接收到本地模型后进行同步聚合,得到新一轮的全局模型。依据式(20),可计算出当前轮次的模型稀疏度,进而得到非结构化剪枝的掩码矩阵。中央服务器使用掩码矩阵对全局模型进行哈达玛积运算,获得的稀疏模型作为新的全局模型。然后,将稀疏后的全局模型和掩码矩阵同时下发给各设备和边缘服务器,以执行下个轮次的本地模型训练。值得注意的是,本地训练只需完成未剪枝模型参数的更新即可。
表 1 基于边缘辅助训练的自适应稀疏联邦学习输入:初始稀疏比例s0,最终的稀疏比例sM,稀疏频率U,稀
疏速率控制指数c,开始稀疏的轮次m0,初始掩码矩阵Xm0,
边缘服务器z下参与聚合的设备集合Ψz,当前设备选择下总的通
信轮次M,初始模型ω,各设备的初始能量Estartz,n、计算频率
fIOTz,n,传输功率pz,n,边缘服务器的计算频率FMECz、边缘服务
器和设备间的通信带宽Bz,每轮训练数据量Dn,由芯片结构
决定的有效开关电容k输出:联邦学习模型ωM (1) 在边缘服务器z上部署深度强化学习智能体,智能体收集联邦
学习在当前设备选择下的总通信轮次M、其覆盖范围内所有参与
模型聚合的设备的状态信息并初始化策略网络和价值网络,智能
体的奖励函数为式(14),通过不断地与环境交互,智能体将学习
到最佳的辅助训练决策(2) 智能体下发M个通信轮次的辅助训练决策,包括辅助训练标
记αm,z,n、传输带宽Bm,z,n和CPU频率Fm,z,n(3) For m=1 to M do For n=1 to N do (并行) IF αm,z,n==1 设备n依据传输带宽Bm,z,n上传样本数据到边缘服务 器,边缘服务器依据分配到的算力Fm,z,n完成辅助训
练,模型训练更新依据式(21)边缘服务器上传辅助训练模型ωn到聚合服务器 ELSE 设备n完成本地训练,模型更新依据式(21) 设备n上传本地训练模型ωn到聚合服务器 End For (4) 执行全局模型聚合ωm+1=∑Nn=1DnDωmn (5) 依据式(20)计算全局模型稀疏度sm,然后根据稀疏度sm计
算全局模型的掩码矩阵Xm(6) 全局模型和掩码矩阵进行哈达玛积运算ωm+=ωm+1⊙Xm,
获得非结构化剪枝模型ωm+1作为新的全局模型(7) 将全局稀疏模型ωm+1和掩码矩阵Xm下发给参与训练的设
备和边缘服务器End For 本文所提架构和算法稳定高效且易于部署实现。边缘服务器上的强化学习智能体利用设备电量、计算频率等简单易得的基本信息,以最小化系统训练时延为目标探索并学习设备参与M轮联邦训练的最优辅助训练决策,然后使用该决策进行M轮稀疏联邦学习。由于强化学习决策先于联邦学习得出,实际执行联邦学习的时间复杂度不受强化学习影响,并且当M>1时,设备连续参与多轮联邦训练,减小了系统用于设备选择的额外开销。边缘服务器或设备与中央服务器之间传输的稀疏模型自适应变化,这在一定程度上提升了模型参数的安全性。
3.1 边缘辅助训练
本文在边缘服务器上部署深度强化学习智能体,对于需要边缘服务器辅助训练的设备,智能体经过对环境的不断探索给出每台设备所分配到的计算频率和样本传输带宽。为解决辅助训练和资源分配问题,本文将上述模型优化问题转换成马尔可夫决策过程,并采用基于深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)的强化学习算法求解。
3.1.1 问题转换
在每个边缘服务器下部署强化学习智能体,其状态空间、动作空间和奖励函数定义如下。
(1)状态空间:在第m个通信轮次,智能体的状态包含所有设备的基本信息、辅助训练标志和当前资源分配情况等。智能体的状态可表示为式(12)
Sm={emn,Bmn,Fmn,flagmn} (12) 其中,n∈{1,2,⋯,N},emn表示在第m个通信轮次设备n的剩余电量,Bmn表示在第m个通信轮次设备n分配到的样本数据传输带宽,Fmn表示在第m个通信轮次设备n从服务器分配到的计算频率,flagmn表示在第m个通信轮次设备n是否接受辅助训练。
(2)动作空间:在第m个通信轮次,智能体的动作包含资源分配决策和辅助训练决策。智能体的动作可表示为式(13)
Am={ΔBmn,ΔFmn,Δflagmn} (13) 其中,n∈{1,2,⋯,N},ΔBmn示在第m个通信轮次设备n分配到的传输带宽变化量,ΔFmn表示在第m个通信轮次设备n从服务器分配到的计算频率变化量,Δflagmn表示在第m个通信轮次设备n的辅助训练标志变化量。
(3)奖励函数:奖励函数的设置无固定标准,好的奖励函数能引导模型更快的收敛。一般而言,奖励函数与优化目标相关。为提升联邦学习的性能,本系统以最小化联邦训练时延为目标,而强化学习以最大化长期累积奖励为目标。因此,智能体的奖励函数定义如式(14)所示
Rm=−Max{Tm,z,n} (14) 3.1.2 基于DDPG的辅助训练和资源分配
DDPG使用深度神经网络表示确定性策略μ(sm,θ),采用确定性策略梯度来更新网络参数,有效应用于连续动作空间的强化学习决策中。如图2所示,DDPG基于价值网络和策略网络架构,为价值网络和策略网络分别引入了目标网络。DDPG的目标是最大化策略目标函数J(θ),同时最小化价值网络的损失函数L(w)。
如式(15)所示,在DDPG的策略网络中,优化目标J(θ)被定义为累积折扣奖励。J(θ)关于θ的梯度等价于Q值函数关于θ梯度的期望。如式(16)所示,利用小批量梯度上升(Mini-Batch Gradient Ascent, MBGA)算法,从经验池中随机采样获得I个小批量数据作为对期望值的采样估计
J(θ)=Eθ(r0+γr1+γ2r2+⋯) (15) ∇θ∧Jβ(θ)≈1II∑i=1[∇aQ(Smi,ai,w)∇θμ(smi,θ)] (16) DDPG利用基于时序差分 (Temporal-Difference, TD)的均方误差(Mean Squared Error, MSE)作为价值网络的损失函数,如式(17)所示。为最小化价值网络的损失函数,采用小批量梯度下降(Mini-Batch Gradient Descent, MBGD)算法,从经验池中随机采样获得I个小批量数据作为对期望值的采样估计。式(18)给出了价值网络的梯度公式
L(w)=E[(r+γQ′(sm+1,μ′(sm+1,θ′),w′)−Q(sm,a,w))2] (17) ∇wL(w)≈1II∑i=1(ri+γQ′(sm+1i,μ′(sm+1i,θ′),w′)−Q(smi,ai,w))∇wQ(smi,ai,w) (18) 其中,sm+1表示sm的下一状态,Q′和w′分别表示目标策略网络μ′和目标值网络Q′的权重。不同于DQN中每隔n步更新目标网络参数,DDPG的目标网络缓慢更新参数,如式(19)所示
w′←τw+(1−τ)w′θ′←τθ+(1−τ)θ′} (19) DDPG算法中目标值yi=ri+γQ′(sm+1i,μ′(sm+1i,θ′),w′)的计算过程涉及目标策略网络μ′和目标价值网络Q′,这使价值网络在学习时更加稳定,也更易收敛。另外,通过为动作空间添加随机噪声,增加与环境的交互,使得策略的探索更加充分。同时经验回放机制通过将训练得到的数据储存并随机采样以更新模型,降低了样本数据的相关性。
3.2 模型自适应稀疏
通常深度神经网络有相当一部分参数的训练和更新对降低模型误差贡献不大[26],本文算法在辅助训练框架下通过删除神经网络中的冗余连接或神经元对全局模型进行自适应剪枝,以进一步减少设备的开销。
一般对模型进行结构化剪枝简单易行,但会剪掉对模型性能影响较大的权重。因此,本系统在具有良好硬件加速性能的中心服务器上部署非结构化剪枝算法。一方面全局稀疏能够获得比本地稀疏更好的FL性能;另一方面,聚合服务器完成模型稀疏,减少了本地稀疏带给设备的额外计算压力[27]。本文对联邦学习模型进行非结构化剪枝过程如图3所示。
在联邦学习的多个通信轮次内,固定模型稀疏比例不利于精准联邦模型的训练。联邦学习初期模型参数距离最优取值有较大的差距,此时减少模型的稀疏比例有助于模型朝着正确方向收敛;随着多个通信轮次的聚合,模型参数趋于稳定,此时提高模型稀疏比例有助于减少冗余通信和计算。为此,每个通信轮次内,中心服务器将设备和边缘服务器回传的局部模型进行聚合后,自适应地计算当前全局模型的稀疏比例。本文改进了联邦稀疏算法[27]关于自适应稀疏系数的计算过程,如式(20)所示。其中,η为精度控制因子,当模型测试精度满足预设范围时,η取值为1,否则为0。 m为当前通信轮次,SM为最终稀疏比例,S0为初始稀疏比例,M为当前设备选择下的总通信轮次,m0为初次对模型进行稀疏化的通信轮次,U为稀疏频率,指数c控制了稀疏化的速率。精度控制因子η的引入,参考了模型的实时测试精度,使得剪枝操作更贴合去除冗余参数的初衷,有利于模型的正确收敛
sm=η⋅[SM+(S0−SM)(1−U⌊m/U⌋−m0M−m0)c] (20) ωn=ωn−λ⋅∇fn⊙Xm (21) 将模型权重绝对值从小到大排序,获取sm比例位置的权重值。模型权重绝对值小于该值的对应掩码矩阵元素设为0,否则为1,便得到当前全局模型的掩码矩阵Xm。使用掩码矩阵与全局模型进行哈达玛积运算可获得全局稀疏模型。然后中央服务器将全局稀疏模型和对应掩码矩阵下发给参与训练的设备和边缘服务器,进行下一轮的训练。如式(21)所示,局部模型的梯度与该轮的掩码矩阵计算哈达玛乘积,即下一轮训练只需对剩余权重参数进行梯度更新即可。
4. 实验结果分析
4.1 实验设置
本文首先对不同的辅助训练优化算法进行了仿真实验,然后基于优化的辅助训练决策进行自适应稀疏联邦学习,与无辅助无稀疏的联邦学习进行了模型精度的对比实验。代码通过Python 3.8.8实现,并在配有一块NVIDIA GeForce GTX
1650 Ti with Max-Q Design的GPU的电脑上运行。为验证所提算法的性能,本文分别在联邦学习广泛使用的MNIST数据集和CIFAR10数据集上训练具有两层卷积层、两层池化层、两层全连接的CNN网络和ResNet18网络。有关辅助训练、稀疏化和不同数据集上训练任务的相关实验参数参考文献[23–25,27],具体如表2所示。表 2 各参数取值表参数 取值 边缘服务器z下参与聚合的设备数N 5 系统单位带宽数目bz 8 处理单位比特数据所需CPU圈数r 1 000 距离1 m时的参考信道增益h –30 dB 上行链路传输功率pz,n 0.1 W 噪声功率δ2 –100 dBm 由芯片结构决定的有效开关电容k 10−25 边缘服务器z计算频率FMECz 4 GHz 模型初始稀疏系数s0 0 模型最终稀疏系数SM 0.6 稀疏频率U 1 初始稀疏轮次m0 1 当前设备选择下总的通信轮次M 10 稀疏速率控制指数c 2 MNIST数据集上的学习率Lr_mnist 0.001 CIFAR10数据集上的学习率Lr_cifar 0.01 MNIST数据集的批量大小Bs_mnist 32 CIFAR10数据集的批量大小Bs_cifar 64 本地更新批数Local_eps 4 4.2 实验结果和分析
4.2.1 精度分析
本文对比了基于DDPG边缘辅助的自适应稀疏联邦学习(Adaptively Sparse and Edge-Assisted Federated Learning based on DDPG, ASEAFL_DDPG)和经典的无辅助无稀疏联邦学习(FL)所得模型的测试精度。实验设计参与聚合的设备集中存在40%算力较低或能量受限的设备。表3给出了各终端数据服从IID情况下,不同算法的模型测试精度。由表3可知,本文算法在MNIST数据集和CIFAR10数据集上均获得了比FL算法高5%左右的准确率。这是由于在FL的多轮通信中,算力低的设备由于训练时延超出联邦学习最大等待时延而被抛弃,能量低的设备因能量不足以完成本地训练而掉线,导致中央服务器上缺失部分模型参数,影响模型精度。本文算法通过合理地分配辅助训练资源,并自适应地压缩模型冗余信息,减少了设备的训练时延和能耗开销,极大地避免了设备掉队情况,进而保证了模型的收敛性能。
表 3 不同算法模型测试精度对比(%)算法 数据集 通信轮次 1 2 3 4 5 6 7 8 9 10 FL MNIST 62.65 73.41 75.24 76.18 77.00 77.45 78.52 79.18 79.78 80.38 CIFAR10 15.03 47.06 55.79 58.75 59.65 61.1 61.21 62.05 61.83 62.39 ASEAFL_DDPG MNIST 62.65 73.13 77.51 80.04 82.2 82.73 84.17 84.71 85.27 85.65 CIFAR10 15.03 41.01 55.90 60.75 63.23 64.60 65.80 66.33 67.10 67.26 表4给出了Non-IID设置下MNIST数据集上的模型测试精度。首先,将MNIST数据集按照标签排序,每300个样本一组,分为200组数据。通过调整设备的随机采样组数,可实现不同程度的非独立同分布设置。由表4可知,本文算法相比FL算法提升了约18%的模型测试准确率。这是因为当各终端数据服从非独立同分布时,FL算法中掉队设备未回传的模型参数会严重影响全局模型的精度。结合式(20)和表2取值,图4给出了随通信轮次自适应调整的稀疏比例变化曲线。
表 4 Non-IID设置下MNIST数据集上的模型测试精度(%)算法 通信轮次 1 2 3 4 5 6 7 8 9 10 FL 16.25 15.97 19.53 21.76 26.33 32.98 37.62 40.18 42.69 45.84 ASEAFL_DDPG 16.25 25.72 35.02 42.51 48.81 54.31 57.32 60.17 62.75 63.97 4.2.2 时延与奖励值
为最小化系统训练时延,本文基于深度确定性策略梯度算法优化多轮辅助资源分配,并与几种辅助训练基线算法进行了对比。其中,基线算法包括无辅助的联邦学习(FL):所有样本数据均在设备上完成训练;随机边缘辅助的联邦学习(Edge-Assisted Federated Learning based on RANDOM strategy, EAFL_RANDOM):边缘服务器随机选择待辅助设备并随机分配系统带宽和服务器算力;基于DQN的边缘辅助联邦学习(Edge-Assisted Federated Learning based on DQN, EAFL_DQN):采用离散动作空间的DQN算法选择待辅助设备、分配系统带宽和服务器算力,按照马尔可夫转换过程其动作空间取值为5 832。本文首先通过大量实验优化了基于DDPG的辅助训练和资源分配方案中的最优超参数,如折扣系数、策略网络的学习率和价值网络的学习率。
本文算法在不同折扣系数γ下的收敛曲线如图5所示。折扣系数γ在计算目标值yi=ri+γQ′(sm+1i,μ′(sm+1i,θ′),w′)时引入。一般而言,折扣系数γ越趋近于1,优化目标越注重长期累积收益。如图5所示,对比了γ为0.7,0.8和0.9时的奖励值曲线,当训练回合>350时,γ为0.9的奖励函数收敛值更加稳定。图6给出了策略网络学习率lr_a和价值网络学习率lr_c不同取值时的损失值曲线。如图6所示,当lr_a为0.001,lr_c为0.02时,损失函数随训练回合的增加下降明显,并于训练回合达到100时趋于平稳;当训练回合大于150时,4条曲线均收敛,但lr_a为0.001,lr_c为0.02时的损失值曲线更加稳定。
图7给出了不同算法的奖励值曲线。由图7可知,FL的奖励值恒定,EAFL_RANDOM的奖励值随机变化,DDPG和DQN具有较强的学习和决策能力,当训练回合>120时,ASEAFL_DDPG的奖励值曲线率先趋于平稳,而在同样的奖励函数设置下EAFL_DQN的奖励值曲线收敛较慢,并且低于所提算法曲线。这主要是因为连续动作空间上的决策更加精准,探索机制拓宽了智能体对动作的选取。
部署于设备终端的各类推理、分类、识别任务在不同数据集上训练的样本数据量存在较大差异。图8给出了所提算法在不同训练数据量下的奖励值变化曲线。如图8所示,奖励值随训练数据量的增大而减小,这是因为系统训练时延随训练数据量的增大而增大,而奖励函数与系统训练时延负相关。当训练回合>200后,奖励值曲线趋于收敛状态,但极少数出现的波动值随训练数据量增长而变大。这是因为一方面,探索机制增强了系统在动作空间的可选择性;另一方面,当动作策略对应的资源分配不合理时,难以辅助落后设备完成局部模型训练,此时较大的训练数据量将导致联邦学习出现较大的时延,因而奖励值曲线波动值变大。
鉴于各算法在训练回合达到400后趋于收敛,本文使用第400次学习的结果作为各算法的辅助训练决策。在不同MEC算力下,各算法的系统训练时延如图9所示。由图9可知,当边缘服务器的算力增加时,FL算法因不接受辅助训练而无训练时延的变化,EAFL_RANDOM算法的训练时延随机变化,ASEAFL_DDPG和EAFL_DQN算法的训练时延减小。但在相同的MEC算力下,ASEAFL_DDPG总能得到比EAFL_DQN算法更小的系统训练时延。
不同辅助带宽下各算法的系统训练时延如图10所示。由图10可知,当边缘服务器和设备间通信带宽增大时,FL算法因不接受辅助训练而无训练时延的变化,EAFL_RANDOM算法的训练时延随机变化,ASEAFL_DDPG和EAFL_DQN算法的训练时延减小。但在相同的通信带宽下,ASEAFL_DDPG总能得到比EAFL_DQN算法更小的系统训练时延。
总之,所提算法合理地分配辅助资源,并对模型进行自适应剪枝,降低了设备开销,减少了掉队设备,因此获得了模型精度和系统训练时延两方面性能的提升。另外,该框架使得联邦学习的设备选择不再受制于设备资源情况,而可以选择具有不同数据统计特征的设备终端,这有利于提升模型在非独立同分布数据上的精度。
5. 结束语
本文构建了联合边缘辅助训练和模型自适应稀疏的联邦学习架构。首先,建立了边缘辅助训练的资源分配优化模型并使用深度强化学习理论求解。其次,在联邦系统中,联合优化的资源分配决策和全局自适应稀疏算法,提高了模型精度并降低了系统时延。具体来说,边缘服务器的引入减小了联邦学习系统时延,给予掉队设备继续参与联邦训练的机会,保证了模型的精度;全局模型自适应稀疏算法进一步减少了设备的开销,避免了设备掉队现象。本文框架尤其适合部署于依据非系统异构性标准选择聚合设备(如高模型贡献率或随机设备选择策略等)的联邦学习中。这是因为上述联邦学习场景存在较普遍的掉队者问题,而本文架构有效减少了设备掉队情况,同时允许高模型贡献率的设备连续参与多轮联邦训练,减少了中央服务器频繁的设备选择开销。本文所提联邦学习架构具有较实际的应用价值,进一步,在资源受限的联邦学习中边缘服务器可以执行如部分辅助训练、分割模型训练等更多样灵活的模型更新任务。
-
表 1 主要符号描述表
符号 含义 符号 含义 Z, N 边缘服务器个数,每个边缘服务器范围内被选中参与
聚合的设备数pz,n 边缘服务器z范围下设备n的传输功率 M 联邦学习的总通信轮次 k 由芯片结构决定的有效开关电容 Dn 每个轮次的本地训练样本数据量 tup_zm,z,n 第m个通信轮次内设备n上传样本数据到边缘服务器z的时延 Dω 联邦学习模型参数数据量 tIOTz,n 边缘服务器z范围下设备n的本地训练时延 r 处理单位比特数据所需的CPU周期数 tMECm,z,n 第m个通信轮次内边缘服务器z训练设备n上传的样本数据的时延 sm 第m个通信轮次的模型稀疏率 tup_cm,z,n 第m个通信轮次内边缘服务器z范围下设备n上传模型到聚合服务器的时延 αm,z,n 第m个通信轮次内边缘服务器z范围下设备n是否
接受辅助训练eup_zm,z,n 第m个通信轮次内设备n上传样本数据到边缘服务器z的能耗 rup_zm,z,n 第m个通信轮次内设备n到边缘服务器z的数据传输速率 eIOTz,n 边缘服务器z范围下设备n的本地训练能耗 rup_cm,z,n 第m个通信轮次内边缘服务器z范围下设备n到聚合服务器
的数据传输速率eup_cm,z,n 第m个通信轮次内边缘服务器z范围下设备n上传模型到聚合服务器的能耗 Bm,z,n 第m个通信轮次内边缘服务器z范围下设备n分配到的
单位带宽数目Estartz,n 边缘服务器z范围下设备n的初始能量 Bz 辅助训练系统带宽 Em,z,n 边缘服务器z范围下设备n在第m个通信轮次的总能耗 bz 辅助训练系统的单位带宽数目 Fm,z,n 第m个通信轮次内边缘服务器z用于设备n上样本训练的计算频率 hz,n 设备n与边缘服务器z之间的传输信道增益 fIOTz,n 边缘服务器z范围下设备n的计算频率 δ2 噪声功率 FMECz 边缘服务器z的计算频率 1 基于边缘辅助训练的自适应稀疏联邦学习
输入:初始稀疏比例s0,最终的稀疏比例sM,稀疏频率U,稀
疏速率控制指数c,开始稀疏的轮次m0,初始掩码矩阵Xm0,
边缘服务器z下参与聚合的设备集合Ψz,当前设备选择下总的通
信轮次M,初始模型ω,各设备的初始能量Estartz,n、计算频率
fIOTz,n,传输功率pz,n,边缘服务器的计算频率FMECz、边缘服务
器和设备间的通信带宽Bz,每轮训练数据量Dn,由芯片结构
决定的有效开关电容k输出:联邦学习模型ωM (1) 在边缘服务器z上部署深度强化学习智能体,智能体收集联邦
学习在当前设备选择下的总通信轮次M、其覆盖范围内所有参与
模型聚合的设备的状态信息并初始化策略网络和价值网络,智能
体的奖励函数为式(14),通过不断地与环境交互,智能体将学习
到最佳的辅助训练决策(2) 智能体下发M个通信轮次的辅助训练决策,包括辅助训练标
记αm,z,n、传输带宽Bm,z,n和CPU频率Fm,z,n(3) For m=1 to M do For n=1 to N do (并行) IF αm,z,n==1 设备n依据传输带宽Bm,z,n上传样本数据到边缘服务 器,边缘服务器依据分配到的算力Fm,z,n完成辅助训
练,模型训练更新依据式(21)边缘服务器上传辅助训练模型ωn到聚合服务器 ELSE 设备n完成本地训练,模型更新依据式(21) 设备n上传本地训练模型ωn到聚合服务器 End For (4) 执行全局模型聚合ωm+1=∑Nn=1DnDωmn (5) 依据式(20)计算全局模型稀疏度sm,然后根据稀疏度sm计
算全局模型的掩码矩阵Xm(6) 全局模型和掩码矩阵进行哈达玛积运算ωm+=ωm+1⊙Xm,
获得非结构化剪枝模型ωm+1作为新的全局模型(7) 将全局稀疏模型ωm+1和掩码矩阵Xm下发给参与训练的设
备和边缘服务器End For 表 2 各参数取值表
参数 取值 边缘服务器z下参与聚合的设备数N 5 系统单位带宽数目bz 8 处理单位比特数据所需CPU圈数r 1 000 距离1 m时的参考信道增益h –30 dB 上行链路传输功率pz,n 0.1 W 噪声功率δ2 –100 dBm 由芯片结构决定的有效开关电容k 10−25 边缘服务器z计算频率FMECz 4 GHz 模型初始稀疏系数s0 0 模型最终稀疏系数SM 0.6 稀疏频率U 1 初始稀疏轮次m0 1 当前设备选择下总的通信轮次M 10 稀疏速率控制指数c 2 MNIST数据集上的学习率Lr_mnist 0.001 CIFAR10数据集上的学习率Lr_cifar 0.01 MNIST数据集的批量大小Bs_mnist 32 CIFAR10数据集的批量大小Bs_cifar 64 本地更新批数Local_eps 4 表 3 不同算法模型测试精度对比(%)
算法 数据集 通信轮次 1 2 3 4 5 6 7 8 9 10 FL MNIST 62.65 73.41 75.24 76.18 77.00 77.45 78.52 79.18 79.78 80.38 CIFAR10 15.03 47.06 55.79 58.75 59.65 61.1 61.21 62.05 61.83 62.39 ASEAFL_DDPG MNIST 62.65 73.13 77.51 80.04 82.2 82.73 84.17 84.71 85.27 85.65 CIFAR10 15.03 41.01 55.90 60.75 63.23 64.60 65.80 66.33 67.10 67.26 表 4 Non-IID设置下MNIST数据集上的模型测试精度(%)
算法 通信轮次 1 2 3 4 5 6 7 8 9 10 FL 16.25 15.97 19.53 21.76 26.33 32.98 37.62 40.18 42.69 45.84 ASEAFL_DDPG 16.25 25.72 35.02 42.51 48.81 54.31 57.32 60.17 62.75 63.97 -
[1] CHENG Nan, WU Shen, WANG Xiucheng, et al. AI for UAV-assisted IoT applications: A comprehensive review[J]. IEEE Internet of Things Journal, 2023, 10(16): 14438–14461. doi: 10.1109/JIOT.2023.3268316. [2] ALSELEK M, ALCARAZ-CALERO J M, and WANG Qi. Dynamic AI-IoT: Enabling updatable AI models in ultralow-power 5G IoT devices[J]. IEEE Internet of Things Journal, 2024, 11(8): 14192–14205. doi: 10.1109/JIOT.2023.3340858. [3] KALAKOTI R, BAHSI H, and NÕMM S. Improving IoT security with explainable AI: Quantitative evaluation of explainability for IoT botnet detection[J]. IEEE Internet of Things Journal, 2024, 11(10): 18237–18254. doi: 10.1109/JIOT.2024.3360626. [4] KUMAR R, JAVEED D, ALJUHANI A, et al. Blockchain-based authentication and explainable AI for securing consumer IoT applications[J]. IEEE Transactions on Consumer Electronics, 2024, 70(1): 1145–1154. doi: 10.1109/TCE.2023.3320157. [5] MCMAHAN B, MOORE E, RAMAGE D, et al. Communication-efficient learning of deep networks from decentralized data[C]. The 20th International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, USA, 2017: 1273–1282. [6] LI Xingyu, QU Zhe, TANG Bo, et al. Stragglers are not disasters: A hybrid federated learning framework with delayed gradients[C]. The 21st IEEE International Conference on Machine Learning and Applications (ICMLA), Nassau, Bahamas, 2022: 727–732. doi: 10.1109/ICMLA55696.2022.00121. [7] LIANG Kai and WU Youlong. Two-layer coded gradient aggregation with straggling communication links[C]. 2020 IEEE Information Theory Workshop (ITW), Riva del Garda, Italy, 2021: 1–5. doi: 10.1109/ITW46852.2021.9457626. [8] LANG N, COHEN A, and SHLEZINGER N. Stragglers-aware low-latency synchronous federated learning via layer-wise model updates[J]. arXiv: 2403.18375, 2024. doi: 10.48550/arXiv.2403.18375. [9] MHAISEN N, ABDELLATIF A A, MOHAMED A, et al. Optimal user-edge assignment in hierarchical federated learning based on statistical properties and network topology constraints[J]. IEEE Transactions on Network Science and Engineering, 2022, 9(1): 55–66. doi: 10.1109/TNSE.2021.3053588. [10] FENG Chenyuan, YANG H H, HU Deshun, et al. Mobility-aware cluster federated learning in hierarchical wireless networks[J]. IEEE Transactions on Wireless Communications, 2022, 21(10): 8441–8458. doi: 10.1109/TWC.2022.3166386. [11] LIM W Y B, NG J S, XIONG Zehui, et al. Decentralized edge intelligence: A dynamic resource allocation framework for hierarchical federated learning[J]. IEEE Transactions on Parallel and Distributed Systems, 2022, 33(3): 536–550. doi: 10.1109/TPDS.2021.3096076. [12] KONG J M and SOUSA E. Adaptive ratio-based-threshold gradient sparsification scheme for federated learning[C]. 2023 International Symposium on Networks, Computers and Communications (ISNCC), Doha, Qatar, 2023: 1–5. doi: 10.1109/ISNCC58260.2023.10323644. [13] SU Junshen, WANG Xijun, CHEN Xiang, et al. Joint sparsification and quantization for wireless federated learning under communication constraints[C]. 2023 IEEE 24th International Workshop on Signal Processing Advances in Wireless Communications (SPAWC), Shanghai, China, 2023: 401–405. doi: 10.1109/SPAWC53906.2023.10304559. [14] PARK S and CHOI W. Regulated subspace projection based local model update compression for communication-efficient federated learning[J]. IEEE Journal on Selected Areas in Communications, 2023, 41(4): 964–976. doi: 10.1109/JSAC.2023.3242722. [15] DHAKAL S, PRAKASH S, YONA Y, et al. Coded federated learning[C]. 2019 IEEE Globecom Workshops (GC Wkshps), Waikoloa, USA, 2019: 1–6. doi: 10.1109/GCWkshps45667.2019.9024521. [16] PRAKASH S, DHAKAL S, AKDENIZ M R, et al. Coded computing for low-latency federated learning over wireless edge networks[J]. IEEE Journal on Selected Areas in Communications, 2021, 39(1): 233–250. doi: 10.1109/JSAC.2020.3036961. [17] SUN Yuchang, SHAO Jiawei, MAO Yuyi, et al. Stochastic coded federated learning: Theoretical analysis and incentive mechanism design[J]. IEEE Transactions on Wireless Communications, 2024, 23(6): 6623–6638. doi: 10.1109/TWC.2023.3334732. [18] BANERJEE S, VU X S, and BHUYAN M. Optimized and adaptive federated learning for straggler-resilient device selection[C]. 2022 International Joint Conference on Neural Networks (IJCNN), Padua, Italy, 2022: 1–9. doi: 10.1109/IJCNN55064.2022.9892777. [19] HUANG Peishan, LI Dong, and YAN Zhigang. Wireless federated learning with asynchronous and quantized updates[J]. IEEE Communications Letters, 2023, 27(9): 2393–2397. doi: 10.1109/LCOMM.2023.3294606. [20] YAN Xinru, MIAO Yinbin, LI Xinghua, et al. Privacy-preserving asynchronous federated learning framework in distributed IoT[J]. IEEE Internet of Things Journal, 2023, 10(15): 13281–13291. doi: 10.1109/JIOT.2023.3262546. [21] YANG Zhigang, ZHANG Xuhua, WU Dapeng, et al. Efficient asynchronous federated learning research in the internet of vehicles[J]. IEEE Internet of Things Journal, 2023, 10(9): 7737–7748. doi: 10.1109/JIOT.2022.3230412. [22] DIAO E, DING Jie, and TAROKH V. HeteroFL: Computation and communication efficient federated learning for heterogeneous clients[C]. 9th International Conference on Learning Representations, 2021. [23] AL-ABIAD M S, HASSAN M Z, and HOSSAIN M J. Energy-efficient resource allocation for federated learning in NOMA-enabled and relay-assisted internet of things networks[J]. IEEE Internet of Things Journal, 2022, 9(24): 24736–24753. doi: 10.1109/JIOT.2022.3194546. [24] TANG Jianhang, NIE Jiangtian, ZHANG Yang, et al. Multi-UAV-assisted federated learning for energy-aware distributed edge training[J]. IEEE Transactions on Network and Service Management, 2024, 21(1): 280–294. doi: 10.1109/TNSM.2023.3298220. [25] LI Yuchen, LIANG Weifa, LI Jing, et al. Energy-aware, device-to-device assisted federated learning in edge computing[J]. IEEE Transactions on Parallel and Distributed Systems, 2023, 34(7): 2138–2154. doi: 10.1109/TPDS.2023.3277423. [26] 高晗, 田育龙, 许封元, 等. 深度学习模型压缩与加速综述[J]. 软件学报, 2021, 32(1): 68–92. doi: 10.13328/j.cnki.jos.006096.GAO Han, TIAN Yulong, XU Fengyuan, et al. Survey of deep learning model compression and acceleration[J]. Journal of Software, 2021, 32(1): 68–92. doi: 10.13328/j.cnki.jos.006096. [27] STRIPELIS D, GUPTA U, VER STEEG G, et al. Federated progressive sparsification (purge, merge, tune)+[J]. arXiv: 2204.12430, 2022. doi: 10.48550/arXiv.2204.12430. -