A Virtual Network Function Migration Algorithm Based on Federated Learning Prediction of Resource Requirements
-
摘要: 针对网络切片场景下时变网络流量引起的虚拟网络功能(VNF)迁移问题,该文提出一种基于联邦学习的双向门控循环单元(FedBi-GRU)资源需求预测的VNF迁移算法。该算法首先建立系统能耗和负载均衡的VNF迁移模型,然后提出一种基于分布式联邦学习框架协作训练预测模型,并在此框架的基础上设计基于在线训练的双向门控循环单元(Bi-GRU)算法预测VNF的资源需求。基于资源预测结果,联合系统能耗优化和负载均衡,提出一种分布式近端策略优化(DPPO)的迁移算法提前制定VNF迁移策略。仿真结果表明,两种算法的结合有效地降低了网络系统能耗并保证负载均衡。Abstract: In order to solve the problem of virtual network function migration caused by time-varying network traffic in network slicing, a Virtual Network Function (VNF) migration algorithm based on Federated learning with Bidirectional Gate Recurrent Units (FedBi-GRU) prediction of resource requirements is proposed. Firstly, a VNF migration model of system energy consumption and load balancing is established, and then a framework based on distributed federated learning is introduced to cooperatively train the predictive model. Secondly, considering predicting the resource requirements of VNF, an online training Bidirectional Gate Recurrent Unit (Bi-GRU) algorithm on the basis of the framework is designed. Finally, on the grounds of the resource prediction results, system energy consumption optimization and load balancing are combined, and a Distributed Proximal Policy Optimization (DPPO) migration algorithm is proposed to formulate a VNF migration strategy in advance. The simulation results show that the combination of the two algorithms reduces effectively the energy consumption of the network system and ensures the load balance.
-
Key words:
- Virtual Network Function(VNF) /
- Prediction /
- Migration /
- Deep reinforcement learning
-
1. 引言
网络功能虚拟化技术(Network Function Virtualization, NFV)可将传统网络硬件资源转化为虚拟网络资源,并在通用服务器上实例化为虚拟网络功能(Virtual Network Function, VNF)处理网络业务,这实现了网络的灵活与高效运用[1]。在NFV中,网络服务请求由一系列按既定顺序排列的VNF处理,这样有序排列的VNF集合称为服务功能链(Service Function Chain, SFC)[2]。由于网络流量的动态变化,VNF的资源需求与底层物理资源的可用性不匹配导致网络性能下降,或使某些物理节点的资源利用率较低增加多余能耗开销,利用VNF迁移技术可以保证网络性能和降低网络系统能耗。
现有许多文献已经研究了VNF的迁移问题,文献[3]研究如何优化SFC重配置以响应不断变化的网络流量需求和资源限制,并基于实时的网络信息提出一种基于禁忌搜索的VNF迁移算法,然而文献[3]缺少对VNF资源需求预测使VNF迁移存在“滞后”的时延问题。文献[4]提出一种基于在线深度信念网络的VNF资源需求预测方法,其根据预测结果提前迁移资源使用过载物理节点上的VNF保证网络性能,文献[5]提出一种基于图神经网络的VNF资源需求预测算法,并基于预测结果优先制定一种基于深度Dyna-Q学习的迁移策略,但是文献[4,5]所提多任务集中预测方法不仅会增加数据集中节点的数据训练负担从而降低数据训练效率,也会由于上传数据至集中节点训练造成数据泄露,甚至可能由于集中节点的内存不足以满足大规模数据训练要求导致数据无法训练。
综上所述,本文针对VNF迁移“滞后”带来的时延问题,引入一种双向门控循环单元(Bidirectional Gated Recurrent Unit, Bi-GRU)进行VNF资源需求预测,为缓解现有集中式机器学习存在的数据训练负担问题,本文引入联邦学习(Federated Learning, FL)框架辅助Bi-GRU模型训练,并基于此提出一种联邦双向门控循环单元(FedBi-GRU)的VNF资源需求预测算法,使各个预测模型在各自物理节点上训练从而缓解集中式节点训练负担和避免数据泄露风险。基于预测结果,以最小化VNF迁移后系统能耗为目标制定VNF迁移策略,又考虑到最小化能耗极有可能使网络资源使用不均衡,使系统难以容忍未来动态流量变化造成频繁迁移的问题,本文又引入负载均衡使系统更加稳定。由于网络流量的动态变化导致VNF的迁移决策问题多维且复杂,考虑到深度强化学习在高维复杂的空间中获得较好的优化效果,本文引入一种分布式近端策略优化(Distributed Proximal Policy Optimization, DPPO)的深度强化学习算法为VNF迁移做决策。
2. 系统模型
2.1 网络场景
本文考虑5G云无线接入网的上行链路切片网络场景,该场景被分为物理层、虚拟化层及网络切片层,网络切片层由一系列VNF按既定顺序排列而成的SFC集合组成,用来处理网络业务。如图1所示,通过收集网络资源使用数据建立VNF的资源需求预测模型,预知底层资源
ηR 使用超过阈值上限ηupR 或低于阈值下限ηdR 的物理节点提前制定VNF迁移计划,实现VNF迁移后系统能耗优化和负载均衡,其中R=1,2,3 ,表示网络资源类型。2.2 网络模型
2.2.1 物理网络
本文将物理层定义为全连接无向图
GP=(NP,LP) ,NP 为底层物理节点集合,LP 为底层物理链路集合,令Cn 和Mn 分别表示节点n 拥有的CPU和存储资源,lnm 表示物理节点n 和m 之间的物理链路,物理链路lnm 带宽容量为Bn,m 。2.2.2 SFC
设网络切片层中有一组SFC集合,表示为
F={fi|i=1,2,⋯,I} 。第i 条SFC链抽象为有向图GVi=(NVi,LVi) ,NVi 为第i 条SFC上所有VNF集合,LVi 为第i 条SFC上所有虚拟链路集合。第i 条SFC上第j 个VNF的CPU资源需求为CVi,j ,存储资源需求为MVi,j ,SFCi 上VNFj 和VNFk 之间的虚拟链路lVjk 带宽需求为BVj,k 。设xi,jn 为VNFj 是否映射到物理节点n 的二进制变量,xi,jn=1 表示VNFj 映射到物理节点n 上,yj,kn,m 表示虚拟链路lVjk 是否映射到物理链路lnm 上,yj,kn,m=1 表示lVjk 映射到lnm 上。2.2.3 网络能耗模型
本节研究如何优化VNF迁移后的系统能耗,系统能耗主要来自底层物理节点能耗,物理节点能耗包括其运行状态能耗和状态切换能耗。运行状态能耗主要为物理节点能够运行的基础能耗和负载能耗,物理节点的负载能耗与其上的CPU资源利用率成正比[6],状态切换能耗主要由物理节点开断电产生[7]。因此物理节点
n 的CPU资源利用率表示为ucpun=∑i∈F∑j∈NVixi,jn(t)⋅Cvi,j(t)Cn (1) 设
Pbn 为物理节点n 的运行基础能耗,Pcpun 为物理节点n 的CPU资源被占满能耗,则物理节点n 的运行能耗[8]表示为Pacn(t)=Zn(t)⋅Pbn+ucpun⋅pcpun (2) Zn(t) 表示物理节点n 是否开启的二进制变量,只要有VNF映射到物理节点n 上,物理节点n 保持开启状态,此时Zn(t)=1 ,否则该物理节点进入休眠状态,Zn(t)=0 。由于物理节点的休眠能耗远远小于其基础运行能耗,所以物理节点的休眠能耗可以忽略不计[9]。VNF迁移会使物理节点工作状态发生变化产生状态切换能耗[10],设Sn(t) 表示物理节点n 工作状态发生变化的二进制变量,Sn(t)=1 表示物理节点n 工作状态发生变化,Sn(t) 可以表示为Sn(t)={0,Zn(t)=Zn(t−1)1,Zn(t)≠Zn(t−1) (3) 因此,当VNF从物理节点
n 迁移到物理节点m 后,网络系统能耗可以表示为Ptot(t)=∑m∈NPPacm(t)+∑m∈NPSm(t)⋅Psm(t) (4) 其中,
Psm 为节点m 的切换能耗。2.2.4 负载均衡模型
均衡的网络负载让网络系统更能容忍网络流量的动态变化[11],本文引入负载均衡来避免网络流量动态变化造成物理节点上VNF频繁迁移,物理节点的负载均衡能力由物理节点的网络资源方差衡量,网络资源方差越小表明网络系统的负载均衡能力越强[12]。VNF
j 由物理节点n 迁移到物理节点m ,会引起物理节点m 的负载变化,这种变化是由节点m 的CPU资源和存储资源消耗引起的,此时物理节点m 的负载表示为Lcpum(t)=∑j∈NVixi,jm⋅Cvi,j(t) (5) Lmemm(t)=∑j∈NVixi,jm⋅Mvi,j(t) (6) 其中,
Lcpum 和Lmemm 分别表示物理节点m 的CPU和存储资源负载,则物理节点m 的CPU、存储资源负载的均值分别表示为Lcpuave(t)=∑m∈NPLcpum(t)/Lcpum(t)CmCm|NP| (7) Lmemave(t)=∑m∈NPLmemm(t)/Lmemm(t)MmMm|NP| (8) 本文用物理节点的网络资源方差来衡量网络系统的负载均衡能力,则物理节点
m 的CPU和存储资源方差可分别表示为Lcpuvar(t)=∑m∈NP[Lcpum(t)−Lcpuave(t)]2|NP| (9) Lmemvar(t)=∑m∈NP[Lmemm(t)−Lmemave(t)]2|NP| (10) 为确保CPU和存储资源在衡量网络系统负载均衡时单位统一,本文使用负载消耗的百分比作为计量单位。因此,网络系统的负载均衡能力
Ltotal(t) 可由CPU和存储资源方差的加权和得到,其表示为Ltot(t)=ω1Lcpuvar(t)+ω2Lmemvar(t) (11) 其中,
ω1 和ω2 分别表示CPU和存储资源对网络系统负载均衡影响的权重因子,本文假设两种资源对网络系统的影响相同,设ω1=ω2=0.5 。2.3 优化目标
综上所述,本文的优化目标为最小化VNF迁移过后的网络系统能耗和资源方差,由于系统能耗数量级远远大于资源方差,故对联合优化目标进行归一化,具体表示为
minx,y,Z αPtotPmax+βLtotLmaxs.t.C1:∑n∈NPxi,jn(t)=1,∀i∈F,∀j∈NViC2:∑lnm∈LPyj,kn,m(t)=1,∀i∈F,∀lvjk∈LViC3:yj,kn,m(t)≤xi,jn(t),∀i∈F,∀j∈NVi,∀n∈NPC4:yj,kn,m(t)≤xi,km(t),∀i∈F,∀k∈NVi,∀m∈NPC5:∑i∈F∑j∈NVixi,jm(t)⋅CVi,j(t)≤ηup1⋅Cm,∀m∈NPC6:∑i∈F∑j∈NVixi,jm(t)⋅MVi,j(t)≤ηup2⋅Mm,∀m∈NPC7:∑i∈F∑lvjk∈LViyj,kn,m(t)⋅BVj,k(t)≤ηup3⋅Bn,m,∀j,k∈NVi,∀lnm∈LPC8:∑i∈F∑j∈NVixi,jm(t)≥1,则zm(t)=1,否则zm(t)=0,∀m∈NPC9:∑i∈F∑j∈NVi∑n,m∈NPyj,kn,m(t)⋅T(n,m)+∑i∈F∑j∈NVi∑n∈NPxi,jn(t)⋅Ti,jn≤Ttot} (12) 其中,
α 和β 为调节优化目标的权重因子,本文取α=β=0.5 ,Pmax 为所有物理节点开启能耗之和,Lmax 为网络系统的最大资源方差,η 为网络资源使用阈值,C1确保每个VNF只能映射到1个物理节点上,C2确保相邻VNF之间的虚拟链路只能映射到1条物理链路上,C3和C4确保虚拟链路重新映射时,其上的VNF必须映射到虚拟链路所在物理链路对应的物理节点上,C5~C7分别表示物理节点的CPU、存储和物理链路的带宽资源限制,C8表示物理节点有VNF映射时,该物理节点处于开启状态,C9表示SFC的端到端时延限制,T(n,m) 为物理链路lnm 的传输时延,Ti,jn 为节点n 的资源处理时延,Ttot 为SFC最大端到端时延。3. 基于FedBi-GRU的VNF资源需求预测算法
3.1 基于在线训练的Bi-GRU预测算法
本文首先利用Bi-GRU算法对VNF的资源需求进行预测以便制定后续迁移计划,Bi-GRU是一种双向的门控循环单元(Gated Recurrent Unit, GRU),其计算原理与GRU相同[13]。
基于Bi-GRU的资源预测算法过程为:首先,物理节点采集其上VNF的CPU、存储及带宽资源历史数据。对于SFC
i 上的VNFj ,其资源需求特征可以表示为rj={rCj,rMj,rBj} ,其中rCj,rMj,rBj 分别为VNFj 的CPU、存储、带宽资源特征。其次,将VNFj 资源需求特征rj 输入Bi-GRU中训练和进行资源需求预测。然而由于网络流量实时变化,基于VNF历史资源使用数据训练得到的Bi-GRU模型对VNF未来网络资源需求的预测可能存在较大误差,因此本文引入一种在线训练的方法来微调Bi-GRU模型,该预测方法结合离线训练和在线训练联合优化Bi-GRU模型。
离线训练阶段利用大量VNF网络资源使用历史数据进行Bi-GRU模型的预训练,通过采集VNF
j 的资源历史使用数据可得一系列数据特征样本集合o={o1,o2,⋯,os,⋯} ,其中os 为VNFj 的第s 个特征样本集,os={rj(t),rj(t−1),⋯,rj(t−ε+1)} ,ε 表示特征样本集os 的长度。在线训练阶段将离线训练所得模型参数作为训练的初始参数,并采集实时的VNF资源使用数据对Bi-GRU预测模型进行反向微调优化。在线训练样本更新机制采用滑动窗口的方式更新,即每时刻增添新的资源样本特征
rj={rCj,rMj,rBj} ,就删除最旧时刻的资源样本特征,保持滑动窗口长度ε 不变。3.2 联邦多任务训练过程
网络流量流经一条SFC,其上的VNF会存在丰富关联信息,而上述预测方法只针对单个VNF的资源需求预测,这忽略了SFC上VNF之间信息的关联性,致使资源预测模型泛化性不足。由此文献[4,5]针对此问题提出一种集中式多任务模型训练方法,然而这种集中式模型训练方式存在数据泄露风险、数据集中节点数据存在训练负担,甚至会由于集中节点的内存不足以支持大规模数据训练导致数据无法训练。
因此,本文针对上述问题,提出一种基于联邦学习的分布式VNF网络资源需求预测框架—FedBi-GRU,该框架使VNF在各自部署的物理节点上根据本地数据进行Bi-GRU预测模型训练,省去数据上传过程,只需上传模型训练参数,并在SDN控制器处对各个VNF模型参数进行聚合以保证SFC上各个VNF的丰富关联信息,训练过程如下所示:
首先SDN控制器下发初始参数
w0 给SFCi 上的各个VNF,各个VNF结合其本地收集的样本集合Oj 、真实输出值Yj 、隐藏层状态H 及初始参数w0 进行在线Bi-GRU模型训练,随后各个VNF将训练所得参数w1,w2,⋯,wj 上传至SDN控制器进行联邦平均[14]得到全局模型参数ˉw(t) ,ˉw(t) 可表示为ˉw(t)=Ki∑j=0Djwj(t)D (13) 其中,
Ki 为SFCi 上VNF的个数,Dj 为第j 个VNF训练样本数量,D 为SFCi 上所有VNF的训练样本总数。随后SDN控制器将全局模型参数ˉw(t) 下发给SFCi 上的所有VNF进行本地Bi-GRU模型更新。以VNFj 为例,其本地梯度gj,w 和参数wj(t+1) 更新方式为gj,w=∇1DjDj∑j=1(fj(rj)−yj)2 (14) wj(t+1)=ˉw(t)−λDjDj∑j=1gj,w(t) (15) 其中,
λ 为Bi-GRU模型的学习率。4. 基于DPPO的VNF迁移算法
根据上述FeBi-GRU算法得到VNF资源需求预测结果,计算底层物理节点资源利用率,根据资源使用阈值判定过载或轻载的物理节点并根据优化目标制定迁移计划。因此,本节提出一种基于DPPO的深度强化学习算法求解上述迁移优化目标。该算法首先将上述优化目标转化成马尔可夫决策过程(Markov Decision Process, MDP)模型,其次通过DPPO算法求解该MDP模型得到优化目标函数的近似最优解。
4.1 MDP模型
本文将优化目标转化为离散时间马尔可夫决策过程(Discrete Time Markov Decision Process, DTMDP),DTMDP被定义为一个4元组
(S,A,P,R) ,分别表示状态空间、动作空间、状态转移概率和奖励函数。定义s(t)={ψ(t),ξ(t),C(t),M(t),B(t)}∈S 表示时刻t 的网络系统状态空间,其中ψ(t) 表示物理节点的状态空间,ξ(t) 表示物理链路状态空间,C(t),M(t),B(t) 分别表示VNF的CPU、存储和虚拟链路资源需求状态空间。动作空间A 表示VNF可采取的映射动作集合,在时刻t VNF的映射动作a(t)∈A 。在当前状态s(t)∈S 采取动作a(t)∈A 后,转移到下一时刻状态s(t+1) 的概率,表示为p(s(t+1)|s(t),a(t)) 。系统在状态
s(t) 采取动作a(t) 会生成动作映射策略π ,如果动作映射策略π 满足式(12)的约束,则根据优化目标可得瞬时奖励r(t) ,表示为r(t)=−αPtotPmax−βLtotLmax (16) 若不满足式(12)的约束,即时奖励
r(t)=−1/1εε ,其中ε 为惩罚因子,其为无穷小的正实数。系统通过值函数Vπ 来评估当前时刻VNF映射策略π 的好坏,Vπ 表示为Vπ(s(t),a(t))=E[r(t)+γvVπ(s(t+1),a(t+1))⋅|s(t),a(t)] (17) 其中,
γv∈[0,1] 为折扣因子,表示未来的奖励对当前奖励的重要程度。则VNF迁移的最优策略可表示为π∗=argamaxVπ(s,a),∀s,a (18) 4.2 DPPO训练过程
本文结合了A3C的异步优势和近端策略优化(Proximal Policy Optimization, PPO)的收敛性能优势,提出一种基于DPPO的VNF迁移算法。DPPO算法利用A3C多智体训练的框架,拥有1个全局网络和多个智能体网络,全局网络和多智体网络拥有相同的PPO结构。各个智能体被放置在不同的线程中独立进行随机模型训练,并定期向全局PPO网络推送损失函数的梯度,全局PPO网络将所收集梯度用来更新全局参数,智能体可从全局网络下载参数。DPPO采用了PPO新旧动作策略限制更新幅度的方式,因此DPPO需要考虑新旧动作策略的放置,本文将新生成的动作策略放入全局PPO网络中,而智能体的本地PPO网络则采用旧的动作策略与环境进行交互更新网络参数,详细过程如下所述:
本文以每条SFC作为一个智能体。各个智能体与网络系统交互并从环境中获得物理节点和链路状态信息、VNF的CPU、存储和带宽需求信息。基于环境反馈信息,智能体采取相应的VNF映射动作,并计算瞬时奖励。PPO网络结构中的Critic部分是基于状态值函数和优势函数评估Actor网络输出VNF映射策略的好坏。对于智能体
n 来说,它的状态值函数V(sn(t)) 表示为V(sn(t))=Eπ(s(t)|a(t))(rn(t)+γvV(sn(t+1))) (19) DPPO作为一种策略梯度强化学习方法,其引入泛化优势函数估计评估当前策略的合理性[15],优势函数表示为
A(sn(t),an(t))=δn(t)+(γvλ)δn(t+1)+⋯+(γvλ)(T−t+1)δn(T−1) (20) 其中,
T 为一轮训练中的迭代步长,λ∈(0,1) 为衰减因子,δn(t)=rn(t)+γvV(sn(t+1))−V(sn(t)) 为时序差分误差,rn(t) 为智能体n 在时刻t 的瞬时奖励。智能体n 的Critic网络评估过程为最小化时序差分误差的损失函数,其损失函数表示为L(θnc)=rn(t)+γvrn(t+1)+⋯+γT−t+1vrn(T−1)+γT−1vVsn(T+1)−V(sn(T))2 (21) DPPO网络智能体的本地网络利用PPO新旧策略的比率限制动作策略更新幅度,使得Actor网络动作更新策略不会太大,也使网络能在较大的学习率下稳健训练。PPO网络的Actor部分在当前状态会以一定概率产生一个策略
π(sn(t)|an(t),θna) ,设η(θna) 为智能体n Actor网络中新旧策略的比率,可以表示为η(θna)=π(sn(t)|an(t),θna)πold(sn(t)|an(t),θna) (22) 基于裁剪优化目标的PPO算法性能效果优于自适应散度惩罚系数的PPO算法[16],因此本文采用裁剪优化目标的PPO算法以避免新的VNF映射策略严重偏离旧的VNF映射策略。基于裁剪优化目标的PPO算法的损失目标函数为
Lcut(θna)=Et[min(η(θna)A(sn(t),an(t)),cut(η(θna),1−σ,1+σ)A(sn(t),an(t)))] (23) 参照文献[15],超参数
σ 设为0.2,使新旧策略的变化率在0.8~1.2。如果新旧策略的比率η(θna) 落在区间(1−σ,1+σ) 外面,则损失函数需要被裁剪。裁剪方式为:若η(θna)>1+σ ,η(θna) 取值为1+σ ;若η(θna)<1−σ ,η(θna) 取值为1−σ ;若η(θna) 在(1−σ,1+σ) 内,则取本来的η(θna) 值。智能体n 本地Critic和Actor网络的损失函数用于更新全局网络的相应参数,全局Critic网络梯度Δθc 和参数θc 更新方式为Δθc=Δθc+∂L(θnc)∂θnc (24) θc=θc+εcΔθc (25) 其中,
θnc 为智能体n 的Critic网络参数,εc 为全局Critic网络的学习率。全局Actor网络的梯度Δθa 和参数θa 的更新方式为Δθa=Δθa+∂Lcut(θna)∂θna (26) θa=θa+εaΔθa (27) 其中,
θna 为智能体n 的Actor网络参数,εa 为全局Actor网络的学习率。待一轮训练完毕,将全局网络参数θnc 和θna 代替各个智能体旧的网络参数进行下一轮的训练,始终保证全局网络使用新的策略,智能体网络使用旧的策略。基于DPPO的VNF迁移算法如表1所示。
表 1 基于DDPO的VNF迁移算法输入:VNF的资源需求预测结果rt+1={rCt+1,rMt+1,rBt+1},物理网络图GP=(NP,LP),SFC网络图GVi=(NVi,LVi) 输出:VNF映射策略π (1) 根据VNF的资源需求预测结果,计算各个物理节点的资源利用率ηR (2) if ηR≤ηdR&&ηR≥ηupR then (3) 初始化全局参数(θc,θa),局部参数(θnc,θna),全局PPO网络最大迭代次数Kmax,局部PPO网络最大迭代次数M,线程数N,学习率
(εc,εa)(4) for thread=1,2,⋯,N do (5) for episode=1,2,⋯,M do (6) 从本地Actor网络的策略π(sn(t)|an(t),θna)中选取映射动作a(t) (7) if η1∈(ηd1,ηup1)&&η2∈(ηd2,ηup2)&&η3∈(ηd3,ηup3)&&T≤Ttot then (8) 执行动作a(t),根据式(16)得到瞬时奖励r(t),并转移到状态s(t+1) (9) 从本地Actor网络获得优势函数A(sn(t),an(t)) (10) else (11) 式(16)瞬时奖励r(t)=−1/1εε,从本地Actor网络重新选取动作a(t) (12) end if (13) end for (14) 根据式(24)更新全局PPO的Critic网络累计梯度Δθc (15) 根据式(26)更新全局PPO的Actor网络累计梯度Δθa (16) 将Δθc和Δθa推送至全局PPO网络进行异步更新 (17) θc←θc+εcΔθc,θa←θa+εaΔθa (18) end for (19) 同步全局PPO网络参数至本地PPO网络参数:θn′c=θc, θn′a=θa (20) 继续执行步骤4—步骤17 (21) until K≥Kmax (22) end if 5. 仿真与性能分析
5.1 仿真参数设置
本文针对VNF资源需求预测和迁移方案进行了实验仿真,有关网络的仿真参数如表2所示。
5.2 VNF资源需求预测
本文将所提FedBi-GRU算法与多任务Bi-GRU、单任务Bi-GRU预测算法进行了性能比较,这3种算法都在真实数据集archive[17-19]上进行评估。本文以预测一条SFC上4个VNF的CPU资源需求为例,4个VNF分别使用10000条CPU数据,训练集与测试集按
7:3 进行。Bi-GRU网络选用隐藏层数为2,隐藏单元为20,时间步长为5,学习率为0.005的结构。多任务Bi-GRU在两层Bi-GRU的基础上添加回归层sigmoid[4,5]进行集中式训练,3种算法最大迭代次数为300。本文使用均方根误差(Root Mean Square Error, RMSE)衡量3种算法的预测性能,RMSE公式为RMSE=√1nn∑t=1(yt−ˆyt) (28) 其中,
yt 和ˆyt 分别代表真实值和预测值,如果RMSE的值越小则表明算法的预测精度越高。本文截取SFC上的一个VNF的30个CPU资源预测数据进行3种算法的对比,如图2和图3所示,不难看出FedBi-GRU与多任务Bi-GRU对VNF的CPU资源需求预测效果相差不大,而单任务Bi-GRU的预测效果最差。这是因为多任务Bi-GRU和FedBi-GRU使多个相关训练任务共享VNF之间的丰富关联信息,在提高预测精度的同时也提升了Bi-GRU模型的泛化性。但是FedBi-GRU作为一种分布式机器学习方法,不仅减轻了数据集中节点的训练负担也提高了数据训练效率,同时避免了内存短缺问题,因此FedBi-GRU算法在VNF的资源需求预测上具有可行性。
5.3 VNF迁移算法
基于DPPO的VNF迁移算法,线程设置为4,
Kmax=M=500 ,本地PPO网络学习步长为50,折扣因子γv=0.99 , Actor和Critic学习率都取0.001。从图4、图5可以看出当CPU资源使用阈值上限为0.5,下限为0.1时,网络系统的能耗最低和网络资源方差最小,这是因为随着CPU资源使用阈值的下降,物理节点迸发的VNF迁移数量也越多,DPPO迁移算法能有效利用网络系统中物理节点的CPU资源,使整个网络系统的能耗和网络资源方差越小,网络系统的负载均衡能力越好。
本文将所提DPPO算法与文献[4]所提基于禁忌搜索的VNF迁移算法(TDMA)和A3C算法做了对比,图6和图7展示了不同算法在CPU资源使用阈值上下限为0.5,0.1时的对比,由此可知本文所提DPPO迁移算法在网络系统能耗和负载均衡方面取得了更好的效果。TDMA迁移算法在能耗和负载均衡方面效果较差,这是因为TDMA算法为一种启发式算法,随着SFC数量的增加,VNF映射的解搜索空间变得大而复杂,导致TDMA算法极易陷入局部最优解,使得更多迁移中的VNF映射到其邻域物理节点,使整个网络系统的资源利用不均衡,所以其能耗和网络资源方差相对其他算法来说较大。A3C与DPPO算法利用多个智能体全面探索网络环境,能寻找更丰富多样的VNF映射解空间,因此随着SFC数量增多,VNF数量映射动作增多时,能够更加有效利用网络资源,使得物理节点资源使用更加均衡,更加节省网络系统的能耗,所以两种算法的性能优于单智能体的PPO算法。DPPO算法的基础框架采用了PPO架构,A3C算法采用的是演员-评论家(Actor-Critic, AC)学习架构,PPO作为改进的AC算法,其利用新旧动作策略限制了VNF映射策略的幅度,使得VNF重映射更加稳定,所以提高了DPPO算法在VNF重映射的性能。
6. 结束语
本文研究了网络切片环境下的VNF迁移问题,首先针对VNF迁移“滞后”性问题,本文提出一种基于分布式联邦学习的双向门控循环单元预测VNF的资源需求问题,并基于预测结果提出了一种分布式近端策略优化算法提前制定VNF迁移计划以保证网络服务的连续性。仿真结果表明,本文所提分布式资源预测机制有较高的预测精度。另外,本文所提分布式近端策略优化算法在降低网络系统能耗和保证负载均衡方面也起到了较好的作用。
-
表 1 基于DDPO的VNF迁移算法
输入:VNF的资源需求预测结果rt+1={rCt+1,rMt+1,rBt+1},物理网络图GP=(NP,LP),SFC网络图GVi=(NVi,LVi) 输出:VNF映射策略π (1) 根据VNF的资源需求预测结果,计算各个物理节点的资源利用率ηR (2) if ηR≤ηdR&&ηR≥ηupR then (3) 初始化全局参数(θc,θa),局部参数(θnc,θna),全局PPO网络最大迭代次数Kmax,局部PPO网络最大迭代次数M,线程数N,学习率
(εc,εa)(4) for thread=1,2,⋯,N do (5) for episode=1,2,⋯,M do (6) 从本地Actor网络的策略π(sn(t)|an(t),θna)中选取映射动作a(t) (7) if η1∈(ηd1,ηup1)&&η2∈(ηd2,ηup2)&&η3∈(ηd3,ηup3)&&T≤Ttot then (8) 执行动作a(t),根据式(16)得到瞬时奖励r(t),并转移到状态s(t+1) (9) 从本地Actor网络获得优势函数A(sn(t),an(t)) (10) else (11) 式(16)瞬时奖励r(t)=−1/1εε,从本地Actor网络重新选取动作a(t) (12) end if (13) end for (14) 根据式(24)更新全局PPO的Critic网络累计梯度Δθc (15) 根据式(26)更新全局PPO的Actor网络累计梯度Δθa (16) 将Δθc和Δθa推送至全局PPO网络进行异步更新 (17) θc←θc+εcΔθc,θa←θa+εaΔθa (18) end for (19) 同步全局PPO网络参数至本地PPO网络参数:θn′c=θc, θn′a=θa (20) 继续执行步骤4—步骤17 (21) until K≥Kmax (22) end if -
[1] LI Defang, HONG Peilin, XUE Kaiping, et al. Availability aware VNF deployment in datacenter through shared redundancy and multi-tenancy[J]. IEEE Transactions on Network and Service Management, 2019, 16(4): 1651–1664. doi: 10.1109/TNSM.2019.2936505 [2] QU Kaige, ZHUANG Weihua, YE Qiang, et al. Dynamic flow migration for embedded services in SDN/NFV-enabled 5G core networks[J]. IEEE Transactions on Communications, 2020, 68(4): 2394–2408. doi: 10.1109/TCOMM.2020.2968907 [3] LIU Yicen, LU Hao, LI Xi, et al. An approach for service function chain reconfiguration in network function virtualization architectures[J]. IEEE Access, 2019, 7: 147224–147237. doi: 10.1109/ACCESS.2019.2946648 [4] TANG Lun, HE Xiaoyu, ZHAO Peipei, et al. Virtual network function migration based on dynamic resource requirements prediction[J]. IEEE Access, 2019, 7: 112348–112362. doi: 10.1109/ACCESS.2019.2935014 [5] LIU Yicen, LU Yu, LI Xi, et al. On dynamic service function chain reconfiguration in IoT networks[J]. IEEE Internet of Things Journal, 2020, 7(11): 10969–10984. doi: 10.1109/JIOT.2020.2991753 [6] HUANG Yuzhe, XU Huahu, GAO Honghao, et al. SSUR: An approach to optimizing virtual machine allocation strategy based on user requirements for cloud data center[J]. IEEE Transactions on Green Communications and Networking, 2021, 5(2): 670–681. doi: 10.1109/TGCN.2021.3067374 [7] DAYARATHNA M, WEN Yonggang, and FAN Rui. Data center energy consumption modeling: A survey[J]. IEEE Communications Surveys & Tutorials, 2015, 18(1): 732–794. doi: 10.1109/COMST.2015.2481183 [8] ERAMO V, AMMAR M, and LAVACCA F G. Migration energy aware reconfigurations of virtual network function instances in NFV architectures[J]. IEEE Access, 2017, 5: 4927–4938. doi: 10.1109/ACCESS.2017.2685437 [9] HAN Zhenhua, TAN Haisheng, WANG Rui, et al. Energy-efficient dynamic virtual machine management in data centers[J]. IEEE/ACM Transactions on Networking, 2019, 27(1): 344–360. doi: 10.1109/TNET.2019.2891787 [10] ZHANG Zhongbao, CAO Huafeng, SU Sen, et al. Energy aware virtual network migration[J]. IEEE Transactions on Cloud Computing, 2022, 10(2): 1173–1189. doi: 10.1109/TCC.2020.2976966. [11] GUO Zehua, XU Yang, LIU Yafeng, et al. AggreFlow: Achieving power efficiency, load balancing, and quality of service in data center networks[J]. IEEE/ACM Transactions on Networking, 2020, 29(1): 17–33. doi: 10.1109/TNET.2020.3026015 [12] LI Biyi, CHENG Bo, LIU Xuan, et al. Joint resource optimization and delay-aware virtual network function migration in data center networks[J]. IEEE Transactions on Network and Service Management, 2021, 18(3): 2960–2974. doi: 10.1109/TNSM.2021.3067883 [13] ZHANG Kunpeng, WU Lan, ZHU Zhaoju, et al. A multitask learning model for traffic flow and speed forecasting[J]. IEEE Access, 2020, 8: 80707–80715. doi: 10.1109/ACCESS.2020.2990958 [14] LIU Yi, JAMES J J Q, KANG Jiawen, et al. Privacy-preserving traffic flow prediction: A federated learning approach[J]. IEEE Internet of Things Journal, 2020, 7(8): 7751–7763. doi: 10.1109/JIOT.2020.2991401 [15] ZHANG Zhenyu, LUO Xiangfeng, LIU Tong, et al. Proximal policy optimization with mixed distributed training[C]. The 2019 IEEE 31st International Conference on Tools with Artificial Intelligence (ICTAI), Portland, USA, 2019: 1452–1456. [16] SCHULMAN J, WOLSKI F, DHARIWAL P, et al. Proximal policy optimization algorithms[J]. arXiv preprint arXiv: 1707.06347, 2017. [17] BEN YAHIA I G, BENDRISS J, SAMBA A, et al. CogNitive 5G networks: Comprehensive operator use cases with machine learning for management operations[C]. 2017 20th Conference on Innovations in Clouds, Internet and Networks (ICIN), Paris, France, 2017: 252–259. [18] BENDRISS J, BEN YAHIA I G, and ZEGHLACHE D. Forecasting and anticipating SLO breaches in programmable networks[C]. 2017 20th Conference on Innovations in Clouds, Internet and Networks (ICIN), Paris, France, 2017: 127–134. [19] BENDRISS J. Cognitive management of SLA in software-based networks[D]. [Ph. D. dissertation], Institut National des Télécommunications, 2018. 期刊类型引用(0)
其他类型引用(3)
-