Loading [MathJax]/jax/output/HTML-CSS/jax.js
Advanced Search
Volume 42 Issue 11
Nov.  2020
Turn off MathJax
Article Contents
Lun TANG, Xiaoyu HE, Xiao WANG, Qianbin CHEN. Deployment Algorithm of Service Function Chain Based on Transfer Actor-Critic Learning[J]. Journal of Electronics & Information Technology, 2020, 42(11): 2671-2679. doi: 10.11999/JEIT190542
Citation: Lun TANG, Xiaoyu HE, Xiao WANG, Qianbin CHEN. Deployment Algorithm of Service Function Chain Based on Transfer Actor-Critic Learning[J]. Journal of Electronics & Information Technology, 2020, 42(11): 2671-2679. doi: 10.11999/JEIT190542

Deployment Algorithm of Service Function Chain Based on Transfer Actor-Critic Learning

doi: 10.11999/JEIT190542
Funds:  The National Natural Science Foundation of China (61571073), The Science and Technology Research Program of Chongqing Municipal Education Commission (KJZD-M20180601)
  • Received Date: 2019-07-18
  • Rev Recd Date: 2020-03-07
  • Available Online: 2020-04-08
  • Publish Date: 2020-11-16
  • To solve the problem of high system delay caused by unreasonable resource allocation because of randomness and unpredictability of service requests in 5G network slicing, this paper proposes a deployment scheme of Service Function Chain (SFC) based on Transfer Actor-Critic (A-C) Algorithm (TACA). Firstly, an end-to-end delay minimization model is built based on Virtual Network Function (VNF) placement, and joint allocation of computing resources, link resources and fronthaul bandwidth resources, then the model is transformed into a discrete-time Markov Decision Process (MDP). Next, A-C learning algorithm is adopted in the MDP to adjust dynamically SFC deployment scheme by interacting with environment, so as to optimize the end-to-end delay. Furthermore, in order to realize and accelerate the convergence of the A-C algorithm in similar target tasks (such as the arrival rate of service requests is generally higher), the transfer A-C algorithm is adopted to utilize the SFC deployment knowledge learned from source tasks to find quickly the deployment strategy in target tasks. Simulation results show that the proposed algorithm can reduce and stabilize the queuing length of SFC packets, optimize the system end-to-end delay, and improve resource utilization.
  • 网络切片是指将一个完整的物理网络切割成为多个独立的适用不同应用场景的逻辑虚拟网络。每个切片网络包含有若干条相同服务类型的服务功能链(Service Function Chain, SFC),每条SFC由若干有序虚拟网络功能(Virtual Network Function, VNF)组成。系统需要根据用户需求和相关约束,合理地将VNF放置在底层网络并为其分配CPU、内存、带宽等物理资源[1]

    目前,大多数研究都是以成本最小化为目标,将端到端时延作为约束条件。文献[2]旨在最小化运营成本中的激活、能耗和传输成本,得到VNF部署和路由分配优化方案。文献[3]考虑时变工作负载和实例化VNF的基本资源消耗,以优化资源利用率。文献[4]和文献[5]都提出了时延感知的优化算法来保证端到端时延,但是把各类时延设为固定值,与资源分配无关。文献[6]针对核心网切片的SFC部署,最大限度减少VNF调度时延,使得运营商能够服务更多用户。首先,上述文献的方案只针对核心网切片,无法直接支持在基于集中式单元/分布式单元(Centralized Unit/Distributed Unit, CU/DU)的两级云无线接入网(Cloud-Radio Access Network, C-RAN)架构下的SFC部署[7]。其次,这些方案忽略了实际网络中动态随机变化的业务到达和队列积压情况,如果不及时针对当前环境进行方案调整,系统端到端时延会显著增加。此外,上述算法均只针对某一特定的网络参数配置,即SFC数目、业务数据包到达率等设置固定,一旦这些参数发生变化,其求解策略将无法适应新网络,需要对算法本身进行调整。

    针对上述问题,本文提出了一种基于迁移演员-评论家算法(Transfer Actor-Critic Algorithm, TACA)的面向时延优化的接入网切片SFC部署方案。主要贡献包括:

    (1) 考虑采用基于CU/DU的两级C-RAN架构,以最小化系统端到端时延为目标,建立排队时延、节点处理时延及链路传输时延与VNF放置和资源分配的关联性;

    (2) 考虑环境中SFC业务请求数据包到达的随机性和队列长度的动态性,将SFC的部署问题建立为马尔可夫决策过程(Markov Decision Process, MDP),并通过A-C算法不断与环境进行交互实现SFC部署策略的动态调整;

    (3) 考虑一个系统在不同时段SFC的部署任务不尽相同,如在目标任务中需部署SFC条数较少但业务数据包到达率更高。为了降低针对目标任务模型的训练成本,提高学习的效果,在传统A-C学习中引入迁移学习的思想,实现利用源任务中的部署知识来学习新的部署策略。

    图1所示为基于5G C-RAN上行条件的SFC部署的系统架构图。首先,网络中的各协议层功能在通用设备被虚拟化为不同的VNF,共享基础设施资源。其次,该架构采用DU和CU独立部署的方式,DU池和CU池之间通过下一代前传网络接口(Next Generation Fronthaul Interface, NGFI)进行数据传输。

    图  1  系统架构

    在5G C-RAN上行链路中,3GPP总结了8种接入网切片的VNF放置方式。切片一旦选择某种VNF放置方式,即意味着SFC部署在CU池和DU池的VNF数量确定,基于此,再进行VNF放置节点的选择以及池内计算资源和链路资源分配。此外,不同的VNF放置方式对SFC的最大可容忍NGFI传输时延要求不同,因此放置方式还会影响SFC的NGFI带宽资源分配。本文中将接入网切片的VNF放置和资源分配方式统称为SFC部署策略。

    用带权无向图G={N,L}来表示基础设施网络,N=NDNC={n1,n2,···,nU}为设备节点集,由DU池节点集ND与CU池节点集NC组成。L=LDLCLN={l1,l2,···,lV}代表物理链路集L,由DU池链路集LD、CU池链路集LC和前传网络LNGFI构成。服务器节点nu的计算资源容量为Cnu,链路lv的带宽资源容量为Blv, lv.headlv.tail代表连接lv的两个相邻物理节点。此外,系统中的切片集合为KMk代表切片k中的SFC集合。最后,考虑切片请求数据可以在DU池侧进行缓存。切片k的SFCm在时隙t的队列长度为qk,m(t),并满足0qk,m(t)qmax,t,其中qmax代表最大队列长度。

    本文将系统的时间维度分为若干个时隙,用Γ={1,2,···,t,···,T}表示时隙集合,Ts为每个时隙t的持续时间。假设切片k的SFCm的数据包到达过程为服从时变参数为λm,k(t)的泊松分布,数据包的大小服从均值为¯pm,k的指数分布[8]。令aop(t)={opk(t)|kK}表示切片k在时隙t所选VNF放置方式,其中opk(t)Ω, Ω表示8种接入网VNF放置方式集合。而后根据放置方式分别为DU池、CU池的各个VNF进行资源分配。

    首先,假定每台设备包含有多个CPU,单个CPU的计算能力为Ccpu(CPU cycles/s)[9]。令αck,m(t)={xfjm,knucfjm,knu|jFm,k,nuNfjm,k}代表时隙t切片k的SFCm的计算资源分配方式。其中,Fm,k是切片k的SFCm的VNF集合,Nfjm,k代表第j个VNF可以实例化的物理节点集合。xfjm,knu=1代表切片k的SFCm的第j个VNF放置在物理节点nu上,cfjm,knu代表第j个VNF所分配的计算资源。令Jk,m=(ak,m(t),wk,m(t))切片k的SFCm的计算处理任务,其中ak,m(t)为时隙t到达的数据包个数,wk,m(t)为完成该项任务所需的CPU周期。不同类型切片的SFC任务处理单位比特数据所需的CPU周期也存在差异[10,11],设为xk,则有wk,m(t)=ak,m(t)¯pk,mxk,因此物理节点处理时延为

    τ1(t)=kKmMkjFm,knuNfjm,kxfjm,knuwk,m(t)cfjm,knu(t) (1)

    然后,令αbk,m(t)={yfjm,klvbfjm,klv|jFm,k,lvL}代表切片k的SFCm在时隙t的物理链路带宽资源分配方式。其中,yfjm,klv=1代表切片k的SFCm的第j个VNF映射到链路lv上向下一个VNF发送数据, bfjm,klv代表SFC m的第j个VNF在链路lv分配的带宽资源,Fm,k代表不包括DU池和CU池末端VNF的集合。bfm,kNG(t)表示NGFI为其分配的带宽资源。因此,链路传输时延为

    τ2(t)=kKmMk(23ak,m(t)¯pk,mbfm,kNG(t)+jFm,klvLyfjm,klvak,m(t)¯pk,mbfjm,klv(t)) (2)

    最后,令rk,m(t)表示切片k的SFCm在时隙t内的服务速率。本文模型考虑的是上行协议功能的处理,因此每条SFC的第1个VNF的数据处理速率就是该条链路的服务速率[12],即有rk,m=cf1m,knu(t)/xk,因此平均包处理速率为vk,m(t)=rk,m(t)/¯pk,m。令qk,m(t)代表在时隙t切片k的SFCm的队列长度,SFC在DU侧的队列更新公式为qk,m(t+1)=max{qk,m(t)+ak,m(t)dk,m(t),0}。其中,dk,m(t)=vk,m(t)Ts代表在时隙t内处理的数据包数目。此外为了保证队列不溢出,还需满足rk,m(t)qk,m(t)+ak,m(t)qmaxTs。根据Little定理,SFC的排队时延为

    τ3(t)=kKmMkqk,m(t)λk,m(t) (3)

    从而时隙t部署切片的时延为τ(t)=τ1(t)+τ2(t)+τ3(t),因此,传输切片的总平均系统端到端时延为

    τ=limT1TE{Tt=0τ(t)} (4)

    本文的接入网切片SFC部署问题可建立为基于VNF放置选择、计算资源、链路带宽资源和NGFI带宽资源联合分配的时延最小化数学模型

    minaop(t),αc(t),αb(t){τ}s.t.kK,mMk,jFm,k,nuN,lvLC1:kKmMkjFm,kxfjm,knucfjm,knuCnuC2:kKmMkjFm,kyfjm,klvbfjm,klvBlvC3:kKmMkyfm,kNGFIbfm,kNGFIBNGFIC4:nuNfjm,kxfjm,knu=1C5:lvLyfjm,klv1C6:xfjm,knu=nu=lv.headyfjm,klvC7:xfjm,knu=nu=lv.tailyfj1m,klvC8:xfjm,knucfjm,knu=cfjm,knuC9:yfjm,klvbfjm,klv=bfjm,klv} (5)

    上述约束条件中,C1表示任意物理节点上的计算资源限制。C2和C3分别代表任意物理链路和NGFI上的带宽资源限制。C4确保任意VNF只能实例化在一个物理节点上。C5确保任意VNF至多只能选择一条链路发送数据。C6和C7代表SFC上相邻的两个VNF若部署在不同的物理节点上,则这两个节点必须相邻。C8和C9分别代表只有当SFC的虚拟节点映射到物理节点、虚拟链路映射到物理链路时,才分配计算资源和带宽资源。

    上述VNF放置以及资源分配过程可以建立为一个具有连续状态和动作空间的离散时间MDP[13]。MDP定义为一个多元组M=<S,A,P,R>,其中S是状态空间,A是动作空间,P是转移概率,R是奖励函数。s(t)S为时隙t的系统状态,由所有切片的全部SFC的队列长度以及其数据包到达率共同决定。动作a(t)A为VNF放置和计算资源、链路带宽资源和NGFI带宽资源分配情况。在状态s(t)执行动作a(t)后,即完成当前时隙的SFC部署,系统会得到一个立即回报Rt=τ(t)

    由于本文动作空间也连续,因此假设动作a(t)来自于一个随机策略π(a|s)=Pr(a(t)=a|s(t)=s),代表在状态s(t)下采取动作a(t)转移至s(t+1)的概率,即意味着当环境处于某个队列长度和数据包到达率状态时,系统能够根据学习策略选择特定的VNF放置方式和资源分配方案。

    解决MDP的许多方法都依赖于环境动态变化的先验知识,然而要提前精确获知未来的队列长度和数据包到达率很困难,因此本文采用无需先验知识的A-C学习方法来解决MDP问题。在A-C学习中,状态-动作值函数Q表示从当前状态开始并采取动作,然后再根据给定策略选择下一个动作的累积奖励期望值

    Qπ(s,a)=Eπ{t=1βtRt|s(1)=s,a(1)=a}=E{Rt+βQπ(s(t+1),a(t+1))} (6)

    其中,β(0,1)是衡量当前或未来决策的折扣因子,E{}表示期望。

    A-C学习的目标是寻找一个策略π,最大化式(7)所示的目标函数

    J(π)=Eπ{Qπ(s,a)}=Sdπ(s)Aπ(a|s)Qπ(s,a)dads (7)

    其中,dπ(s)是在策略π下的稳定状态分布,假设其存在且独立于初始状态s0

    A-C学习算法结合了强化学习中的策略方案和值函数方案,能够在连续动作空间中有效学习随机策略,并获得较好的收敛性[14]。算法框架如图2(a)所示。其中演员定义随机参数化策略并根据环境中的队列长度和数据包到达情况生成SFC部署动作。而后评论家根据执行部署动作后获得的时延奖励对当前策略进行评判,并通过时间差分(Time Difference, TD)误差更新值函数。在评论家部分完成值函数近似和参数更新后,演员使用评论家的输出更新其策略,以选择所获奖励更多的动作。

    图  2  A-C学习框架
    3.2.1   演员过程

    在演员阶段,首先采用向量θ=(θ1,θ2,···,θn)T生成参数化的部署策略πθ(s,a)=Pr(a|s,θ),再采用策略梯度的方法逐步对策略参数进行改进。目标函数J(πθ)的局部最大值可以通过梯度上升法得到,则对θ的策略梯度更新表示为

    Δθ=εa,tθJ(πθ) (8)

    其中,εa,t>0是策略更新的学习率。策略梯度的计算为

    θJ(πθ)=Sdπ(s)Aθπθ(s,a)Qπθ(s,a)dads (9)

    采用高斯分布[15]构造动作选择的随机策略,参数化策略写为πθ(s,a)=12πσexp((aμ(s))22σ2),其中,μ(s)是该状态下确定动作的均值,σ是对所有动作探索程度的标准差。且有μ(s)=θT×Z(s)=nj=1θjzj(s),其中,Z(s)=(z1(s),z2(s),···zn(s))T是状态s的基函数向量。参数θ可以通过常规策略梯度方法进行更新。由于在本文中,将队列长度和数据包到达率作为特征,因此,n=2×Kk=1Mk,且Z(s)写为

    Z(s)=(q11,···,q1M1,q21,···,q2M2,···,q|K|1,···,q|K|M|K|,λ11,···,λ1M1,λ21,···,λ2M2,···,λ|K|1,···,λ|K|M|K|)T (10)
    3.2.2   评论家过程

    评论家部分具有评估策略优劣的能力。由于本文中状态和动作空间无限,Qπ(s,a)不能通过Bellman方程进行迭代计算得到,需要采用函数近似来估计值函数并通过一些样本来更新参数。状态-动作值函数采用参数向量ω=(ω1,ω2,···,ωn)T进行近似参数化,即Qω(s,a)Qπ(s,a)。基于特征的线性函数近似器具有较低复杂度,而且能保证学习算法的收敛性和稳定性,鉴于此,本文将其作为值函数近似器,即

    Qω(s,a)=ωTΨ(s,a)=nj=1ωjψj(s,a) (11)

    其中,Ψ(s,a)=(ψ1(s,a),ψ2(s,a),···,ψn(s,a))T称为状态s下采取动作a的特征向量。

    而后,给出状态转移样本(s(t),a(t),Rt+1,s(t+1),a(t+1))和值函数的近似表达式,则TD误差为

    δt=Rt+1+βQω(s(t+1),a(t+1))Qω(s(t),a(t)) (12)

    采用梯度下降法近似真实值函数,并在梯度方向上不断更新近似值。由于采用线性函数近似器,εc,t>0是值函数估计的学习率,可得参数ω的更新方式为

    Δω=εc,tδtΨ(s,a) (13)
    3.2.3   A-C算法执行过程

    式(9)所示的策略梯度公式表明了演员过程(策略梯度θJ(πθ))与评论家过程(状态-动作值函数Qπθ(s,a))之间的关系。评论家利用式(11)定义的近似状态-动作值函数Qω(s,a)来评估策略性能。因此,演员过程遵循近似策略梯度θJ(πθ)Sdπ(s)Aθπθ(s,a)Qω(s,a)dads,该式中,θπθ(s,a)=πθ(s,a)θlnπθ(s,a)。又由于高斯分布是指数函数,可得

    θlnπθ(s,a)=(aμ(s))Z(s)σ2 (14)

    采用策略梯度近似可能会引起一定偏差,因此不能保证采用该有偏差的策略梯度能够找到最优解。为了避免偏差实现精确策略梯度,需要对值函数近似值采用相容特征并最小化误差,其中相容特征满足ωQω(s,a)=θlnπθ(s,a),则Qπθ(s,a)最接近的近似值Qω(s,a)是无偏的。

    由于本文采用线性近似器,即Qω(s,a)=ωTΨ(s,a),代入相容特征公式,则有

    Ψ(s,a)=θlnπθ(s,a) (15)

    根据相容特征公式,可得值函数Qπθ(s,a)相容函数近似为Qω(s,a)=ωTθlnπθ(s,a),又因为πθ(s,a)N(μ(s),σ2),可得状态-动作值函数近似表达为Qω(s,a)=ωT(aμ(s))Z(s)σ2

    但是,采用相容近似的梯度策略梯度法仍然存在方差较大的问题。为了有效降低梯度计算中的方差,进一步提高评论家函数近似精度,引入优势函数A(s,a)=Qω(s,a)Vπ(s)替代Qω(s,a), Vπ(s)为状态值函数。

    同理,需采用线性函数近似器对状态值函数进行估计Vυ(s)Vπ(s),即

    Vυ(s)=υTZ(s) (16)

    状态值函数参数向量的更新过程类似于状态-动作值函数,即

    δυt=Rt+1+βVυ(s(t+1))Vυ(s(t)) (17)
    Δυ=εc,tδvtZ(s) (18)
    θJ(πθ)=Sdπ(s)Aθπθ(s,a)A(s(t+1),a(t+1))dads (19)

    在本节中,为了实现并加速该A-C学习算法在其他相似环境和学习任务中的收敛过程,考虑利用源任务学习到的SFC部署知识来寻找目标任务中时延最优的SFC部署策略。当学习过程收敛时,在特定状态下选择特定动作的机率比其他动作大得多,但这样的一个学习策略是适应当前环境和部署任务的,现在考虑将该部署策略的参数知识θ=(θ1,θ2,···,θn)T迁移到其他相似目标学习任务上,使得目标任务能够较快收敛而不是从零开始学习[16,17]。基于迁移学习的思想,本文提出了一种新的策略更新方法,如图2(b)所示的迁移A-C算法(Transfer Actor-Critic Algorithm, TACA)。

    在TACA中,整体策略πoθ(s,a)分为本地策略πnθ(s,a)和外来策略πeθ(s,a),其更新方式为

    πo(t+1)θ(s(t),a(t))=(1ζ(t))πn(t+1)θ(s(t),a(t))+ζ(t)πe(t+1)θ(s(t),a(t)) (20)

    其中,πo(t+1)θ(s(t),a)=πo(t)θ(s(t),a),aA,aa(t)ζ(t)=t为迁移率,(0,1)为迁移率因子,即有当t, ζ(t)0。最后,将上述过程总结在表1的算法中。

    表  1  基于迁移A-C学习的SFC部署算法
     输入:高斯策略πθ(s,a)N(μ(s),σ2),以及其梯度θlnπθ(s,a),状态分布dπ(s),学习率εa,tεc,t,折扣因子β
     (1) for epsoide=0,1,2,···,Epmax do
     (2) 初始化:策略参数向量θt,状态-动作值函数参数向量ωt,状态值函数参数向量υt,初始状态s0dπ(s),本地部署策略πnθ(s,a),外
       来迁移部署策略πeθ(s,a)
     (3) for 回合每一步t=0,1,···,Tdo
     (4) 由式(20)得到整体部署策略,遵循整体策略πθ(s,a)选择动作a(t),进行VNF放置和资源分配,而后更新环境状态s(t+1),并得到立即
       奖励Rt=τ(t)
     (5) end for
     (6) 评论家过程:
     (a) 计算相容特征:由式(10)得处于状态s的基函数向量,结合式(14),式(15)得相容特征
     (b) 相容近似:由式(11)得状态-动作值函数近似,由式(16)得状态值函数近似
     (c) TD误差计算:由式(12),式(17)分别得状态-动作值函数、状态值函数的TD误差
     (d) 更新评论家参数:由式(13)得状态-动作值函数参数向量更新,由式(18)得状态值函数参数向量更新
     (7) 演员过程:
     (a) 计算优势函数
     (b) 重写策略梯度:代入优势函数由式(19)得策略梯度
     (c) 更新演员参数:由式(8)得策略参数向量更新
     (8) end for
    下载: 导出CSV 
    | 显示表格

    为了评估本文模型与算法的有效性,利用Tensorflow和Matlab工具进行了仿真。假设有3个不同服务规模的接入网切片,数据包到达服从泊松分布且到达率分别为:λ1,m(t)[40,55], λ2,m(t)[50,65], λ3,m(t)[60,85]。数据包大小均值为¯p=500kbit,最大队列长度为30个数据包。此外,3个切片处理单位比特数据所需CPU cycles分别为:x1=5900, x2=6400, x3=7000。SFC总数量取值为[10,50],各个切片的SFC数量比例为2:3:5,且同一切片里的各条SFC的VNF序列长度均相同,分别为9, 10和11。仿真中利用函数随机生成DU池和CU池的基础设施网络,其设备数分别为12和18。任意设备上的计算资源和任意链路上的带宽资源均随机取值,计算能力取值范围分别为[4,10], [1011, 1012] CPU周期/s,链路带宽取值[100,200]Mbps, NGFI带宽为1000Mbps。A-C学习过程设置200个学习回合,每个回合中步数为200。

    为了讨论方便,先将系统中SFC总数量设置为50。首先,采用不同的学习率会影响A-C学习的收敛性能。如图3图4所示,图3固定评论家学习率εc,t=0.10,改变演员学习率,图4固定演员学习率εa,t=0.001,改变评论家学习率。从上述两图可以看出,学习率设置过小,会使得收敛过程缓慢,在学习回合结束时曲线依旧呈下降趋势;而增大学习率,虽然能够加快收敛,但容易产生震荡,从而难以找到最佳收敛值。因此,选择εa,t=0.001, εc,t=0.10作为后续仿真中的参数。

    图  3  不同演员学习率A-C算法的收敛性
    图  4  不同评论家学习率A-C算法的收敛性

    采用不同优化器也会对A-C算法的收敛性能产生一定的影响。本文采用最常用的3种优化器进行比较,分别是随机梯度下降优化器(Stochastic Gradient Descent optimizer, SGD)、动量优化器(Momemtum optimizer)以及Adam优化器。如图5所示,在前100个回合中,Adam曲线的收敛速度优于另外两个优化器,但就最终收敛效果而言,Adam的系统时延收敛值更低且震荡幅度更小。这是因为SGD和Momentum在参数向量更新过程中都是固定学习率,而Adam却能够动态调整各个参数的学习率。

    图  5  基于不同优化器的A-C算法的收敛性

    接下来,将从队列稳定性方面评估该算法。如图6,随着学习过程的进行,尽管系统中的切片数据包到达率持续变化,但切片的队列积压情况会逐渐改善并最终收敛到一个较小的范围。这说明本文算法能够很好地实现与环境的交互,在每个学习回合中根据不断变化的数据包到达率逐步动态调整SFC的部署策略,稳定并减小队列积压。

    图  6  3种切片的数据包到达率与队列积压和变化对照图

    图7所示为VNF放置方式的选择频率与切片服务数据规模的关系。仿真参数中已设置切片3服务数据规模最大,其次是切片2,切片1最小。由图7可知,切片3选择方式3的频率最高,其次是方式4。这是因为这两种VNF放置方式对前传网络的传输时延要求较为宽松,能够减小切片对NGFI的带宽资源消耗。切片2的数据服务规模适中,选择方式5的频率较高,说明其可以适当选择时延较为严格的VNF放置方式。切片1对NGFI带宽资源的依赖性最小,因此选择方式7的频率最高。

    图  7  3个切片的VNF放置方式选择统计图

    为了更好地体现本文算法的性能,对比了文献[7]中的两种蚁群算法(Genetic Algorithm, GA),文献[6]的卫星网络SFC部署算法(SFC Deployment in Satelite Network, SDSN),以及仅基于策略梯度的强化学习算法(Policy-Based Algorithm, PBA)。如图8图9所示,本文所提基于A-C学习的SFC部署算法的系统收敛时延效果和资源利用率都明显优于其他几种方案。其中,GA方案容易陷入局部最优解,SDSN方案忽略了资源的分配与各类时延之间的关联性,PBA方案在评价策略时不如A-C算法高效且方差较大。而本文所提基于A-C学习的SFC部署算法,结合了基于值函数和基于策略梯度两种方法,使得学习过程更加高效,并且将各类时延与资源分配建立关联,使得资源的分配更为合理。

    图  8  不同算法的系统收敛时延
    图  9  不同算法的资源利用率

    最后,保持系统中的SFC总数量仍为50,但是3个切片的SFC数量比例改为4:4:2,且调换切片1和切片2的数据包到达率设置,切片3保持不变。如图10所示,TACA由于有相似任务的外来策略知识,因此在仿真中尤其是即刚开始的学习回合中,相比于传统A-C算法,其时延曲线波动明显更小,且迁移率因子越大,其收敛速度越快,最后学习回合结束时的收敛效果也更好。

    图  10  不同迁移率因子的TACA算法收敛过程

    本文考虑在5G接入网DU/CU架构下,考虑实际网络中业务请求的随机性和未知性,针对SFC部署的系统端到端时延问题,提出了基于A-C学习的SFC部署方案。在该方案中,建立了以动态变化的队列长度和数据包到达率作为状态空间的MDP模型,并通过A-C学习算法求解,实现自适应动态调整SFC部署,优化系统总时延。同时,为了更进一步实现并提升该A-C学习算法在其他相似任务上的收敛性,引入迁移学习思想并提出了TACA算法。仿真结果表明,该种基于迁移A-C学习的SFC部署算法能够很好地与网络环境进行交互并适应环境的动态变化,提升整个网络的时延性能,更加高效地利用网络资源。

  • AGARWAL S, MALANDRINO F, CHIASSERINI C F, et al. VNF placement and resource allocation for the support of vertical services in 5G networks[J]. IEEE/ACM Transactions on Networking, 2019, 27(1): 433–446. doi: 10.1109/TNET.2018.2890631
    史久根, 张径, 徐皓, 等. 一种面向运营成本优化的虚拟网络功能部署和路由分配策略[J]. 电子与信息学报, 2019, 41(4): 973–979. doi: 10.11999/JEIT180522

    SHI Jiugen, ZHANG Jing, XU Hao, et al. Joint optimization of virtualized network function placement and routing allocation for operational expenditure[J]. Journal of Electronics &Information Technology, 2019, 41(4): 973–979. doi: 10.11999/JEIT180522
    LI Defang, HONG Peilin, XUE Kaiping, et al. Virtual network function placement considering resource optimization and SFC requests in cloud datacenter[J]. IEEE Transactions on Parallel and Distributed Systems, 2018, 29(7): 1664–1677. doi: 10.1109/TPDS.2018.2802518
    PEI Jianing, HONG Peilin, and LI Defang. Virtual network function selection and chaining based on deep learning in SDN and NFV-Enabled networks[C]. 2018 IEEE International Conference on Communications Workshops, Kansas City, USA, 2018: 1–6. doi: 10.1109/ICCW.2018.8403657.
    CAI Yibin, WANG Ying, ZHONG Xuxia, et al. An approach to deploy service function chains in satellite networks[C]. NOMS 2018–2018 IEEE/IFIP Network Operations and Management Symposium, Taipei, China, 2018: 1–7. doi: 10.1109/NOMS.2018.8406159.
    QU Long, ASSI C, and SHABAN K. Delay-aware scheduling and resource optimization with network function virtualization[J]. IEEE Transactions on Communications, 2016, 64(9): 3746–3758. doi: 10.1109/TCOMM.2016.2580150
    陈前斌, 杨友超, 周钰, 等. 基于随机学习的接入网服务功能链部署算法[J]. 电子与信息学报, 2019, 41(2): 417–423. doi: 10.11999/JEIT180310

    CHEN Qianbin, YANG Youchao, ZHOU Yu, et al. Deployment algorithm of service function chain of access network based on stochastic learning[J]. Journal of Electronics &Information Technology, 2019, 41(2): 417–423. doi: 10.11999/JEIT180310
    PHAN T V, BAO N K, KIM Y, et al. Optimizing resource allocation for elastic security VNFs in the SDNFV-enabled cloud computing[C]. 2017 International Conference on Information Networking, Da Nang, Vietnam, 2017: 163–166. doi: 10.1109/ICOIN.2017.7899497.
    XIA Weiwei and SHEN Lianfeng. Joint resource allocation using evolutionary algorithms in heterogeneous mobile cloud computing networks[J]. China Communications, 2018, 15(8): 189–204. doi: 10.1109/CC.2018.8438283
    ZHU Zhengfa, PENG Jun, GU Xin, et al. Fair resource allocation for system throughput maximization in mobile edge computing[J]. IEEE Access, 2018, 6: 5332–5340. doi: 10.1109/ACCESS.2018.2790963
    MAO Yuyi, ZHANG Jun, and LETAIEF K B. Dynamic computation offloading for mobile-edge computing with energy harvesting devices[J]. IEEE Journal on Selected Areas in Communications, 2016, 34(12): 3590–3605. doi: 10.1109/JSAC.2016.2611964
    MEHRAGHDAM S, KELLER M, and KARL H. Specifying and placing chains of virtual network functions[C]. The 3rd IEEE International Conference on Cloud Networking, Luxembourg, Luxembourg, 2014: 7–13. doi: 10.1109/CloudNet.2014.6968961.
    HAGHIGHI A A, HEYDARI S S, and SHAHBAZPANAHI S. MDP modeling of resource provisioning in virtualized content-delivery networks[C]. The 25th IEEE International Conference on Network Protocols, Toronto, Canada, 2017: 1–6. doi: 10.1109/ICNP.2017.8117600.
    GRONDMAN I, BUSONIU L, LOPES G A D, et al. A survey of actor-critic reinforcement learning: Standard and natural policy gradients[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews) , 2012, 42(6): 1291–1307. doi: 10.1109/TSMCC.2012.2218595
    LEE D H and LEE J J. Incremental receptive field weighted actor-critic[J]. IEEE Transactions on Industrial Informatics, 2013, 9(1): 62–71. doi: 10.1109/TII.2012.2209660
    LI Rongpeng, ZHAO Zhifeng, CHEN Xianfu, et al. TACT: A transfer actor-critic learning framework for energy saving in cellular radio access networks[J]. IEEE Transactions on Wireless Communications, 2014, 13(4): 2000–2011. doi: 10.1109/TWC.2014.022014.130840
    KOUSHI A M, HU Fei, and KUMAR S. Intelligent spectrum management based on transfer actor-critic learning for rateless transmissions in cognitive radio networks[J]. IEEE Transactions on Mobile Computing, 2018, 17(5): 1204–1215. doi: 10.1109/TMC.2017.2744620
  • Cited by

    Periodical cited type(6)

    1. 母军臣,何洪辉. 基于强化学习的激光导航无人车路径跟踪控制. 沈阳工业大学学报. 2024(02): 206-211 .
    2. 陈前斌,麻世庆,段瑞吉,唐伦,梁承超. 基于迁移深度强化学习的低轨卫星跳波束资源分配方案. 电子与信息学报. 2023(02): 407-417 . 本站查看
    3. 黄新林,郑人华. 基于强化学习的802.11ax上行链路调度算法. 电子与信息学报. 2022(05): 1800-1808 . 本站查看
    4. 周楠,张平,郑征,陈明昊,樊冰. 基于机器学习的电力通信网带宽分配算法. 电网与清洁能源. 2021(05): 67-73 .
    5. 陆旭,陈影,许中平,王伟,刘文龙,陈明昊. 面向电力-通信网融合与时延优化的服务功能链部署方法. 电力系统保护与控制. 2021(22): 43-50 .
    6. 宿帅,朱擎阳,魏庆来,唐涛,阴佳腾. 基于DQN的列车节能驾驶控制方法. 智能科学与技术学报. 2020(04): 372-384 .

    Other cited types(6)

  • Created with Highcharts 5.0.7Amount of accessChart context menuAbstract Views, HTML Views, PDF Downloads StatisticsAbstract ViewsHTML ViewsPDF Downloads2024-052024-062024-072024-082024-092024-102024-112024-122025-012025-022025-032025-04010203040Highcharts.com
    Created with Highcharts 5.0.7Chart context menuAccess Class DistributionFULLTEXT: 33.5 %FULLTEXT: 33.5 %META: 64.2 %META: 64.2 %PDF: 2.4 %PDF: 2.4 %FULLTEXTMETAPDFHighcharts.com
    Created with Highcharts 5.0.7Chart context menuAccess Area Distribution其他: 3.4 %其他: 3.4 %其他: 0.2 %其他: 0.2 %Algeria: 0.1 %Algeria: 0.1 %Brazil: 0.0 %Brazil: 0.0 %China: 0.8 %China: 0.8 %Évry: 0.2 %Évry: 0.2 %Falls Church: 0.2 %Falls Church: 0.2 %India: 0.0 %India: 0.0 %Matawan: 0.0 %Matawan: 0.0 %Taiwan, China: 0.0 %Taiwan, China: 0.0 %United States: 0.0 %United States: 0.0 %[]: 2.9 %[]: 2.9 %上海: 0.7 %上海: 0.7 %东莞: 0.0 %东莞: 0.0 %中山: 0.0 %中山: 0.0 %临汾: 0.0 %临汾: 0.0 %丽水: 0.2 %丽水: 0.2 %丽江: 0.1 %丽江: 0.1 %乌鲁木齐: 0.0 %乌鲁木齐: 0.0 %佛山: 0.0 %佛山: 0.0 %保定: 0.1 %保定: 0.1 %信阳: 0.0 %信阳: 0.0 %兰州: 0.1 %兰州: 0.1 %北京: 11.1 %北京: 11.1 %北海: 0.0 %北海: 0.0 %华盛顿州: 0.1 %华盛顿州: 0.1 %南京: 0.5 %南京: 0.5 %南充: 0.1 %南充: 0.1 %南昌: 0.3 %南昌: 0.3 %南通: 0.2 %南通: 0.2 %南阳: 0.1 %南阳: 0.1 %台州: 0.2 %台州: 0.2 %合肥: 0.4 %合肥: 0.4 %呼和浩特: 0.0 %呼和浩特: 0.0 %哈尔滨: 0.1 %哈尔滨: 0.1 %哥伦布: 0.1 %哥伦布: 0.1 %商丘: 0.0 %商丘: 0.0 %喀什: 0.0 %喀什: 0.0 %嘉兴: 0.3 %嘉兴: 0.3 %大理白族自治州: 0.0 %大理白族自治州: 0.0 %大连: 0.0 %大连: 0.0 %天津: 0.0 %天津: 0.0 %太原: 0.2 %太原: 0.2 %安康: 0.0 %安康: 0.0 %宣城: 0.0 %宣城: 0.0 %宿迁: 0.3 %宿迁: 0.3 %巴中: 0.1 %巴中: 0.1 %常州: 0.3 %常州: 0.3 %平顶山: 0.0 %平顶山: 0.0 %广州: 0.1 %广州: 0.1 %廊坊: 0.0 %廊坊: 0.0 %开封: 0.2 %开封: 0.2 %徐州: 0.2 %徐州: 0.2 %成都: 0.5 %成都: 0.5 %扬州: 0.3 %扬州: 0.3 %抚顺: 0.0 %抚顺: 0.0 %新余: 0.0 %新余: 0.0 %无锡: 0.3 %无锡: 0.3 %昆明: 0.0 %昆明: 0.0 %昆西: 0.0 %昆西: 0.0 %晋中: 0.0 %晋中: 0.0 %晋城: 0.0 %晋城: 0.0 %杭州: 0.7 %杭州: 0.7 %枣庄: 0.0 %枣庄: 0.0 %格兰特县: 0.1 %格兰特县: 0.1 %桃园: 0.1 %桃园: 0.1 %梅州: 0.0 %梅州: 0.0 %武汉: 0.3 %武汉: 0.3 %汕尾: 0.0 %汕尾: 0.0 %沈阳: 0.1 %沈阳: 0.1 %泉州: 0.0 %泉州: 0.0 %泰州: 0.1 %泰州: 0.1 %泰米尔纳德: 0.1 %泰米尔纳德: 0.1 %洛阳: 0.2 %洛阳: 0.2 %济南: 0.2 %济南: 0.2 %济宁: 0.0 %济宁: 0.0 %海得拉巴: 0.1 %海得拉巴: 0.1 %淮北: 0.0 %淮北: 0.0 %淮南: 0.0 %淮南: 0.0 %淮安: 0.3 %淮安: 0.3 %深圳: 0.2 %深圳: 0.2 %温州: 0.1 %温州: 0.1 %滁州: 0.0 %滁州: 0.0 %漯河: 0.2 %漯河: 0.2 %潍坊: 0.0 %潍坊: 0.0 %烟台: 0.0 %烟台: 0.0 %珠海: 0.2 %珠海: 0.2 %盐城: 0.4 %盐城: 0.4 %石家庄: 0.1 %石家庄: 0.1 %福州: 0.0 %福州: 0.0 %秦皇岛: 0.1 %秦皇岛: 0.1 %绵阳: 0.0 %绵阳: 0.0 %罗奥尔凯埃: 0.0 %罗奥尔凯埃: 0.0 %自贡: 0.0 %自贡: 0.0 %芒廷维尤: 23.4 %芒廷维尤: 23.4 %芜湖: 0.1 %芜湖: 0.1 %芝加哥: 0.4 %芝加哥: 0.4 %苏州: 0.3 %苏州: 0.3 %荆州: 0.2 %荆州: 0.2 %莆田: 0.0 %莆田: 0.0 %蚌埠: 0.2 %蚌埠: 0.2 %衡水: 0.1 %衡水: 0.1 %衢州: 0.3 %衢州: 0.3 %襄阳: 0.1 %襄阳: 0.1 %西宁: 38.9 %西宁: 38.9 %西安: 0.5 %西安: 0.5 %贵阳: 0.1 %贵阳: 0.1 %赣州: 0.0 %赣州: 0.0 %达勒姆: 0.0 %达勒姆: 0.0 %达州: 0.1 %达州: 0.1 %运城: 0.4 %运城: 0.4 %连云港: 0.1 %连云港: 0.1 %邯郸: 0.0 %邯郸: 0.0 %郑州: 1.1 %郑州: 1.1 %鄂州: 0.2 %鄂州: 0.2 %重庆: 1.6 %重庆: 1.6 %金华: 0.2 %金华: 0.2 %铜川: 0.0 %铜川: 0.0 %镇江: 0.3 %镇江: 0.3 %长春: 0.0 %长春: 0.0 %长沙: 0.3 %长沙: 0.3 %阜阳: 0.0 %阜阳: 0.0 %阳泉: 0.0 %阳泉: 0.0 %随州: 0.1 %随州: 0.1 %青岛: 0.0 %青岛: 0.0 %香港: 0.1 %香港: 0.1 %香港特别行政区: 0.0 %香港特别行政区: 0.0 %马鞍山: 0.1 %马鞍山: 0.1 %驻马店: 0.2 %驻马店: 0.2 %黄冈: 0.3 %黄冈: 0.3 %黄山: 0.2 %黄山: 0.2 %黄石: 0.0 %黄石: 0.0 %黔东南: 0.0 %黔东南: 0.0 %黔南布依族苗族自治州: 0.0 %黔南布依族苗族自治州: 0.0 %其他其他AlgeriaBrazilChinaÉvryFalls ChurchIndiaMatawanTaiwan, ChinaUnited States[]上海东莞中山临汾丽水丽江乌鲁木齐佛山保定信阳兰州北京北海华盛顿州南京南充南昌南通南阳台州合肥呼和浩特哈尔滨哥伦布商丘喀什嘉兴大理白族自治州大连天津太原安康宣城宿迁巴中常州平顶山广州廊坊开封徐州成都扬州抚顺新余无锡昆明昆西晋中晋城杭州枣庄格兰特县桃园梅州武汉汕尾沈阳泉州泰州泰米尔纳德洛阳济南济宁海得拉巴淮北淮南淮安深圳温州滁州漯河潍坊烟台珠海盐城石家庄福州秦皇岛绵阳罗奥尔凯埃自贡芒廷维尤芜湖芝加哥苏州荆州莆田蚌埠衡水衢州襄阳西宁西安贵阳赣州达勒姆达州运城连云港邯郸郑州鄂州重庆金华铜川镇江长春长沙阜阳阳泉随州青岛香港香港特别行政区马鞍山驻马店黄冈黄山黄石黔东南黔南布依族苗族自治州Highcharts.com

Catalog

    通讯作者: 陈斌, bchen63@163.com
    • 1. 

      沈阳化工大学材料科学与工程学院 沈阳 110142

    1. 本站搜索
    2. 百度学术搜索
    3. 万方数据库搜索
    4. CNKI搜索

    Figures(10)  / Tables(1)

    Article Metrics

    Article views (2709) PDF downloads(101) Cited by()
    Proportional views
    Related

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return