Online Learning-based Virtual Resource Allocation for Network Slicing in Virtualized Cloud Radio Access Network
-
摘要: 针对现有研究中缺乏云无线接入网络(C-RAN)场景下对网络切片高效的动态资源分配方案的问题,该文提出一种虚拟化C-RAN网络下的网络切片虚拟资源分配算法。首先基于受限马尔可夫决策过程(CMDP)理论建立了一个虚拟化C-RAN场景下的随机优化模型,该模型以最大化平均切片和速率为目标,同时受限于各切片平均时延约束以及网络平均回传链路带宽消耗约束。其次,为了克服CMDP优化问题中难以准确掌握系统状态转移概率的问题,引入决策后状态(PDS)的概念,将其作为一种“中间状态”描述系统在已知动态发生后,但在未知动态发生前所处的状态,其包含了所有与系统状态转移有关的已知信息。最后,提出一种基于在线学习的网络切片虚拟资源分配算法,其在每个离散的资源调度时隙内会根据当前系统状态为每个网络切片分配合适的资源块数量以及缓存资源。仿真结果表明,该算法能有效地满足各切片的服务质量(QoS)需求,降低网络回传链路带宽消耗的压力并同时提升系统吞吐量。Abstract: To solve the problem of lacking efficient and dynamic resource allocation schemes for 5G Network Slicing (NS) in Cloud Radio Access Network (C-RAN) scenario in the existing researches, a virtual resource allocation algorithm for NS in virtualized C-RAN is proposed. Firstly, a stochastic optimization model in virtualized C-RAN network is established based on the Constrained Markov Decision Process (CMDP) theory, which maximizes the average sum rates of all slices as its objective, and is subject to the average delay constraint for each slice as well as the average network backhaul link bandwidth consumption constraint in the meantime. Secondly, in order to overcome the issue of having difficulties in acquiring the accurate transition probabilities of the system states in the proposed CMDP optimization problem, the concept of Post-Decision State (PDS) as an " intermediate state” is introduced, which is used to describe the state of the system after the known dynamics, but before the unknown dynamics occur, and it incorporates all of the known information about the system state transition. Finally, an online learning based virtual resource allocation algorithm is presented for NS in virtualized C-RAN, where in each discrete resource scheduling slot, it will allocate appropriate Resource Blocks (RBs) and caching resource for each network slice according to the observed current system state. The simulation results reveal that the proposed algorithm can effectively satisfy the Quality of Service (QoS) demand of each individual network slice, reduce the pressure of backhaul link on bandwidth consumption and improve the system throughput.
-
1. 引言
近年来,随着移动用户的数据需求激增,移动数据业务经历了大幅度增长。因此,移动运营商需要降低成本的可扩展解决方案,以满足未来5G网络在容量和时延等方面的性能指标。在现已提出的众多具有前景的技术和新型网络框架中,网络切片(Network Slicing, NS)和云无线接入网(Cloud Radio Access Network, C-RAN)获得了学者们的广泛关注和深入研究[1]。网络切片是指利用虚拟化技术将网络基础设施资源虚拟化为多个专用的虚拟网络,其实现了业务场景、网络功能和基础设施平台间的适配,可以更好地支持多样化的业务需求。C-RAN架构有助于在整个网络内交换业务和信道信息,其可在降低功耗的同时进一步提升网络的整体性能[2]。
已有大量工作深入研究了虚拟化技术和C-RAN架构。文献[3]提出了一种前传容量受限的C-RAN下的资源共享策略,其中一个网络运营商将无线电资源租借给多个服务提供商(Service Providers, SPs)并控制用户接入和关联。文献[4]将虚拟化技术与C-RAN相结合,以实现最大化系统吞吐量且最小化时延的目标。
现有的研究工作大多是分开讨论虚拟化技术与C-RAN架构,很少有工作将二者结合起来探讨,也没有考虑具有多样化性能需求的5G网络切片共存的情况。然而,网络切片与C-RAN结合具有明显的优势,一来无线资源可以实现跨小区的动态可扩展分配,二来可以较容易且灵活地重新部署云资源,以专注于高需求区域,从而提升网络覆盖范围并增强用户体验质量(Quality of Experience, QoE)。此外,当前针对网络切片的资源分配方案大多考虑的是频谱或功率资源,很少有文献考虑缓存资源与其他无线电资源的联合动态分配。针对5G网络切片的动态资源分配问题,本文联合考虑了频谱与缓存资源,并将虚拟化C-RAN网络下的资源分配看作一个无穷时间马尔可夫决策过程。本文的主要贡献包括:
(1)本文基于CMDP理论建立了一个虚拟化C-RAN场景下的随机优化模型,该模型以最大化平均切片和速率为目标,同时受限于各切片平均时延约束以及网络平均回传链路带宽消耗约束。
(2)针对CMDP优化问题中难以准确掌握系统状态转移概率的问题,本文引入决策后状态的概念,将其作为一种“中间状态”用于描述系统在已知动态发生后,但在未知动态发生前所处的状态,其包含了所有与系统状态转移有关的已知信息。
(3)本文提出了一种基于在线学习的网络切片虚拟资源分配算法。在该算法中,在每个离散的资源调度时隙内,算法会根据当前系统状态为每个网络切片分配合适的资源块数量以及缓存资源。
2. 系统模型
2.1 系统场景
如图1所示,考虑一个虚拟化C-RAN网络的下行传输场景,假设原底层物理网络中的每个基站均带有一定的缓存空间,将所有缓存空间通过“云化”操作集中形成虚拟缓存资源池(virtual cache resource pool),并与虚拟基带单元(Base Band Unit, BBU)池部署在一起。整个网络共为
K 个用户提供S 种不同的应用服务。令K={1,2,···,K} ,S={1,2,···,S} ,其中,K 和S 分别表示用户集合和业务集合。网络中考虑一种时变随机信道模型,令
hks(t) 为用户k 在时隙t 请求业务s 时的信道增益。hks(t)∈H={h1,h2,···,hH} 且∑Hi=1P(hi)=1 ,其中,H 为有限信道状态集合,P(hi) 表示信道状态为hi 的概率。假定用户请求各业务时的信道状态在每个时隙内保持不变,在时隙间随机变化,并且用户在不同时隙间请求业务时的信道状态是相互独立的。假设时隙t 内用户间请求相同业务s 的平均信道增益为ˉhs(t) ,对应的频谱效率为γs(t) 。本文考虑一个离散时间排队系统,设每个时隙的长度为
τ ,每个用户在任一时隙内都能请求多种不同的业务,假设用户k 在时隙t 内业务s 到达的数据包为Aks(t) ,其服从某种分布E{Aks(t)}=λks 且在时隙间是独立同分布的。网络为每种业务构建一个网络切片及其相应的排队队列,切片与业务是一一对应的(使用同一索引),令Qs(t) 表示切片s 在时隙t 开始时的队列长度,且有Qs(t)=∑k∈KQks(t) ,其中,Qks(t) 为时隙t 用户k 的业务s 的队列长度。Qs(t) 按式(1)动态更新Qs(t+1)=max[Qs(t)−Ds(t),0]+As(t) (1) 其中,
As(t)=∑k∈KAks(t) 为业务s 在时隙t 内到达的数据包数,Ds(t)=γs(t)⋅B⋅Xs(t)⋅τ/L 表示时隙t 从业务s 的排队队列中离开的数据包数,B 为单个RB(Resource Block)的带宽,Xs(t) 为时隙t 分配给切片s 的RB个数,L 为每个数据包的大小。进一步,令Q(t)={Q1(t),Q2(t),···,QS(t)} 表示系统在时隙t 的全局队列状态信息(Queue State Information, QSI),H(t)={ˉh1(t),ˉh2(t),···,ˉhS(t)} 为时隙t 的全局信道状态信息(Channel State Information, CSI)。虚拟缓存资源池通过主动缓存“较优”的业务内容来减少网络回传链路的带宽消耗,并降低网络运营成本。另一方面,通过将基站边缘较小的缓存空间通过“池化”形成云端具有较大容量的缓存空间这一操作,可使得网络缓存更多的流行内容,从而可以被来自不同运营商的众多用户所共享,极大地提高了资源利用率,进一步降低了网络整体时延。为了便于理解和后续讨论,本文假设虚拟缓存资源池在每一时隙可完整缓存任一业务的全部内容,令
Zs(t)∈{0,1} 表示时隙t 的缓存策略,Zs(t) = 1意味着系统在时隙t 内缓存业务s 的全部内容,否则,Zs(t)=0 。进一步有∑s∈SZs(t)=1,∀t (2) 令
Z(t)={Zs(t),s∈S} 为时隙t 内的缓存资源分配行为。类似地,令X(t)={Xs(t),s∈S} 为时隙t 内的RB分配行为,其中,Xs(t) 满足Xs(t)≥0,∑s∈SXs(t)≤N (3) 其中,
N 为网络中的RB总数。由上所述,时隙
t 内网络切片的和速率可以表示为R(t)=∑s∈SRs(t)=∑s∈Sγs(t)⋅B⋅Xs(t) (4) 其中,
Rs(t) 为切片s 在时隙t 的瞬时传输速率。进一步,本文假设回传链路的带宽消耗与前传链路瞬时传输速率相同,因此网络在时隙t 内消耗的回传链路带宽可按式(5)计算B(t)=R(t)−∑s∈SZs(t)Rs(t) (5) 2.2 问题描述
一个受限马尔可夫决策过程(Constrained Markov Decision Process, CMDP)问题可由1个4元组
<C,A,ra(c′|c),Ra(c,c′)> 描述,其中,C 为状态空间,A 为行动空间,ra(c′|c)=Pr(ct+1= c′|ct=c,at=a) 表示系统在当前时隙t 处于状态c 下,执行动作a 后,在下一时隙t+1 转到状态c′ 的概率。Ra(c,c′) 表示系统在状态c 下执行动作a 并转移到状态c′ 时的即时成本/回报。在本文中,定义系统在时隙
t 的状态为ct=(Q(t),H(t))∈C ,定义系统在时隙t 的行动为at=(X(t),Z(t))∈A 。令π:C→A 代表一个稳定的确定性策略,其将状态空间映射到行动空间上,即a=π(c) 。令Φ 表示所有可能的策略集合,给定初始状态c ,以及策略π∈Φ ,则期望累积折扣回报(切片和速率)、期望累积折扣切片时延以及期望累积折扣回传链路带宽消耗可以分别表示为ˉRπ(c)=Eπ{∞∑t=0γtR(ct,π(ct))|c0=c}=Eπ{∞∑t=0γt∑s∈Sγs(t)⋅B⋅Xs(t)|c0=c} (6) ˉDπs(c)=Eπ{∞∑t=0γtds(t)|c0=c}=Eπ{∞∑t=0γtQs(t)λs|c0=c},∀s∈S (7) ˉBπ(c)=Eπ{∞∑t=0γtB(t)|c0=c}=Eπ{∞∑t=0γt[R(t)−∑s∈SZs(t)Rs(t)]|c0=c} (8)
其中,
λs=E[As(t)]=∑k∈Kλks 为切片s 的数据包到达过程的均值,Qs(t)/λs 根据文献[5]可以理解为切片s 的平均时延,γ∈(0,1] 为折扣因子,其指示了未来的回报对当前行为选择的影响程度。本文的目的是通过合理动态的分配频谱资源与缓存资源,在满足各网络切片平均时延约束以及网络平均回传链路带宽消耗约束的前提下,最大化平均网络切片和速率,因而建立式(9)所示的随机优化模型min−Eπ{∞∑t=0γt∑s∈Sγs(t)⋅B⋅Xs(t)|c0=c}s.t.C1Eπ{∞∑t=0γtQs(t)λs|c0=c}≤δs,∀s∈S C2Eπ{∞∑t=0γt[R(t)−∑s∈SZs(t)Rs(t)]|c0=c}≤δ0 C3Xs(t)≥0,∑s∈SXs(t)≤N,∀t C4Zs(t)∈{0,1},∑s∈SZs(t)=1,∀t (9) 其中,
δs,s∈S 为各切片的时延约束,δ0 为网络回传链路带宽消耗约束。2.3 问题转换
CMDP问题式(9)可以通过拉格朗日理论转化为不受限的MDP问题,定义问题式(9)对应的拉格朗日函数为
L(β,c,π)=Eπ{∞∑t=0γtgβ(ct,π(ct))|c0=c}−∑s∈Sβsδs−β0δ0 (10) 其中,
gβ(ct,π(ct))=−∑s∈Sγs(t)BXs(t)+∑s∈S βsQs(t)λs+β0[R(t)−∑s∈SZs(t)Rs(t)] 为时隙t 的拉格朗日回报,βi≥0(i=0,1,···,S) 为拉格朗日乘子,令β= {βi,i=0,1,···,S} 。进一步,定义状态值函数为Vπ,β(c)=Eπ{∞∑t=0γtgβ(ct,π(ct))|c0=c} (11) 因此,优化问题式(9)可转化为式(12)的无约束MDP问题
minπ∈Φmaxβ:βi≥0(Vπ,β(c)−∑s∈Sβsδs−β0δ0) (12) 其对偶问题为
maxβ:βi≥0minπ∈Φ(Vπ,β(c)−∑s∈Sβsδs−β0δ0) (13) 对于一个给定的
β:βi≥0 ,无约束优化问题式(13)对应的最优策略π∗,β 满足式(14)的贝尔曼最优性方程V∗,β(c)=mina∈A{gβ(c,a)+γ∑c′∈Cra(c′|c)V∗,β(c′)} (14) 其中,
V∗,β:C→R 称为最优状态值函数。类似地,定义Q∗,β:C×A→R 为最优行动值函数,其满足Q∗,β(c,a)=gβ(c,a)+γ∑c′∈Cra(c′|c)V∗,β(c′) (15) 由式(14)和式(15)可得
V∗,β(c)=mina∈AQ∗,β(c,a) (16) 因此,最优策略
π∗,β 可得π∗,β=argmina∈AQ∗,β(c,a),∀c∈C (17) 为了叙述方便,接下来将符号中的
β 省略,拉格朗日乘子β:βi≥0 的问题将在下一节讨论。3. 一种虚拟化C-RAN网络下基于在线学习的网络切片虚拟资源分配算法
本文接下来引入决策后状态(Post-Decision State, PDS)的概念并进而提出一种基于在线学习的网络切片虚拟资源分配算法,该算法能够很好地利用系统已知动态信息,提高学习算法的性能。
PDS描述了系统在已知动态发生后,但在未知动态发生前所处的状态,令
˜c 表示PDS且所有的PDSs均包含于状态空间C 中。当时隙t 在状态ct 下采取行动at ,那么时隙t 的PDS可表示为˜ct=(˜Qt,˜Ht)=(˜Qt,Ht) (18) 其中,
˜Qt={˜Qs(t),s∈S} ,˜Qs(t)=max[Qs(t) −Ds(t),0]=max[Qs(t)−γs(t)⋅B⋅Xs(t)⋅τ/L,0] 。时隙
t+1 的系统状态为ct+1=(Qt+1,Ht+1) (19) 其中,
Qt+1={Qs(t+1),s∈S} ,Qs(t+1)= ˜Qs(t)+As(t) 。PDS
˜ct 包含了所有的与从状态ct 执行动作at 再转到ct+1 有关的已知信息,下一时隙状态ct+1 则包含了所有未知动态,即切片数据包到达过程As(t) 和信道状态Ht+1 。根据PDS的定义,一般地,系统状态转移概率
ra(c′|c) 可以被分解为已知和未知两部分,已知部分给出从状态c 到PDS˜c 的转移概率,未知部分给出从PDS˜c 到下一状态c′ 的转移概率。令rka(˜c|c) 和ru(c′|˜c) 分别表示已知转移概率和未知转移概率,则有ra(c′|c)=∑˜crka(˜c|c)ru(c′|˜c) (20) 类似地,即时回报函数也可分解为已知和未知两部分,如式(21)所示
g(c,a)=gk(c,a)+∑˜crka(˜c|c)gu(˜c) (21) 值得注意的是,本文中不存在未知成本,即
gu(˜c)=0 ,gk(c,a)=g(c,a) 。为了便于叙述,定义系统状态与PDS的状态转移方程分别为˜ct=SM,a(ct,at) (22) ct+1=SM,W(˜ct,At,Ht+1) (23) 其中,
At={As(t),s∈S} ,式(22)与当前采取的行动有关,式(23)与外部随机事件有关,包括业务数据包到达过程与信道状态变化等。令
˜V ∗ 表示最优的PDS状态值函数˜V ∗(˜c)=E{V∗(c′)|˜c}=∑c′∈Cru(c′|˜c)V∗(c′) (24) 则最优状态值函数
V∗ 可改写为V∗(c)=mina∈A{g(c,a)+γ˜V ∗(˜c)} (25) 因此,最优策略
π∗PDS 可按式(26)选择π∗PDS=argmina∈A{g(c,a)+γ˜V ∗(˜c)} (26) 式(25)是式(14)等效的改写形式,所以
π∗PDS 与π∗ 也同样等价。因此,PDS状态值函数适用于学习最优策略。从式(25)可以看出,基于PDS的学习算法可通过学习系统未知动态来获得最优值函数V ∗ 和最优策略π∗ ,可利用迭代的方式逐渐逼近最优的PDS状态值函数˜V ∗ 。本文提出的基于在线学习的网络切片虚拟资源分配算法具体如表1所示。表 1 虚拟化C-RAN网络下基于在线学习的网络切片虚拟资源分配算法输入 系统状态空间C,动作空间A,拉格朗日回报函数
g(ct,π(ct)),有限信道状态集合H。初始化:初始化决策后状态的状态值函数˜V0(˜c)∈R,∀˜c∈C,令
t←0, ct←c∈C。学习阶段:
(1) 求解
at=argmina∈A{g(ct,a)+γ˜Vt(SM,a(ct,a))}; (27)(2) 观察PDS状态˜ct和下一时隙状态ct+1:˜ct=SM,a(ct,at),
ct+1=SM,W(˜ct,At,Ht+1);(3) 计算ct+1的状态值函数:
Vt(ct+1)=mina∈A{g(ct+1,a)+γ˜Vt(SM,a(ct+1,a))}; (28)(4) 更新˜Vt+1(˜ct): ˜Vt+1(˜ct)=(1−αt)˜Vt(˜ct)+αtVt(ct+1); (29) (5) 利用随机次梯度法更新拉格朗日乘子β:βi≥0。 输出 最优策略π∗PDS。 表1中,
αt 是第t 次迭代时的学习速率,遵循随机近似条件[6],其应满足0<αt<1 ,∑tαt=∞ 和∑tα2t<∞ 。可以证明,当t→∞ 时序列~V t(˜c) 会以概率1收敛到最优PDS状态值函数~V ∗(˜c) 。4. 仿真结果与分析
为了评估本文所提出的基于在线学习的网络切片虚拟资源分配算法的有效性,本节将其与文献[4]提出的启发式(heuristic)算法、文献[6]中的Q学习(Q-Learning)以及文献[7]中的比例公平静态共享算法(Static Sharing with PF)作比较,根据仿真结果进行详尽地分析。启发式算法中,在每个离散的资源调度时隙上,对于任一RB,首先计算各网络切片的当前权重,其中权重与当前时隙各切片的最低资源需求、信道状态以及队列状态有关。接着,算法将RB分配给对应权重最大的网络切片。比例公平静态共享算法中,在每个离散的资源调度时隙上,首先根据当前时隙的系统状态计算各网络切片的最低资源需求。接着,在分配给各网络切片最低需求的资源块数后,算法将依据各切片队列长度比例公平的原则分配剩余的资源块。
4.1 参数设置
本文考虑的仿真场景中有两个时延需求不同的网络切片,即
S=2 ,将各切片的队列长度离散化为有限个等间距的区间,每个区间表示一种队列状态,因而系统状态空间C 为有限状态集合。仿真中主要参数设置如表2所示。表 2 仿真参数仿真参数 值 远端射频头(RRH)最大发射功率 20 dBm 各切片最大队列长度Qs,max 20 packets 噪声功率谱密度 –174 dBm/Hz 数据包大小L 4 kbit/packet 路径损耗模型 104.5+20lg(d) (d[km]) 时隙长度τ 1 ms 4.2 仿真结果分析
图2和图3分别比较了不同平均时延约束下,4种不同算法在平均切片和速率以及平均切片总时延方面的性能。从图2和图3中可以看出,平均时延约束越大,不同算法下的平均切片和速率和平均切片总时延都将增大。这是因为平均时延约束越大,算法就会在满足平均时延约束条件下优先考虑平均切片和速率最大化的问题,会出现将信道条件较差的网络切片新到达的业务数据包积压进排队队列,从而能分配更多的资源给信道条件较好的切片以提高整体平均切片和速率的情况。此外,如图2和图3所示,本文提出的基于在线学习的网络切片虚拟资源分配算法具有最高的平均切片和速率,Q学习算法实现了与其相近的平均切片和速率和平均切片总时延性能,启发式算法的平均切片总时延最大,比例公平静态共享算法的平均切片和速率最小,但其平均切片总时延要优于其它3种算法。这是因为在比例公平静态共享算法中,在每个离散的资源调度时隙内,在分配给各网络切片最低需求的资源块数后,算法将按照各切片队列长度比例公平的原则分配剩余的资源块。因此,信道条件较差的网络切片也能分配到相对更多的资源,从而会降低切片平均总时延,但相应地也会影响平均切片和速率。
图4和图5分别比较了不同数据包到达率
λ1 下,4种不同算法在平均切片和速率以及平均切片总时延方面的性能。从图中可以看出,随着切片1的业务数据包到达率λ1 增大,不同算法下的平均切片和速率将减小,平均切片总时延将增大。这是因为数据包到达率λ1 越大,每一时隙内切片1的排队队列中堆积的待传数据包也就越多,因而平均切片总时延也会相应增大。此外,为了满足切片1的平均时延约束,算法会在每个离散的资源调度时隙内为其分配更多的资源块,尤其是当信道条件较差的时候,相应地,切片2就会得到相对较少的资源块数量,即使其当前的信道质量较好,即可以理解为以牺牲部分切片和速率为代价来满足切片时延约束,因此平均切片和速率会随着数据包到达率λ1 的增大而减小。5. 结束语
针对现有研究中缺乏C-RAN场景下网络切片的动态资源分配方案的问题,本文将虚拟化C-RAN网络下的资源分配看作一个无穷时间马尔可夫决策过程,建立了一个以最大化平均网络切片和速率为目标,同时受限于各切片平均时延约束以及网络平均回传链路带宽消耗约束的随机优化模型,进而设计了一种基于在线学习的网络切片虚拟资源分配算法。仿真结果显示,所提出的算法能够有效地满足各切片的服务质量需求,降低回传链路带宽消耗的压力并同时提升系统吞吐量。
传统的基于MDP或Q-Learning的强化学习算法是基于查找表来选择每一时刻的最优行动的,然而当状态空间较大时,会引起所谓的“维度灾难(Curses of Dimensionality)”问题,导致算法的可扩展性较差,且对于访问次数较少的状态来说,其值函数的收敛速度较慢。为了解决上述问题,许多新兴的技术受到了学者们的广泛关注和深入研究,如值函数近似策略[8,9]、基于Actor-Critic (AC)的强化学习方法[10]、深度强化学习(Deep Reinforcement Learning, DRL)[11]等,这也是进一步研究工作的重点。
-
表 1 虚拟化C-RAN网络下基于在线学习的网络切片虚拟资源分配算法
输入 系统状态空间C,动作空间A,拉格朗日回报函数
g(ct,π(ct)),有限信道状态集合H。初始化:初始化决策后状态的状态值函数˜V0(˜c)∈R,∀˜c∈C,令
t←0, ct←c∈C。学习阶段:
(1) 求解
at=argmina∈A{g(ct,a)+γ˜Vt(SM,a(ct,a))}; (27)(2) 观察PDS状态˜ct和下一时隙状态ct+1:˜ct=SM,a(ct,at),
ct+1=SM,W(˜ct,At,Ht+1);(3) 计算ct+1的状态值函数:
Vt(ct+1)=mina∈A{g(ct+1,a)+γ˜Vt(SM,a(ct+1,a))}; (28)(4) 更新˜Vt+1(˜ct): ˜Vt+1(˜ct)=(1−αt)˜Vt(˜ct)+αtVt(ct+1); (29) (5) 利用随机次梯度法更新拉格朗日乘子β:βi≥0。 输出 最优策略π∗PDS。 表 2 仿真参数
仿真参数 值 远端射频头(RRH)最大发射功率 20 dBm 各切片最大队列长度Qs,max 20 packets 噪声功率谱密度 –174 dBm/Hz 数据包大小L 4 kbit/packet 路径损耗模型 104.5+20lg(d) (d[km]) 时隙长度τ 1 ms -
HOSSAIN E and HASAN M. 5G cellular: Key enabling technologies and research challenges[J]. IEEE Instrumentation & Measurement Magazine, 2015, 18(3): 11–21. doi: 10.1109/MIM.2015.7108393 CHECKO A, CHRISTIANSEN H L, YAN Ying, et al. Cloud RAN for mobile networks-A technology overview[J]. IEEE Communications Surveys & Tutorials, 2015, 17(1): 405–426. doi: 10.1109/COMST.2014.2355255 NIU Binglai, ZHOU Yong, SHAH-MANSOURI H, et al. A dynamic resource sharing mechanism for cloud radio access networks[J]. IEEE Transactions on Wireless Communications, 2016, 15(12): 8325–8338. doi: 10.1109/TWC.2016.2613896 KALIL M, Al-DWEIK A, SHARKH M F A, et al. A framework for joint wireless network virtualization and cloud radio access networks for next generation wireless networks[J]. IEEE Access, 2017, 5: 20814–20827. doi: 10.1109/ACCESS.2017.2746666 BERTSEKAS D and GALLAGER R. Data Networks[M]. Englewood Cliffs: Prentice-Hall, 1991, 152–162. YANG Jian, ZHANG Shuben, WU Xiaomin, et al. Online learning-based server provisioning for electricity cost reduction in data center[J]. IEEE Transactions on Control Systems Technology, 2017, 25(3): 1044–1051. doi: 10.1109/TCST.2016.2575801 KALIL M, SHAMI A, and YE Yinghua. Wireless resources virtualization in LTE systems[C]. Proceedings of 2014 IEEE Conference on Computer Communications Workshops, Toronto, Canada, 2014: 363–368. doi: 10.1109/INFCOMW.2014.6849259. POWELL W B. Approximate Dynamic Programming: Solving the Curses of Dimensionality[M]. Hoboken, USA: Wiley, 2011, 289–388. LAKSHMINARAYANAN C and BHATNAGAR S. Approximate dynamic programming with (min, +) linear function approximation for Markov decision processes[J]. arXiv preprint arXiv: 1403.4179, 2014. LI Rongpeng, ZHAO Zhifeng, CHEN Xianfu, et al. TACT: A transfer actor-critic learning framework for energy saving in cellular radio access networks[J]. IEEE Transactions on Wireless Communications, 2014, 13(4): 2000–2011. doi: 10.1109/TWC.2014.022014.130840 HE Xiaoming, WANG Kun, HUANG Huawei, et al. Green resource allocation based on deep reinforcement learning in content-centric IoT[J]. IEEE Transactions on Emerging Topics in Computing, 2019. doi: 10.1109/TETC.2018.2805718 期刊类型引用(23)
1. 冯兴隆,孔锋峰,霍凯龙,周国华,赵舫. 基于5G无线通信的配电网电流差动保护系统设计. 电测与仪表. 2025(01): 116-123 . 百度学术
2. 蔡杰锋. 基于信任感知的虚拟网络切片差异化资源分配算法. 滨州学院学报. 2024(02): 74-80 . 百度学术
3. 梁伟鹏,邱小琼. 云实训室信息化数据智能推荐技术. 信息技术. 2023(02): 123-128 . 百度学术
4. 蔡卫红,仇益彩,文杰斌,吕宏悦. 基于NST规范的5G网络切片计费设计. 湖南邮电职业技术学院学报. 2023(02): 13-18 . 百度学术
5. 周杨. 基于云桌面技术的高校同声传译语音室远程控制方法. 信息技术. 2023(06): 113-118 . 百度学术
6. 田晨景,谢钧,曹浩彤,骆西建,刘亚群. 5G网络切片研究进展. 计算机科学. 2023(11): 282-295 . 百度学术
7. 徐胜超,熊茂华. 基于遗传算法的容器云资源配置优化. 计算机与现代化. 2022(01): 108-112 . 百度学术
8. 朱晓彦. 多QoS目标约束下云任务调度负载均衡控制算法. 黄河科技学院学报. 2022(02): 31-35 . 百度学术
9. 曾坚毅,许济金. 基于马氏决策的5G网络切片虚拟资源分配研究. 计算机仿真. 2022(06): 242-246 . 百度学术
10. 马英洪,江凌云. 多基站下基于DRL的RAN切片资源分配. 计算机应用研究. 2022(09): 2791-2798 . 百度学术
11. 程正. 发电厂ON-CALL系统告警信息采集虚拟化设计与应用. 水电站机电技术. 2022(12): 32-37 . 百度学术
12. 孙頔,王睿. 基于蚁群算法的舰船网络云资源调度. 舰船科学技术. 2021(06): 160-162 . 百度学术
13. 徐海东,王江,易辉跃. 软件定义无线接入网络的组件化研究. 电子与信息学报. 2021(04): 1064-1071 . 本站查看
14. 江忠. 船舶无线通信网络中时隙资源精准分配的数学模型. 舰船科学技术. 2021(18): 154-156 . 百度学术
15. 高志华,王居正,樊旻,张凌云,李国良. 基于5G网络切片在线映射算法的电力通信远程视频指挥系统设计. 内蒙古电力技术. 2021(05): 80-83 . 百度学术
16. 施纳,鲍祖尚. 基于TDMA的通信网络数字资源时隙动态分配系统设计. 自动化与仪器仪表. 2021(10): 124-127 . 百度学术
17. 施加轮,卓秀者,李杰,邓舒. 宏微协同组网下基于小区分簇的联合传输与无线资源分配. 半导体光电. 2021(06): 909-918 . 百度学术
18. 顾兆伟,江凌云. 混合能源供应异构云无线接入网的功率分配和能源协作算法. 南京邮电大学学报(自然科学版). 2021(05): 45-52 . 百度学术
19. 李华,张宏波,杨新亮. 高度虚拟化的IP网络. 数字通信世界. 2020(02): 66 . 百度学术
20. 唐伦,魏延南,谭颀,唐睿,陈前斌. H-CRAN网络下联合拥塞控制和资源分配的网络切片动态资源调度策略. 电子与信息学报. 2020(05): 1244-1252 . 本站查看
21. 陈前斌,管令进,李子煜,王兆堃,杨恒,唐伦. 基于深度强化学习的异构云无线接入网自适应无线资源分配算法. 电子与信息学报. 2020(06): 1468-1477 . 本站查看
22. 伏琰. 云环境下启发式网络信息采集模型仿真. 计算机仿真. 2020(09): 328-332 . 百度学术
23. 李辉. 基于云计算技术的网络数据采集传输仿真. 计算机仿真. 2020(06): 152-155+456 . 百度学术
其他类型引用(6)
-