高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

虚拟化云无线接入网络下基于在线学习的网络切片虚拟资源分配算法

唐伦 魏延南 马润琳 贺小雨 陈前斌

唐伦, 魏延南, 马润琳, 贺小雨, 陈前斌. 虚拟化云无线接入网络下基于在线学习的网络切片虚拟资源分配算法[J]. 电子与信息学报, 2019, 41(7): 1533-1539. doi: 10.11999/JEIT180771
引用本文: 唐伦, 魏延南, 马润琳, 贺小雨, 陈前斌. 虚拟化云无线接入网络下基于在线学习的网络切片虚拟资源分配算法[J]. 电子与信息学报, 2019, 41(7): 1533-1539. doi: 10.11999/JEIT180771
Lun TANG, Yannan WEI, Runlin MA, Xiaoyu HE, Qianbin CHEN. Online Learning-based Virtual Resource Allocation for Network Slicing in Virtualized Cloud Radio Access Network[J]. Journal of Electronics & Information Technology, 2019, 41(7): 1533-1539. doi: 10.11999/JEIT180771
Citation: Lun TANG, Yannan WEI, Runlin MA, Xiaoyu HE, Qianbin CHEN. Online Learning-based Virtual Resource Allocation for Network Slicing in Virtualized Cloud Radio Access Network[J]. Journal of Electronics & Information Technology, 2019, 41(7): 1533-1539. doi: 10.11999/JEIT180771

虚拟化云无线接入网络下基于在线学习的网络切片虚拟资源分配算法

doi: 10.11999/JEIT180771
基金项目: 国家自然科学基金(61571073),重庆市教委科学技术研究项目(KJZD-M201800601)
详细信息
    作者简介:

    唐伦:男,1973年生,教授,主要研究方向为下一代无线通信网络、异构蜂窝网络、软件定义无线网络等

    魏延南:男,1995年生,硕士生,研究方向为5G网络切片、虚拟资源分配、随机优化理论

    马润琳:女,1993年生,硕士生,研究方向为5G网络切片、网络功能虚拟化、无线资源分配

    贺小雨:女,1995年生,硕士生,研究方向为5G网络切片、无线网络虚拟化、智能优化理论

    陈前斌:男,1967年生,教授,博士生导师,主要研究方向为个人通信、多媒体信息处理与传输、异构蜂窝网络等

    通讯作者:

    魏延南 weiyannan_cqupt@163.com

  • 中图分类号: TN929.5

Online Learning-based Virtual Resource Allocation for Network Slicing in Virtualized Cloud Radio Access Network

Funds: The National Natural Science Foundation of China (61571073), The Science and Technology Research Program of Chongqing Municipal Education Commission (KJZD-M201800601)
  • 摘要: 针对现有研究中缺乏云无线接入网络(C-RAN)场景下对网络切片高效的动态资源分配方案的问题,该文提出一种虚拟化C-RAN网络下的网络切片虚拟资源分配算法。首先基于受限马尔可夫决策过程(CMDP)理论建立了一个虚拟化C-RAN场景下的随机优化模型,该模型以最大化平均切片和速率为目标,同时受限于各切片平均时延约束以及网络平均回传链路带宽消耗约束。其次,为了克服CMDP优化问题中难以准确掌握系统状态转移概率的问题,引入决策后状态(PDS)的概念,将其作为一种“中间状态”描述系统在已知动态发生后,但在未知动态发生前所处的状态,其包含了所有与系统状态转移有关的已知信息。最后,提出一种基于在线学习的网络切片虚拟资源分配算法,其在每个离散的资源调度时隙内会根据当前系统状态为每个网络切片分配合适的资源块数量以及缓存资源。仿真结果表明,该算法能有效地满足各切片的服务质量(QoS)需求,降低网络回传链路带宽消耗的压力并同时提升系统吞吐量。
  • 近年来,随着移动用户的数据需求激增,移动数据业务经历了大幅度增长。因此,移动运营商需要降低成本的可扩展解决方案,以满足未来5G网络在容量和时延等方面的性能指标。在现已提出的众多具有前景的技术和新型网络框架中,网络切片(Network Slicing, NS)和云无线接入网(Cloud Radio Access Network, C-RAN)获得了学者们的广泛关注和深入研究[1]。网络切片是指利用虚拟化技术将网络基础设施资源虚拟化为多个专用的虚拟网络,其实现了业务场景、网络功能和基础设施平台间的适配,可以更好地支持多样化的业务需求。C-RAN架构有助于在整个网络内交换业务和信道信息,其可在降低功耗的同时进一步提升网络的整体性能[2]

    已有大量工作深入研究了虚拟化技术和C-RAN架构。文献[3]提出了一种前传容量受限的C-RAN下的资源共享策略,其中一个网络运营商将无线电资源租借给多个服务提供商(Service Providers, SPs)并控制用户接入和关联。文献[4]将虚拟化技术与C-RAN相结合,以实现最大化系统吞吐量且最小化时延的目标。

    现有的研究工作大多是分开讨论虚拟化技术与C-RAN架构,很少有工作将二者结合起来探讨,也没有考虑具有多样化性能需求的5G网络切片共存的情况。然而,网络切片与C-RAN结合具有明显的优势,一来无线资源可以实现跨小区的动态可扩展分配,二来可以较容易且灵活地重新部署云资源,以专注于高需求区域,从而提升网络覆盖范围并增强用户体验质量(Quality of Experience, QoE)。此外,当前针对网络切片的资源分配方案大多考虑的是频谱或功率资源,很少有文献考虑缓存资源与其他无线电资源的联合动态分配。针对5G网络切片的动态资源分配问题,本文联合考虑了频谱与缓存资源,并将虚拟化C-RAN网络下的资源分配看作一个无穷时间马尔可夫决策过程。本文的主要贡献包括:

    (1)本文基于CMDP理论建立了一个虚拟化C-RAN场景下的随机优化模型,该模型以最大化平均切片和速率为目标,同时受限于各切片平均时延约束以及网络平均回传链路带宽消耗约束。

    (2)针对CMDP优化问题中难以准确掌握系统状态转移概率的问题,本文引入决策后状态的概念,将其作为一种“中间状态”用于描述系统在已知动态发生后,但在未知动态发生前所处的状态,其包含了所有与系统状态转移有关的已知信息。

    (3)本文提出了一种基于在线学习的网络切片虚拟资源分配算法。在该算法中,在每个离散的资源调度时隙内,算法会根据当前系统状态为每个网络切片分配合适的资源块数量以及缓存资源。

    图1所示,考虑一个虚拟化C-RAN网络的下行传输场景,假设原底层物理网络中的每个基站均带有一定的缓存空间,将所有缓存空间通过“云化”操作集中形成虚拟缓存资源池(virtual cache resource pool),并与虚拟基带单元(Base Band Unit, BBU)池部署在一起。整个网络共为K个用户提供S种不同的应用服务。令K={1,2,···,K}, S={1,2,···,S},其中,KS分别表示用户集合和业务集合。

    图 1  虚拟化C-RAN网络系统场景

    网络中考虑一种时变随机信道模型,令hks(t)为用户k在时隙t请求业务s时的信道增益。hks(t)H={h1,h2,···,hH}Hi=1P(hi)=1,其中,H为有限信道状态集合,P(hi)表示信道状态为hi的概率。假定用户请求各业务时的信道状态在每个时隙内保持不变,在时隙间随机变化,并且用户在不同时隙间请求业务时的信道状态是相互独立的。假设时隙t内用户间请求相同业务s的平均信道增益为ˉhs(t),对应的频谱效率为γs(t)

    本文考虑一个离散时间排队系统,设每个时隙的长度为τ,每个用户在任一时隙内都能请求多种不同的业务,假设用户k在时隙t内业务s到达的数据包为Aks(t),其服从某种分布E{Aks(t)}=λks且在时隙间是独立同分布的。网络为每种业务构建一个网络切片及其相应的排队队列,切片与业务是一一对应的(使用同一索引),令Qs(t)表示切片s在时隙t开始时的队列长度,且有Qs(t)=kKQks(t),其中,Qks(t)为时隙t用户k的业务s的队列长度。Qs(t)按式(1)动态更新

    Qs(t+1)=max[Qs(t)Ds(t),0]+As(t)
    (1)

    其中,As(t)=kKAks(t)为业务s在时隙t内到达的数据包数,Ds(t)=γs(t)BXs(t)τ/L表示时隙t从业务s的排队队列中离开的数据包数,B为单个RB(Resource Block)的带宽,Xs(t)为时隙t分配给切片s的RB个数,L为每个数据包的大小。进一步,令Q(t)={Q1(t),Q2(t),···,QS(t)}表示系统在时隙t的全局队列状态信息(Queue State Information, QSI), H(t)={ˉh1(t),ˉh2(t),···,ˉhS(t)}为时隙t的全局信道状态信息(Channel State Information, CSI)。

    虚拟缓存资源池通过主动缓存“较优”的业务内容来减少网络回传链路的带宽消耗,并降低网络运营成本。另一方面,通过将基站边缘较小的缓存空间通过“池化”形成云端具有较大容量的缓存空间这一操作,可使得网络缓存更多的流行内容,从而可以被来自不同运营商的众多用户所共享,极大地提高了资源利用率,进一步降低了网络整体时延。为了便于理解和后续讨论,本文假设虚拟缓存资源池在每一时隙可完整缓存任一业务的全部内容,令Zs(t){0,1}表示时隙t的缓存策略,Zs(t)= 1意味着系统在时隙t内缓存业务s的全部内容,否则,Zs(t)=0。进一步有

    sSZs(t)=1,t
    (2)

    Z(t)={Zs(t),sS}为时隙t内的缓存资源分配行为。类似地,令X(t)={Xs(t),sS}为时隙t内的RB分配行为,其中,Xs(t)满足

    Xs(t)0,sSXs(t)N
    (3)

    其中,N为网络中的RB总数。

    由上所述,时隙t内网络切片的和速率可以表示为

    R(t)=sSRs(t)=sSγs(t)BXs(t)
    (4)

    其中,Rs(t)为切片s在时隙t的瞬时传输速率。进一步,本文假设回传链路的带宽消耗与前传链路瞬时传输速率相同,因此网络在时隙t内消耗的回传链路带宽可按式(5)计算

    B(t)=R(t)sSZs(t)Rs(t)
    (5)

    一个受限马尔可夫决策过程(Constrained Markov Decision Process, CMDP)问题可由1个4元组<C,A,ra(c|c),Ra(c,c)>描述,其中,C为状态空间,A为行动空间,ra(c|c)=Pr(ct+1=c|ct=c,at=a)表示系统在当前时隙t处于状态c下,执行动作a后,在下一时隙t+1转到状态c的概率。Ra(c,c)表示系统在状态c下执行动作a并转移到状态c时的即时成本/回报。

    在本文中,定义系统在时隙t的状态为ct=(Q(t),H(t))C,定义系统在时隙t的行动为at=(X(t),Z(t))A。令π:CA代表一个稳定的确定性策略,其将状态空间映射到行动空间上,即a=π(c)。令Φ表示所有可能的策略集合,给定初始状态c,以及策略πΦ,则期望累积折扣回报(切片和速率)、期望累积折扣切片时延以及期望累积折扣回传链路带宽消耗可以分别表示为

    ˉRπ(c)=Eπ{t=0γtR(ct,π(ct))|c0=c}=Eπ{t=0γtsSγs(t)BXs(t)|c0=c}
    (6)
    ˉDπs(c)=Eπ{t=0γtds(t)|c0=c}=Eπ{t=0γtQs(t)λs|c0=c},sS
    (7)
    ˉBπ(c)=Eπ{t=0γtB(t)|c0=c}=Eπ{t=0γt[R(t)sSZs(t)Rs(t)]|c0=c}

    (8)

    其中,λs=E[As(t)]=kKλks为切片s的数据包到达过程的均值,Qs(t)/λs根据文献[5]可以理解为切片s的平均时延,γ(0,1]为折扣因子,其指示了未来的回报对当前行为选择的影响程度。本文的目的是通过合理动态的分配频谱资源与缓存资源,在满足各网络切片平均时延约束以及网络平均回传链路带宽消耗约束的前提下,最大化平均网络切片和速率,因而建立式(9)所示的随机优化模型

    minEπ{t=0γtsSγs(t)BXs(t)|c0=c}s.t.C1Eπ{t=0γtQs(t)λs|c0=c}δs,sS C2Eπ{t=0γt[R(t)sSZs(t)Rs(t)]|c0=c}δ0 C3Xs(t)0,sSXs(t)N,t C4Zs(t){0,1},sSZs(t)=1,t
    (9)

    其中,δs,sS为各切片的时延约束,δ0为网络回传链路带宽消耗约束。

    CMDP问题式(9)可以通过拉格朗日理论转化为不受限的MDP问题,定义问题式(9)对应的拉格朗日函数为

    L(β,c,π)=Eπ{t=0γtgβ(ct,π(ct))|c0=c}sSβsδsβ0δ0
    (10)

    其中,gβ(ct,π(ct))=sSγs(t)BXs(t)+sSβsQs(t)λs+β0[R(t)sSZs(t)Rs(t)]为时隙t的拉格朗日回报,βi0(i=0,1,···,S)为拉格朗日乘子,令β={βi,i=0,1,···,S}。进一步,定义状态值函数为

    Vπ,β(c)=Eπ{t=0γtgβ(ct,π(ct))|c0=c}
    (11)

    因此,优化问题式(9)可转化为式(12)的无约束MDP问题

    minπΦmaxβ:βi0(Vπ,β(c)sSβsδsβ0δ0)
    (12)

    其对偶问题为

    maxβ:βi0minπΦ(Vπ,β(c)sSβsδsβ0δ0)
    (13)

    对于一个给定的β:βi0,无约束优化问题式(13)对应的最优策略π,β满足式(14)的贝尔曼最优性方程

    V,β(c)=minaA{gβ(c,a)+γcCra(c|c)V,β(c)}
    (14)

    其中,V,β:CR称为最优状态值函数。类似地,定义Q,β:C×AR为最优行动值函数,其满足

    Q,β(c,a)=gβ(c,a)+γcCra(c|c)V,β(c)
    (15)

    由式(14)和式(15)可得

    V,β(c)=minaAQ,β(c,a)
    (16)

    因此,最优策略π,β可得

    π,β=argminaAQ,β(c,a),cC
    (17)

    为了叙述方便,接下来将符号中的β省略,拉格朗日乘子β:βi0的问题将在下一节讨论。

    本文接下来引入决策后状态(Post-Decision State, PDS)的概念并进而提出一种基于在线学习的网络切片虚拟资源分配算法,该算法能够很好地利用系统已知动态信息,提高学习算法的性能。

    PDS描述了系统在已知动态发生后,但在未知动态发生前所处的状态,令˜c表示PDS且所有的PDSs均包含于状态空间C中。当时隙t在状态ct下采取行动at,那么时隙t的PDS可表示为

    ˜ct=(˜Qt,˜Ht)=(˜Qt,Ht)
    (18)

    其中,˜Qt={˜Qs(t),sS}, ˜Qs(t)=max[Qs(t)Ds(t),0]=max[Qs(t)γs(t)BXs(t)τ/L,0]

    时隙t+1的系统状态为

    ct+1=(Qt+1,Ht+1)
    (19)

    其中,Qt+1={Qs(t+1),sS}, Qs(t+1)=˜Qs(t)+As(t)

    PDS ˜ct包含了所有的与从状态ct执行动作at再转到ct+1有关的已知信息,下一时隙状态ct+1则包含了所有未知动态,即切片数据包到达过程As(t)和信道状态Ht+1

    根据PDS的定义,一般地,系统状态转移概率ra(c|c)可以被分解为已知和未知两部分,已知部分给出从状态c到PDS ˜c的转移概率,未知部分给出从PDS ˜c到下一状态c的转移概率。令rka(˜c|c)ru(c|˜c)分别表示已知转移概率和未知转移概率,则有

    ra(c|c)=˜crka(˜c|c)ru(c|˜c)
    (20)

    类似地,即时回报函数也可分解为已知和未知两部分,如式(21)所示

    g(c,a)=gk(c,a)+˜crka(˜c|c)gu(˜c)
    (21)

    值得注意的是,本文中不存在未知成本,即gu(˜c)=0gk(c,a)=g(c,a)。为了便于叙述,定义系统状态与PDS的状态转移方程分别为

    ˜ct=SM,a(ct,at)
    (22)
    ct+1=SM,W(˜ct,At,Ht+1)
    (23)

    其中,At={As(t),sS},式(22)与当前采取的行动有关,式(23)与外部随机事件有关,包括业务数据包到达过程与信道状态变化等。

    ˜V  表示最优的PDS状态值函数

    ˜V  (˜c)=E{V(c)|˜c}=cCru(c|˜c)V(c)
    (24)

    则最优状态值函数V可改写为

    V(c)=minaA{g(c,a)+γ˜V (˜c)}
    (25)

    因此,最优策略πPDS可按式(26)选择

    πPDS=argminaA{g(c,a)+γ˜V (˜c)}
    (26)

    式(25)是式(14)等效的改写形式,所以πPDSπ也同样等价。因此,PDS状态值函数适用于学习最优策略。从式(25)可以看出,基于PDS的学习算法可通过学习系统未知动态来获得最优值函数V 和最优策略π,可利用迭代的方式逐渐逼近最优的PDS状态值函数˜V  。本文提出的基于在线学习的网络切片虚拟资源分配算法具体如表1所示。

    表 1  虚拟化C-RAN网络下基于在线学习的网络切片虚拟资源分配算法
     输入 系统状态空间C,动作空间A,拉格朗日回报函数
    g(ct,π(ct)),有限信道状态集合H
     初始化:初始化决策后状态的状态值函数˜V0(˜c)R,˜cC,令
    t0, ctcC
     学习阶段:
      (1) 求解
    at=argminaA{g(ct,a)+γ˜Vt(SM,a(ct,a))}; (27)
      (2) 观察PDS状态˜ct和下一时隙状态ct+1˜ct=SM,a(ct,at),
    ct+1=SM,W(˜ct,At,Ht+1)
      (3) 计算ct+1的状态值函数:
       Vt(ct+1)=minaA{g(ct+1,a)+γ˜Vt(SM,a(ct+1,a))}; (28)
      (4) 更新˜Vt+1(˜ct)
       ˜Vt+1(˜ct)=(1αt)˜Vt(˜ct)+αtVt(ct+1);      (29)
      (5) 利用随机次梯度法更新拉格朗日乘子β:βi0
     输出 最优策略πPDS
    下载: 导出CSV 
    | 显示表格

    表1中,αt是第t次迭代时的学习速率,遵循随机近似条件[6],其应满足0<αt<1, tαt=tα2t<。可以证明,当t时序列~V t(˜c)会以概率1收敛到最优PDS状态值函数~V (˜c)

    为了评估本文所提出的基于在线学习的网络切片虚拟资源分配算法的有效性,本节将其与文献[4]提出的启发式(heuristic)算法、文献[6]中的Q学习(Q-Learning)以及文献[7]中的比例公平静态共享算法(Static Sharing with PF)作比较,根据仿真结果进行详尽地分析。启发式算法中,在每个离散的资源调度时隙上,对于任一RB,首先计算各网络切片的当前权重,其中权重与当前时隙各切片的最低资源需求、信道状态以及队列状态有关。接着,算法将RB分配给对应权重最大的网络切片。比例公平静态共享算法中,在每个离散的资源调度时隙上,首先根据当前时隙的系统状态计算各网络切片的最低资源需求。接着,在分配给各网络切片最低需求的资源块数后,算法将依据各切片队列长度比例公平的原则分配剩余的资源块。

    本文考虑的仿真场景中有两个时延需求不同的网络切片,即S=2,将各切片的队列长度离散化为有限个等间距的区间,每个区间表示一种队列状态,因而系统状态空间C为有限状态集合。仿真中主要参数设置如表2所示。

    表 2  仿真参数
    仿真参数
    远端射频头(RRH)最大发射功率20 dBm
    各切片最大队列长度Qs,max20 packets
    噪声功率谱密度–174 dBm/Hz
    数据包大小L4 kbit/packet
    路径损耗模型104.5+20lg(d) (d[km])
    时隙长度τ1 ms
    下载: 导出CSV 
    | 显示表格

    图2图3分别比较了不同平均时延约束下,4种不同算法在平均切片和速率以及平均切片总时延方面的性能。从图2图3中可以看出,平均时延约束越大,不同算法下的平均切片和速率和平均切片总时延都将增大。这是因为平均时延约束越大,算法就会在满足平均时延约束条件下优先考虑平均切片和速率最大化的问题,会出现将信道条件较差的网络切片新到达的业务数据包积压进排队队列,从而能分配更多的资源给信道条件较好的切片以提高整体平均切片和速率的情况。此外,如图2图3所示,本文提出的基于在线学习的网络切片虚拟资源分配算法具有最高的平均切片和速率,Q学习算法实现了与其相近的平均切片和速率和平均切片总时延性能,启发式算法的平均切片总时延最大,比例公平静态共享算法的平均切片和速率最小,但其平均切片总时延要优于其它3种算法。这是因为在比例公平静态共享算法中,在每个离散的资源调度时隙内,在分配给各网络切片最低需求的资源块数后,算法将按照各切片队列长度比例公平的原则分配剩余的资源块。因此,信道条件较差的网络切片也能分配到相对更多的资源,从而会降低切片平均总时延,但相应地也会影响平均切片和速率。

    图 2  不同平均时延约束下的平均切片和速率
    图 3  不同平均时延约束下的平均切片总时延

    图4图5分别比较了不同数据包到达率λ1下,4种不同算法在平均切片和速率以及平均切片总时延方面的性能。从图中可以看出,随着切片1的业务数据包到达率λ1增大,不同算法下的平均切片和速率将减小,平均切片总时延将增大。这是因为数据包到达率λ1越大,每一时隙内切片1的排队队列中堆积的待传数据包也就越多,因而平均切片总时延也会相应增大。此外,为了满足切片1的平均时延约束,算法会在每个离散的资源调度时隙内为其分配更多的资源块,尤其是当信道条件较差的时候,相应地,切片2就会得到相对较少的资源块数量,即使其当前的信道质量较好,即可以理解为以牺牲部分切片和速率为代价来满足切片时延约束,因此平均切片和速率会随着数据包到达率λ1的增大而减小。

    图 4  不同数据包到达率λ1下的平均切片和速率
    图 5  不同数据包到达率λ1下的平均切片总时延

    针对现有研究中缺乏C-RAN场景下网络切片的动态资源分配方案的问题,本文将虚拟化C-RAN网络下的资源分配看作一个无穷时间马尔可夫决策过程,建立了一个以最大化平均网络切片和速率为目标,同时受限于各切片平均时延约束以及网络平均回传链路带宽消耗约束的随机优化模型,进而设计了一种基于在线学习的网络切片虚拟资源分配算法。仿真结果显示,所提出的算法能够有效地满足各切片的服务质量需求,降低回传链路带宽消耗的压力并同时提升系统吞吐量。

    传统的基于MDP或Q-Learning的强化学习算法是基于查找表来选择每一时刻的最优行动的,然而当状态空间较大时,会引起所谓的“维度灾难(Curses of Dimensionality)”问题,导致算法的可扩展性较差,且对于访问次数较少的状态来说,其值函数的收敛速度较慢。为了解决上述问题,许多新兴的技术受到了学者们的广泛关注和深入研究,如值函数近似策略[8,9]、基于Actor-Critic (AC)的强化学习方法[10]、深度强化学习(Deep Reinforcement Learning, DRL)[11]等,这也是进一步研究工作的重点。

  • 图  1  虚拟化C-RAN网络系统场景

    图  2  不同平均时延约束下的平均切片和速率

    图  3  不同平均时延约束下的平均切片总时延

    图  4  不同数据包到达率λ1下的平均切片和速率

    图  5  不同数据包到达率λ1下的平均切片总时延

    表  1  虚拟化C-RAN网络下基于在线学习的网络切片虚拟资源分配算法

     输入 系统状态空间C,动作空间A,拉格朗日回报函数
    g(ct,π(ct)),有限信道状态集合H
     初始化:初始化决策后状态的状态值函数˜V0(˜c)R,˜cC,令
    t0, ctcC
     学习阶段:
      (1) 求解
    at=argminaA{g(ct,a)+γ˜Vt(SM,a(ct,a))}; (27)
      (2) 观察PDS状态˜ct和下一时隙状态ct+1˜ct=SM,a(ct,at),
    ct+1=SM,W(˜ct,At,Ht+1)
      (3) 计算ct+1的状态值函数:
       Vt(ct+1)=minaA{g(ct+1,a)+γ˜Vt(SM,a(ct+1,a))}; (28)
      (4) 更新˜Vt+1(˜ct)
       ˜Vt+1(˜ct)=(1αt)˜Vt(˜ct)+αtVt(ct+1);      (29)
      (5) 利用随机次梯度法更新拉格朗日乘子β:βi0
     输出 最优策略πPDS
    下载: 导出CSV

    表  2  仿真参数

    仿真参数
    远端射频头(RRH)最大发射功率20 dBm
    各切片最大队列长度Qs,max20 packets
    噪声功率谱密度–174 dBm/Hz
    数据包大小L4 kbit/packet
    路径损耗模型104.5+20lg(d) (d[km])
    时隙长度τ1 ms
    下载: 导出CSV
  • HOSSAIN E and HASAN M. 5G cellular: Key enabling technologies and research challenges[J]. IEEE Instrumentation & Measurement Magazine, 2015, 18(3): 11–21. doi: 10.1109/MIM.2015.7108393
    CHECKO A, CHRISTIANSEN H L, YAN Ying, et al. Cloud RAN for mobile networks-A technology overview[J]. IEEE Communications Surveys & Tutorials, 2015, 17(1): 405–426. doi: 10.1109/COMST.2014.2355255
    NIU Binglai, ZHOU Yong, SHAH-MANSOURI H, et al. A dynamic resource sharing mechanism for cloud radio access networks[J]. IEEE Transactions on Wireless Communications, 2016, 15(12): 8325–8338. doi: 10.1109/TWC.2016.2613896
    KALIL M, Al-DWEIK A, SHARKH M F A, et al. A framework for joint wireless network virtualization and cloud radio access networks for next generation wireless networks[J]. IEEE Access, 2017, 5: 20814–20827. doi: 10.1109/ACCESS.2017.2746666
    BERTSEKAS D and GALLAGER R. Data Networks[M]. Englewood Cliffs: Prentice-Hall, 1991, 152–162.
    YANG Jian, ZHANG Shuben, WU Xiaomin, et al. Online learning-based server provisioning for electricity cost reduction in data center[J]. IEEE Transactions on Control Systems Technology, 2017, 25(3): 1044–1051. doi: 10.1109/TCST.2016.2575801
    KALIL M, SHAMI A, and YE Yinghua. Wireless resources virtualization in LTE systems[C]. Proceedings of 2014 IEEE Conference on Computer Communications Workshops, Toronto, Canada, 2014: 363–368. doi: 10.1109/INFCOMW.2014.6849259.
    POWELL W B. Approximate Dynamic Programming: Solving the Curses of Dimensionality[M]. Hoboken, USA: Wiley, 2011, 289–388.
    LAKSHMINARAYANAN C and BHATNAGAR S. Approximate dynamic programming with (min, +) linear function approximation for Markov decision processes[J]. arXiv preprint arXiv: 1403.4179, 2014.
    LI Rongpeng, ZHAO Zhifeng, CHEN Xianfu, et al. TACT: A transfer actor-critic learning framework for energy saving in cellular radio access networks[J]. IEEE Transactions on Wireless Communications, 2014, 13(4): 2000–2011. doi: 10.1109/TWC.2014.022014.130840
    HE Xiaoming, WANG Kun, HUANG Huawei, et al. Green resource allocation based on deep reinforcement learning in content-centric IoT[J]. IEEE Transactions on Emerging Topics in Computing, 2019. doi: 10.1109/TETC.2018.2805718
  • 期刊类型引用(23)

    1. 冯兴隆,孔锋峰,霍凯龙,周国华,赵舫. 基于5G无线通信的配电网电流差动保护系统设计. 电测与仪表. 2025(01): 116-123 . 百度学术
    2. 蔡杰锋. 基于信任感知的虚拟网络切片差异化资源分配算法. 滨州学院学报. 2024(02): 74-80 . 百度学术
    3. 梁伟鹏,邱小琼. 云实训室信息化数据智能推荐技术. 信息技术. 2023(02): 123-128 . 百度学术
    4. 蔡卫红,仇益彩,文杰斌,吕宏悦. 基于NST规范的5G网络切片计费设计. 湖南邮电职业技术学院学报. 2023(02): 13-18 . 百度学术
    5. 周杨. 基于云桌面技术的高校同声传译语音室远程控制方法. 信息技术. 2023(06): 113-118 . 百度学术
    6. 田晨景,谢钧,曹浩彤,骆西建,刘亚群. 5G网络切片研究进展. 计算机科学. 2023(11): 282-295 . 百度学术
    7. 徐胜超,熊茂华. 基于遗传算法的容器云资源配置优化. 计算机与现代化. 2022(01): 108-112 . 百度学术
    8. 朱晓彦. 多QoS目标约束下云任务调度负载均衡控制算法. 黄河科技学院学报. 2022(02): 31-35 . 百度学术
    9. 曾坚毅,许济金. 基于马氏决策的5G网络切片虚拟资源分配研究. 计算机仿真. 2022(06): 242-246 . 百度学术
    10. 马英洪,江凌云. 多基站下基于DRL的RAN切片资源分配. 计算机应用研究. 2022(09): 2791-2798 . 百度学术
    11. 程正. 发电厂ON-CALL系统告警信息采集虚拟化设计与应用. 水电站机电技术. 2022(12): 32-37 . 百度学术
    12. 孙頔,王睿. 基于蚁群算法的舰船网络云资源调度. 舰船科学技术. 2021(06): 160-162 . 百度学术
    13. 徐海东,王江,易辉跃. 软件定义无线接入网络的组件化研究. 电子与信息学报. 2021(04): 1064-1071 . 本站查看
    14. 江忠. 船舶无线通信网络中时隙资源精准分配的数学模型. 舰船科学技术. 2021(18): 154-156 . 百度学术
    15. 高志华,王居正,樊旻,张凌云,李国良. 基于5G网络切片在线映射算法的电力通信远程视频指挥系统设计. 内蒙古电力技术. 2021(05): 80-83 . 百度学术
    16. 施纳,鲍祖尚. 基于TDMA的通信网络数字资源时隙动态分配系统设计. 自动化与仪器仪表. 2021(10): 124-127 . 百度学术
    17. 施加轮,卓秀者,李杰,邓舒. 宏微协同组网下基于小区分簇的联合传输与无线资源分配. 半导体光电. 2021(06): 909-918 . 百度学术
    18. 顾兆伟,江凌云. 混合能源供应异构云无线接入网的功率分配和能源协作算法. 南京邮电大学学报(自然科学版). 2021(05): 45-52 . 百度学术
    19. 李华,张宏波,杨新亮. 高度虚拟化的IP网络. 数字通信世界. 2020(02): 66 . 百度学术
    20. 唐伦,魏延南,谭颀,唐睿,陈前斌. H-CRAN网络下联合拥塞控制和资源分配的网络切片动态资源调度策略. 电子与信息学报. 2020(05): 1244-1252 . 本站查看
    21. 陈前斌,管令进,李子煜,王兆堃,杨恒,唐伦. 基于深度强化学习的异构云无线接入网自适应无线资源分配算法. 电子与信息学报. 2020(06): 1468-1477 . 本站查看
    22. 伏琰. 云环境下启发式网络信息采集模型仿真. 计算机仿真. 2020(09): 328-332 . 百度学术
    23. 李辉. 基于云计算技术的网络数据采集传输仿真. 计算机仿真. 2020(06): 152-155+456 . 百度学术

    其他类型引用(6)

  • 加载中
图(5) / 表(2)
计量
  • 文章访问数:  2997
  • HTML全文浏览量:  1186
  • PDF下载量:  140
  • 被引次数: 29
出版历程
  • 收稿日期:  2018-08-03
  • 修回日期:  2019-02-20
  • 网络出版日期:  2019-03-19
  • 刊出日期:  2019-07-01

目录

/

返回文章
返回