Loading [MathJax]/jax/output/HTML-CSS/jax.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

利用元学习算法的IRS-OTFS通信系统信道估计

张祖凡 段佳慧 王国仲

肖嵩, 陈哲, 杨亚涛, 马英杰, 杨腾. 基于混沌理论与DNA动态编码的卫星图像加密算法[J]. 电子与信息学报, 2024, 46(3): 1128-1137. doi: 10.11999/JEIT230203
引用本文: 张祖凡, 段佳慧, 王国仲. 利用元学习算法的IRS-OTFS通信系统信道估计[J]. 电子与信息学报, 2024, 46(4): 1353-1362. doi: 10.11999/JEIT230669
XIAO Song, CHEN Zhe, YANG Yatao, MA Yingjie, YANG Teng. Satellite Image Encryption Algorithm Based on Chaos Theory and DNA Dynamic Coding[J]. Journal of Electronics & Information Technology, 2024, 46(3): 1128-1137. doi: 10.11999/JEIT230203
Citation: ZHANG Zufan, DUAN Jiahui, WANG Guozhong. Channel Estimation of IRS-OTFS Communication System with Meta-learning Algorithm[J]. Journal of Electronics & Information Technology, 2024, 46(4): 1353-1362. doi: 10.11999/JEIT230669

利用元学习算法的IRS-OTFS通信系统信道估计

doi: 10.11999/JEIT230669
基金项目: 国家自然科学基金(62202077),重庆市教育委员会科学技术研究计划重大项目(KJZD-M201900601)
详细信息
    作者简介:

    张祖凡:男,教授,研究方向为无线通信、移动社交网络、机器学习等

    段佳慧:女,硕士生,研究方向为无线通信、智能反射表面等

    王国仲:男,博士生,研究方向为无线通信、智能反射表面等

    通讯作者:

    段佳慧 929027253@qq.com

  • 中图分类号: TN929.5

Channel Estimation of IRS-OTFS Communication System with Meta-learning Algorithm

Funds: The National Natural Science Foundation of China (62202077), The Major Project of Science and Technology Research Program of Chongqing Education Commission of China (KJZD-M201900601)
  • 摘要: 针对高多普勒场景下智能反射表面(IRS)辅助多用户通信系统存在的信道估计传输开销大的问题,该文结合正交时频空间(OTFS)调制特点构造一种IRS-OTFS通信系统,充分发挥IRS和OTFS的性能优势,并在此基础上提出一种学习率自适应的模型无关元学习(MAML)算法。对IRS-OTFS多用户信道估计任务做离线训练,根据各任务的收敛速度自适应地调整学习率,防止训练失衡,并利用信道之间的相关性和MAML算法的少样本、泛化特性得到全局模型和适应性模型,快速学习新用户信道的传输特性,降低传输开销,提高信道估计准确性。理论分析和仿真结果表明,该算法在信道传输条件相同的情况下,将传输开销降低了大约50%,并相对于基准算法有4.8 dB左右的性能提升。
  • 未来网络业务种类繁多且用户需求激增,网络“一刀切”方法不再有效可行[1],因此网络切片技术受到业界格外关注。在网络功能虚拟化(Network Function Virtualization, NFV)架构中,虚拟化网络功能(Virtual Network Function, VNF)表示网络功能的软件实例化,这些功能与所使用的硬件资源分离[2]。服务功能链(Service Function Chain, SFC)是若干个有序的VNF串联形成的服务请求[3],SFC部署阶段要求在底层网络上进行VNF放置和实例化,同时伴随着资源分配和路由等问题,从而满足特定的网络服务需求。

    如何设计高效的部署方案是SFC编排的关键挑战,文献[4]将SFC部署问题转化为混合整数非线性规划,以在满足时延要求下最小化部署成本,但是没有考虑资源负载的问题。文献[5]采用离散粒子群优化算法求解部署策略,使得在最大化可靠性的同时尽可能地降低网络负载,但是没有对端到端时延进行联合优化。文献[6]联合考虑了SFC部署和调度问题,如果违反最大允许调度时间,则重新将VNF放置到合适的位置,但是没有进一步考虑链路通信所导致的延迟。

    传统启发式方法依赖于人工嵌入规则,不能很好地适应动态网络结构和环境。文献[7]通过强化学习来探索NFV基础设施以学习布局决策,但在实现总体功耗成本最小化时没有进行时延度量。文献[8]采用集中式的自适应在线编排方法,目标是在满足服务质量约束的同时最大化体验质量,然而该编排方案不适应未来网络的分布式需求。文献[9]采用了分布式的联邦学习方法,增强对SFC部署决策的隐私保护,但需要交换大量模型参数从而导致昂贵的通信开销。

    针对上述问题,本文提出了一种基于多智能体强化学习的SFC部署优化方案,主要贡献包括:(1)设计基于节点容量比例的超载惩罚机制,对占用资源超过阈值的部分施加适当的惩罚,实现网络资源的均衡分配,建立了网络超载惩罚、端到端时延和部署成本最小化的模型;(2)将随机优化问题转化为马尔可夫决策过程(Markov Decision Process, MDP)模型,基于VNF映射和节点计算资源与链路带宽资源的联合分配,实现资源动态分配下的SFC部署,进一步地,提出了多决策者按业务划分的编排方案以扩展到多智能体系统中;(3)为了增强智能体探索的能力和鲁棒性,采用支持随机策略的最大熵学习目标,还在智能体协作时引入中央的注意力机制以关注有效信息,并结合优势函数来实现智能体之间的信用分配,有效解决了智能体数量增加时面临的扩展性问题。

    网络场景基于NFV编排与控制的架构[10],如图1所示,主要分为物理层、虚拟化层和应用层。物理层是包含通用服务器的底层承载网络,为VNF提供其实例化的物理资源。虚拟化层主要完成网络状态的实时监控、物理网络的负载分析和资源分配策略的执行。应用层主要负责根据业务需求创建SFC,以SFC为载体来为用户提供各种服务。

    图 1  系统架构
    2.2.1   物理网络

    物理网络包括大量的节点和链路,被建模为一个无向图Gp = (N,L)N表示物理节点即服务器的集合,L表示连接各节点的链路集合。服务器为VNF提供其实例化的CPU资源,且每台底层服务器可以实例化多个VNF。每个服务器包含多个CPU,Cpv表示第v个服务器所拥有的CPU资源容量。假设参数uNvN表示两个相邻物理服务器,uv表示连接uv的物理链路,其有限带宽资源表示为Bpuv。考虑到能耗问题以及管理服务器的方便性,需对服务器设置使用门槛,apv表示第v个服务器资源分配量阈值,若要将该服务器参与网络资源分配,则它分配的CPU资源量不得低于apv

    2.2.2   SFC映射

    在NFV基础架构中,将虚拟网络建模为一个有向图Gv=(V,P)。网络中SFC的集合表示为F,第i条SFC表示为有向图Gvi=(Vi,Pi)Vi表示第i条SFC上不同VNF的集合,Pi表示第i条SFC上虚拟链路的集合。对于第i条SFC上的第j个VNF,Cvi,j表示服务器v分配给它的CPU资源量。jk表示连接第i条SFC上的相邻第j个和第k个VNF的链路,Buvi,jk表示物理链路uv分配给它的带宽资源量。定义布尔变量δvi,j={0},\text{1},当第i条SFC上的第j个VNF映射到物理服务器v上时,δvi,j = 1,否则δvi,j = 0。定义布尔变量θuvi,jk={0},\text{1},当第i条SFC的虚拟链路jk映射到物理链路uv上时,θuvi,jk = 1,否则θuvi,jk = 0

    2.2.3   SFC时延模型

    端到端时延表示服务请求映射到底层网络处理时,数据流按服务路径从源节点到目的节点所耗费的时间。对于第i条SFC的数据包到达过程,假设ωi(t)表示第i条SFC实际到达数据包的个数,服从参数为λi的泊松分布。设第i条SFC的端到端最大容忍时延为τi

    单节点处理时延除了与分配到的计算资源量大小有关,还与各业务不同的待处理数据量有关[11],用Pi表示第i条SFC的VNF处理总时延,应结合VNF部署情况来分析,在t时隙下表示为

    Pi(t) = jVivNδvi,j(t)ωi(t)miCvi,j(t)β,iF (1)

    其中,mi表示第i条SFC上数据包的大小,服务速率系数β表示单个CPU每秒能处理的数据量[12]

    Ti表示第i条SFC的链路通信总时延,与链路映射情况有关,在t时隙下表示为

    Ti(t) = jkPiuvLθuvi,jk(t)[ωi(t)miBuvi,jk(t) + ψ],iF (2)

    其中,ψ表示数据包排队调度导致的延迟。

    2.2.4   SFC部署成本

    SFC部署产生的成本包括两部分,一部分来自底层网络服务器对VNF的处理,另一部分来自链路带宽的使用[13]。处理成本Zvi,j包括动态和静态两方面,动态成本描述为CPU运行产生的可变成本,与分配资源量有关,系数为正数ε,而静态成本是任意服务器对VNF进行激活的成本,用正数表示,因此Zvi,j可表示Zvi,j(t)=+εCvi,j(t)。物理链路带宽使用成本Zuvi,jk与占用的物理链路带宽量成正比,单位带宽开销系数用正数ς表示,则Zuvi,jk表示为Zuvi,jk(t)=ςBuvi,jk(t)。则第i条SFC的部署总成本Zit时隙下可表示为

    Zi(t)=jVivNδvi,j(t)Zvi,j(t)+jkPiuvLθuvi,jk(t)Zuvi,jk(t) (3)
    2.2.5   网络超载惩罚

    为降低网络负载和提高资源分配的均匀程度,以便进行后续的SFC部署以及应对VNF迁移等突发状况,需要对资源分配不当导致负载过大的节点进行惩罚,考虑到网络中每个节点的资源容量不同,以资源剩余绝对量为基准是不合理的,因此对剩余资源与各节点容量的相对比例进行分析。

    假设ηvc(t)表示在t时隙第v个节点的CPU资源预留率,其计算公式为

    ηvc(t)=Cpvav(t)Cpv,vN (4)

    其中,av(t)表示在t时隙第v个服务器已分配的CPU资源,可表示为

    av(t)=iFjViδvi,j(t)Cvi,j(t),vN (5)

    αc表示底层服务器的资源超载警戒值,对资源预留率不足该门限的部分给予惩罚,与警戒值相差越多则应受惩罚越多,网络中服务器v的超载惩罚Evct时隙下可表示为

    Evc(t)={εc[αcηvc(t)]2ηvc(t)<αc0ηvc(t)αc (6)

    其中,εc表示资源预留率不足部分所受到的单位惩罚。设置服务器CPU资源预留率最小阈值αcm,各底层节点的ηvc(t)不得小于αcm,当αcm为0时表示不考虑未来情况而允许对CPU资源进行不保留分配,此时等价于分配的最大资源量受容量限制。

    本文系统的SFC部署问题可表述为:如何进行VNF的映射以及CPU与带宽的联合资源分配,使得在最小化部署成本与网络超载惩罚的同时,尽可能地降低SFC端到端时延。为了统一时延、成本和惩罚的单位,现对各部分进行归一化处理,设计效用函数为

    U(t)=σ1iF[Pi(t) + Ti(t)]iFτiσ2iFZi(t)Zmaxσ3vNEvc(t)Emax (7)

    其中,Zmax表示网络的最大部署成本,Emax表示因资源超载受到的最大惩罚,σ1, σ2σ3表示各项重要程度,它们为3个大于零的权重值,且σ1 + σ2 + σ3 = 1。本文优化目标的数学模型表示为

    maxδvi,j(t),Cvi,j(t),Buvi,jk(t)U(t)s.t.C1:δvi,j(t)={0,1},iF,jVi,vN C2:vNδvi,j=1,iF,jVi C3:δvi,j(t)Cvi,j(t)=Cvi,j(t),iF,jVi,vN C4:θuvi,jk(t)={0,1},iF,jkPi,uvL C5:θuvi,jk(t)Buvi,jk(t)=Buvi,jk(t),iF, jkPi,uvL C6:ηvc(t)αcm0,vN C7:iFjkPiθuvi,jk(t)Buvi,jkBpuvuvL C8:iFjViδvi,j(t)>0,av(t)apv,vN C9:Di(t)τi,iF} (8)

    C1表示VNF的映射需满足二进制约束。C2保证了网络中任意VNF只能选择一个服务器进行映射。C3保证了每台服务器只会对映射到它的VNF分配CPU资源。C4表示虚拟链路的映射需满足二进制约束。C5保证了每条物理链路只会对映射到它的虚拟链路分配带宽资源。C6保证了服务器可分配的CPU资源受容量限制,且对资源的预留应满足前瞻性需求。C7保证了物理链路可分配的带宽资源受容量限制。C8保证了各服务器分配CPU资源时满足一定门槛。C9保证了各条SFC在任何时隙都需满足时延要求。

    将本文建立的SFC部署问题,转化为一个MDP模型,用一个4元组M=<S,A,P,R>来表示,其中S为状态空间,A为动作空间,P为状态转移概率,R为奖励函数。

    定义状态空间包括各SFC映射状态Ki(t)、各节点剩余计算资源率ηvc(t)和各物理链路剩余带宽资源比例ηuvb(t)s(t)S表示为s(t)={K(t),ηc(t),ηb(t)},其中K(t) = [Ki(t)]ηc(t) = [ηvc(t)]ηb(t)=[ηuvb(t)]

    定义动作空间包括各链所有VNF的映射、节点CPU资源分配和链路带宽资源分配,因此a(t)A表示为a(t) = { δ(t),C(t),B(t)},其中δ(t) = [δvi,j(t)]C(t)=[Cvi,j(t)]B(t) = [Buvi,jk(t)]

    网络在t时隙状态s(t)下,采取行动a(t)后,会转移到下一时隙的状态s(t+1),定义这一过程的状态转移概率为p(s(t+1)|s(t),a(t))

    本文目标是最小化SFC端到端平均时延、网络部署成本和超载惩罚,则可以定义奖励函数为R(t)=[U(t)]1

    强化学习通过不断试错与给予奖励来指导智能体探寻学习策略,相比启发式算法能更有效解决SFC部署问题,但基于传统强化学习的SFC部署方案仍存在不足,首先,若对整体建模然后采用集中式的单智能体强化学习,存在着动作空间庞大的问题,并且会产生较大的信令开销。其次,若分别采用完全独立式的强化学习,在对某个体进行探讨时,其他智能体的策略随时可能发生调整,因此会面临着环境不平稳的问题。为了解决以上问题,本文采用多智能体强化学习的方法,结合支持随机策略的最大熵来增强探索性,同时为了进一步增强扩展能力,还在各智能体之间交互时引入了中央注意力机制,通过动作边缘化的优势函数来分配信用。

    在本文提出的多智能体系统中,将有各种业务需求的用户视为不同的智能体,并对其编号为i{1,2,,N},各智能体基于独立于其他智能体的局部观测oi(t) = { Ki(t),ηci(t),ηbi(t)},各自采取行动ai(t) = { δi(t),Ci(t),Bi(t)},并获得私有奖励ri(t)来与环境不断交互,每个智能体学习策略πi:OiP(Ai)。各个智能体互相合作去服务到达的请求,如图2所描述的多决策者场景,网络中各服务器的资源容量不相同,容量大小用长方形总面积表示,各业务请求用不同SFC来表示,为展示网络资源负载与每个智能体占用资源的情况,设计了象征不同智能体的各类形状的线条,其中,黑框矩形表示网络资源未使用的预留部分,此外,各服务器对智能体分配的CPU资源量用其所占空间的面积大小表示,物理链路的带宽资源分配量用各类线条的长度表示。每个智能体都可以访问环境中的所有资源,并选择适当的网络资源来满足各自业务需求,它们的共同目标是获得最大的累积共享奖励。

    图 2  多智能体业务编排与资源分配示意图

    为了让智能体采取能获得高回报且随机性高的策略,本文考虑将柔性演员-评论家(Soft Actor-Critic, SAC)作为基准算法,由于其基于最大熵强化学习框架,因此具有较强的探索性和鲁棒性。对于支持随机策略的最大熵学习,其强化目标表示为

    J(π)=Tt=0E(st,at)ρπ[r(st,at)+αH(π(|st))] (9)

    其中,温度参数α在奖励大小和熵二者之间起到平衡的作用,当α为0时目标等价为标准的强化学习目标。对于一个固定的策略,为使软Q价值函数能够被迭代计算,需要重复应用修正过的贝尔曼算子Γπ,即

    ΓπQ(st,at)Δ=r(st,at)+γEst+1p[V(st+1)] (10)

    其中,V(st)表示柔性状态价值函数,即

    V(st) = Eatπ[Q(st,at)lnπ(at|st)] (11)

    为充分对环境进行探索,柔性演员评价算法通过修改策略梯度以加入熵项,即

    θJ(πθ)=EsD,aπ[θln(πθ(a|s))(αln(πθ(a|s))+Qψ(s,a)b(s))] (12)

    MASAC遵循集中式训练评论家与分布式执行策略的范式,为了让特定智能体能选择性地关注来自其他智能体的信息,还需引入带多个注意力头部的中央注意力机制,分布式的actor网络采取动作并获取对应的观测,通过本地信息映射后再进行共享式的训练。为了将关注于不同子空间的信息联合,应将所有头部的贡献连接起来,可将其表示为Mhead=Concat(head1,head2,,headh)Wo,每个头部使用独立的一组参数(Wq,Wk,V),并产生其他智能体对某特定智能体i的聚合贡献xi,其中,V为合用矩阵。定义Qψi(o,a)为智能体i的观察-动作值函数,除自身的观测和动作以外,还与其他智能体的贡献有关,表示为

    Qψi(o,a) = fi(gi(oi,ai),xi) (13)

    其中,gifi都为多层感知机映射函数,(oi,ai)表示某个智能体i所采取的VNF映射、CPU与带宽资源分配的动作,以及个体从SFC部署环境中获取到的观察,xi是去除智能体i后的智能体贡献值,表示为各智能体贡献的加权求和,即

    xi = j=iαjvj=j=iαjh(Vgj(oj,aj)) (14)

    其中,i表示除了i以外的智能体集合,vj表示智能体j提供的价值函数,需要用映射函数对观测和动作进行编码,然后通过合用矩阵V线性变换得到,h表示非线性的哈达玛积。αj表示注意力权重值,采用双线性映射(即查询-键值系统),并将映射值ejei之间的相关性值传递到归一化指数函数中,即

    αjexp(eTjWTkWqei) (15)

    其中,ej表示为ej=gj(oj,aj),j=1,2,,NWqWk是各注意力头部中的参数,分别将映射函数eiej转化成查询值和键值。之后将查询值和键值输入到缩放点积模块中,从而对两个矩阵的维度进行尺度变换[14],最后还通过归一化指数函数模块,以获得各价值的权重。

    MASAC中的所有评论家网络一起更新,目标是实现联合回归损失函数的最小化,即

    LQ(ψ)=Ni=1E(o,a,r,o)D[(Qψi(o,a)yi)2] (16)

    其中,D是存储以往经验的重放缓存池,Qψi是智能体i动作的价值估计值,需通过注意力机制得到,yi是目标值,表示为

    yi=ri+γEaπ¯θ(o)[Q¯ψi(o,a)αln(π¯θi(ai|oi))] (17)

    α作为柔性温度参数,能有效衡量SFC部署奖励与最大熵的重要性,¯ψ¯θ分别是目标评论家网络与目标演员网络的参数。目标网络的更新采用软更新的方式,即

    ¯ψ(1τ)¯ψ+τψ¯θ(1τ)¯θ+τθ (18)

    为了解决智能体间的信用分配问题,考虑在智能体学习中引入优势函数,思想是从观察-动作值函数Qψi(o,a)中边缘化所给智能体的动作,然后与原本值大小进行对比,以此了解奖励的增加是否归属于其他智能体。优势函数表示为

    Ai(o,a)=Qψi(o,a)b(o,ai) (19)

    其中,b(o,ai)是多智能体基线,在保持其他智能体动作不变的情况下,将某智能体的特定动作替换为其他可能动作的平均化,即

    b(o,ai)=aiAiπ(ai|oi)Qi(o,(ai,ai)) (20)

    各智能体的演员网络策略由梯度上升来更新,梯度计算表达式为

    θiJ(πθ)=EoD,aπ[θiln(πθi(ai|oi))(αln(πθi(ai|oi))+Ai(o,a))] (21)

    本文算法可有效解决SFC的部署优化问题,算法的细节在算法1中。

    算法1 基于多智能体柔性演员-评论家学习的SFC部署算法
     输入:多智能体数量N,软更新因子τ,折扣因子γ,温度参数α,注意力头数量h,回放缓存池大小D,回合数M,回合最大长度T
     输出:各智能体的策略
     (1) 初始化:E个并行的环境,回放缓存池DTupdate0
     (2) for iep= 1,2,,M episodes do
     (3)  重置SFC部署的环境,初始化各决策者i的观察oei
     (4)  fort=1,2,,T do
     (5)  并行环境为决策者i选取动作aeiπi(|oei),进行VNF放置和节点CPU、链路带宽资源分配
     (6)   所有决策者获得SFC部署的局部观察oei,得到VNF放置与资源分配的奖励rei
     (7)   if C1C9约束满足,在D中储存各环境的转变
     (8)   Tupdate = Tupdate + E
     (9)   if Tupdate更新的最小步数,then
     (10)    for j=1,2,,num 评论家网络 更新 do
     (11)     从缓存池中打包小批次样本B(oB1N,aB1N,rB1N,oB1N)B
     (12)     在并行环境中,由式(22)与式(23)计算各决策者的观察-动作值Qψi(oB1N,aB1N),通过目标策略网络计算aBiπ¯θi(oBi)
           通过目标评论家网络计算Q¯ψi(oB1N,aB1N)
     (13)     由式(25)计算联合损失函数LQ(ψ),并结合Adam来更新评论家网络
     (14)    end for
     (15)    for j=1,2,,num 演员网络 更新 do
     (16)     采取样本m×(o1N)D
     (17)     计算aB1Nπ¯θi(oBi),i1,2,,NQψi(oB1N,aB1N)
     (18)     由式(28)计算优势函数,再代入式(30)计算θiJ(πθ),并结合Adam来更新演员网络
     (19)    end for
     (20)    由式(27),更新目标评论家和演员网络参数:¯ψ(1τ)¯ψ+τψ¯θ(1τ)¯θ+τθ
     (21)    Tupdate0
     (22)   end if
     (23)  end for
     (24) end for
    下载: 导出CSV 
    | 显示表格

    为了评估模型的有效性和算法的收敛性,本文对所提出算法进行仿真验证,仿真平台基于Python3.7和Pytorch工具实现。本文网络场景为全连接型网络,任意设备的CPU资源和物理链路的带宽容量均随机取值,服务器CPU随机取8, 10, 12核,链路带宽资源为400~800 Mbit/s,每条SFC由3~7个有序VNF构成。本文权重σ1, σ2, σ3分别设置为0.4, 0.3, 0.3。首先探究算法软更新因子与注意力权重的影响,然后在SFC总条数取值为[12,36]的范围下与其他算法进行对比,包括文献[15]中的DDPG方法及其多智能体的版本MADDPG,基于DQN的传统强化学习方法,还将注意力机制的权重固定为1/(N–1),得到了本文算法的静态注意力简易版本MASAC(U)用于对比。对于训练过程中的每个时间点,将各智能体的数据元组(o1N(t),a1N(t),r1N(t),o1N(t+1))放入重放缓冲区,每次更新对Q函数损失目标和策略目标执行梯度下降,都使用Adam作为优化器,学习率为0.001。

    首先在包含15个物理节点的网络中处理24条SFC,图3表示了软更新因子τ与收敛性能的关系,更新因子处于[0.001,0.01]内时训练较稳定,并且随着更新因子的降低,收敛速度会变慢,而当更新因子设置为0.1时,奖励曲线带有剧烈的抖动,因为τ过大导致目标网络与先前经验的关联度很低,让训练变得不稳定。

    图 3  软更新因子与收敛的关系

    为评估注意力机制动静态对资源分配均匀程度的影响,将本文算法与其注意力权重固定的版本进行比较,以初始值为基准,统计网络中节点资源使用比例的方差百分比,如图4所示,MASAC算法收敛速度比采用MASAC(U)快,且收敛时方差降低了2.8%,即提升了服务器节点分配资源的均衡程度,这是因为智能体之间的合作关系是动态变化的,而本文算法简易版本MASAC(U)固定了注意力的权重值,导致收敛速度和训练效果均不如MASAC,该结果指示了采用动态注意力比静态方案更高效。

    图 4  注意力动静态与资源分配的关系

    为了评估算法随业务需求增加的扩展性能,依次将SFC数量设置为12, 18, 24, 30, 36。首先考察资源分配的均匀程度,以初始值为基准,统计各算法训练后网络节点CPU资源使用率的方差,结果如图5所示,随着SFC数量的增加,各节点资源使用的方差逐渐变小,即资源分配变得更加均匀,原因在于较多业务请求竞争资源时,网络受到节点超载惩罚的可能性增大,从而不倾向于在警戒值内随意地部署,此外,SFC数量为36时本文算法的资源使用方差趋于平稳,同时其他方法的性能出现不同程度的反弹,这是因为底层物理资源有限,当网络中达到一定数目的业务请求后,较大的资源竞争使得资源分配的效果变差。

    图 5  资源使用方差对比

    图6图7分别为各算法在平均时延和网络惩罚上的对比,随着业务数量的增加,网络中对资源的竞争变大,分配到各业务的资源整体下降,因此端到端的平均时延变高,同时节点能预留的资源减少,导致网络受到的超载惩罚加大,本文算法在优化端到端时延和节点负载上均保持较优水平,尤其当SFC数量为36时,本文算法下的平均时延和网络惩罚相比DQN算法分别降低了13%和24.7%。

    图 6  平均时延对比
    图 7  网络惩罚对比

    为进一步考察资源超载警戒值的大小对网络的影响,在含15和25节点的两种不同规模网络拓扑下处理36条SFC,结果如图8所示,随着警戒值门限的设定值增大,两种不同规模的网络所受惩罚均加重,这是因为原本资源充足的节点不再容易达到门限要求,而已超载节点的剩余资源率与警戒值的差距越来越大,此外,在同一警戒值的设定下对比两种网络,可以看出小规模网络所受超载惩罚更重,这是因为小规模网络的可分配物理资源少,在处理相同数量的服务请求时,比大规模网络面临的资源竞争更大。

    图 8  各警戒值下两种网络超载惩罚

    针对网络功能虚拟化下的SFC部署问题,本文建立了带资源预留的优化模型,该模型以最小化时延、部署成本和节点超载惩罚为目标,可以在高效部署SFC的同时平衡网络各节点的负载,为后续部署、迁移等服务做准备。本文以柔性演员-评论家学习为基准,提出了一种基于多智能体强化学习的SFC部署方案,在最大化奖励的强化目标上增加了最大熵项,从而增强探索能力,在智能体学习如何合作时,引入了带多头注意力的中央注意力机制,能够有选择性地关注有利于自己获取更大回报的信息,此外还结合了优势函数来实现智能体间的信用分配。仿真结果表明,本文方案比其他参考策略拥有更高的网络效用和更小的资源使用方差,并且随SFC数量的增加表现出更好的扩展性。

  • 图  1  系统模型

    图  2  OTFS系统调制过程图

    图  3  OTFS收发端符号图案

    图  4  基于MAML算法的IRS辅助多用户系统信道估计框架

    图  5  本文算法在不同SNR下的NMSE

    图  6  不同信噪比和算法下的NMSE

    图  7  不同训练用户数下本文算法的NMSE

    图  8  不同信道估计算法的NMSE

    图  9  不同信道估计算法的WSR

    1  学习率自适应的MAML算法信道估计步骤

     输入:多用户训练任务集(包括支持集Dsupk和查询集Dquek),
     Dsup={Dsupk}k=1,2,,K, Dque={Dquek}k=1,2,,K;目标
     用户数据集DTar,学习率参数α(0),β,γ
     元训练阶段:
     1: for 迭代轮次t do
     2:  for 每个信道估计任务k do
     3:   根据式(19)更新当前训练任务的内循环学习率αk(t)
     4:   根据式(21)更新当前用户信道估计任务的适应性参数
        φk(t)
     5:  end for
     6:  根据式(22)更新得到全局模型参数θ
     7: end for
     针对新用户信道任务的微调阶段:
     8: 初始化目标任务的模型参数为θ
     9: for 微调次数 do
     10:   根据式(23)更新新用户的模型参数φTar
     11:end for
     输出:全局模型参数θ;目标用户的适应性模型参数φTar
    下载: 导出CSV

    表  1  仿真参数表

    参数
    载波频率(GHz)28
    BS端天线数32
    IRS无源反射元件数32
    批大小20
    内优化学习率103
    外优化学习率104
    卷积层数目16
    下载: 导出CSV

    表  2  卷积层参数设置表

    层数 C(l) N(l)SF W(l)x W(l)y
    conv1,onv9 2 32 3 3
    conv2~conv7 32 32 3 3
    conv10~conv15 32 32 3 3
    conv8, onv16 32 2 3 3
    下载: 导出CSV
  • [1] HAN Yu, TANG Wankai, JIN Shi, et al. Large intelligent surface-assisted wireless communication exploiting statistical CSI[J]. IEEE Transactions on Vehicular Technology, 2019, 68(8): 8238–8242. doi: 10.1109/TVT.2019.2923997.
    [2] HUANG Chongwen, ZAPPONE A, ALEXANDROPOULOS G C, et al. Reconfigurable intelligent surfaces for energy efficiency in wireless communication[J]. IEEE Transactions on Wireless Communications, 2019, 18(8): 4157–4170. doi: 10.1109/TWC.2019.2922609.
    [3] WU Qingqing, ZHANG Shuowen, ZHENG Beixiong, et al. Intelligent reflecting surface-aided wireless communications: A tutorial[J]. IEEE Transactions on Communications, 2021, 69(5): 3313–3351. doi: 10.1109/TCOMM.2021.3051897.
    [4] NIU Hehao, LIN Zhi, AN Kang, et al. Active RIS assisted rate-splitting multiple access network: Spectral and energy efficiency tradeoff[J]. IEEE Journal on Selected Areas in Communications, 2023, 41(5): 1452–1467. doi: 10.1109/JSAC.2023.3240718.
    [5] LIN Zhi, NIU Hehao, AN Kang, et al. Refracting RIS-aided hybrid satellite-terrestrial relay networks: Joint beamforming design and optimization[J]. IEEE Transactions on Aerospace and Electronic Systems, 2022, 58(4): 3717–3724. doi: 10.1109/TAES.2022.3155711.
    [6] ASIF M, IHSAN A, KHAN W U, et al. Energy-efficient beamforming and resource optimization for STAR-IRS enabled hybrid-NOMA 6G communications[J]. IEEE Transactions on Green Communications and Networking, 2023, 7(3): 1356–1368. doi: 10.1109/TGCN.2023.3281414.
    [7] WANG Peilan, FANG Jun, YUAN Xiaojun, et al. Intelligent reflecting surface-assisted millimeter wave communications: Joint active and passive precoding design[J]. IEEE Transactions on Vehicular Technology, 2020, 69(12): 14960–14973. doi: 10.1109/TVT.2020.3031657.
    [8] CAO Yashuai, LV Tiejun, and NI Wei. Intelligent reflecting surface aided multi-user mmWave communications for coverage enhancement[C]. IEEE 31st Annual International Symposium on Personal, Indoor and Mobile Radio Communications, London, UK, 2020: 1–6. doi: 10.1109/PIMRC48278.2020.9217160.
    [9] WANG Yong, LIN Zhi, NIU Hehao, et al. Secure satellite transmission with active reconfigurable intelligent surface[J]. IEEE Communications Letters, 2022, 26(12): 3029–3033. doi: 10.1109/LCOMM.2022.3207190.
    [10] HADANI R, RAKIB S, TSATSANIS M, et al. Orthogonal time frequency space modulation[C]. IEEE Wireless Communications and Networking Conference (WCNC), San Francisco, USA, 2017: 1–6. doi: 10.1109/WCNC.2017.7925924.
    [11] HADANI R, RAKIB S, MOLISCH A F, et al. Orthogonal time frequency space (OTFS) modulation for millimeter-wave communications systems[C]. IEEE MTT-S International Microwave Symposium (IMS), Honololu, USA, 2017: 681–683. doi: 10.1109/MWSYM.2017.8058662.
    [12] THOMAS A, DEKA K, SHARMA S, et al. IRS-assisted OTFS system: Design and analysis[J]. IEEE Transactions on Vehicular Technology, 2023, 72(3): 3345–3358. doi: 10.1109/TVT.2022.3217140.
    [13] 蒋占军, 刘庆达. 高速移动通信系统中OTFS信道估计算法研究[J]. 电子与信息学报, 2021, 43(10): 2878–2885. doi: 10.11999/JEIT200683.

    JIANG Zhanjun and LIU Qingda. Study on OTFS channel estimation algorithms in high-speed mobile communication systems[J]. Journal of Electronics & Information Technology, 2021, 43(10): 2878–2885. doi: 10.11999/JEIT200683.
    [14] RAVITEJA P, HONG Yi, VITERBO E, et al. Practical pulse-shaping waveforms for reduced-cyclic-prefix OTFS[J]. IEEE Transactions on Vehicular Technology, 2019, 68(1): 957–961. doi: 10.1109/TVT.2018.2878891.
    [15] GUNTURU A, GODALA A R, SAHOO A K, et al. Performance analysis of OTFS waveform for 5G NR mmWave communication system[C]. IEEE Wireless Communications and Networking Conference (WCNC), Nanjing, China, 2021: 1–6. doi: 10.1109/WCNC49053.2021.9417346.
    [16] WANG Zhaorui, LIU Liang, and CUI Shuguang. Channel estimation for intelligent reflecting surface assisted multiuser communications: Framework, algorithms, and analysis[J]. IEEE Transactions on Wireless Communications, 2020, 19(10): 6607–6620. doi: 10.1109/TWC.2020.3004330.
    [17] LIU Chang, LIU Xuemeng, NG D W K, et al. Deep residual learning for channel estimation in intelligent reflecting surface-assisted multi-user communications[J]. IEEE Transactions on Wireless Communications, 2022, 21(2): 898–912. doi: 10.1109/TWC.2021.3100148.
    [18] ELBIR A M and COLERI S. Federated learning for channel estimation in conventional and RIS-assisted massive MIMO[J]. IEEE Transactions on Wireless Communications, 2022, 21(6): 4255–4268. doi: 10.1109/TWC.2021.3128392.
    [19] SINGH G, SRIVASTAVA A, and BOHARA V A. Visible light and reconfigurable intelligent surfaces for beyond 5G V2X communication networks at road intersections[J]. IEEE Transactions on Vehicular Technology, 2022, 71(8): 8137–8151. doi: 10.1109/TVT.2022.3174131.
    [20] MISHRA H B, SINGH P, PRASAD A K, et al. OTFS channel estimation and data detection designs with superimposed pilots[J]. IEEE Transactions on Wireless Communications, 2022, 21(4): 2258–2274. doi: 10.1109/TWC.2021.3110659.
    [21] RAVITEJA P, PHAN K T, and HONG Yi. Embedded pilot-aided channel estimation for OTFS in delay-Doppler channels[J]. IEEE Transactions on Vehicular Technology, 2019, 68(5): 4906–4917. doi: 10.1109/TVT.2019.2906357.
    [22] BAIK S, OH J, HONG S, et al. Learning to forget for meta-learning via task-and-layer-wise attenuation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(11): 7718–7730. doi: 10.1109/TPAMI.2021.3102098.
    [23] LIU Shikun, JOHNS E, and DAVISON A J. End-to-end multi-task learning with attention[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, USA, 2019: 1871–1880. doi: 10.1109/CVPR.2019.00197.
    [24] PAN Cunhua, REN Hong, WANG Kezhi, et al. Multicell MIMO communications relying on intelligent reflecting surfaces[J]. IEEE Transactions on Wireless Communications, 2020, 19(8): 5218–5233. doi: 10.1109/TWC.2020.2990766.
  • 期刊类型引用(2)

    1. 孙春霞,杨丽,王小鹏,龙良. 结合深度强化学习的边缘计算网络服务功能链时延优化部署方法. 电子与信息学报. 2024(04): 1363-1372 . 本站查看
    2. 周伟,丁雪莹,谢志强. 考虑柔性设备加工能力的综合调度算法. 华南师范大学学报(自然科学版). 2024(02): 110-118 . 百度学术

    其他类型引用(6)

  • 加载中
图(9) / 表(3)
计量
  • 文章访问数:  891
  • HTML全文浏览量:  290
  • PDF下载量:  133
  • 被引次数: 8
出版历程
  • 收稿日期:  2023-07-04
  • 修回日期:  2023-12-14
  • 网络出版日期:  2023-12-26
  • 刊出日期:  2024-04-24

目录

/

返回文章
返回