Loading [MathJax]/jax/output/HTML-CSS/jax.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于多智能体深度强化学习的D2D通信资源联合分配方法

邓炳光 徐成义 张泰 孙远欣 张蔺 裴二荣

邓炳光, 徐成义, 张泰, 孙远欣, 张蔺, 裴二荣. 基于多智能体深度强化学习的D2D通信资源联合分配方法[J]. 电子与信息学报, 2023, 45(4): 1173-1182. doi: 10.11999/JEIT220231
引用本文: 邓炳光, 徐成义, 张泰, 孙远欣, 张蔺, 裴二荣. 基于多智能体深度强化学习的D2D通信资源联合分配方法[J]. 电子与信息学报, 2023, 45(4): 1173-1182. doi: 10.11999/JEIT220231
DENG Bingguang, XU Chengyi, ZHANG Tai, SUN Yuanxin, ZHANG Lin, PEI Errong. A Joint Resource Allocation Method of D2D Communication Resources Based on Multi-agent Deep Reinforcement Learning[J]. Journal of Electronics & Information Technology, 2023, 45(4): 1173-1182. doi: 10.11999/JEIT220231
Citation: DENG Bingguang, XU Chengyi, ZHANG Tai, SUN Yuanxin, ZHANG Lin, PEI Errong. A Joint Resource Allocation Method of D2D Communication Resources Based on Multi-agent Deep Reinforcement Learning[J]. Journal of Electronics & Information Technology, 2023, 45(4): 1173-1182. doi: 10.11999/JEIT220231

基于多智能体深度强化学习的D2D通信资源联合分配方法

doi: 10.11999/JEIT220231
基金项目: 国家重大专项(2018zx0301016),国家自然科学基金项目(62071077),重庆成渝科技创新项目(KJCXZD2020026)
详细信息
    作者简介:

    邓炳光:男,副教授,研究方向为移动通信

    徐成义:男,硕士生,研究方向为无线移动通信

    张泰:男,高级工程师,研究方向为电力通信

    孙远欣:男,博士,研究方向为无线移动通信

    张蔺:男,副教授,研究方向为无线移动通信

    裴二荣:男,教授,研究方向为无线移动通信

    通讯作者:

    裴二荣 peier@cqupt.edu.cn

  • 中图分类号: TN929.5

A Joint Resource Allocation Method of D2D Communication Resources Based on Multi-agent Deep Reinforcement Learning

Funds: The National Major Project (2018zx0301016), The National Natural Science Foundation of China (62071077), Chongqing Chengyu Science and Technology Innovation Project (KJCXZD2020026)
  • 摘要: 设备对设备(D2D)通信作为一种短距离通信技术,能够极大地减轻蜂窝基站的负载压力和提高频谱利用率。然而将D2D直接部署在授权频段或者免授权频段必然导致与现有用户的严重干扰。当前联合部署在授权和免授权频段的D2D通信的资源分配通常被建模为混合整数非线性约束的组合优化问题,传统优化方法难以解决。针对这个挑战性问题,该文提出一种基于多智能体深度强化学习的D2D通信资源联合分配方法。在该算法中,将蜂窝网络中的每个D2D发射端作为智能体,智能体能够通过深度强化学习方法智能地选择接入免授权信道或者最优的授权信道并发射功率。通过选择使用免授权信道的D2D对(基于“先听后说”机制)向蜂窝基站的信息反馈,蜂窝基站能够在非协作的情况下获得WiFi网络吞吐量信息,使得算法能够在异构环境中执行并能够确保WiFi用户的QoS。与多智能体深度Q网络(MADQN)、多智能体Q学习(MAQL)和随机算法相比,所提算法在保证WiFi用户和蜂窝用户的QoS的情况下能够获得最大的吞吐量。
  • 随着智能终端的迅速普及,预计到2023年智能手机、平板、车联网等网络连接设备数量将从2018年的184亿增长到293亿[1]。为了满足日益增长的数据业务需求以及提高频谱利用率,第3代伙伴计划(3rd Generation Partnership Project, 3GPP)提出设备对设备 (Device to Device, D2D)通信技术。与传统蜂窝通信相比,D2D技术不需要基站参与就可以实现两个邻近终端设备的直接通信[2,3]。此外,D2D通信还可以复用蜂窝系统的频谱资源,有效地提高频谱利用率。然而,随着移动流量的爆发式增长,授权频谱资源越来越匮乏。为此,一些研究人员提出在免授权频段上使用D2D通信技术,即免授权频段D2D通信(D2D in the Unlicensed band, D2D-U)[4]。D2D-U用户可以通过现有的免授权长期演进(Long Term Evolution in the Unlicensed band, LTE-U)技术访问免授权频段[5]。现有文献已经提出了多种免授权频段共存方法,如先听后说(Listen Before Talk, LBT)和占空比(Duty Cycle, DC)等。LBT是一种在传输之前采用载波侦听多路访问/冲突避免机制来防止与WiFi用户发生冲突的技术[6]。在DC方案中,LTE-U用户通过静默一段时间为WiFi用户留出信道资源进行数据传输,以保证正交性。

    目前,大量文献对部署在授权频段上D2D通信资源分配进行了研究。文献[7]针对异构网络中D2D通信复用蜂窝用户(Cellular Users, CU)频谱存在的频谱资源分配问题,提出了一种基于改进的离散鸽群D2D通信资源优化分配方案。该方案提高了边缘用户的通信质量和频谱利用率以及系统能效,有效控制了对蜂窝用户的干扰。文献[8]提出了一种新颖的下行链路资源共享策略,该策略允许多个D2D用户共享同一蜂窝用户的资源。此外,该文献通过拉格朗日对偶优化方法确定每个D2D用户的最佳功率,通过制定的功率控制最大化方案很好地平衡了D2D的总发射功率和总速率。文献[9]研究了通过优化混合模式以及发射功率和子信道分配,在蜂窝速率约束下加权D2D总速率的最大化问题。文献[10]研究了联合上行和下行链路资源分配问题,将最优功率分配构建为非线性规划问题,并通过在有限集合中搜索获得最优解,提出了最大权重二分匹配的D2D最佳信道选择方案。文献[11]考虑D2D链路和CU与D2D用户链路之间有界信道增益不确定性的影响,提出一种D2D用户总能效最大的鲁棒资源分配方案。该方案保障了用户的服务质量(Quality of Service, QoS),同时具有较好的鲁棒性和能效。

    随着授权频段的资源匮乏,研究人员将D2D通信拓展到免授权频段。文献[12]将免授权频段中的D2D通信传输建模为硬核点进程,并通过信道空闲检测(Clear Channel Assessment, CCA)机制获得D2D和WiFi接入点(Access Point, AP)的传输概率,在保证用户QoS的情况下,研究了D2D链路的平均发射功率。文献[4]提出了一种基于感知的协议,使LTE和D2D用户都能够访问免授权频段。该文献通过使用多对多匹配博弈解决了LTE-U和D2D用户的资源分配问题,提高了系统的总速率。文献[13]提出了一种基于分布式的信道和功率联合分配方案,该方案实现D2D-U功耗的全局最小化,同时降低计算复杂度和信令开销。文献[14]提出一种针对WiFi用户安全需求的免授权频段共享的资源分配方案,通过“共享共存”的免授权共存机制,允许D2D用户与WiFi用户共享免授权频谱资源。该方案提高了系统的总频谱效率,同时降低了对WiFi用户性能的影响。文献[15]对比了D2D-U和WiFi在LBT机制和DC机制两种不同共存方案下的网络性能,并且该文献通过仿真验证在LBT模式下WiFi网络的性能可以得到更好的保证。

    近年来,强化学习(Reinforcement Learning, RL)在无线网络中得到了广泛的应用。这使得每个节点都具有自组织功能,从而形成了分布式控制模式。文献[16]提出了一种合作Q学习方法来处理异构无线网络中的资源分配问题,以最大化网络的总容量,同时能够确保QoS和用户的公平性。文献[17]为能量收集问题找到了两种节能功率分配方法:即基于收敛的Q学习和ε贪婪Q学习节能功率分配方法。文献[18]提出了Q学习的资源分配方法,以最大化网络吞吐量。文献[19]提出了一种基于分布式Q学习的频谱分配方法,即D2D用户学习无线环境并自主选择频谱资源,以最大化其吞吐量,同时对蜂窝用户造成最小干扰。文献[20]提出一种基于Q学习的D2D-U资源分配算法,智能体通过与环境的交互最优的功率分配和占空比,保证蜂窝用户满意信噪比的同时,最大限度地提高总吞吐量和公平性。然而,它们大多数只是单一地考虑授权频段或者免授权频段,没有考虑在授权频段和免授权频段的联合部署。

    到目前为止少,有文献同时考虑授权和免授权频段的D2D通信资源的联合分配,并确保蜂窝用户和WiFi用户的QoS。在授权和免授权频段联合部署D2D通信时需要考虑以下两点:当D2D用户部署到授权频段时,需要考虑对蜂窝用户的影响以及他们之间的相互影响;当D2D用户部署到免授权频段时,需要考虑对现有用户即WiFi用户的影响。因此需要深入研究D2D通信资源联合分配方法,确保,对蜂窝用户和WiFi用户干扰有限的前提下最大化总吞吐量。然而部署在授权和免授权频段的D2D通信资源分配通常被建模为混合整数非线性约束的组合优化问题,传统优化方法难以解决。考虑到RL能够有效地解决不确定性下的决策问题[21],难以优化的目标问题可以通过设计与最终目标相关的奖励函数在RL框架中得到解决。由于Q学习具有较低的收敛速度并且无法处理连续状态和动作空间,而RL中的优势演员-评论家(Advantage Actor-Critic, A2C)算法可以有效地处理连续状态和动作空间,A2C提供了比常规Q学习更好的收敛性。基于此,本文提出一种基于A2C框架的多智能体强化学习的D2D通信资源联合分配算法(MAAZC)。在这个算法中,D2D发射端作为智能体,智能体的动作设置为免授权信道和授权信道及其发射功率的选择,基于重新定义的新的奖励函数和状态函数,智能体通过与环境不断地交互直到学习到最优的资源分配策略,并能够在保证WiFi用户和蜂窝用户的QoS的同时,最大限度地提高总吞吐量。

    图1所示,本文考虑了多用户下LTE网络的单个小区上行链路场景,其中包括1个坐落在中央的LTE基站和1个拥有W = {1,2,,W}个用户的WiFi AP接入点,其中有N个蜂窝用户表示为CUn(nN={1,2,,N}),和M对D2D用户表示为(Dtm,Drm)(mM = {1,2,,M})Dtm表示D2D对的发射端,Drm表示D2D对的接收端。蜂窝系统内的用户部署在授权频段,授权信道被分为K个带宽为BL子信道,表示为K = {1,2,,K}。假设CUnBS之间的信道增益hn,B表示为

    图 1  系统模型
    hn,B=gn,Bβn,BALλn,B (1)

    其中,gn,B是小尺度快衰落功率分量,假设以单位均值呈指数分布,A是路损耗常数,Lλn,BCUnBS之间的距离,λ是衰减指数,βn,B是标准差为ξ的对数阴影衰落随机变量。类似地定义了第m个D2D对发射端到接收端的信道增益为hm,m,第m个D2D对到第m个D2D对的信道增益为hm,m,第m个D2D对到基站BS的信道增益为hm,B,第m个D2D对到第nCU的信道增益为hm,n

    假设所有的通信结点都是满负载并且通信场景中没有隐藏结点。若D2D用户在授权频段传输,D2D用户将与现有的复用相同频段的蜂窝用户产生同信道干扰。为了提高信道利用率,考虑一个信道可以同时被多个D2D用户复用。假设所有的蜂窝用户已提前分配好相互正交的子信道,因此蜂窝用户之间不会有相互干扰;若D2D用户采用LBT机制接入到免授权频段,即采用与WiFi用户相同的载波感知多址接入机制。随着接入到免授权频段的用户数增多,导致碰撞增加,进而降低WiFi用户的QoS。在本文中,假设D2D用户可以获取来自基站通知的部分用户的信道状态信息(Channel State Information, CSI)。

    为了提高频谱效率,允许1个子信道可以被多个D2D用户所复用,即多个D2D用户可以复用同一个蜂窝用户的上行链路直接进行通信,但1个D2D最多只能复用其中1个子信道。D2D用户授权频段和免授权频段分配矩阵表示为Φ1×M=[ϕ1×m],其中ϕm{0,1}, ϕm=0表示将D2D用户部署在免授权频段,ϕm=1表示D2D用户部署在授权频段。同样本文定义D2D用户的子信道分配矩阵表示为θM×K=[θm,k],当θm,k=1表示子信道kDm复用。

    (1) CU用户信道干扰:蜂窝用户工作在授权频段,且每个蜂窝用户被分配不同的正交子信道,因此蜂窝用户之间不存在信道干扰。所以基站来自使用第k子信道的蜂窝用户CUn的信噪比为

    γcn,k=Pchcn,Bσ2+mMϕmθm,kPdmhdm,B (2)

    其中,Pc, Pdm分别为CU和D2D发射端的发射功率,hcn,B, hdm,B分别为CUnDtm到基站的信道增益。

    (2) D2D用户的信道干扰:由于多个D2D用户可以复用同一个蜂窝用户的上行链路直接通信,所以一个D2D用户接收端会同时来自蜂窝用户和其他复用相同信道的D2D用户发射端的干扰。因此复用子信道k的D2D用户Dm的接收端的信干噪比为

    γd,lm,k=ϕmPdmhdm,mσ2+{jm}Mϕjθj,kPdjhdj,m+Pchcn,m (3)

    其中,hdm,m, hdj,m, hcn,m分别表示Dtm, DtjCUnDrm的信道增益。

    因此,根据香农公式可得蜂窝用户和D2D用户在授权频段子信道k的速率分别为

    Rcn,k=BLlog2(1+γcn,k) (4)
    Rd,lm,k=BLlog2(1+γd,lm,k) (5)

    当D2D接入到免授权频段,D2D用户采用与WiFi系统相似的LBT机制机会性竞争信道。假设D2D采用的LBT机制中的参数与WiFi系统使用的参数完全一致,因此WiFi网络中的平均吞吐量可以表示为

    SWavg=mMURmMU (6)

    其中,Rm表示第m对D2D接入到免授权频段后的即时吞吐量,MU是接入到免授权频段的D2D用户数。

    本文的目标是最大化D2D用户的总吞吐量,同时保证WiFi用户和蜂窝用户的QoS,假设D2D用户可以获取到来自基站的部分信息。鉴于此,D2D通信的模式选择以及信道和功率分配的问题建立表示为

    max{ϕk,θm,k,Pdm}(mMRd,lm,k+mMURm)
    s.t. ϕk,θm,k{0,1}m,k
    γcn,kγcmin,γd,lm,kγdmin
    0PdmPmax
    SWavgSWmin

    其中,式(8a)表示D2D用户的模式选择以及信道的选择,式(8b)表示蜂窝用户和D2D用户满足最低信噪比要求,式(8c)表示D2D用户的发射功率范围,式(8d)表示满足免授权频段用户的最低速率。

    本文首先对多智能体环境进行建模,然后提出一种基于多智能体深度强化学习的分布式框架来解决D2D通信的资源分配问题。如算法1

    算法1 基于多智能体深度强化学习的D2D通信资源联合分配方法
     (1) 设置超参数:折扣因子γ,演员网络的学习率αa,评论家网络的学习率αc
     (2) 随机初始化演员网络参数θ0,θ1,,θM和评论家网络参数ω0,ω1,,ωM
     (3) 所有的智能体(D2D对)获得初始状态S0={s10,s20,,sM0}
     (4) for t=1,2,,Tdo
     (5)     for i=1,2,,M do
     (6)        第i对D2D用户将自身的观测oit作为策略网络的输入,根据当前策略函数πθit(ait|oit;θit)选取动作ait
     (7)       end for
     (8)        所有D2D发射端执行动作At={a1t,a2t,,aMt},获得奖励Rt={r1t,r2t,,rMt}以及下一个状态
              St+1={o1t+1,o2t+1,,oMt+1}
     (9)        for i=1,2,,M do
     (10)       第i对D2D用户将自身观测oit+1作为Critic网络的输入并计算Vi(oit+1)
              计算TD误差δit(oit)=rit+γVi(oit+1)Vi(oit)
              更新评论家网络参数ωit+1=ωit+αcωiViωi(oit)δi(oit)
              更新演员网络参数θit+1=θit+αaθilnπiθi(ait|oit)δi(oit)
     (11)        end for
     (12)        所有D2D用户更新自身状态St=St+1
     (13) end for
    下载: 导出CSV 
    | 显示表格

    本文目标是在蜂窝系统中找到一种最大化D2D系统吞吐量的资源分配策略。本文将每个D2D发射端作为智能体,因而可以将D2D通信网络视为一个多智能体系统。传统的马尔可夫决策过程(Markov Decision Process, MDP)模型需要知道完整的状态信息,进而需要非常庞大的信息交换,导致大量的开销。并且,复杂的无线网络通信环境使得D2D获取其他智能体状态信息和动作信息变得不切实际,因此传统的MDP模型并不是适用。鉴于此,本文考虑将D2D通信的网络环境构建为部分可观测马尔可夫决策过程(Partially Observable Markov Decision Process, POMDP)模型。

    图2展示了D2D多智能体系统,其中智能体(D2D对发射端)与环境交互以增强蜂窝网络的性能。同样地,在本文中D2D发射端采用非协作的方式智能地选择动作,以增加自身预期的长期回报。基于本文的假设,D2D发射端只知道自身的局部观测以及部分的基站通知的信息,几乎不知道全局的CSI信息。因此每个D2D的网络环境都可以看作是一个POMDP模型。

    图 2  D2D多智能体系统示意图

    在这个系统中,多个D2D对的马尔可夫博弈可以看作一个多元组(S,A,r1t,,rMt,P,γ),其中S表示状态空间,A表示动作空间,rti表示第i个D2D对的奖励函数,P表示所有D2D发射端执行动作之后环境的转移概率。在第t个时刻,所有智能体同时根据自身的策略执行动作,智能体与环境交互后获得下一个状态oit+1以及即时奖励rit。第i智能体的状态价值定义为折扣后的累积奖励总和

    Rit=Tn=0γnrit+n (9)

    其中,T表示时间步长,γ是介于0~1之间的折扣因子。多智能体RL的目标是为每个智能体学习到最优策略以最大化期望回报。在本文的场景中,第i对D2D用户的期望回报定义为期望累积折扣奖励

    Ji=E[Ri0]=E[n=0γnrin] (10)

    结合模型,状态、动作、奖励的相关设置如下:

    状态空间 oit=[γD,ti,γC,ti,Rt1i,It1i,Nt1i], γD,ti表示t时刻第i个智能体的信噪比,γC,ti表示t时刻第i个智能体复用的蜂窝用户信噪比,Rt1i表示上一时刻复用授权频段的信道,It1i表示上一时刻的授权或免授权选择,Nt1i表示环境中接入到免授权D2D用户数量。假设基站会将γC,tiNt1i传输到每个D2D对。

    动作空间 ait=[Iti,Pti,Bti]Iti表示t时刻第i个智能体选择接入授权频段或者免授权频段,Iti=0表示第i个D2D选择接入到免授权频段,Iti=1表示第i个智能体接入到授权频段,Pti表示第i个智能体在t时刻的功率选择,为了简化学习,将功率水平离散化为L个级别。用公式表示为:Pti=pmaxω/Lω=1,2,,LBti表示第i个智能体t时刻的接入到授权频段的信道。如果可选择信道数量为β个,则第i个智能体动作空间大小为2×L×β

    奖励函数 RL中的奖励函数驱动整个学习过程,因此合理的reward函数是关键。本文奖励函数包含3个部分:D2D发射端的频段的选择、D2D和蜂窝用户的速率以及蜂窝用户和D2D用户的信噪比限制。具体设计:当智能体选择接入到免授权频段(即WiFi频段)的用户获得的平均吞吐量大于设定阈值时,那么将其奖励设置为即时获得的平均吞吐量;当D2D接入到免授权频段数量过多导致WiFi频段用户的吞吐量不满足QoS要求时,则获得负值作为惩罚;当智能体动作是接入授权频段,智能体采取的动作使得蜂窝用户和D2D用户的信噪比同时大于设定的最小信噪比阈值时,以智能体采取当前动作所获得速率作为奖励,反之,如果智能体采取的行为,则奖励函数为负值作为惩罚。对应的奖励函数设置如下。

    (1)当D2D用户选择接入到授权频段的奖励函数设置为

    rit={Rd,li,k,γcn,kγcminandγd,li,kγdminrli,neg,γcn,k<γcminorγd,li,k<γdmin (11)

    (2)当D2D用户接入到免授权频段的奖励函数设置为

    rit={SWavg,SWavgSWminrui,neg,SWavg<SWmin (12)

    A2C算法是基于价值和基于策略的强化学习的结合,它是一种仅近似状态价值函数V(st)而不是同时近似Q(st,at)V(st)的有效方法,从而减少了参数数量并简化了学习过程。特别地,A2C优势函数是演员-评论家算法最重要的函数:A(st,at)=Q(st,at)V(st)。如果动作at超出平均表现,那么将获得正的优势函数值。反之,则为负值。通常,A(st,at)可以通过TD error来估计。考虑到当网络中由大量D2D用户,将模型建立为单智能体是不切实际的。因为随着D2D数量增加,状态空间和动作空间将变得异常庞大,因此本文将A2C拓展为多智能体。在提出的多智能体模型中,每个智能体都拥有Actor网络和Critic网络,基于Actor和Critic的深度神经网络模型如图3所示。

    图 3  Actor和Critic网络的深度神经网络模型

    在构建的模型中,智能体从环境中观察其状态并根据其策略选择动作,智能体在环境中执行动作获得各自的奖励函数以更新网络参数。在多智能体的演员评论家网络中,第i个智能体的优势函数定义为

    Ai(oit,ait)=Qi(oit,ait)Vi(oit)=E[rit|oit,ait]Vi(oit)rit+γVi(oit+1|oit,ait)Vi(oit)=δi(oit) (13)

    其中,Ai(oit,ait), Qi(oit,ait), Vi(oit), δi(oit)Vi(oit+1|oit,ait)分别表示为第i个智能体的t时刻优势函数、动作价值函数、状态价值函数、TD error值和t+1时刻的状态价值函数。

    智能体根据自己对环境的局部观测进行学习,每个智能体都拥有各自的策略函数πiθ(ai|oi)和值函数Vi(oi),状态函数用于学习TD error,策略函数则用于智能体执行动作。这意味着每个智能体都维护自己的价值函数和策略函数近似值。策略参数通过基于梯度上升的TD error进行更新

    θit+1=θit+αaθiJ(θit) (14)

    其中,αa表示智能体的学习率,θiJ(θi)δi(oit)θilnπiθi(ait|oit)θi表示第i个智能体的策略参数,πθi(ait|oit;θi)表示第i个智能体的策略。同时,第i智能体的Critic网络的损失函数定义为

    LiCritic=[δi(oit)]2=(rit+γVi(oit+1|oit,ait)Vi(oit))2 (15)

    类似地,Critic使用梯度上升算法更新自身的参数

    ωit+1=ωit+αcωiViωi(oit)δi(oit) (16)

    每个智能体的Actor网络使用DNN进行参数化,网络的输入是智能体的局部观测状态,输出是智能体的动作空间的概率分布,因此输出层的输出是所有动作的组合。Actor网络输出层通过Softmax激活函数,以确定每个动作的概率,从而可以根据这些概率采取动作。Critic网络同样由DNN参数化,其作用是提供状态值估计,以便用于辅助策略训练的TD误差计算。本文整个算法流程具体如算法1所示。

    接下来分析本文所提出算法执行时的复杂度。首先定义Actor网络的第n层的神经元个数为Xn,可以得到第n层的计算复杂度为O(Xn1Xn),因此Actor网络的总计算复杂度为O(H1n=2Xn1Xn),其中H表示Actor网络的层数。同样地,定义Critic网络的第f层的神经元个数为Yf,则第f层的计算复杂度为O(Yf1Yf),因此Critic网络的总计算复杂度为O(G1f=2Yf1Yf),其中G为Critic网络的层数。由于本文将每个D2D发射端作为智能体,智能体之间独立学习,并且每个智能体都拥有一个Actor网络和Critic网络,而Critic网络需要估计tt+1时刻的状态价值,因此对于每个智能体而言计算复杂度为O(H1n=2Xn1Xn+2G1f=2Yf1Yf),计算复杂度并不高。Actor网络和Critic网络的参数策略更新是线性的,因此策略参数更新的复杂度为O(Mactor+Ncritic)Mactor, Ncritic分别为Actor和Critic网络参数个数。

    本文考虑一个单小区网络,其中基站(BS)位于网络的中心,蜂窝用户均匀分布。假设D2D的发送端和接收端都是均匀分布的,但后者的范围是一个以对应的前者为中心,r为半径的圆。WiFi网络位于蜂窝覆盖的同一区域内,在仿真中,本文采用了5 GHz的IEEE 802.11n协议。强化学习框架中的Actor网络由3个隐藏层组成,每个隐藏层有64个神经元和1个ELU激活函数,输出层的神经元个数为智能体所有可选动作的个数,将输出结果通过Softmax激活函数以获得动作的概率分布。Critic网络包含2个隐藏层,每个隐藏层有64个神经元和1个ELU激活函数,输出层只有1个神经元用来提供对状态价值函数V(s)估计。Actor和Critic网络的学习率分别设置为0.0001和0.001,折扣因子γ=0.95, rli,neg=1×107, rui,neg=1×107,信道根据3GPP技术规范[22]。主要的仿真参数如表1所示。

    表 1  参数配置
    参数取值参数取值参数取值参数取值
    蜂窝半径500 m噪声功率谱密度–174 dBm/Hz蜂窝用户的最大发射功率23 dBm阴影衰落标准差8 dB
    蜂窝用户数5D2D用户传输功率级别5D2D用户距离25 m蜂窝用户QoS的信噪比阈值6 dB
    D2D用户数5~45路径损耗的衰减因子4授权上行信道带宽5 MHzD2D用户QoS的
    信噪比阈值
    6 dB
    WiFi用户数1-11D2D用户的最大发射功率23 dBm免授权信道带宽20 MHzSWmin6 Mbit/s
    下载: 导出CSV 
    | 显示表格

    本节将MAA2C与以下3种算法进行了比较:(1)多智能体Q学习(Multi Agent Q Learning, MAQL):智能体通过查看Q表找到最优策略,以最大化累积奖励。(2)多智能体深度Q网络(Multi Agent Deep Q Network, MADQN):使用DNN的输出来估计Q值,而不是通过Q表来计算Q值,避免了当状态空间较大时难以找到最优决策情况。(3)随机基线(random baseline):在每个时间步D2D发射端以随机方式选择频段、功率以及信道。

    图4比较了当D2D数量为15时,不同算法随着迭代次数的增加总奖励的变化趋势,以研究所提出的多智能体RL算法的收敛性。从图中可以看出,随着迭代次数的增加,本文提出的算法MAAZC、MADQN和MAQL的奖励值逐渐提高,说明D2D用户的策略在不断优化。当训练次数约达5000次时,累积奖励曲线逐渐收敛,D2D用户的策略变化趋于稳定,进而说明所提算法的有效性。与MADQN和MAQL算法相比,所提算法实现更好的总奖励性能,同时收敛最稳定(波动更小)。MADQN算法优于MAQL,因为DQN通过引入DNN来逼近状态空间和动作空间之间的复杂映射,从而解决了高维空间的映射问题。对于MAQL算法,当状态空间和动作空间很大时,每个智能体的Q表将变得非常庞大,D2D用户难以找到更优的策略,因此收敛性和总奖励表现都比较差。很明显,所提出算法的总奖励表现最好,是因为MAA2C算法通过结合策略学习和值学习过程来优化策略,并且MAA2C算法利用的优势函数对D2D用户采取的当前动作好坏程度进行评价,使得对策略梯度的评估偏差更小,因此具有更好的收敛性,同时总奖励表现也更佳。随机算法的总奖励没有增加,因为随机算法没有配置任何学习策略。

    图 4  不同算法的总奖励函数对比

    图5描述了当D2D数量为15,D2D用户选择接入免授权频段的总数随着训练次数的增加变化趋势。从图中可以看出,当迭代次数达到6 000次时,环境中D2D用户选择接入到免授权频段的数量收敛在数值5上,但依然会较少波动,是因为智能体依然需要对环境进行探索,以获得更好的奖励。当迭代次数达到8 000次时,环境中D2D用户接入免授权频段总数几乎固定在5,因为当部署的免授权频段数量为5时可以获得最优奖励。

    图 5  D2D接入免授权频段数量变化

    图6描述了当D2D数量为15,CU数量为5时,D2D用户和蜂窝用户的吞吐量变化趋势。由于将D2D作为智能体,每个D2D用户的目标是最大自身的吞吐量收益,从图中可以看到D2D用户的总吞吐量随着迭代次数增加呈现上升趋势,说明D2D用户能够学习到更好的策略。其中,授权频段的D2D总吞吐量明显呈上升趋势,是因为所设置的奖励函数驱使D2D用户选择能够学习到更好的子信道以及对应的功率。而免授权频段D2D用户的总吞吐量随着迭代次数增加而下降,是因为当更多D2D接入到免授权会导致采用LBT机制的用户信道碰撞概率增加,进而不能满足所设置的WiFi用户的QoS要求,部分D2D用户不得不接入到授权频段,以满足WiFi用户的QoS。可以看出,蜂窝用户的总吞吐量也有所下降趋势,是因为优化的目标是最大化D2D用户的总吞吐量,所以D2D用户会在不影响蜂窝用户QoS下尽可能调整自身发射功率,以提升自身的吞吐量。因此,蜂窝用户受到的干扰会变大,导致了蜂窝用户总吞吐量下降。

    图 6  D2D用户和蜂窝用户的吞吐量变化

    图7描述了蜂窝用户和WiFi用户平均用户吞吐量的变化,从图中可以看到WiFi用户的平均用户吞吐量随着迭代次数的增加呈上升趋势,且最终收敛在设定的WiFi用户的QoS阈值上方。蜂窝用户的总吞吐量随着迭代次数增加而下降,但依然收敛在设定的蜂窝用户的QoS阈值上方。因此,所提算法可以满足用户的QoS要求。

    图 7  蜂窝用户和WiFi用户的平均吞吐量变化

    图8描述了不同D2D数量下系统总吞吐量表现。从图中可以看出,D2D用户的总吞吐量随着D2D用户的数量增加而增加,是因为系统中更多的D2D可以带来更高的容量增益。MAA2C算法在总吞吐量表现方面最佳,这是由于MAA2C算法中的每个智能体可以结合策略学习和值学习的过程优化策略,并且利用优势函数对选取动作值和所有动作平均值做比较,进而调整自身策略网络。MADQN算法明显优于MAQL,因为DQN算法利用DNN来实现高维状态空间的映射。随着D2D数量增加,状态-动作空间的扩大使得Q学习算法效果不佳。随机算法由于没有配置任何策略,因此吞吐量性能表现最差。

    图 8  D2D用户数量对系统吞吐量的影响

    图9显示D2D数量为15时,WiFi数量对系统总吞吐量的影响。随着WiFi数量增加,总吞吐量呈下降趋势,这是因为随着WiFi数量增加,导致采用LBT接入到WiFi频段的用户碰撞概率增加,为了保护免授权频段WiFi用户和部署在免授权频段的D2D用户的通信质量,接入到免授权频段的D2D数量减少,部分D2D设备需接入到授权频段进而导致了更大的信道干扰。从图中可以看出,所提算法明显优于MADQN, MAQL和随机算法。

    图 9  WiFi用户数量对系统吞吐量的影响

    图10描述了当D2D对数量为15时,D2D对发射端到接收端的距离不同对系统吞吐量的影响。从图中可以看出,随着D2D对的通信距离增加,系统吞吐量明显呈下降趋势,这种现象可以解释为更大距离会导致的路径损失变大,进而导致吞吐量变小。并且所提算法实现了比MADQN和MAQL更好的吞吐量,随机算法吞吐量性能表现最差。

    图 10  D2D发射端到接收端的距离对系统吞吐量的影响

    图11显示了不同的最大发射功率限制对系统吞吐量的影响。可以看出,随着最大发射功率限制的提升,可以实现更大的吞吐量。可以解释当发射功率变大,智能体动作中的功率的范围变大,智能体在与环境交互中能够学习到更佳的功率来提升性能。同样,本文提出的方案比其他方案具有更好的吞吐量,与MADQN和MAQL相比,总吞吐量提高了约7%和46%。

    图 11  D2D最大发射功率限制对系统吞吐量的影响

    本文提出了一种基于MAA2C的D2D通信资源联合分配方法,将D2D发射端作为智能体,通过学习确定接入授权频段或者免授权频段,确定接入免授权频段的用户使用LBT机制与WiFi用户共存,而确定接入授权频段的D2D用户还需要继续通过学习选择最优的信道和发射功率,与其他D2D用户和蜂窝用户共存。仿真结果表明,所提算法在保证WiFi用户和蜂窝用户QoS的情况下,在吞吐量方面表现最好。

  • 图  1  系统模型

    图  2  D2D多智能体系统示意图

    图  3  Actor和Critic网络的深度神经网络模型

    图  4  不同算法的总奖励函数对比

    图  5  D2D接入免授权频段数量变化

    图  6  D2D用户和蜂窝用户的吞吐量变化

    图  7  蜂窝用户和WiFi用户的平均吞吐量变化

    图  8  D2D用户数量对系统吞吐量的影响

    图  9  WiFi用户数量对系统吞吐量的影响

    图  10  D2D发射端到接收端的距离对系统吞吐量的影响

    图  11  D2D最大发射功率限制对系统吞吐量的影响

    算法1 基于多智能体深度强化学习的D2D通信资源联合分配方法
     (1) 设置超参数:折扣因子γ,演员网络的学习率αa,评论家网络的学习率αc
     (2) 随机初始化演员网络参数θ0,θ1,,θM和评论家网络参数ω0,ω1,,ωM
     (3) 所有的智能体(D2D对)获得初始状态S0={s10,s20,,sM0}
     (4) for t=1,2,,Tdo
     (5)     for i=1,2,,M do
     (6)        第i对D2D用户将自身的观测oit作为策略网络的输入,根据当前策略函数πθit(ait|oit;θit)选取动作ait
     (7)       end for
     (8)        所有D2D发射端执行动作At={a1t,a2t,,aMt},获得奖励Rt={r1t,r2t,,rMt}以及下一个状态
              St+1={o1t+1,o2t+1,,oMt+1}
     (9)        for i=1,2,,M do
     (10)       第i对D2D用户将自身观测oit+1作为Critic网络的输入并计算Vi(oit+1)
              计算TD误差δit(oit)=rit+γVi(oit+1)Vi(oit)
              更新评论家网络参数ωit+1=ωit+αcωiViωi(oit)δi(oit)
              更新演员网络参数θit+1=θit+αaθilnπiθi(ait|oit)δi(oit)
     (11)        end for
     (12)        所有D2D用户更新自身状态St=St+1
     (13) end for
    下载: 导出CSV

    表  1  参数配置

    参数取值参数取值参数取值参数取值
    蜂窝半径500 m噪声功率谱密度–174 dBm/Hz蜂窝用户的最大发射功率23 dBm阴影衰落标准差8 dB
    蜂窝用户数5D2D用户传输功率级别5D2D用户距离25 m蜂窝用户QoS的信噪比阈值6 dB
    D2D用户数5~45路径损耗的衰减因子4授权上行信道带宽5 MHzD2D用户QoS的
    信噪比阈值
    6 dB
    WiFi用户数1-11D2D用户的最大发射功率23 dBm免授权信道带宽20 MHzSWmin6 Mbit/s
    下载: 导出CSV
  • [1] CISCO. Cisco annual internet report (2018–2023) white paper[EB/OL]. https://www.cisco.com/c/en/us/solutions/collateral/executive-perspectives/annual-internet-report/white-paper-c11-741490.html, 2021.
    [2] MACH P, BECVAR Z, and VANEK T. In-band device-to-device communication in OFDMA cellular networks: A survey and challenges[J]. IEEE Communications Surveys & Tutorials, 2015, 17(4): 1885–1922. doi: 10.1109/COMST.2015.2447036
    [3] AHMED M, LI Yong, WAQAS M, et al. A survey on socially aware device-to-device communications[J]. IEEE Communications Surveys & Tutorials, 2018, 20(3): 2169–2197. doi: 10.1109/COMST.2018.2820069
    [4] ZHANG Hongliang, LIAO Yun, and SONG Lingyang. D2D-U: Device-to-device communications in unlicensed bands for 5G system[J]. IEEE Transactions on Wireless Communications, 2017, 16(6): 3507–3519. doi: 10.1109/TWC.2017.2683479
    [5] WU Yue, GUO Weisi, YUAN Hu, et al. Device-to-device meets LTE-unlicensed[J]. IEEE Communications Magazine, 2016, 54(5): 154–159. doi: 10.1109/MCOM.2016.7470950
    [6] KO H, LEE J, and PACK S. A fair listen-before-talk algorithm for coexistence of LTE-U and WLAN[J]. IEEE Transactions on Vehicular Technology, 2016, 65(12): 10116–10120. doi: 10.1109/TVT.2016.2533627
    [7] 张达敏, 张绘娟, 闫威, 等. 异构网络中基于能效优化的D2D资源分配机制[J]. 电子与信息学报, 2020, 42(2): 480–487. doi: 10.11999/JEIT190042

    ZHANG Damin, ZHANG Huijuan, YAN Wei, et al. D2D resource allocation mechanism based on energy efficiency optimization in heterogeneous networks[J]. Journal of Electronics &Information Technology, 2020, 42(2): 480–487. doi: 10.11999/JEIT190042
    [8] KHUNTIA P and HAZRA R. An efficient channel and power allocation scheme for D2D enabled cellular communication system: An IoT application[J]. IEEE Sensors Journal, 2021, 21(22): 25340–25351. doi: 10.1109/JSEN.2021.3060616
    [9] TANG Huan and ZHI Ding. Mixed mode transmission and resource allocation for D2D communication[J]. IEEE Transactions on Wireless Communications, 2016, 15(1): 162–175. doi: 10.1109/TWC.2015.2468725
    [10] PAWAR P and TRIVEDI A. Joint uplink-downlink resource allocation for D2D underlaying cellular network[J]. IEEE Transactions on Communications, 2021, 69(12): 8352–8362. doi: 10.1109/TCOMM.2021.3116947
    [11] 徐勇军, 谷博文, 杨洋, 等. 基于不完美CSI的D2D通信网络鲁棒能效资源分配算法[J]. 电子与信息学报, 2021, 43(8): 2189–2198. doi: 10.11999/JEIT200587

    XU Yongjun, GU Bowen, YANG Yang, et al. Robust energy-efficient resource allocation algorithm in D2D communication networks with imperfect CSI[J]. Journal of Electronics &Information Technology, 2021, 43(8): 2189–2198. doi: 10.11999/JEIT200587
    [12] SHANG Bodong, ZHAO Liqiang, and CHEN K C. Enabling device-to-device communications in LTE-unlicensed spectrum[C]. Proceedings of 2017 IEEE International Conference on Communications (ICC), Paris, France, 2017: 1–6.
    [13] YIN Rui, WU Zheli, LIU Shengli, et al. Decentralized radio resource adaptation in D2D-U networks[J]. IEEE Internet of Things Journal, 2021, 8(8): 6720–6732. doi: 10.1109/JIOT.2020.3016019
    [14] XING Chigang and LI Fangmin. Unlicensed spectrum-sharing mechanism based on Wi-Fi security requirements implemented using device to device communication technology[J]. IEEE Access, 2020, 8: 135025–135036. doi: 10.1109/ACCESS.2020.3011134
    [15] WANG Ganggui, WU C, YOSHINAGA T, et al. Coexistence analysis of D2D-unlicensed and Wi-Fi communications[J]. Wireless Communications and Mobile Computing, 2021, 2021: 5523273. doi: 10.1155/2021/5523273
    [16] AMIRI R, MEHRPOUYAN H, FRIDMAN L, et al. A machine learning approach for power allocation in HetNets considering QoS[C]. 2018 IEEE International Conference on Communications (ICC), Kansas City, USA, 2018.
    [17] MASADEH A, WANG Zhengdao, and KAMAL A E. Reinforcement learning exploration algorithms for energy harvesting communications systems[C]. 2018 IEEE International Conference on Communications (ICC), Kansas City, USA, 2018.
    [18] LUO Yong, SHI Zhiping, ZHOU Xin, et al. Dynamic resource allocations based on Q-learning for D2D communication in cellular networks[C]. The 2014 11th International Computer Conference on Wavelet Actiev Media Technology and Information Processing (ICCWAMTIP), Chengdu, China, 2014: 385–388.
    [19] ZIA K, JAVED N, SIAL M N, et al. A distributed multi-agent RL-based autonomous spectrum allocation scheme in D2D enabled multi-tier HetNets[J]. IEEE Access, 2019, 7: 6733–6745. doi: 10.1109/ACCESS.2018.2890210
    [20] PEI Eerong, ZHU Bingbing, and LI Yun. A Q-learning based resource allocation algorithm for D2D-unlicensed communications[C]. The 2021 IEEE 93rd Vehicular Technology Conference (VTC2021-Spring), Helsinki, Finland, 2021: 1–6.
    [21] LI Zheng and GUO Caili. Multi-agent deep reinforcement learning based spectrum allocation for D2D underlay communications[J]. IEEE Transactions on Vehicular Technology, 2020, 69(2): 1828–1840. doi: 10.1109/TVT.2019.2961405
    [22] 3GPP. 3GPP TR 36.814 V9.0. 0 Further advancements for E-UTRA physical layer aspects[S]. Valbonne: 3GPP, 2010.
  • 期刊类型引用(3)

    1. 李梦凡,张育芝,韩翔,冯晓美. 基于多智能体深度强化学习的水声网络资源分配. 电讯技术. 2025(02): 283-292 . 百度学术
    2. 张冠珠,苏杉,赵雪峰,常璐璐. 基于偏好学习法的大数据流组合优化多智能体研究. 自动化与仪器仪表. 2024(10): 47-51 . 百度学术
    3. 蓝基银. 基于改进粒子群算法的无人机通信链路资源分配技术研究. 现代传输. 2023(05): 58-62 . 百度学术

    其他类型引用(6)

  • 加载中
图(11) / 表(2)
计量
  • 文章访问数:  1001
  • HTML全文浏览量:  741
  • PDF下载量:  241
  • 被引次数: 9
出版历程
  • 收稿日期:  2022-03-04
  • 修回日期:  2022-05-26
  • 网络出版日期:  2022-05-31
  • 刊出日期:  2023-04-10

目录

/

返回文章
返回