
Citation: | MA Bin, YANG Zumin, XIE Xianzhong. Dynamic Spectrum Access Algorithm for Evaluating Spectrum Stability in Cognitive Vehicular Networks.[J]. Journal of Electronics & Information Technology. doi: 10.11999/JEIT240927 |
随着大量车联网应用的普及,车辆终端对频谱资源的需求迅速增加。结合认知无线电技术的认知车联网(Cognitive Vehicular Networks, CVN)作为一种新兴的网络环境,展示出了极大的潜力。然而,在这种网络中,频谱资源的稳定性受车辆终端所处环境和运动状态的影响,并且信道参数变化快实时性强,所以频谱稳定性难以评估。而接入稳定性较差的频谱,会严重影响车辆终端传输业务的效率,进而影响网络的整体性能。此外,高并发的车辆终端接入请求,使得频谱资源的竞争愈加激烈,在此情况下会增大接入过程的碰撞概率。因此,在认知车联网中,如何评估频谱资源的稳定性,实现对不同稳定性频谱的有效利用,提升频谱利用率并降低接入碰撞概率,成为了该领域研究的热点问题。
目前,针对认知车联网环境的研究工作主要集中在4个方面:无线接入、频谱感知、路由协议、安全问题。其中无线频谱接入领域,少有文献对频谱稳定性进行了定量评估,以期提升频谱接入的性能。Chuang[1]将频谱的可用资源数抽象为一个数值,求出其在三轮频谱扫描之后的方差,将计算结果作为频谱稳定性指数。该文采用单一参数的方差来衡量稳定性,给出了稳定性指数的概念,但在认知车联网中影响频谱稳定性的参数不止1个,仅通过1个参数来评估,综合性不足。Cheng等人[2]分析了主用户的信道使用行为以及车辆的移动性对信道可用性的影响。在此基础上,使用拥塞游戏模型来建模车辆终端的频谱接入过程。该文忽略了带宽、信噪比、接收信号强度等频谱自身的参数对接入结果的影响。Niyato等人[3]从多角度分析了频谱状态对接入结果的影响,包括异常频谱感知结果、数据包传输状态、加权调度优先级。该文仅是通过频谱的单一时刻状态,来衡量频谱的可用性。而在实际应用场景中,车辆接入频谱后需要一定的时间才能完成对应业务的数据传输,单一时刻的频谱状态无法评估频谱的长期表现。Xiang等人[4]考虑了车辆到基础设施型用户(Vehicle-to-Infrastructure, V2I)与车辆到车辆型用户(Vehicle-to-Vehicle, V2V)对频谱的不同延迟和吞吐量需求,通过设置不同的奖励函数来满足用户的服务质量(Quality of Service, QoS),最大化网络性能。该文忽略了两类用户在完成对应业务的过程中,对频谱稳定性的需求,并且没有建立起一个评估频谱稳定性的综合模型。
上述文献从不同角度分析了频谱状态或可用性,对频谱接入的影响。使用了不同的模型建模动态频谱接入过程,以期最大化频谱利用率与最小化频谱碰撞概率。上述文献在评估频谱状态时,大多没有考虑频谱多参数的预期表现,对接入的影响。以及忽略了不同车辆终端所传输的业务,对频谱稳定性的不同需求。为了解决上述问题,如何全面评估频谱稳定性,实现对不同稳定性频谱的合理利用,成为亟待解决的关键问题。因此,本文提出一个频谱稳定性评估模型,设计了一种基于强化学习的动态频谱接入算法。本文的贡献如下:
(1) 将信噪比、接收信号强度和带宽参数作为模型的输入,改进了传统的逐步预测算法,利用长短期记忆神经网络(Long Short-Term Memory, LSTM)预测1个周期内多时刻的信道参数,并将预测周期内的变化率作为频谱稳定性评估指标。使用K均值(K-Means)算法,实现对变化率向量的稳定性分簇,构建起频谱稳定性评估模型。
(2) 根据稳定性评估结果与车辆终端所传输业务的稳定性需求,重新设计了强化学习的状态空间、动作空间和奖励函数,提出一种基于强化学习的接入算法,实现对不同稳定性频谱的合理利用。
评估频谱稳定性的动态频谱接入算法的执行过程,如图1所示,可以分为3个阶段:
(1)稳定性参数预测:将带宽、信噪比和接收信号强度的历史数据与实时数据,作为LSTM的输入。通过逐步预测算法,得到以上参数在未来1个预测周期内多时刻的预测值。通过不断更新每一步预测的输入矩阵,引入随机失活(Drop-out)算法,提高了模型的预测精度、避免了过拟合现象、增强了模型的泛化能力。
(2)频谱稳定性评估:将上述参数,从预测开始时刻到1个预测周期结束时刻的预测值变化率,作为K均值算法的输入。经过预测值变化率归一化、分配样本和更新质心等步骤后实现稳定性分簇。构建起稳定性评估模型,实现稳定性评估。
(3)基于强化学习的接入算法:根据频谱稳定性评估结果,结合信道占用向量与吞吐量向量,设计一个考虑频谱稳定性的强化学习算法。使传输不同稳定性业务的车辆终端,接入符合其需求的信道,实现了对不同稳定性信道的合理利用。
相关参数的定义如下。公式中涉及到的参数,定义及描述见表1。
变量 | 描述 |
Pi,jt | t时刻车辆终端i检测到信道j的发射功率 |
hi,jt | t时刻车辆终端i所接入信道j的信道增益 |
di,jt | t时刻车辆终端i到信道j所属基站间的距离 |
μt | 均值为0,标准差为σ的背景噪声 |
high(fi,jt) | t时刻车辆终端i所接入信道j的最高频率 |
low(fi,jt) | t时刻车辆终端j所接入信道j的最低频率 |
T | 预测时间步长 |
B′i,jT | 信道j在时间步长T内的带宽变化率 |
ξ′i,jT | 信道j在时间步长T内的接收信号强度变化率 |
N | 车辆终端集合N={1,2,⋯,n} |
M | 信道集合M={1,2,⋯,m} |
(1)信噪比:车辆终端i在t时刻检测到信道j的信噪比γi,jt可表示为
γi,jt=Pi,jthi,jtμt(di,jt)2 | (1) |
(2)接收信号强度:车辆终端i在时刻t检测到信道j的接受信号强度ξi,jt 可表示为
ξi,jt=Pi,jt−ηlgdi,jt+μt | (2) |
(3)带宽:车辆终端i在t时刻所检测到信道j的带宽Bi,jt可以表示为
Bi,jt=high(fi,jt)−low(fi,jt) | (3) |
(4)信噪比变化率:γi,jt表示信道j在t时刻由车辆终端i测得的实时信噪比,γi,jt+T表示LSTM所输出的在t+T时刻信道j的信噪比预测值。信道j在时间步长T内的信噪比变化率可表示为
γ′i,jT=γi,jt+T−γi,jtT | (4) |
本文带宽变化率与接收信号强度变化率采用与式(4)相同的计算方式。
假设各个基站能够获得频谱资源中所有信道的历史数据,通过部署本文的算法实现对频谱稳定性的评估。频谱稳定性评估指的是通过分析监测到的频谱历史数据与实时采集的数据,预测未来多个时刻的频谱状态,计算1个周期内的变化率,将其作为稳定性评估指标。本文提出一种频谱稳定性评估模型,首先使用LSTM神经网络预测出空闲频谱在未来多个时刻的带宽、信噪比、接收信号强度,然后分别计算变化率,将结果作为K-Means算法的输入,完成频谱稳定性评估。预测模式的神经网络结构如图2。
传统的逐步预测算法,在进行多时刻预测时,下一个时刻的预测值完全由上一个时刻的预测值决定。这种预测方式,会导致模型的误差逐步累积,使预测结果的准确性降低[5]。考虑到这一问题,本文的预测模型通过迭代优化每一步的输入矩阵,改进了传统的逐步预测方式,并引入Drop-out算法防止产生过拟合现象,实现了低误差的多时刻预测。本文将输入层的时间步长T设置为2 s。以下是预测模型的实现步骤:
(1)输入:本文将γi,j, ξi,j, Bi,j一起作为LSTM输入向量与输出向量的3个特征。输入矩阵Xt=[xt,xt−1,⋯,xt−T−1],其中xt=[γi,jt,ξi,jt,Bi,jt]。该矩阵由t时刻的实时数据,与t−1时刻到t−T−1时刻的历史数据组成。由于认知车联网中,信道稳定性参数变化快, t时刻的数据与t+1时刻的数据有强相关性,但只能反映信道在单一时刻的状态。t−1时刻到t−T−1时刻的历史数据包含了多个时刻的信道信息,能够更好地揭示信道稳定性参数的变化趋势,本文通过结合历史数据与实时数据各自的优势,更全面地预测信道的变化趋势,既保证了预测的准确性,又提高了实时响应能力。
(2)预测过程:将矩阵Xt输入进预测模型后,得到t+1时刻的预测数据yt+1=[γi,jt+1,ξi,jt+1,Bi,jt+1]。之后,将t−T时刻到t−1时刻的信道数据、t时刻的信道数据与t+1时刻的预测数据组成新的输入矩阵Xt + 1。最新的预测数据yt+1,替换了上一个输入矩阵Xt中距离t+1时刻最久的数据xt−T−1,组成新的输入矩阵Xt+1。通过这样不断更新输入矩阵的方式,使预测模型的误差不会逐步累积。将作为Xt+1新的输入,得到t+2时刻的预测数据yt+2。
(3)输出:不断重复(2)中的过程,得到最终的预测值矩阵YT=[yt+1,yt+2,⋯,yt+T]。该矩阵由t+1时刻到t+T时刻的预测数据构成。为了提高预测模型的泛化能力,本文将Drop-out算法引入到模型中。在每一次迭代中会随机选择神经网络中的一部分神经元,将其输出设为0,这意味着这些神经元在当前训练迭代中不参与计算。 通常丢弃神经元的比例p是一个介于0.2~0.5的超参数,本文参照文献[6]中的设置,将p设为0.5。
本文预设K-Means算法的K值为3,即最终有3个按稳定性分类的簇,并从信道集合M中随机选择3个信道的变化率向量作为初始质心[7]。根据上文的稳定性参数预测模型,得到各个信道在t+T时刻各个参数的预测值向量yt+T,通过计算得到各信道从t时刻到t+T时刻的变化率向量。在将待评估信道i的变化率向量ρi,jT=(γ′i,jT,ξ′i,jT,B′i,jT)作为稳定性评估模型的输入,得到3个按稳定性区分的簇,完成稳定性评估。
(1)预测值变化率归一化:由于信道的信噪比变化率、接收信号强度变化率、带宽变化率在不同的区间内变化,本文使用Min-Max归一化的方法对上述参数进行归一化处理[8]。其中信噪比变化率的归一化计算如式(5)所示
ˆγ′i,jT=γ′i,jT−min(γ′i,MT)max(γ′i,MT)−min(γ′i,MT) | (5) |
其中,γ′i,jT表示在时间步长T内信道j的信噪比变化率,min(γ′i,MT)表示在时间步长T内信道集合M中信噪比变化率的最小值。max(γ′i,MT)表示在时间步长T内信道集合M中信噪比变化率的最大值,ˆγ′i,jT表示信噪比变化率的归一化结果。带宽变化率与接收信号强度变化率,采用同样的归一化方式。
(2)稳定性分簇:计算每个信道的变化率向量与各个质心间的欧式距离,将信道的变化率向量分配到距其欧式距离最小的质心所在簇中。在信道集合M中随机挑选3个信道,将其变化率向量作为初始质心,假定信道m为初始质心之一,信道j与质心m间欧式距离dism,j计算公式
dism,j=√(ˆγ′i,mT−ˆγ′i,jT)2+(ˆξ′i,mT−ˆξ′i,jT)2+(ˆB′i,mT−ˆB′i,jT)2 | (6) |
(3)更新质心:对于每一个簇,计算其所有信道的变化率向量的平均值,并将该平均值作为新的质心。 若信道j+1,信道j+2,信道j+3被分配到同一个簇,则新的质心表示为
centroid=(¯ˆγ′i,j+1T+ˆγ′i,j+2T+ˆγ′i,j+3T,¯ˆξ′i,j+1T+ˆξ′i,j+2T+ˆξ′i,j+3T,¯ˆB′i,j+1T+ˆB′i,j+2T+ˆB′i,j+3T) | (7) |
(4)完成稳定性评估:经过反复迭代,直到质心不再发生变化后,得到最终的3个簇与质心。假设最终的质心为centroidii∈{1,2,3}其范数为:ωi=1/√(ˆγ′i,ciT)2+(ˆξi,ciT)2+(ˆB′i,ciT)2、将ω1, ω2, ω3从小到大排序,值越大代表所属簇的稳定性越高。若ω1<ω2<ω3,则质心centroid1, centroid2, centroid3所在簇的稳定性分别为低、中、高。若信道i属于质心centroid1所在的簇,则其稳定性指数ωi,jt=ω1。
在本文的网络场景中将车辆终端的业务请求分为:高稳定性型业务与低稳定性型业务两种类型。对于车辆终端而言,其目标是在与其他车辆终端竞争接入信道的同时,接入一个符合其稳定性需求与吞吐量需求的信道。因此本文提出一种基于强化学习的接入算法,本算法根据终端请求的业务类型和频谱稳定性评估结果,重新设计了状态空间和奖励函数。
本文在构建状态空间时,为了车辆终端与不同稳定性的信道能进行有效地交互,进而获得有效的样本进行强化学习训练。于是本节选择了信道状态、稳定性指数和吞吐量来构建强化学习的状态空间。促使车辆终端根据自身所传输业务对信道稳定性和吞吐量的需求,经过不断地迭代训练,选择一个最合适的信道进行数据传输,以此实现对不同稳定性频谱资源的合理利用。综上本文的状态空间为:sN,Mt={δN,Mt,CN,Mt,ωN,Mt},该状态空间分别由车辆终端1到车辆终端n的信道状态向量、稳定性指数向量与吞吐量向量构成。
信道占用向量δN,Mt={δi,1t,δi,2t,⋯,δi,jt,⋯,δi,mt} 表示在t时刻车辆终端i所检测到的信道1~m的状态。δi,jt={0,1}, δi,jt=1 表示在t时刻车辆终端i检测到信道j被占用,δi,jt=0表示在t时刻车辆终端i检测到信道j空闲。
稳定性指数向量ωN,Mt={ωi,1t,ωi,2t,⋯,ωi,jt,⋯,ωi,mt} 表示在t时刻系统侧评估的信道1~m的稳定性指数。
吞吐量向量CN,Mt={Ci,1t,Ci,2t,⋯,Ci,jt,⋯,Ci,mt} 表示在t时刻车辆终端i分别接入信道1~m可获得的吞吐量,吞吐量计算公式
Ci,jt=Bi,jtlog2(1+γi,jt) | (8) |
若Ci,jt=5Mbit/s表示在t时刻接入信道j可获得5Mbit/s的吞吐量。
aNt是本文的动作空间,包括车辆终端1~n的信道选择行为。aNt={a1t,a2t,a3t,⋯,ait⋯,ant} 其中ait∈{0,1,2,⋯,j,⋯,m} ,ait=0表示在t时刻车辆终端i没有选择接入任何信道,ait=j表示在t时刻车辆终端i选择接入信道j。
考虑到高稳定性业务与低稳定性业务,对频谱稳定性与吞吐量的不同需求。本文使用权衡系数λ来区分,传输这两种业务的车辆终端的奖励函数ri,jt 。其表达式为
ri,jt=λˆωi,jt+(1−λ)ˆCi,jt | (9) |
ˆωi,jt表示t时刻车辆终端i所接入的信道j, 归一化后的稳定性指数,归一化方式与前文一样使用Min-Max方法。ˆCi,jt表示t时刻车辆终端i所接入的信道j,归一化后的吞吐量。
本文使用经验回放协议,将车辆终端在每一个时刻使用过的经验元组(sN,Mt,aNt,rN,Mt,sN,Mt+1)存放到经验回放池中[9]。同时车辆终端使用mini-batch算法,每次从经验回放池中随机提取L条经验元组,输入到由门控循环单元(Gated Recurrent Unit, GRU)与Dueling Network组成的神经网络中进行随机梯度下降,以此更新神经网络参数θt,使本文的接入算法能够更快地收敛。具体神经网络结构及Q值更新过程如图3所示
本文使用GRU作为第1层隐藏层,因为信道参数通常是时间序列数据,信道状态在时间上是连续变化的。GRU通过其内部的循环结构,可以对历史信息进行记忆和利用,从而有效地跟踪信道参数的变化趋势。因此,通过引入GRU来解决认知车联网中信道参数快速变化的问题[10]。
本文使用决斗神经网络(Dueling Network)作为第2层隐藏层,Dueling Network通过将Q值函数分为状态价值函数Vπ(sN,Mt,aNt|θt)与优势函数Aπ(sN,Mt,aNt|θt)。通过这种方式,一方面解决Q值的高估问题,加快收敛速度。另一方面,正确估计每一个信道选择行为在不同环境下的价值。比如低稳定性信道,在高稳定性信道大多空闲的环境中,其Q值是偏低的。而在高稳定性信道均被占用时,空闲信道较少的环境中,其Q值应偏高,以此鼓励车辆终端接入。Dueling Network能使车辆终端根据不同的环境,动态地调整其接入策略,使不同稳定性的信道都得到合理利用[11]
Qπ(sN,Mt,aN,Mt|θt)=Vπ(sN,Mt,aN,Mt|θt)+Aπ(sN,Mt,aN,Mt|θt) | (10) |
本文所提基于强化学习的接入算法,通过不断地对损失函数Lt(θt)进行梯度下降,来更新神经网络参数,从而使Q值函数的估计值与实际值不断逼近,最终得到一个最佳的θt,使各个车辆终端的接入策略收敛到最优。其中损失函数Lt(θt)表示为
Lt(θt)=(Dt−Qπ(sN,Mt,aN,Mt|θt))2 | (11) |
其中Dt=rt+βmaxat+1Q(sN,Mt+1,aN,Mt+1|θt−1)。本文将Dt−Q(sN,Mt,aN,Mt|θt)的值作为时序误差(Temporal Difference Error,TDR) ϑ,通过不断地从误差中学习,来更新Q值[12]。其中Q值的更新方式为
Qπ(sN,Mt+1,aN,Mt+1|θt+1)←Qπ(sN,Mt,aN,Mt|θt)+αϑ | (12) |
信道选择方面本文使用ε策略,即每次以1−ε的概率选择Q值最大的行为[13]。该策略定义为
aNt={argmaxat∈{0,1,⋯.,m}Qπ(sN,Mt,aN,Mt|θt) ,概率:1−ε选择任意信道,概率:ε | (13) |
综上本文的算法步骤见算法1所示
输入:学习率α,折扣因子β,探索概率ε,Mini-batch的长度L |
输出:最优Q-Network参数θt |
(1)为每一个车辆终端以随机权重θt的方式初始化Q-Network |
(2) for Iteration I=1, 2, ···, i do |
(3) for Time slot T=1, 2, ···, t do |
(4) for User N =1, 2, ···, n do |
(5) 使用Mini-batch从经验回放池中随机提取L条经验 |
(6) 使用经验元组根据式(11)对损失函数进行梯度下降 |
(7) 更新神经网络参数 |
(8) 车辆终端根据式(12)更新Q值 |
(9) 车辆终端根据式(13)选择信道接入 |
(10) 车辆终端根据式(9)获得奖励 |
(11) end for |
(12) for UserN =1, 2, ···, n do |
(13) 获取下一个状态空间向量sN,Mt+1,进行下一次信道选择 |
(14) end for |
(15) end for |
(16) end for |
为了评估本文所提算法的性能,利用Matlab仿真工具模拟了城市核心区域某一段长
本文使用Tensorflow搭建了图3中的神经网络。其中GRU层的神经元数量为50,各个神经网络层的激活函数都选用:ReLu函数。其中Dueling层的A层和V层各有20个神经元,在执行经验重放协议时,会从经验重放池中随机抽取200个小型经验样本。本文对神经网络进行 I = 5 000 次迭代训练,训练期间探索概率 ε 从 1 缓慢退火至0.1。
为了验证本文算法能否适应认知车联网中的动态频谱接入问题,仿真设计了频谱利用率、碰撞概率、收敛速度、累积稳定性指数、累积吞吐量等5组实验。由于文献[14]中基于Q学习(Q-learning)的接入算法,文献[15]中基于深度Q学习(Deep Q-learning)的接入算法,提出了不同的方案,来解决与本文类似的动态频谱接入问题。故选取这两篇文献中的算法作为对比算法。并将文献[16]中的时隙Aloha算法作为基准指标来进行对比,表2是本文具体的仿真参数设置。其中学习率α、折扣因子β、探索概率ε等参数的设置。激活函数以及优化器的选择参考文献[17]。表3中相关参数的设置,参照文献[18]设置。
强化学习训练参数 | 参数设置 |
授权信道数目 | 2 |
车辆终端n | 10 |
传输高稳定性业务车辆终端 | 5 |
传输低稳定性业务车辆终端 | 5 |
学习率α | 0.001 |
折扣因子β | 0.95 |
探索概率ε | 1.0→0.1 |
激活函数 | ReLu |
优化器 | Adam |
Mini-batch大小 | 4个经验元组 |
单次训练次数 | |
总训练次数 | 20次 |
车辆速度 | [10, 15] m/s |
预测模型参数 | 参数设置 |
学习率 | 1.0→0.001 |
损失函数 | RMSE |
优化器 | Adam |
单次训练次数 总训练次数 训练集样本 测试集样本 |
20 500 650 300 |
本文采用离线训练与在线学习结合的方式,通过不断调整隐藏层中神经网络的参数,使模型的误差逐步减小。然后,将训练好的模型在随机选择的测试集上进行测试。本文采用均方根误差(Root Mean Square Error, RMSE)来对误差函数进行建模[19]。
本文测试集和训练集的RMES分别为:
根据图7训练集的损失函数曲线显示,损失函数的值在初始时较大。是因为在训练开始时LSTM神经网络的权值矩阵是随机的。此时优化器设定了一个较大的学习率进行梯度下降,使模型损失函数的值迅速降低。训练进行到250轮次时,此时损失函数的值已经较低,学习率也递减到相对较小。较小的学习率可以防止训练过程出现震荡,以便模型快速收敛。在250轮次后,损失函数的值维持在0.2以下,且没有出现明显的震荡。根据图8的测试集准确率曲线显示,在前150个轮次,准确率会大幅上升,并在150个轮次以后准确率基本完成收敛,并保持在百分之90以上,且震荡幅度极小。
图9展示了车辆终端在100,000次强化学习的迭代过程中,4种算法的频谱利用率变化曲线。每
图10展示了车辆终端在100 000次迭代过程中,4种算法的碰撞概率变化曲线。每5 000次计算1次性能表现结果。从图10中可以看出除了时隙Aloha算法的碰撞概率始终在0.6附近波动外,其余算法,在训练初始阶段碰撞概率较大,但随着迭代次数的增加,碰撞概率会逐渐减小并完成收敛。原因是Q-learning算法、Deep Q-learning算法与本文所提算法这类强化学习算法,在训练初始阶段各个车辆终端的探索概率ε=1即每次随机选择信道接入,这样特别容易造成多个终端接入同一信道。而随着迭代次数的增加,ε逐渐减小到0,各个车辆终端的接入策略逐渐达到最优。终端每次都大概率会选择Q值最大的信道进行接入,故碰撞概率会逐渐减小。本文所提算法相较与Q-learning算法与Deep Q-learning算法碰撞概率下降的更快,且在迭代次数到12次的时候基本收敛到0。原因是本文算法根据车辆终端的业务类型,将奖励函数进行了差异化处理。这样随着迭代次数的增加,传输高稳定性业务的车辆终端,更倾向于接入空闲的高稳定性信道。而传输低稳定性业务的车辆终端更倾向于接入中、低稳定性的信道,故碰撞概率比其他算法更快收敛到0。
图11展示了多个车辆终端选择不同算法,传输高稳定性业务时,累积稳定性指数的变化曲线。从图11可以看出随着迭代次数的增加,3种算法的累积稳定性指数都在逐步上升。这说明在训练过程中,当车辆终端在传输高稳定性业务时,越来越倾向于接入稳定性高的信道。而本文所提算法,车辆终端获得的累积稳定性指数远高于其余两个算法。原因是本文通过使式(9)中的权衡系数λ动态地调节奖励函数,让接入高稳定性信道的车辆终端,能够获得更多的奖励。
图12展示了多个车辆终端选择不同算法,传输低稳定性业务时,累积吞吐量的变化曲线。随着迭代次数的增加,3种算法的累积吞吐量都逐步上升,而本文所提算法使得车辆终端所获得的吞吐量远高于其他两种算法。原因是,本文使用了GRU层以及经验回放协议,对训练过程中的接入经验进行了最大化的利用。随着迭代次数的增加,正在传输低稳定性业务的车辆终端,不再竞争高稳定性信道,而是接入中低稳定性信道,这类信道虽然稳定性较低但是能够保证基本的吞吐量。这样即提高了信道的利用率,又降低了碰撞概率同时保证了吞吐量需求。
图13比较了本文所提算法与两种对比算法,在不同车辆终端数目以及信道数目下的收敛速度对比。当车辆终端数分别为:3, 5, 7, 9时,信道数分别为:2, 3, 4, 5。通过图13可以观察到随着车辆终端数目的增多,算法收敛所需要的迭代次数也对应地增加。本文所提算法通过引入Dueling Network,正确地估计了每个信道选择行为在不同环境下的价值,解决了Q值过高估计的问题,加快了收敛速度。综上,本文更适用于车辆数目较多的认知车联网,且在小规模网络下的收敛速度不落后对比算法过多。
本文提出一种评估频谱稳定性的动态频谱接入算法,首先通过LSTM神经网络对空闲频谱的相关参数进行连续预测,之后求出各个预测值的变化率均值将该结果作为K-means算法的输入。通过该算法完成稳定性评估,并将稳定性指数以及吞吐量作为强化学习状态空间和奖励函数的一部分。考虑到车辆终端稳定性业务与低稳定性业务的不同特性,本文通过差异化奖励函数的方法,来实现对不同稳定性频谱资源的合理利用。实验结果表明,本文算法可以提高接入过程的频谱利用率以及降低接入过程的碰撞概率,满足不同车辆业务类型的需求。下一步的研究工作,希望通过评估空闲频谱可用性,进一步提升车辆终端的服务质量,建立一个更加完善的动态频谱接入系统。
[1] |
CHUANG M C. Cooperation-assisted spectrum handover mechanism in vehicular Ad Hoc networks[J]. Electronics, 2021, 10(6): 742. doi: 10.3390/electronics10060742.
|
[2] |
CHENG Nan, ZHANG Ning, LU Ning, et al. Opportunistic spectrum access for CR-VANETs: A game-theoretic approach[J]. IEEE Transactions on Vehicular Technology, 2014, 63(1): 237–251. doi: 10.1109/TVT.2013.2274201.
|
[3] |
NIYATO D, HOSSAIN E, and WANG Ping. Optimal channel access management with QoS support for cognitive vehicular networks[J]. IEEE Transactions on Mobile Computing, 2011, 10(4): 573–591. doi: 10.1109/TMC.2010.191.
|
[4] |
XIANG Ping, SHAN Hangguan, WANG Miao, et al. Multi-agent RL enables decentralized spectrum access in vehicular networks[J]. IEEE Transactions on Vehicular Technology, 2021, 70(10): 10750–10762. doi: 10.1109/TVT.2021.3103058.
|
[5] |
SANGIORGIO M and DERCOLE F. Robustness of LSTM neural networks for multi-step forecasting of chaotic time series[J]. Chaos, Solitons & Fractals, 2020, 139: 110045.
|
[6] |
BALDI P and SADOWSKI P. The dropout learning algorithm[J]. Artificial Intelligence, 2014, 210: 78–122. doi: 10.1016/j.artint.2014.02.004.
|
[7] |
KODINARIYA T M and MAKWANA P R. Review on determining number of cluster in K-Means clustering[J]. International Journal of Advance Research in Computer Science and Management Studies, 2013, 1(6): 90–95.
|
[8] |
ALI P J M. Investigating the Impact of min-max data normalization on the regression performance of K-nearest neighbor with different similarity measurements[J]. ARO-The Scientific Journal of Koya University, 2022, 10(1): 85–91. doi: 10.14500/aro.10955.
|
[9] |
NEVES D E, ISHITANI L, and DO PATROCÍNIO JÚNIOR Z K G. Advances and challenges in learning from experience replay[J]. Artificial Intelligence Review, 2024, 58(2): 54. doi: 10.1007/s10462-024-11062-0.
|
[10] |
MAHJOUB S, CHRIFI-ALAOUI L, MARHIC B, et al. Predicting energy consumption using LSTM, multi-layer GRU and drop-GRU neural networks[J]. Sensors, 2022, 22(11): 4062. doi: 10.3390/s22114062.
|
[11] |
ZHOU Tianchen, YAKUWA Y, OKAMURA N, et al. Dueling network architecture for GNN in the deep reinforcement learning for the automated ICT system design[J]. IEEE Access, 2025, 13: 21870–21879. doi: 10.1109/ACCESS.2025.3534246.
|
[12] |
CHANG H H, SONG Hao, YI Yang, et al. Distributive dynamic spectrum access through deep reinforcement learning: A reservoir computing based approach[J]. IEEE Internet of Things Journal, 2019, 6(2): 1938–1948. doi: 10.1109/JIOT.2018.2872441.
|
[13] |
LE T D and KADDOUM G. A distributed channel access scheme for vehicles in multi-agent V2I systems[J]. IEEE Transactions on Cognitive Communications and Networking, 2020, 6(4): 1297–1307. doi: 10.1109/TCCN.2020.2966604.
|
[14] |
CHEN Lingling, ZHAO Quanjun, FU Ke, et al. Multi-user reinforcement learning based multi-reward for spectrum access in cognitive vehicular networks[J]. Telecommunication Systems, 2023, 83(1): 51–65. doi: 10.1007/s11235-023-01004-6.
|
[15] |
CHEN Lingling, WANG Ziwei, ZHAO Xiaohui, et al. A dynamic spectrum access algorithm based on deep reinforcement learning with novel multi-vehicle reward functions in cognitive vehicular networks[J]. Telecommunication Systems, 2024, 87(2): 359–383. doi: 10.1007/s11235-024-01188-5.
|
[16] |
KAR K, SARKAR S, and TASSIULAS L. Achieving proportional fairness using local information in aloha networks[J]. IEEE Transactions on Automatic Control, 2004, 49(10): 1858–1863. doi: 10.1109/TAC.2004.835596.
|
[17] |
LE T D and KADDOUM G. LSTM-based channel access scheme for vehicles in cognitive vehicular networks with multi-agent settings[J]. IEEE Transactions on Vehicular Technology, 2021, 70(9): 9132–9143. doi: 10.1109/TVT.2021.3100591.
|
[18] |
WANG Lei, HU Jun, ZHANG Chudi, et al. Deep learning models for spectrum prediction: A review[J]. IEEE Sensors Journal, 2024, 24(18): 28553–28575. doi: 10.1109/JSEN.2024.3416738.
|
[19] |
陈曦, 杨健. 动态频谱接入中基于最小贝叶斯风险的稳健频谱预测[J]. 电子与信息学报, 2018, 40(3): 734–742. doi: 10.11999/JEIT170519.
CHEN Xi and YANG Jian. Minimum Bayesian risk based robust spectrum prediction in dynamic spectrum access[J]. Journal of Electronics & Information Technology, 2018, 40(3): 734–742. doi: 10.11999/JEIT170519.
|
变量 | 描述 |
Pi,jt | t时刻车辆终端i检测到信道j的发射功率 |
hi,jt | t时刻车辆终端i所接入信道j的信道增益 |
di,jt | t时刻车辆终端i到信道j所属基站间的距离 |
μt | 均值为0,标准差为σ的背景噪声 |
high(fi,jt) | t时刻车辆终端i所接入信道j的最高频率 |
low(fi,jt) | t时刻车辆终端j所接入信道j的最低频率 |
T | 预测时间步长 |
B′i,jT | 信道j在时间步长T内的带宽变化率 |
ξ′i,jT | 信道j在时间步长T内的接收信号强度变化率 |
N | 车辆终端集合N={1,2,⋯,n} |
M | 信道集合M={1,2,⋯,m} |
输入:学习率α,折扣因子β,探索概率ε,Mini-batch的长度L |
输出:最优Q-Network参数θt |
(1)为每一个车辆终端以随机权重θt的方式初始化Q-Network |
(2) for Iteration I=1, 2, ···, i do |
(3) for Time slot T=1, 2, ···, t do |
(4) for User N =1, 2, ···, n do |
(5) 使用Mini-batch从经验回放池中随机提取L条经验 |
(6) 使用经验元组根据式(11)对损失函数进行梯度下降 |
(7) 更新神经网络参数 |
(8) 车辆终端根据式(12)更新Q值 |
(9) 车辆终端根据式(13)选择信道接入 |
(10) 车辆终端根据式(9)获得奖励 |
(11) end for |
(12) for UserN =1, 2, ···, n do |
(13) 获取下一个状态空间向量sN,Mt+1,进行下一次信道选择 |
(14) end for |
(15) end for |
(16) end for |
强化学习训练参数 | 参数设置 |
授权信道数目 | 2 |
车辆终端n | 10 |
传输高稳定性业务车辆终端 | 5 |
传输低稳定性业务车辆终端 | 5 |
学习率α | 0.001 |
折扣因子β | 0.95 |
探索概率ε | 1.0→0.1 |
激活函数 | ReLu |
优化器 | Adam |
Mini-batch大小 | 4个经验元组 |
单次训练次数 | |
总训练次数 | 20次 |
车辆速度 | [10, 15] m/s |
预测模型参数 | 参数设置 |
学习率 | 1.0→0.001 |
损失函数 | RMSE |
优化器 | Adam |
单次训练次数 总训练次数 训练集样本 测试集样本 |
20 500 650 300 |
变量 | 描述 |
Pi,jt | t时刻车辆终端i检测到信道j的发射功率 |
hi,jt | t时刻车辆终端i所接入信道j的信道增益 |
di,jt | t时刻车辆终端i到信道j所属基站间的距离 |
μt | 均值为0,标准差为σ的背景噪声 |
high(fi,jt) | t时刻车辆终端i所接入信道j的最高频率 |
low(fi,jt) | t时刻车辆终端j所接入信道j的最低频率 |
T | 预测时间步长 |
B′i,jT | 信道j在时间步长T内的带宽变化率 |
ξ′i,jT | 信道j在时间步长T内的接收信号强度变化率 |
N | 车辆终端集合N={1,2,⋯,n} |
M | 信道集合M={1,2,⋯,m} |
输入:学习率α,折扣因子β,探索概率ε,Mini-batch的长度L |
输出:最优Q-Network参数θt |
(1)为每一个车辆终端以随机权重θt的方式初始化Q-Network |
(2) for Iteration I=1, 2, ···, i do |
(3) for Time slot T=1, 2, ···, t do |
(4) for User N =1, 2, ···, n do |
(5) 使用Mini-batch从经验回放池中随机提取L条经验 |
(6) 使用经验元组根据式(11)对损失函数进行梯度下降 |
(7) 更新神经网络参数 |
(8) 车辆终端根据式(12)更新Q值 |
(9) 车辆终端根据式(13)选择信道接入 |
(10) 车辆终端根据式(9)获得奖励 |
(11) end for |
(12) for UserN =1, 2, ···, n do |
(13) 获取下一个状态空间向量sN,Mt+1,进行下一次信道选择 |
(14) end for |
(15) end for |
(16) end for |
强化学习训练参数 | 参数设置 |
授权信道数目 | 2 |
车辆终端n | 10 |
传输高稳定性业务车辆终端 | 5 |
传输低稳定性业务车辆终端 | 5 |
学习率α | 0.001 |
折扣因子β | 0.95 |
探索概率ε | 1.0→0.1 |
激活函数 | ReLu |
优化器 | Adam |
Mini-batch大小 | 4个经验元组 |
单次训练次数 | |
总训练次数 | 20次 |
车辆速度 | [10, 15] m/s |
预测模型参数 | 参数设置 |
学习率 | 1.0→0.001 |
损失函数 | RMSE |
优化器 | Adam |
单次训练次数 总训练次数 训练集样本 测试集样本 |
20 500 650 300 |