王俊华 罗菲 高广鑫 李斌

王俊华, 罗菲, 高广鑫, 李斌. 动态车辆网络场景中的协同空地计算卸载和资源优化[J]. 电子与信息学报. doi: 10.11999/JEIT240464
WANG Junhua, LUO Fei, GAO Guangxin, BIN Li. Collaborative Air-Ground Computation Offloading and Resource Optimization in Dynamic Vehicular Network Scenarios[J]. Journal of Electronics & Information Technology. doi: 10.11999/JEIT240464
doi: 10.11999/JEIT240464
基金项目: 国家自然科学基金(62002166),国家社会科学基金(22BGL113)






    高广鑫 gxgao@nuaa.edu.cn

  • 中图分类号: TN929.5; TP18

Collaborative Air-Ground Computation Offloading and Resource Optimization in Dynamic Vehicular Network Scenarios

Funds: The National Natural Science Foundation of China (62002166), The National Social Science Fund of China (22BGL113)
  • 摘要: 针对移动用户数量迅猛增长和地面基础设施分布稀疏所带来的挑战,该文提出一种能量收集辅助的空地协同计算卸载架构。该架构充分利用无人机(UAVs)的灵活机动性和路侧单元(RSUs)及基站(BS)的强大算力,实现了任务计算的动态实时分发。特别地,无人机通过能量收集来维持其持续运行和稳定的计算性能。考虑到无人机与地面车辆的高动态性、车辆计算任务的随机性,以及信道模型的时变性,提出一个能耗受限的长期优化问题,旨在从全局角度有效降低整个系统的平均时延。为了解决这一复杂的混合整数规划(MIP)问题,提出一种基于改进演员-评论家(Actor-Critic)强化学习算法的计算卸载策略(IACA)。该算法运用李雅普诺夫优化技术,将长期系统时延优化问题分解为一系列易于处理的帧级子问题。然后,利用遗传算法计算目标Q值替代目标神经网络输出以调整强化学习进化方向,有效避免了算法陷入局部最优,从而实现动态车辆网络中的高效卸载和资源优化。通过综合仿真验证了所提计算卸载架构和算法的可行性和优越性。
  • 图  1  能量收集辅助动态车辆网络中的空地协同计算卸载

    图  2  IACA算法架构图

    图  3  不同时隙数下的训练损失和奖励

    图  4  不同时隙数对系统性能的影响

    图  5  不同任务大小对系统性能的影响

    图  6  不同李雅普诺夫控制参数V对系统性能的影响

    图  7  不同UAV能耗阈值和数量对系统平均时延的影响

    1  基于改进Actor-Critic强化学习算法的计算卸载策略

     输入:系统状态 $ {\boldsymbol{S}}_{t} $,参数 $ V $,奖励折扣因子 $ \gamma $,Actor 网络结构,Critic 网络结构
     输出:卸载决策$ {\hat{\boldsymbol{\alpha }}}^{t} $,每个时间帧对应的最优计算频率分配$ {\hat{\boldsymbol{f}}}^{t} $
     (1) 初始化经验池, 网络模型参数以及系统环境参数;
     (2) for episode $ \leftarrow \mathrm{1,2},\cdots $ do
     (3)  获取当前环境系统初始状态 $ {\boldsymbol{S}}_{0} $
     (4)  Actor 生成一个0~1的松驰动作 $ {\hat{\alpha }}_{u,s}^{t},{\hat{f}}_{u}^{t} $;
     (5)  将$ {\hat{\alpha }}_{u,s}^{t} $和$ {\hat{f}}_{u}^{t} $量化为二进制动作$ {\hat{\boldsymbol{\alpha }}}^{t} $和满足约束条件的计算频率$ {\hat{\boldsymbol{f}}}^{t} $,得到动作$ {\boldsymbol{A}}_{t} $;
     (6)  基于动作 $ {\boldsymbol{A}}_{t} $ 得到下一个的状态 $ {\boldsymbol{S}}_{t+1} $ 和当前奖励 $ {R}_{t} $;
     (7)  改进遗传算法生成卸载决策$ {\bar{\alpha }}_{u,s}^{t}, $和奖励 $ {\bar{R}}_{t} $;
     (8)  if $ {\bar{R}}_{t} > {R}_{t} $ then
     (9)   $ {\boldsymbol{A}}_{t}=\left\{{\bar{\alpha }}_{u,s}^{t},{f}_{u}^{t}\right\} $
     (10) $ {R}_{t}={\stackrel{-}{R}}_{t} $
     (11) 将 $ \left\{{\boldsymbol{S}}_{t},{\boldsymbol{A}}_{t},{R}_{t},{\boldsymbol{S}}_{t+1}\right\} $ 存储至缓冲池中;
     (12) for Agent do
     (13) 从经验池中随机采样批量数据 $ \left\{{\boldsymbol{S}}_{t},{\boldsymbol{A}}_{t},{R}_{t},{\boldsymbol{S}}_{t+1}\right\} $;
     (14) 通过 $ {\lambda }_{t}={R}_{t}+\gamma Q\left({\boldsymbol{S}}_{t+1},{\boldsymbol{A}}_{t+1}:{\omega }^{{{'}}}\right) $ 计算 TD 目标值;
     (15) 计算损失值 $ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}\left(\omega \right)=\dfrac{1}{2}{\left[Q\left({\boldsymbol{S}}_{t},{\boldsymbol{A}}_{t}:\omega \right)-{\lambda }_{t}\right]}^{2} $,更新 Critic 网络;
     (16) 计算损失值 $ \mathrm{L}\mathrm{o}\mathrm{s}\mathrm{s}\left(\theta \right)={{\text{∇}} }_{\mathrm{\theta }}\mathrm{l}\mathrm{n}{\pi }_{\theta }\left({\boldsymbol{S}}_{t},{\boldsymbol{A}}_{t}\right)Q\left({\boldsymbol{S}}_{t},{\boldsymbol{A}}_{t}:\omega \right) $ ,采用策略梯度更新 Actor 网络;
     (17) for $ t=\mathrm{1,2},\cdots ,T $ do
     (18) 获取时隙t 的环境状态;
     (19) 利用训练好的 Actor-Critic 模型,得到时隙t的最优卸载决策$ {\hat{\boldsymbol{\alpha }}}^{t} $和计算频率$ {\hat{\boldsymbol{f}}}^{t} $;
    表  1  实验参数表

    参数 参数
    UAV计算能效系数 $ {\kappa }_{u} $ 10–28 UAV飞行速度 $ {v}_{u}^{t} $ 25 m/s
    可用带宽$ {B}_{u,v} $ 3 MHz 可用带宽 $ {B}_{u,r} $ 1 MHz
    可用带宽 $ {B}_{u,0} $ 2.5 MHz 奖励折扣因子 $ \gamma $ 0.95
    模型训练优化器 AdamOptimizer 批处理数量 512
    Actor 学习率 0.001 Critic 学习率 0.002
    天线增益$ {A}_{d} $ 3 载波频率$ {F}_{u,r} $ 915 MHz
    路径损耗$ {g}_{0} $ –40 dB 参考距离 $ {d}_{0} $ 1 m
  • 收稿日期:  2024-06-11
  • 修回日期:  2024-12-18
  • 网络出版日期:  2024-12-23


