谭国平 易文雄 周思源 胡鹤轩

谭国平, 易文雄, 周思源, 胡鹤轩. 无人机辅助MEC车辆任务卸载与功率控制近端策略优化算法[J]. 电子与信息学报, 2024, 46(6): 2361-2371. doi: 10.11999/JEIT230770
TAN Guoping, Yi Wenxiong, ZHOU Siyuan, HU Hexuan. Proximal Policy Optimization Algorithm for UAV-assisted MEC Vehicle Task Offloading and Power Control[J]. Journal of Electronics & Information Technology, 2024, 46(6): 2361-2371. doi: 10.11999/JEIT230770
doi: 10.11999/JEIT230770
基金项目: 国家自然科学基金(61832005, U21B2016)



    周思源:男,教授,研究方向为无线网络、Beyond 5G通信、物联网



    谭国平 gptan@hhu.edu.cn

  • 中图分类号: TN929.5

Proximal Policy Optimization Algorithm for UAV-assisted MEC Vehicle Task Offloading and Power Control

Funds: The National Natural Science Foundation of China (61832005, U21B2016)
  • 摘要: 无人机(UAVs)辅助移动边缘计算(MEC)架构是灵活处理车载计算密集、时延敏感型任务的有效模式。但是,如何在处理任务时延与能耗之间达到最佳均衡,一直是此类车联网应用中长期存在的挑战性问题。为了解决该问题,该文基于无人机辅助移动边缘计算架构,考虑无线信道时变特性及车辆高移动性等动态变化特征,构建出基于非正交多址(NOMA)的车载任务卸载与功率控制优化问题模型,然后将该问题建模成马尔可夫决策过程,并提出一种基于近端策略优化(PPO)的分布式深度强化学习算法,使得车辆只需根据自身获取局部信息,自主决策任务卸载量及相关发射功率,从而达到时延与能耗的最佳均衡性能。仿真结果表明,与现有方法相比较,本文所提任务卸载与功率控制近端策略优化方案不仅能够显著获得更优的时延与能耗性能,所提方案平均系统代价性能提升至少13%以上,而且提供一种性能均衡优化方法,能够通过调节用户偏好权重因子,达到系统时延与能耗水平之间的最佳均衡。
  • 图  1  无人机辅助车辆MEC系统模型

    图  2  PPO-TOPC网络结构

    图  3  PPO-TOPC方案与基于DQN功率分配方案的收敛曲线

    图  4  任务到达速率对优化性能的影响

    图  5  通信带宽对优化性能的影响

    图  6  用户偏好对优化性能的影响

    表  1  缩略语表

    符号 符号含义
    $ \sigma _{\mathrm{R}}^2 $ 加性高斯白噪声方差
    $ {{\boldsymbol{n}}}{(}t{)} $ 加性高斯白噪声矢量
    $ h_i^{\mathrm{p}}(t) $ 车辆it时刻的大尺度衰落
    $ {{\boldsymbol{h}}}_i^{\mathrm{s}}(t) $ 车辆it时刻的小尺度衰落矢量
    $ {h_{\mathrm{r}}} $ 单位距离信道功率增益
    $ {{{\boldsymbol{P}}}_{{\text{BS}}}} $ 基站位置
    $ {{{\boldsymbol{P}}}_{{\mathrm{UAV}}}}(t) $ t时刻无人机位置
    $ {{{\boldsymbol{P}}}_i}(t) $ i辆车在t时刻的位置
    $ d_i^{\mathrm{o}}(t) $ i辆车在t时刻与基站或无人机之间传输速率
    $ d_i^{\mathrm{l}}(t) $ i辆车在t时刻的本地计算量
    $ E_i^{\mathrm{l}}(t) $ i辆车在t时刻的本地能耗
    $ E_i^{\mathrm{o}}(t) $ i辆车在t时刻为任务卸载而使用的传输功率所消耗的能量
    $ {q_n}(\theta ) $ 重要性采样比率
    $ \lambda $ 折扣系数
    $ L(\theta) $ 网络损失函数
    $ \hat A_n^{{\text{GAE}}(\gamma ,\phi )} $ 广义估计函数
    1  PPO-TOPC算法流程

     2.for iteration = 1,2,…M do
     3. 初始化仿真环境参数、训练模型网络参数;
     4. for i = 1,2,···,N do
     5.  车辆观测局部信息${{\boldsymbol{s}}_i}$;
     6.  将${{\boldsymbol{s}}_i}$输入到当前网络,得到决策动作${{\boldsymbol{a}}_i}$;
     7.  将${{\boldsymbol{a}}_i}$作为参数输入至环境中得到下一状态${{\boldsymbol{s}}_{i + 1}}$和当前动作
     8.  车辆在本地缓存$\left\{ {{{\boldsymbol{a}}_i},{{\boldsymbol{s}}_i},{r_i}} \right\}$;
     9. end for
     10. 利用缓存数据和式(28)、式(33)计算估计函数和评价网络损
     11. for step = 1,2,···,K do
     12. 利用缓存数据和式(31)计算重要性权重
     13. 根据公式(30)更新当前网络;
     14. end for
     15. 使用当前网络权重来更新目标网络;
    表  2  主要仿真参数

    参数 数值
    $ \gamma $ 0.9
    $ \alpha $ 1e–4
    $ p_{\max }^{\mathrm{o}} $ (W) 1
    $ p_{\max }^{\mathrm{l}} $ (W) 1
    $ {v_{{\mathrm{vh}}}} $ (m/s) 15
    $ {v_{{\mathrm{uav}}}} $ (m/s) 10
    $ {Z_{{\mathrm{UAV}}}} $ (m) 50
    $ {C_{{\mathrm{BS}}}} $(m) 300
    $ h $(m) 10
    $ L $(cycle/bit) 500
  • 收稿日期:  2023-07-28
  • 修回日期:  2024-01-05
  • 网络出版日期:  2024-01-28
  • 刊出日期:  2024-06-30


