雒江涛 杨和平 冉泳屹

雒江涛, 杨和平, 冉泳屹. 基于参数化强化学习的车联网内容缓存和功率分配联合优化[J]. 电子与信息学报, 2023, 45(7): 2476-2483. doi: 10.11999/JEIT220857
LUO Jiangtao, YANG Heping, RAN Yongyi. Joint Optimization of Content Caching and Power Distribution for Internet of Vehicles Based on Parametric Reinforcement Learning[J]. Journal of Electronics & Information Technology, 2023, 45(7): 2476-2483. doi: 10.11999/JEIT220857
doi: 10.11999/JEIT220857
基金项目: 国家自然科学基金(62171072, 62172064, 62003067)





    雒江涛 Luojt@cqupt.edu.cn

  • 中图分类号: TN929.5

Joint Optimization of Content Caching and Power Distribution for Internet of Vehicles Based on Parametric Reinforcement Learning

Funds: The National Natural Science Foundation of China (62171072, 62172064, 62003067)
  • 摘要: 车联网场景下的业务内容具有海量和高度动态的特性,使得传统缓存机制无法较好地感知内容动态变化,且巨量接入设备与边缘缓存设备的有限资源之间的矛盾会引起系统时延性能差的问题。针对上述问题,该文提出一种基于强化学习的联合内容缓存和功率分配算法。首先,考虑联合优化内容缓存和功率分配,建立最小化系统整体时延的优化模型。其次,将该优化问题建模为马尔可夫决策过程(MDP),并进一步将内容缓存和内容提供者的选择映射为离散动作集,并将功率分配映射为与离散动作相对应的连续参数。最后,借助参数化深度Q-Networks (P-DQN)算法求解这个具有离散-连续混合动作空间的问题。仿真结果表明,相较对比算法,该文所提算法能提高本地缓存命中率并降低系统传输时延。
  • 图  1  车联网内容缓存和交付模型

    图  2  P-DQN算法流程

    图  3  基于P-DQN和基于DDPG方案的收敛过程

    图  4  不同学习率下的平均时延

    图  5  不同mini-batch大小下的系统性能

    图  6  提出方案中内容交付途径的比例变化

    图  7  存储容量对缓存命中率的影响

    图  8  最大可分配功率对时延的影响

    算法1 基于P-DQN的联合优化算法
     初始化:设置最大训练轮数$T$、学习率$\{ \alpha ,\beta \} $、探索参数$\varepsilon $、概
         率分布参数$\xi $、mini-batch大小为$B$、经验回放池$\varGamma$、
         网络权重${\varphi _1}$和${\theta _1}$
     1: for $t = 1$ to $T$do
     2: for $k = 1$ to $K$do
     3:  计算动作参数${p_d} \leftarrow {p_d}({s_t};{\theta _t})$。
     4:  使用$\varepsilon $-greedy策略选择动作${a_t} = ({d_t},{p_{{d_t}}})$,其中
     5:   ${d_t} = \arg {\max _{d \in D}}Q({s_t},d,{p_d};{\varphi _t})$
     6:   ${a}_{t}=\left\{\begin{array}{lllll}以概率\xi 采样,& \varepsilon \\ ({d}_{t},{p}_{ {d}_{t} }),& 1-\varepsilon \end{array} \right.$
     7:  执行${a_t}$,并获取时延和命中率,观测奖励${r_t}$和下一状态${s_{t + 1}}$
     8:  将$[{s_t},{a_t},{r_t},{s_{t + 1}}]$存入$\varGamma$
     9: 从$\varGamma$中采集$B$个${\{ {s_b},{a_b},{r_b},{s_{b + 1}}\} _{b \in [B]}}$样本
     10: ${y_b} = {r_b} + {\max _{d \in D}}\varphi Q({s_{b + 1}},d,{p_d}({s_{b + 1}};{\theta _t});{\varphi _t})$
     11: 使用${\{ {y_b},{s_b},{a_b}\} _{b \in [B]}}$计算${\nabla _\varphi }\ell _t^Q(\varphi )$和${\nabla _\theta }\ell _t^\varTheta (\theta )$
     12: 计算${\varphi _{t + 1}} \leftarrow {\varphi _t} - {\alpha _t}{\nabla _\varphi }\ell _t^Q(\varphi )$和${\theta _{t + 1} } \leftarrow {\theta _t} - {\beta _t}{\nabla _\theta }\ell _t^\varTheta (\theta )$
     13: end for
     14: end for
    表  1  仿真参数

    RSU覆盖半径 (m)250
    RSU存储容量 (GB)16
    RSU总功率 (dBm)40
    内容大小 (MB)[8,12]
    带宽 (MHz)10
    噪声功率 (dBm)–60
    SINR门限 (dB)20
    $ \mathrm{p} $和Q网络的隐藏层128×64
    学习率$\alpha = \beta $0.001
    折扣因子$\gamma $0.95
