基于深度强化学习的异构云无线接入网自适应无线资源分配算法

图共 10个表共 2个

算法1：DQN训练估值网络参数算法
(1) 初始化经验回放池
(2) 随机初始化估值网络中的参数$w$，初始化目标网络中的参数　　 ${w^ - }$，权重为${w^ - } = w$
(3) For episode $k = 0,1, ···,K - 1$ do
(4) 　随机初始化一个状态${s_0}$
(5) 　For $t = 0,1, ···, T - 1$ do
(6) 　　随机选择一个概率$p$
(7) 　　 if $p \le \varepsilon $ 资源管理器随机选择一个动作$a(t)$
(8) 　　 else 资源管理器根据估值网络选取动作　　　　 ${a^*}(t) = \arg {\max _a}Q(s,a;w)$
(9) 　　执行动作$a(t)$，根据式(9)得到奖励值$r(t)$，并观察下一　　　　个状态$s(t + 1)$
(10) 　　将元组$(s(t),a(t),r(t),s(t + 1))$存储到经验回放池中
(11) 　　从经验回放池中随机抽取选取一组样本　　　　　 $(s(t),a(t),r(t),s(t + 1))$
(12) 　　通过估值网络和目标网络的输出损失函数，利用式(13), 　　　　　 (14)计算1, 2阶矩
(13) 　　Adam算法通过式(15)，式(16)计算1阶矩和2阶矩的偏差　　　　　修正项
(14) 　　通过神经网络的反向传播算法，利用式(17)来更新估值　　　　　网络的权重参数$w$
(15) 　　每隔$\delta $将估值网络中的参数$w$复制给参数${w^ - }$
(16) End for
(17) End for
(18) 获得DQN网络的最优权重参数$w$

表 1 算法1

算法2：基于TLDQN的策略知识迁移算法
(1) 初始化：
(2) 　　源基站的DQN参数$w$，策略网络温度参数$T$，目标网络　　　　的DQN参数$w'$
(3) For 对于每个状态$s \in {{S}}$，源基站的动作$\overline a $，目标基站可能采　　取的动作$a$ do
(4) 　　执行算法1，得到估值网络的参数$w$，以及输出层对应的　　　　 $Q$值函数
(5) 　　根据式(18)将源基站上的$Q$值函数转化为策略网络　　　　 ${ {\pi} _i}(\overline a \left\| s \right.)$
(6) 　　根据式(19)将目标基站上的$Q$值函数转化为策略网络　　　　 ${ {\pi} _{\rm{TG} } }(a\left\| s \right.)$
(7) 　　利用式(20)构建策略模仿损失的交叉熵$H(w)$
(8) 　　根据式(21)进行交叉熵的迭代更新,再进行策略模仿的偏　　　　导数的计算。
(9) 　　直至目标基站选取出的策略达到　　　　 ${Q_{\rm{TG}}}(s,a) \to {Q^*}_{\rm{TG}}(s,a)$
(10) End for
(11) 目标基站获得对应的网络参数$w'$
(12) 执行算法1，目标基站得到最优资源分配策略

表 2 算法2