基于深度强化学习的多用户计算卸载优化模型和算法

李志华; 余自立

doi:10.11999/JEIT230445

基于深度强化学习的多用户计算卸载优化模型和算法

doi: 10.11999/JEIT230445

李志华^,,
余自立

江南大学人工智能与计算机学院无锡 214122

基金项目: 工业和信息化部智能制造项目(ZH-XZ-180004)，中央高校基本科研业务费专项资金(JUSRP211A41, JUSRP42003)

详细信息

作者简介:
李志华：男，教授，硕士生导师，研究方向为边缘计算、云计算与云数据中心理论、大数据挖掘、计算成像、信息安全等

余自立：男，硕士生，研究方向为边缘计算

通讯作者:
李志华　zhli@jiangnan.edu.cn

中图分类号: TN929.5;TP181
计量
- 文章访问数: 890
- HTML全文浏览量: 271
- PDF下载量: 168
- 被引次数: 11
出版历程
- 收稿日期: 2023-05-18
- 修回日期: 2023-11-03
- 网络出版日期: 2023-11-14
- 刊出日期: 2024-04-24

A Multi-user Computation Offloading Optimization Model and Algorithm Based on Deep Reinforcement Learning

LI Zhihua^,,
YU Zili

School of Artificial Intelligence and Computer, Jiangnan University, Wuxi 214122, China

Funds: The Ministry of Industry and Information Technology Manufacturing Project (ZH-XZ-180004), The Fundamental Research Funds for the Central Universities (JUSRP211A41, JUSRP42003)

摘要

摘要: 在移动边缘计算(MEC)密集部署场景中，边缘服务器负载的不确定性容易造成边缘服务器过载，从而导致计算卸载过程中时延和能耗显著增加。针对该问题，该文提出一种多用户计算卸载优化模型和基于深度确定性策略梯度(DDPG)的计算卸载算法。首先，考虑时延和能耗的均衡优化建立效用函数，以最大化系统效用作为优化目标，将计算卸载问题转化为混合整数非线性规划问题。然后，针对该问题状态空间大、动作空间中离散和连续型变量共存，对DDPG深度强化学习算法进行离散化改进，基于此提出一种多用户计算卸载优化方法。最后，使用该方法求解非线性规划问题。仿真实验结果表明，与已有算法相比，所提方法能有效降低边缘服务器过载概率，并具有很好的稳定性。
- 移动边缘计算 /
- 计算卸载 /
- 深度强化学习 /
- 资源分配
Abstract: In Mobile Edge Computing (MEC) intensive deployment scenarios, the uncertainty of edge server load can easily cause edge server overload, leading to a significant increase in delay and energy consumption during the computation offloading process. In response to this issue, a multi-user computation offloading optimization model and algorithm based on Deep Deterministic Policy Gradient (DDPG) is proposed. Firstly, considering the balance optimization of delay and energy consumption, a utility function is established to maximize system utility as the optimization objective, and the computational offloading problem is transformed into a mixed integer nonlinear programming problem. Then, in response to the problem of large state space and coexistence of discrete and continuous variables in the action space, the DDPG deep reinforcement learning algorithm is discretized and improved. Based on this, a multi-user computation offloading optimization method is proposed. Finally, this method is used to solve nonlinear programming problems. The simulation experimental results show that compared with existing algorithms, the proposed method can effectively reduce the probability of edge server overload and has good stability.
- Mobile Edge Computing(MEC) /
- Computation offloading /
- Deep reinforcement learning /
- Resource allocation

HTML全文

1. 引言

随着5G,6G通信技术发展，促进物联网的应用越来越广泛，如车联网、智能医疗、智能家居、智能城市、工业4.0等，引发了新一轮产业、经济、社会发展浪潮。然而，由于物联网允许具有计算、通信和感知能力的事物之间无处不在的连接，不仅使节点对通信安全性能要求提升，也导致攻击者更容易发现攻击目标，发起各种被动和主动攻击^[1]。因此，通信安全是影响物联网应用的关键因素之一，引起业界广泛关注。

为解决通信安全问题，在物联网中使用传统密钥加密技术时，由于物联网大规模分布式异构层次结构，增加了密钥分发和管理的开销，同时这些开销也增加了网络中低成本、低能耗设备的负担。物联网特性使得结合物理层安全的安全机制更适合物联网^[2]。物理层安全借助无线通信信道的随机性、广播性，实现信息安全传输，无须加密和解密。因此，物理层安全可以作为传统密钥加密方法的额外保护机制，减少密钥分发和管理开销，为物联网通信提供更高效的保护。

随着5G和6G通信技术发展，物联网攻击者也会不断更新和增强自身能力。例如全双工技术可获得双倍信道容量，并减少反馈延时和端到端延迟；当窃听者工作于全双工模式时，可同时被动窃听和主动干扰^[3,4]，即通过向合法接收机发射干扰信号，以降低合法用户信道容量，进而提高窃听性能。尽管被动窃听和主动干扰的同时实施，为通信安全带来更大威胁，但主动干扰信号为估计窃听者位置提供了新思路，窃听者位置估计有助于获得窃听信道容量。例如窃听者不是完全被动的，即偶尔主动发射信号，该信号被合法接收机收集可用于估计窃听者位置^[5]。然而，窃听者为隐藏自己，主动发射的信号频次和强度都会有限，进而增加了对其位置估计的难度。为此，本文针对主动发射干扰信号的窃听者，利用辅助合法用户通信的中继节点作为锚点，结合贝叶斯测距和最小二乘法迭代的方法，估计窃听者位置信息，提高位置估计的准确性。

在获得窃听者位置的基础上，通过向窃听者发射人工噪声以降低窃听信道容量，是提升物理层安全性能的有效方法^[6,7]。传统的人工噪声发射机固定部署在地面，无法适应物联网中设备的移动性，尤其在窃听设备位置发生变化时，无法实施有效干扰。近年来，无人机由于其部署灵活、可移动性强，易动态跟踪地面设备的移动，且空中与地面之间视距信道的存在，可形成比地面信号强度更强的干扰信号，因而可用作空中人工噪声发射机^[8]。无人机作为人工噪声发射机，为保证对窃听信道干扰效果、获得最大保密容量，需优化飞行轨迹以找到发射人工噪声的最佳位置。无人机轨迹优化通常为非凸问题，可将其近似转换为凸问题，借助凸优化工具求解^[9]；或借助块坐标下降迭代算法求解次优解^[10]。近年来，机器学习在解决无线通信网络优化问题中取得显著进步。作为机器学习算法之一的强化学习，因其动态决策特性，在无人机辅助的无线通信场景下，实现了无人机部署、轨迹规划和资源分配的优化^[11,12]。类似地，在无人机辅助物理层安全通信中，如文献[13]借助深度强化学习算法，优化了作为干扰发射机的无人机飞行轨迹，保证了保密速率最大。此外，在进行无人机轨迹优化时，无人机能量也是不容忽视的约束条件。由于尺寸和重量受限，无人机机载能量有限；而机载能量大部分消耗在产生飞机前行的动力上^[12]，这意味着采用强化学习算法如Q-learning对飞行轨迹优化过程中，无人机为找到最优位置而执行多次位置移动，消耗的能量不可忽略。

综上，针对物联网中带有主动攻击的全双工窃听者，本文利用无人机辅助发射人工噪声，提升系统物理层安全性能。同时，本文在估计窃听者位置的基础上，提出基于Q-learning的无人机轨迹优化算法，获得最大系统保密容量。此外，为探究轨迹优化中无人机能量消耗因素的影响，在约束轨迹优化能耗的同时，分析了无人机离线和在线学习下的能耗与系统保密性能。

2. 系统模型

2.1 系统描述

假设在某个大规模集体活动场景中，如体育赛事或演唱会，如图1所示，远程基站发射机(Alice)与活动现场内合法接收机(Bob)之间没有直接链路，需借助 $K$ 个中继 $R = \{ {R_{\text{1}}},{R_{\text{2}}}, \cdots ,{R_K}\}$ 进行通信，Alice、中继、Bob之间通信链路称为主信道。K个中继和Bob工作于半双工模式，均配置单根天线；现场内窃听者Eve工作于全双工模式，配置两根天线包括同时同频工作的发射天线和接收天线，具有向主信道发射干扰信号和窃听主信道信息功能，Eve能根据需要移动位置，以保证最佳干扰或窃听性能。Eve位置移动采用随机游走模型^[14]，也称为马尔科夫移动模型，该模型多用于描述一般性随机移动；Eve移动方向服从均匀分布，分别为前、后、左、右；移动速度范围为 $[0,{c_{\max }}]$ ，其中 ${c_{\max }}$ 为最大移动速度。为避免因Eve连续移动而远离Bob失去窃听意义，限定Eve移动范围在Bob为圆心的圆环内，圆环半径限定在 $[{l_1},{l_2}]$ 。空中部署发射机(Jammer，即无人机)发射人工噪声干扰Alice到Eve的窃听信道，以降低窃听信道容量。

图 1 系统模型

下载: 全尺寸图片幻灯片

考虑3维空间坐标，假设Alice,Bob,Eve和 $K$ 个中继处于同一平面，其中Alice和Bob位置坐标分别为 $(0,0,0)$ 和 $({x_{\text{B}}},{y_{\text{B}}},0)$ ，第 $\ell$ 个中继坐标为 $({x_{{R_\ell }}},{y_{{R_\ell }}},0)$ ， $\ell \in \varOmega = \{ 1,2, \cdots ,K\}$ 。Eve和Jammer位置随时间改变，则在t时刻Eve坐标为 $({x_{\text{E}}}(t),{y_{\text{E}}}(t),0)$ ，Jammer坐标为 $({x_{\text{J}}}(t),{y_{\text{J}}}(t),h(t))$ 。假设地面节点间信道为独立准静态瑞利衰落，即信道之间相互独立，同一信道的信道增益在一个时隙内保持不变，则地面节点O到P的信道系数 ${h_{OP}}$ 服从瑞利分布；根据瑞利分布与指数分布关系可知，信道增益 ${\left| {{h_{OP}}} \right|^2}$ 服从指数分布，设其均值为 ${g_{OP}}$ ；为简化符号说明，统一用O 代表发射节点Alice, Eve, ${R_\ell }$ ，记为 $O \in \{ {\text{A}},{\text{ E}},{\text{ }}{R_\ell }\}$ ，P 代表接收节点Bob, Eve, ${R_\ell }$ ，记为 $P \in \{ {\text{B}},{\text{ E}},{\text{ }}{R_\ell }\}$ ，并且除了表示Eve收发天线之间的信道系数 ${h_{{\text{EE}}}}$ 时O=P，其他情况O≠P。 $({x_O},{y_O},0)$ 和 $({x_P},{y_P},0)$ 分别表示节点O和P的坐标，O与P间距离为 ${l_{OP}} = \sqrt {{{({x_O} - {x_P})}^2} + {{({y_O} - {y_P})}^2}}$ ；Jammer与节点P 间距离为 ${l_{{\text{J}}P}}(t) = \sqrt {{{({x_P} - {x_{\text{J}}}(t))}^2} + {{({y_P} - {y_{\text{J}}}(t))}^2} + h{{(t)}^2}}$ 。由于Eve工作于全双工，其发射信号会引起残留自干扰，假设发射天线到接收天线的自干扰系数为 $\rho$ , $0 < \rho \le 1$ , $\rho = 0$ 表示无自干扰。

地面节点O和P通信时，节点P接收功率是发射信号经大尺度衰减和小尺度衰落后得到的，即^[15]

${P_{OP}} = {P_O}K_0^{ - 1}l_{OP}^{ - {\partial _1}}{\left| {{h_{OP}}} \right|^2}$

(1)

其中， ${P_O}$ 为节点O发射功率； ${K_0} = {({{4\pi {f_{\text{c}}}} \mathord{\left/ {\vphantom {{4\pi {f_{\text{c}}}} {\text{c}}}} \right. } {\text{c}}})^2}$ ，c为光速， ${f_{\text{c}}}$ 为载波频率； $l_{OP}^{ - {\partial _1}}$ 表示信号大尺度衰减， ${\partial _1}$ 为地面路径损耗系数。 Jammer与地面节点P之间存在视距信道和非视距信道，其中视距信道存在概率，与环境、地面节点和Jammer的位置以及仰角有关，表示为^[4]

$P_{{\text{J}}P}^{\text{L}}({\theta _{{\text{J}}P}}) = {1 \mathord{\left/ {\vphantom {1 {(1 + \varphi \exp ( - \beta ({\theta _{{\text{J}}P}} - \varphi )))}}} \right. } {(1 + \varphi \exp ( - \beta ({\theta _{{\text{J}}P}} - \varphi )))}}$

(2)

其中， ${\theta _{{\text{J}}P}} = ({{180} \mathord{\left/ {\vphantom {{180} \pi }} \right. } \pi })\arcsin \left[ {{{h(t)} \mathord{\left/ {\vphantom {{h(t)} {{l_{{\text{J}}P}}(t)}}} \right. } {{l_{{\text{J}}P}}(t)}}} \right]$ 为Jammer与地面节点P之间的仰角， $\varphi$ 和 $\beta$ 是由环境决定的参数。由此，Jammer与节点P之间非视距信道存在概率为 $P_{{\text{J}}P}^{{\text{NL}}} = 1 - P_{{\text{J}}P}^{\text{L}}$ 。本文场景为城市环境，则节点P从Jammer接收到的平均功率为^[16]

$\overline {{P_{{\text{J}}P}}(t)} = {P_{\text{J}}}K_0^{ - 1}l_{{\text{J}}P}^{ - {\partial _2}}(t){(P_{{\text{J}}P}^{\text{L}}\eta _{{\text{J}}P}^{\text{L}}{\kern 1pt} {\kern 1pt} + P_{{\text{J}}P}^{{\text{NL}}}\eta _{{\text{J}}P}^{{\text{NL}}})^{ - 1}}$

(3)

其中， ${g_{{\text{J}}P}}(t) = K_0^{ - 1}l_{{\text{J}}P}^{ - {\partial _2}}(t){(P_{{\text{J}}P}^{\text{L}}\eta _{{\text{J}}P}^{\text{L}}{\kern 1pt} {\kern 1pt} + P_{{\text{J}}P}^{{\text{NL}}}\eta _{{\text{J}}P}^{{\text{NL}}})^{ - 1}}$ 表示从Jammer到节点P的信道功率增益； ${\partial _2}$ 表示自由空间路径损耗系数； ${P_{\text{J}}}$ 为Jammer发射功率； $\eta _{{\text{J}}P}^{\text{L}}$ 和 $\eta _{{\text{J}}P}^{{\text{NL}}}$ 分别表示视距和非视距信道衰减因子，且 $\eta _{{\text{J}}P}^{{\text{NL}}} > \eta _{{\text{J}}P}^{\text{L}}$ 。

2.2 信号模型

系统工作过程分两个阶段。第1阶段，利用Eve发射的主动干扰信号，并借助 $K$ 个中继充当位置估计锚点估计Eve位置；第2阶段，根据Eve位置估计信息，Jammer进行动态轨迹优化，跟踪Eve以找到最佳干扰位置，达到系统保密容量最大。Eve位置估计和Jammer轨迹优化方法，在第4节详述。在第2阶段，中继分两个子阶段辅助Alice到Bob通信。第1子阶段Alice广播信号 ${x_{\text{s}}}$ 给 $K$ 个中继，同时Eve以功率 ${P_{\text{E}}}$ 发射干扰信号 ${x_{\text{v}}}$ ，Jammer以功率 ${P_{\text{J}}}$ 发射人工噪声信号 ${x_{{\text{AN}}}}$ ，则第l个中继 ${R_\ell }$ 接收信号为

${y_\ell }(t) = \sqrt {{P_{{\text{A}}{R_\ell }}}} {x_{\text{s}}} + \sqrt {{P_{{\text{E}}{R_\ell }}}} {x_{\text{v}}} + \sqrt {\overline {{P_{{\text{J}}{R_\ell }}}(t)} } {x_{{\text{AN}}}} + {n_\ell }$

(4)

其中， ${P_{{\text{A}}{R_\ell }}}$ 和 ${P_{{\text{E}}{R_\ell }}}$ 分别为Alice和Eve到 ${R_\ell }$ 的接收功率，表达式见式(1)； $\overline {{P_{{\text{J}}{R_\ell }}}(t)}$ 为Jammer到 ${R_\ell }$ 平均接收功率，表达式见式(3)； ${{E}}\left[ {{{\left| {{x_{\text{s}}}} \right|}^2}} \right] = {{E}}\left[ {{{\left| {{x_{\text{v}}}} \right|}^2}} \right] = {{E}}\left[ {{{\left| {{x_{{\text{AN}}}}} \right|}^2}} \right] = 1$ ， $E[\cdot]$ 表示均值； ${n_\ell }$ 是均值为0、方差为 $\sigma _\ell ^2$ 的高斯噪声，记为 ${n_\ell } \sim \mathcal{N}(0,\sigma _\ell ^2)$ 。将式(1)和式(3)代入式(4)，可得第1子阶段Alice到 ${R_\ell }$ 信道容量为

$\begin{split} &{C_{{\text{A}}{R_\ell }}}(t) \\ & \quad = \frac{1}{2}{\log _2} \left( {1 + \frac{{{P_{\text{A}}}K_0^{ - 1}l_{{\text{A}}{R_\ell }}^{ - {\partial _1}}{{\left| {{h_{{\text{A}}{R_\ell }}}} \right|}^2}}}{{\overline {{P_{{\text{J}}{R_\ell }}}(t)} + {P_{\text{E}}}K_0^{ - 1}l_{{\text{E}}{R_\ell }}^{ - {\partial _1}}(t){{\left| {{h_{{\text{E}}{R_\ell }}}} \right|}^2} + \sigma _\ell ^2}}} \right)\\ \end{split}$

(5)

其中， ${1 \mathord{\left/ {\vphantom {1 2}} \right. } 2}$ 是因Alice到Bob信息传输需两个子阶段。类似地，可得第1子阶段Alice到Eve的信道容量为

${C_{{\text{AE}}}}(t) = \frac{1}{2}{\log _2}\left( {1 + \frac{{{P_{\text{A}}}K_0^{ - 1}l_{{\text{AE}}}^{ - {\partial _1}}(t){{\left| {{h_{{\text{AE}}}}} \right|}^2}}}{{\overline {{P_{{\text{JE}}}}(t)} + \rho {P_{\text{E}}}K_0^{ - 1}{{\left| {{h_{{\text{EE}}}}} \right|}^2} + \sigma _{\text{E}}^2}}} \right)$

(6)

其中， $\rho {P_{\text{E}}}K_0^{ - 1}{\left| {{h_{{\text{EE}}}}} \right|^2}$ 为Eve自身干扰； $\overline {{P_{{\text{JE}}}}(t)}$ 为Jammer到Eve的平均接收功率，表达式见式(3)； $\sigma _{\text{E}}^2$ 为高斯噪声信号功率。这里假设了Alice 和 Eve间有直接链路，即本文在窃听信道条件优于主信道情况下，实现最大化可达安全速率。第2子阶段，假设中继工作于解码转发(Decode and Froward, DF)方式，并选择最佳中继转发信号给Bob(最佳中继的定义在式(9)中给出)。此阶段Bob接收信号为

${y_{\text{B}}}(t) = \sqrt {{P_{{R_\ell }{\text{B}}}}} {x_{\text{s}}} + \sqrt {{P_{{\text{EB}}}}(t)} {x_{\text{v}}} + \sqrt {\overline {{P_{{\text{JB}}}}(t)} } {x_{{\text{AN}}}} + {n_{\text{B}}}$

(7)

其中， ${P_{{R_\ell }{\text{B}}}}$ 和 ${P_{{\text{EB}}}}(t)$ 分别为 ${R_\ell }$ 和Eve到Bob的接收功率，表达式见式(1)； $\overline {{P_{{\text{JB}}}}(t)}$ 为Jammer到Bob的平均接收功率，表达式见式(3)； ${n_{\text{B}}}$ 是高斯噪声，记为 ${n_{\text{B}}} \sim \mathcal{N}(0,\sigma _{\text{B}}^2)$ 。将式(1)和式(3)代入式(7)，可得第2子阶段 ${R_\ell }$ 到Bob的信号噪声干扰比(Signal to Interference plus Noise Ratio, SINR)为

${\text{SIN}}{{\text{R}}_{{R_\ell }{\text{B}}}}(t) = \frac{{{P_{{R_\ell }}}K_0^{ - 1}l_{{R_\ell }{\text{B}}}^{ - {\partial _1}}{{\left| {{h_{{R_\ell }{\text{B}}}}} \right|}^2}}}{{\overline {{P_{{\text{JB}}}}(t)} + {P_{\text{E}}}K_0^{ - 1}l_{{\text{EB}}}^{ - {\partial _1}}(t){{\left| {{h_{{\text{EB}}}}} \right|}^2} + \sigma _{\text{B}}^2}}$

(8)

这里“最佳”中继定义为，从中继 ${R_\ell }$ 到Bob的信道中具有最大SINR的中继，记为 ${R_{{\text{best}}}}$ 。选择规则表示为

${R_{{\text{best}}}} = \arg {\kern 1pt} {\kern 1pt} {\kern 1pt} \mathop {\max }\limits_{\ell \in \varOmega } {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\text{SIN}}{{\text{R}}_{{R_\ell }{\text{B}}}}(t)$

(9)

由此，Bob通过最佳链路接收到的SINR为 ${\text{SIN}}{{\text{R}}_{{R_{b{\text{est}}}}{\text{B}}}}$ ，则第2子阶段 ${R_{{\text{best}}}}$ 到Bob的信道容量为

${C_{{R_{{\text{best}}}}{\text{B}}}}(t) = \frac{1}{2}{\log _2}(1 + {\text{SIN}}{{\text{R}}_{{R_{{\text{best}}}}{\text{B}}}}(t))$

(10)

类似地，第2子阶段 ${R_{{\text{best}}}}$ 到Eve的信道容量为

${C_{{R_{{\text{best}}}}{\text{E}}}}(t) = \frac{1}{2}{\log _2}\left( {1 + \frac{{{P_{{R_{{\text{best}}}}}}K_0^{ - 1}l_{{R_{{\text{best}}}}{\text{E}}}^{ - {\partial _1}}(t){{\left| {{h_{{R_{{\text{best}}}}{\text{E}}}}} \right|}^2}}}{{\overline {{P_{{\text{JE}}}}(t)} + \rho {P_{\text{E}}}K_0^{ - 1}{{\left| {{h_{{\text{EE}}}}} \right|}^2} + \sigma _{\text{E}}^2}}} \right)$

(11)

根据信息论定理，Alice到Bob等效端到端信道容量为Alice到中继的信道容量和中继到Bob的信道容量中最小值，即表示为

${C_{\text{B}}}(t) = \min ({C_{{\text{A}}{R_{b{\text{est}}}}}}(t),{C_{{R_{{\text{best}}}}{\text{B}}}}(t))$

(12)

其中， ${C_{{\text{A}}{R_{{\text{best}}}}}}(t)$ 为Alice到 ${R_{{\text{best}}}}$ 的信道容量，由式(5)可得其表达式。为获得更好的窃听效果，假设Eve采用选择性合并方式处理接收信息，即选择第1和第2子阶段接收信号中强的进行解码^[6]，由此Alice到Eve等效端到端信道容量为

${C_{\text{E}}}(t) = \max ({C_{{\text{AE}}}}(t),\min({C_{{\text{A}}{R_{{\text{best}}}}}}(t),{C_{{R_{{\text{best}}}}{\text{E}}}}(t)))$

(13)

则Alice到Bob的可达安全速率为

${C_s}(t) = \max ({C_{\text{B}}}(t) - {C_{\text{E}}}(t),0)$

(14)

将式(5)、式(6)、式(11)代入式(14)可知，可达安全速率受Jammer与地面节点间功率增益影响。由式(2)和式(3)可知，Jammer与地面节点间功率增益与视距概率相关；而随着Jammer与地面节点间距离增加，路径损耗增大，使得视距概率增加，进而影响可达安全速率。为此，接下来将研究如何优化Jammer飞行轨迹，以获得其最佳位置保证可达安全速率最大。

3. 系统保密性能优化问题建模

系统保密性能的优化目标是通过优化无人机(即Jammer)空间位置，获得对Eve的最佳干扰，进而使系统可达安全速率最大。实现此优化目标需要满足的约束条件是无人机在指定区域内飞行，且剩余能量保证其能安全返航充电。上述优化问题数学表达为

$\left.\begin{split} & \mathop {\max }\limits_{({x_{\text{J}}}(t),\;{y_{\text{J}}}(t),\;h(t))} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {C_s}(t), \\ & \qquad\quad {{\text{s}}{\text{.t}}{\text{.}}} \,\;\, {{\text{C1: }}{a_1} \le {x_{\text{J}}}(t) \le {a_2},} \\ &\qquad\qquad\quad {{\text{C2:}}{\kern 1pt} {\kern 1pt} {\text{ }}{b_1}{\kern 1pt} \le {y_{\text{J}}}(t) \le {b_2},} \\ & \qquad\qquad\quad {{\text{C3: }}{c_1} \le {\kern 1pt} h(t){\kern 1pt} {\kern 1pt} \le {c_2},} \\ & \qquad\qquad\quad {{\text{C4: }}{E_{{\text{J\_remain}}}}(t) \ge {E_{{\text{J\_min}}}}} \end{split} \right\}$

(15)

其中，C1, C2, C3表示无人机空间坐标 $x$ , $y$ , $z$ 轴范围；C4表示第t时刻无人机剩余能量 ${E_{{\text{J\_remain}}}}(t)$ 大于等于返航所需最小能量 ${E_{{\text{J\_min}}}}{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt}$ ； ${E_{{\text{J\_remain}}}}(t) = {E_{{\text{J\_initial}}}} - \displaystyle\sum\nolimits_{t = 0}^{t - 1} {{E_{{\text{J\_move}}}}(t)}$ 表示无人机初始能量 ${E_{{\text{J\_initial}}}}$ 与t时刻前耗能总和之差，其中 ${E_{{\text{J\_move}}}}(t)$ 为第t时刻无人机耗能。为计算方便，将无人机消耗单位能量数(无量纲)定义为飞行单位距离或悬浮单位时间消耗的能量。由C4可见，无人机初始能量直接影响飞行最大时长，进而影响无人机最终轨迹优化位置，这一点将在第6节讨论。

根据文献[17]附录推导可知，式(15)为非凸优化问题，求解困难；应用Q-learning强化学习算法，无需环境状态转移模型，可以有效解决无人机轨迹优化问题。因此，接下来设计Q-learning算法求解式(15)。

4. 保密性能优化问题求解

由于窃听者位置未知，在对无人机轨迹优化前先估计窃听者位置。方法是利用Eve发射的主动干扰信号，并借助 $K$ 个中继充当位置估计锚点，应用文献[18]的贝叶斯测距和最小二乘法迭代估计Eve位置坐标 $({x_{\text{E}}}(t),{y_{\text{E}}}(t),0)$ 。首先由贝叶斯测距法得到Eve到中继 ${R_\ell }$ 之间距离 ${l_{{\text{E}}{R_\ell }}}(t)$ 的估计值 ${\widehat l_{{\text{E}}{R_\ell }}}(t) = {10^{{{({P_0} - {{\hat \theta }_\ell })}/ {(10{\partial _1})}}}}$ ，其中 ${P_0}$ 为距锚点参考距离 ${d_0}$ 处的接收功率， ${\hat \theta _\ell } = \hat B\overline {{P_{{R_\ell }}}\left( t \right)} + \left( {1 - \hat B} \right){P_{{R_\ell }}}\left( t \right)$ ， $\overline {{P_{{R_\ell }}}(t)}$ 为中继 ${R_\ell }$ 在时刻t接收到Eve的平均功率， $\hat B$ 和 $\overline {{P_{{R_\ell }}}(t)}$ 表达式见文献[18]式(6)。然后通过最小二乘迭代法，得到Eve坐标估计值。具体迭代过程为：假定Eve初始坐标为 $({x_{\text{E}}},{y_{\text{E}}})$ ，求 ${l_{{\text{E}}{R_\ell }}}(t)$ 在点 $({x_{\text{E}}},{y_{\text{E}}})$ 的全微分 ${\delta _{{l_{{\text{E}}{R_\ell }}}}}$ ，并借助伪逆矩阵分别得到 $x_{\text{E}}^{}$ 和 $y_{\text{E}}^{}$ 的增量 ${\delta _{x_{\text{E}}^{}}}$ 和 ${\delta _{{y_E}}}$ ，表示为 ${\delta _{{l_{{\text{E}}{R_\ell }}}}}$ 的函数；通过迭代式 $x_{\text{E}}^{} = x_{\text{E}}^{} - {\delta _{x_{\text{E}}^{}}}$ , $y_{\text{E}}^{} = y_{\text{E}}^{} - {\delta _{y_{\text{E}}^{}}}$ 更新 $x_{\text{E}}^{}$ 和 $y_{\text{E}}^{}$ ，并借助 ${\delta _{{l_{{\text{E}}{R_\ell }}}}}$ 计算 ${\delta _{x_{\text{E}}^{}}}$ 和 ${\delta _{{y_E}}}$ ，其中 ${\delta _{{l_{{\text{E}}{R_\ell }}}}}$ 表示 ${l_{{\text{E}}{R_\ell }}}(t)$ 与 ${\widehat l_{{\text{E}}{R_\ell }}}(t)$ 的差值；直至满足 $\sqrt {\delta _{x_{\text{E}}^{}}^2 + \delta _{y_{\text{E}}^{}}^2} \le \zeta$ 迭代过程结束， $\zeta$ 为门限值；迭代结束时获得的 $x_{\text{E}}^{}$ 和 $y_{\text{E}}^{}$ 即为Eve坐标估计值。

在估计得到Eve位置坐标后，无人机作为智能体，采用Q-learning算法对飞行轨迹进行优化，以达到最大化系统可达安全速率的目标。根据式(15)的优化问题，定义Q-learning算法相关物理量如下。

(1) 状态空间S：无人机空间位置的3维坐标，记为 $S \triangleq ({x_{\text{J}}},{y_{\text{J}}},h)$ ，其中 ${x_{\text{J}}} \in [{a_1},{a_2}]$ , ${y_{\text{J}}} \in [{b_1},{b_2}]$ , $h \in [{c_1},{c_2}]$ 。

(2) 动作空间A：无人机在空间移动，这里将无人机移动简化为7个动作，记为 $A \triangleq$ {向右，向左，向前，向后，向上，向下，静止}，并分别用相应方向坐标值增减表示为向右 $(1,0,0)$ ，向左 $( - 1,0,0)$ ，向前 $(0,1,0)$ ，向后 $(0, - 1,0)$ ，向上 $(0,0,1)$ ，向下 $(0,0, - 1)$ ，静止 $(0,0,0)$ 。

(3) 奖励函数R：由系统瞬时可达安全速率决定。无人机比较前一时刻和当前时刻可达安全速率，若在当前时刻t状态 ${s_t} \in S$ ，执行 ${a_t} \in A$ 后，可达安全速率 ${C_s}(t)$ 大于前一时刻的值 ${C_s}(t - 1)$ ，则无人机获得正奖励值，否则获得负奖励值。由此得第t时刻奖励函数为

${R_t} = \left\{ {\begin{array}{*{20}{c}} & {1,} \qquad\qquad {C_s}(t){\kern 1pt} > {C_s}(t - 1) \\ & {{\text{0,}}} \qquad\qquad {C_s}(t){\kern 1pt} = {C_s}(t - 1)\\ & { - 1,} \qquad\quad\; {C_s}(t) < {C_s}(t - 1) \end{array}} \right.$

(16)

(4) 状态动作值函数 $Q(s,a)$ ：在当前状态 ${s_t}$ 和当前动作 ${a_t}$ 下的值函数记为 $Q({s_t},{a_t})$ ；执行动作 ${a_t}$ 后，获得奖励值 ${R_t}$ ，状态 ${s_t}$ 转移为 ${s_{t + 1}}$ ，此时 $Q({s_t},{a_t})$ 更新为

$Q({s_t},{a_t}) \leftarrow (1 - \alpha )Q({s_t},{a_t}){\kern 1pt} + \alpha \left[ {{R_t} + \gamma \mathop {\max }\limits_a Q({s_{t + 1}},a)} \right]$

(17)

其中， $0 < \alpha \le 1$ 为学习率； $0 \le \gamma \le 1$ 为折扣因子(discount factor)，表示未来的奖励相对于当前奖励的重要程度；状态 ${s_{t + 1}}$ 下每个可能动作 $a$ 对应一个值函数 $Q({s_{t + 1}},a)$ ，其最大值即 $\mathop {\max }\limits_a Q({s_{t + 1}},a)$ 。为避免Q-learning算法停留在局部最大值，采用 $\varepsilon$ -greedy策略选择动作 ${a_t}$ ，即状态 ${s_t}$ 下以大概率 $1 - \varepsilon$ ( $0 < \varepsilon < 1$ )选择最大Q值对应的动作，以小概率 $\varepsilon$ 随机选择其他动作。基于Q-learning的无人机轨迹优化算法如表1所示。

表 1 基于Q-learning的无人机动态轨迹优化算法

输入以Bob为圆心的圆环内，根据随机移动模型产生Eve位置。
While ${E_{ {\text{J\_remain} } } }(t) \ge {E_{ {\text{J\_min} } } }$ do
采用贝叶斯测距和最小二乘法迭代估计Eve位置坐标；初始化 $Q(s,a)$ , $s \in S$ , $a \in A$ ，初始化无人机位置状态 ${s_t}$ 。
重复(每个回合)
在当前状态 ${s_t}$ 下，根据 $\varepsilon - {\text{greedy}}$ 策略从动作空间 $A$ 中选择动作 ${a_t}$ ；
执行动作 ${a_t}$ ，获得奖励值 ${R_t}$ ，状态 ${s_t}$ 转移为下一个状态 ${s_{t + 1}}$ ，根据式(17)更新 $Q({s_t},{a_t})$ ；
${s_t} \leftarrow {s_{t + 1}}$ ；
更新无人机当前能量 ${E_{{\text{J\_remain}}}}(t)$ ；if ${E_{{\text{J\_remain}}}}(t) < {E_{{\text{J\_min}}}}$ , break；
until ${s_t}$ 为终止状态(含边界和超出边界)或 Eve位置移动
无人机获得当前Eve位置下的最优位置。
输出无人机跟踪Eve移动的动态运动轨迹。
说明：实际中算法程序实时检测无人机空间位置坐标，当发现无人机当前位置等于或超出边界坐标，程序发一个指令给无人机控制系统，　使控制系统控制飞机飞回到算法给定的初始位置，进而避免无人机在边界之外。

下载: 导出CSV

| 显示表格

5. 仿真结果与性能分析

本节通过数值结果分析基于Q-learning的无人机轨迹优化算法性能。假设Alice,Bob,Eve以及15个中继随机独立分布在地理位置为1 $\times$ 1 km的城市环境中，Eve按照随机游走模型移动。仿真参数设置为：载波频率 ${f_{\text{c}}} = 2\;{\text{GHz}}$ ，环境因数常数分别为 $\varphi = 11.95$ , $\beta = 0.14$ ，地面路径损耗系数 ${\partial _1} = 3$ ，自由空间路径损耗系数 ${\partial _2} = 2$ ，视距和非视距信道衰减因子分别为 $\eta _{{\text{J}}P}^{\text{L}} = 3$ , $\eta _{{\text{J}}P}^{{\text{NL}}} = 23$ ，Eve发射功率 ${P_{\text{E}}} = 5\;{\text{dBm}}$ ，无人机发射功率 ${P_{\text{J}}} = 10\;{\text{dBm}}$ ，接收机噪声功率 $\sigma _{\text{B}}^2 = - 170\;{\text{dBm}}$ , $\sigma _{\text{E}}^2 = - 175\;{\text{dBm}}$ ，学习率 $\alpha = 0.001$ ，折扣因子 $\gamma = 0.7$ , $\varepsilon$ -greedy 策略 $\varepsilon = {10^{ - 4}}$ ，无人机飞行速度为每秒15 m，各信道增益均值分别设置为 ${g_{{\text{A}}{R_\ell }}} = 30$ , ${g_{{R_\ell }{\text{B}}}} = 30$ , ${g_{{\text{EB}}}} = 10$ , ${g_{{R_\ell }{\text{E}}}} = 20$ , ${g_{{\text{EE}}}} = 2$ , ${g_{{\text{E}}{R_\ell }}} = 10$ , ${g_{{\text{AE}}}} = 10$ 。

首先分析算法的收敛性。图2(a)和图2(b)分别是在无人机不同初始位置和移动步长下，回合奖励总值与训练回合数之间的关系。可见，随着训练回合数增加，每回合得到的奖励值由初始的振荡，逐渐增加至稳定，表明无人机能够从错误中吸取教训，提高总奖励值，实现算法收敛。由图2(a)可见，无人机初始位置不同时，算法收敛速度不同，但均在约600回合后收敛，说明算法收敛性不受无人机初始位置影响；4个初始位置中，距离最优位置 $(170,\,200,\,700)$ 最近的初始位置4，算法收敛最快，距离增大后会降低收敛速度，说明算法能够学到有利于求解的环境条件，帮助无人机尽快找到最优解。由图2(b)可见，无人机在每次训练中移动步长越大，算法收敛越快；当无人机移动步长为7时，约50个回合后收敛，比移动步长为1时少了250回合；当无人机增大移动步长时，收敛所得回合奖励总值降低，相应的最优位置解准确性降低，这说明通过增大移动步长加快算法收敛速度时，还应考虑对最优解准确性的影响，二者需要均衡。

图 2 回合奖励总值与训练回合数之间关系

下载: 全尺寸图片幻灯片

其次，比较基于Q-learning的无人机轨迹优化算法和穷搜、遗传算法、随机部署的性能。穷搜算法指在无人机飞行范围内逐一枚举坐标位置搜索最优解；遗传算法是一种模拟自然进化的优化算法；随机部署算法是在可行解范围内随机给定无人机位置作为解。图3(a)为窃听者位置固定，无人机飞行范围为 ${x_{\text{J}}} \in [300,350]$ , ${y_{\text{J}}} \in [300,350]$ , $h \in [450,500]$ 时，不同算法得到的Alice发射功率与可达安全速率C_s之间的关系，可见，随着Alice发射功率增加，可达安全速率增大，这是由于当增大Alice发射功率时，虽然同时改善主信道和窃听信道容量，但由于无人机发射人工噪声对窃听信道干扰，更多地降低了窃听信道容量，进而保证了主信道容量优于窃听信道；另外，与遗传算法和随机部署相比，Q-learning算法与穷搜得到的最优解重合，表明Q-learning算法的解是最优解。图3(b)比较了穷搜和Q-learning算法在窃听者位置固定、无人机在不同飞行区域中获得最优位置所耗时间。飞行区域1,2,3空间大小依次递增，分别为 ${x_{{\text{J1}}}} \in [300,350]$ , ${y_{{\text{J1}}}} \in [300,350]$ , ${h_1} \in [450,500]$ ; ${x_{{\text{J2}}}} \in [300,350]$ , ${y_{{\text{J2}}}} \in [300,350]$ , ${h_2} \in [450,550]$ ; ${x_{{\text{J3}}}} \in [300,400]$ , ${y_{{\text{J3}}}} \in [300,400]$ , ${h_3} \in [450,500]$ ；消耗时间为无人机飞到初始位置、无人机学习寻找最优位置、无人机从当前位置飞到最优位置耗时总和。从图3(b)可见，无论飞行区域是否相同，Q-learning算法耗时都比穷搜短；随着飞行区域增大，穷搜算法耗时成倍增加，Q-learning算法增加不足2倍，使得两者耗时差异明显增大，说明Q-learning算法时间复杂度低于穷搜，尤其在大范围内搜索最优解时，Q-learning算法优势更为明显。

图 3 基于Q-learning的无人机轨迹优化算法和其他算法性能比较

下载: 全尺寸图片幻灯片

再次，分析无人机优化飞行轨迹跟踪Eve位置移动的情况。图4(a)—图4(c)描述Eve(位置坐标(300, 230))静止时无人机不同初始位置下获得最优位置的飞行轨迹，其中圆点代表无人机位置，圆点旁边的数字对应可达安全速率C_s；可见，无人机始终朝着C_s增大的方向飞行，表明无人机能够学得最优轨迹，这一点也验证了图2(a)和图2(b)所述Q-learning算法收敛的结论。图4(d)描述了Eve移动时无人机轨迹优化结果，图中代表无人机位置的圆点颜色与代表Eve的圆点颜色相同时，表示Eve当前位置下对应的无人机最优位置；不同颜色圆点间箭头分别表示Eve移动方向和跟踪Eve的无人机最优位置移动方向；综合图4(a)—图4(d)可见，无人机能够跟踪Eve移动来确定自身最佳位置，进而保证对应每个Eve位置可达安全速率都最大。

图 4 Eve静止和移动时无人机轨迹优化结果

下载: 全尺寸图片幻灯片

最后，比较本文基于Q-learning的无人机轨迹优化算法采用离线和在线学习两种方式时的性能。在线学习指无人机实时获取位置信息和环境反馈的奖励值，并实时改变位置直至飞到最优位置；离线学习过程与文献[19]类似，即无人机悬浮于空中，通过计算获得最优位置，然后直接飞行至最优位置。无人机能耗包括从起飞点飞至空中初始位置的能耗、最优位置解获得过程的能耗、从当前位置飞到最优位置的能耗。图5描述离线和在线学习在无人机初始能量 ${E_{{\text{J\_initial}}}}$ 不同时的性能。图5(a)假设 ${E_{{\text{J\_initial}}}}$ 始终大于无人机能耗时，离线和在线学习能耗与飞行区域大小之间的关系。可见，随着飞行区域1, 2, 3范围依次递增，离线与在线学习的能耗都增大，而离线学习能耗增加速度远小于在线学习；在同一飞行区域，离线学习也比在线学习能耗小。以上现象说明无人机在空中悬浮完成离线学习比实时与环境交互执行飞行动作的在线学习消耗更少能量。图5(b)比较了 ${E_{{\text{J\_initial}}}}$ 不同时，离线和在线学习所得可达安全速率与Alice发射功率之间的关系，其中 ${E_{{\text{J\_initial}}}} = 660$ 时，该能量数小于学到最优位置解的能耗数，此时无人机在未学到最优解情况下，飞回地面起始点充电； ${E_{{\text{J\_initial}}}} = 1500$ 时，该能量数大于离线学习下学到最优位置解的能耗数，但小于在线学习下的能耗数。从图5(b)可见，无论是离线还是在线学习， ${E_{{\text{J\_initial}}}} = 1500$ 时获得的可达安全速率比 ${E_{{\text{J\_initial}}}} = 660$ 时大，说明初始能量大有利于提升系统保密性能；而且 ${E_{{\text{J\_initial}}}} = 1500$ 时离线学习的可达安全速率最大，这是因为此能量数可以保证离线学习学得最优解。此外，无论 ${E_{{\text{J\_initial}}}}$ 为600还是1500，离线比在线学习的可达安全速率更大；结合图5(a)离线比在线学习能耗小，这表明离线比在线学习在能耗和保密性能上都更有优势；但同时也要看到，本文数据是在数值仿真环境中获得的；在真实环境中，无人机离线计算所得的环境状态数据会与环境反馈的真实值之间存在差异，从而影响最终学得的最优解以及可达安全速率值。因此，选择Q-learning离线或在线学习模式时，需要从能量消耗和系统保密性能两方面折衷考虑。

图 5 离线和在线学习在无人机初始能量不同时的性能比较

下载: 全尺寸图片幻灯片

图6描述了Eve位置移动时长T对本文所提算法求解的影响。由图6可见，在Alice发射功率一定时，随着T增加，算法所得最大可达安全速率增加。这是由于时间T越大，算法学习的时间越长，越可能学得最优解；而在T=50 s时，算法所得最大可达安全速率减小。因此，在窃听者短时间位置移动时，如何缩短算法优化时间以保证系统保密性能，是算法性能提升的方向，也是本文未来工作需要解决的问题。

图 6 Eve位置移动时长对本文所提算法求解的影响

下载: 全尺寸图片幻灯片

6. 结束语

本文针对物联网中主动攻击的全双工窃听者，利用无人机部署灵活、与地面通信具有视距信道的优势，辅助发射人工噪声，提升系统物理层安全性能。在估计窃听者位置基础上，提出基于Q-learning的无人机轨迹优化算法，跟踪窃听者移动，实现系统保密性能最优。仿真结果表明，本文所提优化算法能快速收敛，当无人机初始位置离最优位置近、移动步长大时，收敛速度提高；与穷搜、遗传算法、随机部署等相比，本文所提算法获得了最优解，并耗时最短；无人机能够跟踪窃听者移动来确定自身最佳位置，对窃听信道实施干扰，从而保证系统可达安全速率最大。未来工作中，将考虑在更符合实际的多用户场景下，存在多个合法接收者和窃听者时，无人机的部署和轨迹、功率优化问题。

图 1 边缘网络架构

下载: 全尺寸图片幻灯片

图 2 没有对状态进行归一化处理或离散化动作空间时的性能对比

下载: 全尺寸图片幻灯片

图 3 不同算法随迭代次数变化时的性能对比

下载: 全尺寸图片幻灯片

不同算法随 $s$ 变化时的性能对比

下载: 全尺寸图片幻灯片

图 5 不同UE数量下的时延对比图

下载: 全尺寸图片幻灯片

图 6 不同UE数量下的能耗对比图

下载: 全尺寸图片幻灯片

图 7 不同算法随UE数量变化时的性能对比

下载: 全尺寸图片幻灯片

表 1 变量符号及其含义

变量符号	含义	变量符号	含义
${U_i}$	用户设备编号	${P_i}$	${U_i}$ 的传输功率
${M_j}$	MEC服务器编号	${\sigma ^2}$	环境高斯白噪声
$t$	时隙编号	${v_i}$	${U_i}$ 的移动速度
${f_i}$	${U_i}$ 的CPU总频率	${x_{i,j}}$	${U_i}$ 的关联策略
$\varphi$	${U_i}$ 的功率系数	$\lambda _i^t$	任务 $\varOmega _i^t$ 的卸载率
$D_i^t$	任务大小	$F_i^t$	${U_i}$ 分配到的计算资源
$s$	单位任务所需计算资源	${F_{\max }}$	单个边缘服务器总频率
${L_j}$	${M_j}$ 的工作负载量

下载: 导出CSV

算法1　状态归一化算法
输入: Unnormalized variables: ${{\boldsymbol{s}}_t} = ({\boldsymbol{p}}_1^t,\cdots ,{\boldsymbol{p}}_N^t,D_1^t,\cdots ,D_N^t,L_1^t,\cdots ,L_M^t)$ , Scale factors: $\rho = ({\rho _x},{\rho _y},{\rho _w},{\rho _l})$
输出: Normalized variables: $({{\boldsymbol{p}}'}_1^t,\cdots ,{{\boldsymbol{p}}'}_N^t,{D'}_1^t,\cdots ,{D'}_N^t,{L'}_1^t,\cdots ,{L'}_M^t)$
(1) ${x'}_i^t = x_i^t{\rho _x},\forall i$ , ${y'}_i^t = y_i^t{\rho _y},\forall i$ , ${D'}_i^t = D_i^t{\rho _w},\;\forall i$ , ${L'}_j^t = L_j^t{\rho _l},\:\forall j$ //*对状态进行归一化处理
(2) return ${\hat s_t} = ({{\boldsymbol{p}}'}_1^t,\cdots ,{{\boldsymbol{p}}'}_N^t,{D'}_1^t,\cdots ,{D'}_N^t,{L'}_1^t,\cdots ,{L'}_M^t)$

下载: 导出CSV

算法2　动作编码算法
输入: $a$ //*连续动作
输出: ${a_{{\text{dis}}}}$ //*对应的离散编码
(1) ${a_{{\text{num}}}} = K$
(2) ${a_{\min }} = 0,{a_{\max }} = 1$
(3) ${\varDelta _a} = ({a_{\max }} - {a_{\min }})/({a_{{\text{num}}}} - 1)$
(4) for each $a$ do
(5) $a' = \left\lfloor {\dfrac{{a - {a_{\min }}}}{{{\varDelta _a}}}} \right\rfloor$ //*动作编码
(6) ${a_{{\text{dis}}}} = \max (0,\min ({a_{{\text{num}}}} - 1,a'))$
(7) end for
(8) return ${a_{{\text{dis}}}}$

下载: 导出CSV

算法3　多用户计算卸载优化方法
输入: Actor learning rate ${\alpha _{{\mathrm{Actor}}}}$ , critic learning rate ${\alpha _{{\mathrm{Critic}}}}$ , Soft update factor $\tau$ .
输出： $a,Q$ //*卸载决策(任务卸载率、分配的计算资源和关联策略)，卸载效用
(1) $\mu ({s_t}\|{\theta _\mu })$ $\leftarrow$ ${\theta _\mu }$ and $Q({{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t}\|{\theta _Q})$ $\leftarrow$ ${\theta _Q}$ , ${\theta '_\mu } \leftarrow {\theta _\mu }$ and ${\theta '_Q} \leftarrow {\theta _Q}$ //*初始化主网络和目标网络
Initialize the experience replay buffer ${B_m}$ //*初始化经验重放缓冲区暂存经验元组
(2) for episode=1 to $L$ do
(3) 　Initialize system environment
(4) 　for slot=1 to $T$ do
(5) 　　 ${\hat {\boldsymbol{s}}_t} \leftarrow$ SN( ${{\boldsymbol{s}}_t},\rho$ ) //*调用算法1对状态 ${{\boldsymbol{s}}_t}$ 预处理
(6) 　　Get the action from equation 式(25)
(7) 　　 ${{\boldsymbol{a}}'_t} \leftarrow$ AE( ${{\boldsymbol{a}}_t}$ ) //*调用算法2离散化动作
(8) 　　perform action ${{\boldsymbol{a}}'_t}$ and observer next state ${{\boldsymbol{s}}_{t + 1}}$ , Get reward with equation 式(19)
(9) 　　 ${\hat {\boldsymbol{s}}_{t + 1}} \leftarrow$ SN( ${{\boldsymbol{s}}_{t + 1}},\rho$ ) //*调用算法1对状态 ${{\boldsymbol{s}}_{t + 1}}$ 预处理
(10) 　 if ${B_m}$ is not full then
(11) 　　Store transition $({{\boldsymbol{s}}_t},{{\boldsymbol{a}}_t},{r_t},{\hat {\boldsymbol{s}}_{t + 1}})$ in replay buffer ${B_m}$
(12) 　 else
(13) 　　Randomly sample a mini-batch from ${B_m}$
(14) 　　Calculate target value ${y_t}$ with equation 式(21)
(15) 　　Use equation 式(20) to minimize the loss and update the ${\theta _Q}$
(16) 　　Update the ${\theta _\mu }$ by the sampled policy gradient with equation 式(22)
(17) 　　Soft update the ${\theta '_\mu }$ and ${\theta '_Q}$ according to equation 式(23) and 式(24)
(18) 　 end if
(19) end for
(20) Use equation 式(15) to get offloading utility $Q$
(21) end for
(22) return $a,Q$

下载: 导出CSV

表 2 仿真参数设置

符号	值	定义
$B$	40	信道总带宽(MHz)
$N$	{5,10,20,30,40}	用户设备数
$K$	5	MEC服务器个数
${v_i}$	[0,5]	${U_i}$ 的移动速度(m/s)
${P_i}$	100	${U_i}$ 的传输功率(mW)
${\sigma ^2}$	–100	环境高斯白噪声(dBm)
${f_i}$	0.5	${U_i}$ 的CPU总频率(GHz)
${F_{\max }}$	10	单个MEC服务器总频率(GHz)
$\varphi$	10^–26	功率系数
$D_i^t$	(1.5,2)	任务 $\varOmega _i^t$ 的大小(Mbit)
$s$	500	所需计算资源(cycle/bit)

下载: 导出CSV

不同 ${\beta _{\mathrm{t}}}$ 和 ${\beta _{\mathrm{e}}}$ 下的实验结果

${\beta _{\rm t}}$ 和 ${\beta _{\rm e}}$ 的取值	时延(s)	能耗(J)	平均卸载效用
${\beta _{\rm t}} = 0.1,{\beta _{\rm e}} = 0.9$	369	394	0.528
${\beta _{\rm t}} = 0.2,{\beta _{\rm e}} = 0.8$	343	412	0.534
${\beta _{\rm t}} = 0.3,{\beta _{\rm e}} = 0.7$	337	431	0.544
${\beta _{\rm t}} = 0.4,{\beta _{\rm e}} = 0.6$	321	441	0.549
${\beta _{\rm t}} = 0.5,{\beta _{\rm e}} = 0.5$	308	456	0.554
${\beta _{\rm t}} = 0.6,{\beta _{\rm e}} = 0.4$	293	464	0.575
${\beta _{\rm t}} = 0.7,{\beta _{\rm e}} = 0.3$	277	479	0.578
${\beta _{\rm t}} = 0.8,{\beta _{\rm e}} = 0.2$	256	488	0.613
${\beta _{\rm t}} = 0.9,{\beta _{\rm e}} = 0.1$	245	511	0.628

下载: 导出CSV

参考文献(28)

[1]	ZHOU Zhi, CHEN Xu, LI En, et al. Edge intelligence: Paving the last mile of artificial intelligence with edge computing[J]. Proceedings of the IEEE, 2019, 107(8): 1738–1762. doi: 10.1109/JPROC.2019.2918951.
[2]	GERARDS M E T, HURINK J L, and KUPER J. On the interplay between global DVFS and scheduling tasks with precedence constraints[J]. IEEE Transactions on Computers, 2015, 64(6): 1742–1754. doi: 10.1109/TC.2014.2345410.
[3]	SADATDIYNOV K, CUI Laizhong, ZHANG Lei, et al. A review of optimization methods for computation offloading in edge computing networks[J]. Digital Communications and Networks, 2023, 9(2): 450–461. doi: 10.1016/j.dcan.2022.03.003.
[4]	SUN Jiannan, GU Qing, ZHENG Tao, et al. Joint optimization of computation offloading and task scheduling in vehicular edge computing networks[J]. IEEE Access, 2020, 8: 10466–10477. doi: 10.1109/ACCESS.2020.2965620.
[5]	LIU Hui, NIU Zhaocheng, DU Junzhao, et al. Genetic algorithm for delay efficient computation offloading in dispersed computing[J]. Ad Hoc Networks, 2023, 142: 103109. doi: 10.1016/j.adhoc.2023.103109.
[6]	ALAMEDDINE H A, SHARAFEDDINE S, SEBBAH S, et al. Dynamic task offloading and scheduling for low-latency IoT services in multi-access edge computing[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(3): 668–682. doi: 10.1109/JSAC.2019.2894306.
[7]	BI Suzhi, HUANG Liang, and ZHANG Y J A. Joint optimization of service caching placement and computation offloading in mobile edge computing systems[J]. IEEE Transactions on Wireless Communications, 2020, 19(7): 4947–4963. doi: 10.1109/TWC.2020.2988386.
[8]	YI Changyan, CAI Jun, and SU Zhou. A multi-user mobile computation offloading and transmission scheduling mechanism for delay-sensitive applications[J]. IEEE Transactions on Mobile Computing, 2020, 19(1): 29–43. doi: 10.1109/TMC.2019.2891736.
[9]	MITSIS G, TSIROPOULOU E E, and PAPAVASSILIOU S. Price and risk awareness for data offloading decision-making in edge computing systems[J]. IEEE Systems Journal, 2022, 16(4): 6546–6557. doi: 10.1109/JSYST.2022.3188997.
[10]	ZHANG Kaiyuan, GUI Xiaolin, REN Dewang, et al. Optimal pricing-based computation offloading and resource allocation for blockchain-enabled beyond 5G networks[J]. Computer Networks, 2022, 203: 108674. doi: 10.1016/j.comnet.2021.108674.
[11]	TONG Zhao, DENG Xin, MEI Jing, et al. Stackelberg game-based task offloading and pricing with computing capacity constraint in mobile edge computing[J]. Journal of Systems Architecture, 2023, 137: 102847. doi: 10.1016/j.sysarc.2023.102847.
[12]	张祥俊, 伍卫国, 张弛, 等. 面向移动边缘计算网络的高能效计算卸载算法[J]. 软件学报, 2023, 34(2): 849–867. doi: 10.13328/j.cnki.jos.006417. ZHANG Xiangjun, WU Weiguo, ZHANG Chi, et al. Energy-efficient computing offloading algorithm for mobile edge computing network[J]. Journal of Software, 2023, 34(2): 849–867. doi: 10.13328/j.cnki.jos.006417.
[13]	YAO Liang, XU Xiaolong, BILAL M, et al. Dynamic edge computation offloading for internet of vehicles with deep reinforcement learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2023, 24(11): 12991–12999. doi: 10.1109/TITS.2022.3178759.
[14]	SADIKI A, BENTAHAR J, DSSOULI R, et al. Deep reinforcement learning for the computation offloading in MIMO-based Edge Computing[J]. Ad Hoc Networks, 2023, 141: 103080. doi: 10.1016/j.adhoc.2022.103080.
[15]	TANG Ming and WONG V W S. Deep reinforcement learning for task offloading in mobile edge computing systems[J]. IEEE Transactions on Mobile Computing, 2022, 21(6): 1985–1997. doi: 10.1109/TMC.2020.3036871.
[16]	CHENG Nan, LYU Feng, QUAN Wei, et al. Space/aerial-assisted computing offloading for IoT applications: A learning-based approach[J]. IEEE Journal on Selected Areas in Communications, 2019, 37(5): 1117–1129. doi: 10.1109/JSAC.2019.2906789.
[17]	ZHOU Huan, JIANG Kai, LIU Xuxun, et al. Deep reinforcement learning for energy-efficient computation offloading in mobile-edge computing[J]. IEEE Internet of Things Journal, 2022, 9(2): 1517–1530. doi: 10.1109/JIOT.2021.3091142.
[18]	WANG Yunpeng, FANG Weiwei, DING Yi, et al. Computation offloading optimization for UAV-assisted mobile edge computing: A deep deterministic policy gradient approach[J]. Wireless Networks, 2021, 27(4): 2991–3006. doi: 10.1007/s11276-021-02632-z.
[19]	ALE L, ZHANG Ning, FANG Xiaojie, et al. Delay-aware and energy-efficient computation offloading in mobile-edge computing using deep reinforcement learning[J]. IEEE Transactions on Cognitive Communications and Networking, 2021, 7(3): 881–892. doi: 10.1109/TCCN.2021.3066619.
[20]	DAI Yueyue, XU Du, ZHANG Ke, et al. Deep reinforcement learning for edge computing and resource allocation in 5G beyond[C]. The IEEE 19th International Conference on Communication Technology, Xian, China, 2019: 866–870. doi: 10.1109/ICCT46805.2019.8947146.
[21]	3GPP. TR 36.814 v9.0. 0. Further advancements for E-UTRA physical layer aspects[S]. 2010.
[22]	WANG Yanting, SHENG Min, WANG Xijun, et al. Mobile-edge computing: Partial computation offloading using dynamic voltage scaling[J]. IEEE Transactions on Communications, 2016, 64(10): 4268–4282. doi: 10.1109/TCOMM.2016.2599530.
[23]	ZHANG Ke, MAO Yuming, LENG Supeng, et al. Energy-efficient offloading for mobile edge computing in 5G heterogeneous networks[J]. IEEE Access, 2016, 4: 5896–5907. doi: 10.1109/ACCESS.2016.2597169.
[24]	ZHANG Lianhong, ZHOU Wenqi, XIA Junjuan, et al. DQN-based mobile edge computing for smart Internet of vehicle[J]. EURASIP Journal on Advances in Signal Processing, 2022, 2022(1): 45. doi: 10.1186/s13634-022-00876-1.
[25]	WANG Jin, HU Jia, MIN Geyong, et al. Dependent task offloading for edge computing based on deep reinforcement learning[J]. IEEE Transactions on Computers, 2022, 71(10): 2449–2461. doi: 10.1109/TC.2021.3131040.
[26]	SUTTON R S and BARTO A G. Reinforcement Learning: An Introduction[M]. 2nd ed. Cambridge: A Bradford Book, 2018: 47–50.
[27]	LIU Y C and HUANG Chiyu. DDPG-based adaptive robust tracking control for aerial manipulators with decoupling approach[J]. IEEE Transactions on Cybernetics, 2022, 52(8): 8258–8271. doi: 10.1109/TCYB.2021.3049555.
[28]	HU Shihong and LI Guanghui. Dynamic request scheduling optimization in mobile edge computing for IoT applications[J]. IEEE Internet of Things Journal, 2020, 7(2): 1426–1437. doi: 10.1109/JIOT.2019.2955311.

施引文献

期刊类型引用(3)

1.	吴嘉鑫，孙一飞，吴亚兰，武继刚. 面向安全传输的低能耗无人机轨迹优化算法. 计算机工程. 2024(02): 59-67 . 百度学术
2.	曾晓婉，王海军，黄蕾，马东堂. 无人机辅助D2D通信网络安全通信资源分配算法. 通信学报. 2024(02): 115-126 . 百度学术
3.	刘硕. 全双工窃听下的无人机通信保密性能分析. 信息与电脑(理论版). 2024(10): 222-224 . 百度学术

其他类型引用(8)

资源附件(0)

访问统计

图(7) / 表(6)

计量

文章访问数: 890
HTML全文浏览量: 271
PDF下载量: 168
被引次数: 11

1. 引言
2. 系统模型
2.1 系统描述
2.2 信号模型
3. 系统保密性能优化问题建模
4. 保密性能优化问题求解
5. 仿真结果与性能分析
6. 结束语

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于深度强化学习的多用户计算卸载优化模型和算法

doi: 10.11999/JEIT230445

作者简介:
李志华：男，教授，硕士生导师，研究方向为边缘计算、云计算与云数据中心理论、大数据挖掘、计算成像、信息安全等

余自立：男，硕士生，研究方向为边缘计算

通讯作者:
李志华　zhli@jiangnan.edu.cn

计量

A Multi-user Computation Offloading Optimization Model and Algorithm Based on Deep Reinforcement Learning

1. 引言

2. 系统模型

2.1 系统描述

2.2 信号模型

3. 系统保密性能优化问题建模

4. 保密性能优化问题求解

5. 仿真结果与性能分析

6. 结束语

期刊类型引用(3)

其他类型引用(8)

计量

目录

1. 引言

2. 系统模型

2.1 系统描述

2.2 信号模型

3. 系统保密性能优化问题建模

4. 保密性能优化问题求解

5. 仿真结果与性能分析

6. 结束语

留言板

基于深度强化学习的多用户计算卸载优化模型和算法

doi: 10.11999/JEIT230445

作者简介: 李志华：男，教授，硕士生导师，研究方向为边缘计算、云计算与云数据中心理论、大数据挖掘、计算成像、信息安全等 余自立：男，硕士生，研究方向为边缘计算

通讯作者: 李志华 zhli@jiangnan.edu.cn

计量

出版历程

A Multi-user Computation Offloading Optimization Model and Algorithm Based on Deep Reinforcement Learning

1. 引言

2. 系统模型

2.1 系统描述

2.2 信号模型

3. 系统保密性能优化问题建模

4. 保密性能优化问题求解

5. 仿真结果与性能分析

6. 结束语

期刊类型引用(3)

其他类型引用(8)

计量

出版历程

目录

1. 引言

2. 系统模型

2.1 系统描述

2.2 信号模型

3. 系统保密性能优化问题建模

4. 保密性能优化问题求解

5. 仿真结果与性能分析

6. 结束语

作者简介:
李志华：男，教授，硕士生导师，研究方向为边缘计算、云计算与云数据中心理论、大数据挖掘、计算成像、信息安全等

余自立：男，硕士生，研究方向为边缘计算

通讯作者:
李志华　zhli@jiangnan.edu.cn