
Citation: | ZHANG Guangchi, YAN Yulin, CUI Miao, CHEN Wei, ZHANG Jing. Online Trajectory Optimization for the UAV-Enabled Base Station Multicasting System Based on Reinforcement Learning[J]. Journal of Electronics & Information Technology, 2022, 44(3): 969-975. doi: 10.11999/JEIT210429 |
无人驾驶飞机(Unmanned Aerial Vehicle, UAV)简称无人机,在近十年内得到巨大的发展,其商业价值预计在2025年飙升到45.8亿美元[1]。无人机自身具有高移动性、机动性、体积小以及成本低等特点,使其在无线通信方面引起了广泛的关注。无人机融入无线通信网络的方式分为以下3类。第一,无人机作为空中基站为无线蜂窝网络补充覆盖和提升容量[2],或者在发生大范围自然灾害时快速适应环境为地面用户提供应急通信[3]。第二,无人机作为辅助中继改善地面无线设备的连接,极大地扩宽通信范围以及提高通信质量[4]。第三,将无人机接入到物联网中提供可靠和节能的物联网上行通信链路,物联网网络的连通性和能源效率可以显著提高[5]。
本文主要研究上述第1类应用方式,即无人机作为空中基站为地面用户提供无线通信服务。通常地面基站的部署建设是根据长期通信行为来统筹规划的,可能无法满足短时间人群聚集(例如演唱会等)的通信需求和无法适应未来的通信环境变化。相比于传统地面的基站,无人机基站的机动性带来明显的优势,能够灵活便捷地调整位置适应通信需求和为流量热点区域提供额外的网络负载能力[6]。为了充分发挥无人机的机动性潜能,适当的轨迹优化可以减小无人机基站与地面用户之间的距离从而改善信道质量,这对提高通信网络的性能至关重要。文献[7]通过优化无人机的飞行轨迹以及资源分配从而实现高效节能的通信。文献[8]从多无人机的角度出发,考虑了各个无人机与多地面用户之间的干扰,通过优化多无人机的飞行轨迹实现吞吐量最大化。文献[9]研究了在无人机支持的多链路中继系统中,联合优化无人机的3维飞行轨迹和发射功率,抑制链路中的干扰以达到下界吞吐量最大化。以上文献中无人机飞行轨迹优化采用的算法都是属于离线优化算法,即根据通信环境的完美假设,在无人机起飞之前通过复杂的计算、优化设计得到无人机的飞行轨迹,并且起飞之后无法改变飞行轨迹。然而在实际中,通信环境是不断变化的,无法提前预测的,通信环境的完美假设是不切实际的。离线优化算法首先需要建立精确的通信模型,建模之后的参数配置也是难以获取的,即使模型和相关参数是已知的,大多数无线通信的优化问题都是非凸的,通常需要复杂的运算和推导将其转化成凸问题[10]。
为了克服这些局限性,文献[11,12]分别讨论了将强化学习中的算法应用于无人机通信方面的可能性,将无人机的飞行轨迹优化看作路径规划问题,其目标是在随机的飞行环境中最大化特定的累计奖励指标[13]。文献[11]研究了多无人机基站协作通信的场景,以最大化地面用户的通信速率之和为目标,提出了基于强化学习Q-Learning算法的多无人机飞行轨迹优化。文献[12]提出了一种基于体验质量(Quality of Experience, QoE)驱动的多无人机3维部署与飞行轨迹设计新框架。目前已有研究工作开始将强化学习算法应用于解决无人机的飞行路线优化问题,但是关注无人机基站的通信时延和能效问题的研究不多。同时多播通信方式能够在公共安全、应急响应以及智能交通等应用方面减轻无线通信网络的负载和提高通信效率,因此研究无人机基站多播通信系统很有必要[14]。
本文研究了无人机基站多播通信系统中通信时延问题,在该系统中无人机基站向多个地面用户同时发送公共信息,其中每次通信任务中地面用户的位置是随机的。首先建立系统模型,为了保证地面用户能够接收到完整的信息以及减少无人机的能量消耗,以最小化通信任务平均完成时间为目标,对无人机基站飞行路线在线优化问题进行数学描述。然后将问题转化成马尔可夫决策过程,采用强化学习中的Q-Learning算法实现飞行路线在线优化。最后通过仿真验证本文提出的飞行路线在线优化算法的有效性。
如图1所示,本文考虑一个无人机基站多播通信系统,其中包括一个无人机和
dj(t)=√H2+‖q(t)−qj‖2 |
(1) |
假设地面用户和无人机基站之间的信道由视距信道[15]主导②,无人机的移动性所导致的多普勒效应能够被地面用户的接收机有效补偿,因此无人机基站与地面用户
hj(t)=β0d−2j(t) = β0H2+‖q(t)−qj‖2 |
(2) |
其中,
Rj(t)=Blog2(1+γ0H2+‖q(t)−qj‖2) |
(3) |
其中,
为了保证地面用户能够接收到完整的文件信息以及考虑到无人机的能量有限性,本文以最小化无人机基站完成通信任务的平均时间为目标。无人机每次通信任务中所服务的地面用户是随机的,因此在线优化无人机的飞行路线很有必要。本文主要考察飞行路线对通信性能的影响,因此暂时不考虑无人机基站的能耗,假设飞行时间足够长。无人机基站在第
Tm,j∫0Rm,j(t)dt≥L,∀j∈J,m∈{1,2,⋯,M} |
(4) |
无人机基站多播通信系统中的飞行路线在线优化问题可表示成P1
P1:min{qm(t)} D=∑Mm=1TmM |
(5) |
s.t.∫Tm,j0Rm,j(t)dt≥L,∀j∈J,m∈{1,2,⋯,M},Xmin≤xm(t)≤Xmax,∀m∈{1,2,⋯,M}, |
(6) |
Ymin≤ym(t)≤Ymax,∀m∈{1,2,⋯,M}, |
(7) |
0≤‖q′m(t)‖≤Vmax,∀m∈{1,2,⋯,M} |
(8) |
式(5)为目标函数,表示无人机基站完成
强化学习具有高效的自我学习能力,可用于解决无人机通信网络中的优化问题。因此本文将采用强化学习中的算法对无人机基站的飞行路线进行在线优化,接下来将介绍强化学习的理论知识。强化学习以交互目标为导向,将智能体置身于环境中并与其进行交互,在此情境中,给智能体所选择的动作赋予奖赏,以智能体在交互过程中所得到的累计奖赏最大化为目标从而指导其行为[16]。强化学习中的大多数问题都可以转化成马尔可夫决策过程(Markov Decision Process, MDP),因此马尔可夫决策过程是强化学习的基础理论。MDP的基本框架为
Qπ(s,a)=Eπ[Gt|St=s,At=a]=Eπ[∞∑k=0γkRt+k+1|St=s,At=a] |
(9) |
解决一个强化学习问题意味对其找到一个最优策略,其对应的最优动作价值函数可写成
Q∗(s,a)≐maxπqπ(s,a)=E[Rt + 1 + γmaxa′q∗(St+1,a′)|St=s,At=a] |
(10) |
接下来把P1问题进行离散化,将其转化成一个MDP。首先将无人机基站在第
P2:min{qm[n]} N = ∑Mm=1NmM |
(11) |
s.t.Nm,j∑n=1Rm,j[n]⋅δt≥L,∀j∈J,m∈{1,2,⋯,M} |
(12) |
Xmin≤xm[n]≤Xmax,∀m∈{1,2,⋯,M} |
(13) |
Ymin≤ym[n]≤Ymax,∀m∈{1,2,⋯,M} |
(14) |
0≤‖q′m[n]‖≤Vmax,∀m∈{1,2,⋯,M} |
(15) |
式(11)—式(15)为问题P1的离散形式。问题P2所对应的MDP的描述如下:
状态:把无人机基站的位置坐标设置为状态。无人机基站的可飞行的矩形范围
动作:无人机基站的动作集合包括5个动作:向东、向西、向南、向北以及保持当前位置不动。
奖赏:定义为无人机基站在进行通信任务时,当前
rm[n]=min{∑n=1Rm,j[n]⋅δtL⋅Rm,j[n]|j∈J} |
(16) |
本文所提出的无人机飞行路线在线优化问题中,无人机的每个动作不仅影响当前的性能,还会对接下来的状态产生影响。因此本文采用强化学习中的Q-Learning算法对问题进行求解。Q-Learning是一种典型的强化学习中离轨策略下的时序差分算法,可以在每个动作结束之后估计动作价值函数并更新改进策略。Q-Learning中采取的动作策略为
步骤1 初始化探索参数
步骤2
步骤3 随机
步骤4
步骤5
步骤6
步骤7 根据
Q(sn,an)=Q(sn,an)+α[rn+1+γmaxaQ(sn+1,a)−Q(sn,an)]; |
步骤8 重复步骤6和步骤7,直到
步骤9 重复步骤4—步骤8,直到
步骤10 重复步骤2—步骤9,直到
步骤5中的训练参数
在本部分中,利用仿真平台对所提出的飞行路线在线优化算法进行验证,将基于Q-Learning算法的在线优化算法表示为Scheme A,并与另外3种方案进行对比。
Scheme B:无人机基站总是向着当前
Scheme C:与Scheme B相反,无人机基站向着当前
Scheme D:在接收到
无人机基站多播通信系统仿真参数设置如下:无人机基站可飞行的矩形范围为
图2展示了无人机基站两次完成通信任务的训练过程,其中完成通信任务的时间随着训练次数增大而变化。在这两次训练过程中,完成通信任务中的服务对象是不同的地面用户,其位置是随机的。与其他的方案对比,基于Q-Learning算法的在线优化算法能够有效地收敛,并且收敛之后完成通信任务的时间更小。整体来看,随着训练幕数的增加,无人机基站完成通信任务的时间越小;在训练前期可以看到无人机基站完成通信任务的时间大范围震荡,这是因为前期的探索参数
图3和图4展示了基于Q-Learning算法的在线优化设计算法与其他3种方案的无人机基站飞行路线对比图,飞行路线所需的时间与图2中完成两次通信任务时间相对应。图3中图例“Scheme A:n”表示Scheme A方案下无人机基站第n次完成通信任务的飞行路线,“Scheme B:n”等图例与“Scheme A:n”类似。图4是在图3的基础上完成的,其中“Scheme A:n+1”表示Scheme A方案下无人机基站第n+1次完成通信任务的飞行路线。可以看出基于Q-Learning算法的在线优化设计算法比其他方案更加集中于3个地面用户的中央。Scheme A和Scheme D的飞行路线类似,但是对比图2中Scheme A与Scheme D的两次完成通信任务的时间,可以看出Scheme A比Scheme D的完成通信任务的时间更短,因此Scheme A的飞行路线更佳。
图5展示了无人机基站采用不同方案、完成不同通信信息量任务的平均时间对比图,其中完成通信任务的次数为100次。为了更好地对比效果,图5中无人机在不同方案中是完成相同的多个地面用户的通信任务,这是因为不同的地面用户位置可能导致通信任务的完成时间不同。可以看出本文提出的Scheme A方案始终优于其他3种方案,通信任务的信息量越大,Scheme A方案的性能越好。
图6展示了不同方案下的无人机基站完成100个地面用户的通信任务的平均时间,其中每次通信任务的3个地面用户是随机的,对应的通信任务的信息量为
本文针对于无人机基站多播通信系统,为了保证地面用户能够接收到完整的信息以及减少无人机的能量消耗,以最小化完成多播通信任务的时间为目标,提出了基于Q-Learning的无人机飞行路线在线优化算法。仿真结果显示了与其他几种方案对比,所提出的算法能够有效实现无人机基站的飞行路线在线优化。本文的研究证实了强化学习能有效解决无人机基站飞行路线的在线优化问题,加深了我们对在线优化研究的认识。在未来的研究中,有待于将本文考虑的单无人机系统扩展到多个无人机协作多播通信的场景,并将无人机的飞行能耗纳入优化的考虑因素。
[1] |
WU Qingqing, XU Jie, ZENG Yong, et al. A comprehensive overview on 5G-and-beyond networks with UAVs: From communications to sensing and intelligence[J]. IEEE Journal on Selected Areas in Communications, 2021, 39(10): 2912–2945. doi: 10.1109/JSAC.2021.3088681
|
[2] |
LYU Jiangbin, ZENG Yong, and ZHANG Rui. UAV-aided offloading for cellular hotspot[J]. IEEE Transactions on Wireless Communications, 2018, 17(6): 3988–4001. doi: 10.1109/TWC.2018.2818734
|
[3] |
FENG Wanmei, TANG Jie, ZHAO Nan, et al. NOMA-based UAV-aided networks for emergency communications[J]. China Communications, 2020, 17(11): 54–66. doi: 10.23919/JCC.2020.11.005
|
[4] |
ZENG Yong, ZHANG Rui, and LIM T J. Throughput maximization for UAV-enabled mobile relaying systems[J]. IEEE Transactions on Communications, 2016, 64(12): 4983–4996. doi: 10.1109/TCOMM.2016.2611512
|
[5] |
MOZAFFARI M, SAAD W, BENNIS M, et al. Mobile Unmanned Aerial Vehicles (UAVs) for energy-efficient internet of things communications[J]. IEEE Transactions on Wireless Communications, 2017, 16(11): 7574–7589. doi: 10.1109/TWC.2017.2751045
|
[6] |
WANG Zhe, DUAN Lingjie, and ZHANG Rui. Adaptive deployment for UAV-aided communication networks[J]. IEEE Transactions on Wireless Communications, 2019, 18(9): 4531–4543. doi: 10.1109/TWC.2019.2926279
|
[7] |
ZENG Yong, XU Jie, and ZHANG Rui. Energy minimization for wireless communication with rotary-wing UAV[J]. IEEE Transactions on Wireless Communications, 2019, 18(4): 2329–2345. doi: 10.1109/TWC.2019.2902559
|
[8] |
WU Qingqing, ZENG Yong, and ZHANG Rui. Joint trajectory and communication design for multi-UAV enabled wireless networks[J]. IEEE Transactions on Wireless Communications, 2017, 17(3): 2109–2121. doi: 10.1109/TWC.2017.2789293
|
[9] |
LIU Tianyu, CUI Miao, ZHANG Guangchi, et al. 3D trajectory and transmit power optimization for UAV-enabled multi-link relaying systems[J]. IEEE Transactions on Green Communications and Networking, 2021, 5(1): 392–405. doi: 10.1109/TGCN.2020.3048135
|
[10] |
ZENG Yong and XU Xiaoli. Path design for cellular-connected UAV with reinforcement learning[C]. 2019 IEEE Global Communications Conference (GLOBECOM), Waikoloa, USA, 2019: 1–6.
|
[11] |
KHAMIDEHI B and SOUSA E S. Reinforcement learning-based trajectory design for the aerial base stations[C]. The 30th Annual International Symposium on Personal, Indoor and Mobile Radio Communications (PIMRC), Istanbul, Turkey, 2019: 1–6.
|
[12] |
LIU Xiao, LIU Yuanwei, and CHEN Yue. Reinforcement learning in multiple-UAV networks: Deployment and movement design[J]. IEEE Transactions on Vehicular Technology, 2019, 68(8): 8036–8049. doi: 10.1109/TVT.2019.2922849
|
[13] |
SAXENA V, JALDÉN J, and KLESSIG H. Optimal UAV base station trajectories using flow-level models for reinforcement learning[J]. IEEE Transactions on Cognitive Communications and Networking, 2019, 5(4): 1101–1112. doi: 10.1109/TCCN.2019.2948324
|
[14] |
ZENG Yong, XU Xiaoli, and ZHANG Rui. Trajectory design for completion time minimization in UAV-enabled multicasting[J]. IEEE Transactions on Wireless Communications, 2018, 17(4): 2233–2246. doi: 10.1109/TWC.2018.2790401
|
[15] |
GOLDSMITH A. Wireless Communications[M]. Cambridge: Cambridge University Press, 2005: 26–27.
|
[16] |
SUTTON R S and BARTO A G. Reinforcement Learning: An Introduction[M]. Cambridge: MIT Press, 2018: 1–130.
|
[17] |
BELLMAN R. A markovian decision process[J]. Journal of Mathematics and Mechanics, 1957, 6(5): 679–684. doi: 10.1512/iumj.1957.6.56038
|
1. | 刘兴鑫,李君,李正权. SWIPT-D2D通信中基于深度强化学习的资源分配. 电讯技术. 2024(05): 693-701 . ![]() | |
2. | 阮福,吴珊丹. SM2密码算法下信息聚合通信安全认证方法. 计算机仿真. 2024(06): 232-236 . ![]() | |
3. | 陈剑,杨青青,彭艺. 基于MADDPG的无人机辅助通信功率分配算法. 光电子·激光. 2023(03): 306-313 . ![]() | |
4. | 朱晓荣,张文锦,赵凌宇,刘旭,任伟. 基于内容感知的无人机轨迹规划和资源分配联合优化方法. 电子与信息学报. 2023(05): 1644-1650 . ![]() | |
5. | 程登峰,林世忠,尚文迪. 输电线路固定翼无人机多目标巡检线路优化. 自动化仪表. 2023(12): 21-25 . ![]() |