A Decision-making Method for UAV Conflict Detection and Avoidance System
-
摘要: 针对无人机探测与避让(DAA)系统中无人机飞行碰撞避免的决策问题,该文提出一种将无人机系统检测和避免警报逻辑(DAIDALUS)和马尔可夫决策过程(MDP)相结合的方法。DAIDALUS算法的引导逻辑可以根据当前状态空间计算无人机避撞策略,将这些策略作为MDP的动作空间,并设置合适的奖励函数和状态转移概率,建立MDP模型,探究不同折扣因子对无人机飞行避撞过程的影响。仿真结果表明:相比于DAIDALUS,本方法的效率提升27.2%;当折扣因子设置为0.99时,可以平衡长期与短期收益;净空入侵率为5.8%,威胁机与本机最近距离为343 m,该方法可以满足无人机飞行过程中避撞的要求。Abstract:
Objective With the rapid increase in UAV numbers and the growing complexity of airspace environments, Detect-and-Avoid (DAA) technology has become essential for ensuring airspace safety. However, the existing Detection and Avoidance Alerting Logic for Unmanned Aircraft Systems (DAIDALUS) algorithm, while capable of providing basic avoidance strategies, has limitations in handling multi-aircraft conflicts and adapting to dynamic, complex environments. To address these challenges, integrating the DAIDALUS output strategies into the action space of a Markov Decision Process (MDP) model has emerged as a promising approach. By incorporating an MDP framework and designing effective reward functions, it is possible to enhance the efficiency and cost-effectiveness of avoidance strategies while maintaining airspace safety, thereby better meeting the needs of complex airspaces. This research offers an intelligent solution for UAV avoidance in multi-aircraft cooperative environments and provides theoretical support for the coordinated management of shared airspace between UAVs and manned aircraft. Methods The guidance logic of the DAIDALUS algorithm dynamically calculates the UAV’s collision avoidance strategy based on the current state space. These strategies are then used as the action space in an MDP model to achieve autonomous collision avoidance in complex flight environments. The state space in the MDP model includes parameters such as the UAV's position, speed, and heading angle, along with dynamic factors like the relative position and speed of other aircraft or potential threats. The reward function is crucial for ensuring the UAV balances flight efficiency and safety during collision avoidance. It accounts for factors such as success rewards, collision penalties, proximity to target point rewards, and distance penalties to optimize decision-making. Additionally, the discount factor determines the weight of future rewards, balancing the importance of immediate versus future rewards. A lower discount factor typically emphasizes immediate rewards, leading to faster avoidance actions, while a higher discount factor encourages long-term flight safety and resource consumption. Results and Discussions The DAIDALUS algorithm calculates the UAV’s collision avoidance strategy based on the current state space, which then serves as the action space in the MDP model. By defining an appropriate reward function and state transition probabilities, the MDP model is established to explore the impact of different discount factors on collision avoidance. Simulation results show that the optimal flight strategy, calculated through value iteration, is represented by the red trajectory ( Fig. 7 ). The UAV completes its flight in 203 steps, while the comparative experiment trajectory (Fig. 8 ) consists of 279 steps, demonstrating a 27.2% improvement in efficiency. When the discount factor is set to 0.99 (Fig. 9 ,Fig. 10 ), the UAV selects a path that balances immediate and long-term safety, effectively avoiding potential collision risks. The airspace intrusion rate is 5.8% (Fig. 11 ,Fig. 12 ), with the closest distance between the threat aircraft and the UAV being 343 meters, which meets the safety requirements for UAV operations.Conclusions This paper addresses the challenge of UAV collision avoidance in complex environments by integrating the DAIDALUS algorithm with a Markov Decision Process model. The proposed decision-making method enhances the DAIDALUS algorithm by using its guidance strategies as the action space in the MDP. The method is evaluated through multi-aircraft conflict simulations, and the results show that: (1) The proposed method improves efficiency by 27.2% over the DAIDALUS algorithm; (2) Long-term and short-term rewards are considered by selecting a discount factor of 0.99 based on the relationship between the discount factor and reward values at each time step; (3) In multi-aircraft conflict scenarios, the UAV effectively handles various conflicts and maintains a safe distance from threat aircraft, with a clear airspace intrusion rate of only 5.8%. However, this study only considers ideal perception capabilities, and real-world flight conditions, including sensor noise and environmental variability, should be accounted for in future work. -
Key words:
- UAV systems /
- Detect and Avoid (DAA) /
- Markov Decision Process (MDP) /
- Reward function
-
1. 引言
近年来,随着低空经济的发展和无人机技术的越发成熟,空域资源需求越来越大,未来空域将日趋密集,文献[1]提出无人机和有人机共享空域的复杂空中态势。目前无人机自身具备的避撞规划功能有限,难以满足将来可能面对的各个领域的复杂任务,反而会造成很多无人机的碰撞事故。
检测与规避(DAA)是无人机系统中的一个关键概念,DAA系统的目标是通过使用传感器和算法来检测潜在的冲突或碰撞,并采取适当的措施,以规避威胁。文献[2–5]系统地介绍了感知、决策和航路规划系统的组成和功能。DAIDALUS算法是由美国国家航空航天局(National Aeronautics and Space Administration, NASA)根据DAA系统的要求,总结出的一种用于无人机系统的冲突避免算法,文献[6–8]对该算法进行了详细介绍。该算法以减小风险、防止碰撞为目标,实现无人机在各种复杂环境下的自主安全运行。文献[9–11]对算法的探测、告警和引导3大逻辑进行了详细的描述。
很多学者对有关防撞算法的决策策略进行研究,文献[12]使用决策树算法对无人机数据集进行处理,形成有效的机动决策预测集。文献[13]基于进化博弈论,研究有限通信网络下无人机群体任务过程中的行为决策选择问题。但是这些算法在处理不确定性、随机性或者长期规划的问题时,存在较高的数据依赖性和计算效率等缺点。
文献[14,15]中介绍强化学习(Reinforcement Learning, RL)是机器学习的一个重要分支,主要用于训练智能体通过与环境的交互来优化其行为策略,以最大化累积奖励。马尔可夫决策过程是一种强化学习问题建模的方法。文献[16,17]基于马尔可夫决策过程和机载防撞系统(Airborne Collision Avoidance System X, ACAS X)提出了关于无人机的冲突解脱算法。文献[18]基于已有的冲突解脱算法,使用动态规划算法进行优化,并提出了一种在部分可观马尔可夫决策过程中的模型检测方法。文献[19,20]提出了一种深度强化学习方法,设置多智能体,分别进行路径跟踪、避障和轨迹规划。文献[21,22]基于强化学习方法设计了无人机SAA中的决策机制,用动态规划求出最优策略。这些研究为无人机防撞算法的决策策略进行研究和优化。但是这些算法大多是通过建立离线代价表的方式实现无人机的避撞,需要不断更新以适应新的飞行数据和环境,在实时性和灵活性上不如实时计算系统。
DAIDALUS算法的决策是基于局部信息进行的,仅考虑了当前飞行器周围的局部环境。这可能导致算法陷入局部最优解,而无法找到全局最优的碰撞避免策略。马尔可夫决策过程能够找到全局最优解,能有效地搜索最佳策略。
本文将用MDP算法解决DAIDALUS算法在无人机飞行过程中的避撞决策问题。在每个时间步利用DAIDALUS系统生成的指导策略定义MDP的动作空间,减少动作空间,降低MDP迭代的次数,并设计奖励函数,通过仿真实验验证其效果。
2. 无人机探测与避让方法
2.1 DAIDALUS算法概述
DAIDALUS算法对入侵机进行净空入侵判断,能够给地面操作人员提供交通信息、机动引导信息,达到避免无人机的净空区域受到入侵或者恢复净空区域的目的。
对DAIDALUS算法的大致描述如下:DAIDALUS算法的运行首先需要传感器数据和无人机的性能参数作为输入。在经过数据预处理后,计算入侵机和本机之间的水平和垂直距离,并预测两机相遇的时间,对入侵机进行净空入侵判断。根据入侵机飞行状态和净空入侵的严重程度确定警报等级。并输出无人机指导信息。算法的流程图如图1所示。
2.2 净空模型
DO-365B中规定:净空区域是指在飞行器周围的圆柱形空间,其范围由水平和垂直维度上的最小安全分离距离确定。在水平和垂直维度上,净空区域的最小分离距离分别约为
1219 m和137 m,并设置213 m为交通咨询警告阈值。当一架飞机超过这些水平或垂直分离距离的阈值时,就会发生净空入侵。净空模型如图2所示。假设有本机和入侵机两类无人机。本机的水平位置和速度分别为so和vo,它的高度和垂直速度分别表示为soz和voz;入侵机的水平位置和速度分别表示为si和vi,它的高度和垂直速度分别表示为siz和viz;飞机的水平相对位置和速度分别表示为s=so−si,v=vo−vi,飞机的垂直相对位置和速度分别为sz=soz−siz,vz=voz−viz。
假定水平相对速度恒定,两机之间在任意t时刻的水平距离为
r(t)=||s+tv||=√s2+2t(s⋅v)+t2v2 (1) 到达两机最接近点的时间tcpa为
tcpa(s,v)={−svv2,v≠00,v=0 (2) 到达两机最接近点的距离dcpa为
dcpa(s,v)=‖ (3) 任意t时刻两机之间的相对高度为
{r_z}(t) = |{s_z} + t{v_z}| (4) 达到相同高度的时间为
{t_{{\mathrm{coa}}}} = ({s_z},{v_z}) = \left\{ \begin{gathered} - \frac{{{s_z}}}{{{v_z}}},\; {s_z} \cdot {v_z} < 0 \\ - 1,\; {s_z} \cdot {v_z} \ge 0 \end{gathered} \right. (5) 为了更接近实际,要对时间值进行修正,时间修正值 {t_{{\mathrm{mod}}}}(s,v) 为
{t_{{\mathrm{mod}}}}(s,v) = \left\{ \begin{aligned} & {\frac{{{D_{{\mathrm{THR}}}}^2 - {s^2}}}{{s \cdot v}} ,\;s \cdot v < 0} \\ & { - 1 ,\;\qquad\qquad s \cdot v \ge 0} \end{aligned} \right. (6) 其中,{D_{{\mathrm{THR}}}} = 1\;219\;{\mathrm{m}},为水平距离门限值。
2.3 核心逻辑
2.3.1 探测逻辑
无人机的探测逻辑通过传感器,实时采集周围环境和飞行器状态数据。通常将空域分为水平和垂直方向,分别预测飞机的飞行轨迹,并通过预先给定的一组阈值判断该时间间隔内两个方向是否存在净空入侵。在净空模型的基础上,需要进行净空入侵的判断
\left. \begin{gathered} 0 \le {t_{{\text{mod}}}} \le t_{{\text{mod}}}^* \\ {H_{{\text{MD}}}} \le {H_{{\text{MD}}}}^* \\ - {h^*} \le {d_h} \le {h^*} \\ \end{gathered} \right\} (7) 奖励函数设计的好坏是无人机是否能够有效完成自主规避行为的重点。该奖励函数采用多方面引导主要包括4个部分,分别为训练成功奖励、碰撞惩罚、靠近目标点奖励和距离惩罚。
2.3.2 告警逻辑
告警逻辑提供了关于入侵机与本机之间接近程度的严重性指示,用k表示警报级别, 0~3分别对应的无告警、预防级、纠正级和警报级4个警报级别如表1所示。
表 1 警报参数表警报级别 水平分离距离(m) 垂直分离距离(m) 平均警报时间(s) 无告警 > 1219 >213 >55 预防级 1219 213 55 纠正级 1219 137 55 警报级 1219 137 25 2.3.3 引导逻辑
DAIDALUS算法的引导逻辑是在飞行中确保无人机能够有效应对潜在的碰撞威胁,以维护飞行安全的核心部分。
在探测逻辑的基础上,系统将制定适当的决策,以调整无人机的航向、速度和高度等参数,重新规划飞行路径。这种路径规划过程考虑了无人机的目标和约束条件,以最大限度地确保飞行安全。DAIDALUS算法的建议动作包括改变速度大小、改变航向和改变高度。
3. 基于DAIDALUS算法的MDP模型建立
马尔可夫决策过程主要用于描述一个智能体在与环境交互的过程中,如何做出决策以达到某种目标。基本框架如图3所示。
MDP通常由一个5元组组成
< {\boldsymbol{S}},{\boldsymbol{A}},P,R,\varUpsilon > (8) {\boldsymbol{S}} 表示状态空间, {\boldsymbol{A}} 表示动作空间, P 表示状态转移概率, R 是奖励函数, \varUpsilon 表示折扣因子。各个状态之间的转换示意图如图4所示
当将DAIDALUS算法输出的指导策略作为与马尔可夫决策过程的动作空间时,可以将其看作一个智能飞行器决策系统,旨在飞行中实时预测碰撞风险并优化飞行路径,以确保飞行器的安全性和效率性。
3.1 状态空间
状态空间中包含了无人机当前的位置、速度和方向信息。通过无人机传感器感知周围环境中其他飞行器和障碍物的位置和状态,以及与其相关的碰撞风险信息。这些信息组成了一个状态向量
{{\boldsymbol{S}}_t} = {[{x_t},{y_t},{z_t},{v_{th}},{v_{tv}},{\rm{hea}}{{\rm{d}}_t},{{\boldsymbol{O}}_t},{w_t}]^{\mathrm{T}}} (9) 其中, {x_t},{y_t},{z_t} 分别表示在t时刻本机的经度纬度和高度坐标; {v_{th}},{v_{tv}} 分别表示无人机在t时刻的水平、垂直速度; {\text{hea}}{{\text{d}}_t} 表示本机的方向; {{\boldsymbol{O}}_t} 表示障碍物或者威胁机的状态信息;由于DAIDALUS算法需要风速等外部环境信息的输入,用 {w_t} 表示t时刻的风状态。
则状态空间可以表示为
{\boldsymbol{S}} = \{ {{\boldsymbol{S}}_1},{{\boldsymbol{S}}_2}, \cdots ,{{\boldsymbol{S}}_n}\} (10) 其中,n为状态个数。
对坐标系进行离散化,根据无人机的实际位置将其归类到最近的网格单元格中。
3.2 动作空间
将DAIDALUS算法的输出作为动作空间,飞行器可以直接采取DAIDALUS算法建议的动作,从而避免了在MDP中显式地定义动作空间。
将DAIDALUS算法的建议动作进行合并、简化,以优化动作空间。DAIDALUS的规避策略映射到无人机的6个基本动作,动作集合为
{{\boldsymbol{A}}^*} = \{ {a_{{\mathrm{le}}}},{a_{{\mathrm{ri}}}},{a_{{\mathrm{up}}}},{a_{{\mathrm{do}}}},{a_{{\mathrm{ac}}}},{a_{{\mathrm{de}}}}\} (11) 分别表示无人机在飞行过程中加速、减速飞行、左转、右转、增加和减少飞行高度。
DAIDALUS规避策略与无人机动作空间映射关系如表2所示。
表 2 规避策略-无人机动作集合映射表DAIDALUS规避策略 无人机动作 改变航向 - 向左转 左移 改变航向 - 向右转 右移 改变高度 - 上升 上升 改变高度 - 下降 下降 改变速度 – 加速 前进加速 改变速度 – 减速 前进减速 {{\boldsymbol{A}}^*} 只表示的是动作集合,在t时刻的动作集 {\boldsymbol{A}} 是否包含 {{\boldsymbol{A}}^*} 中某一元素,是由DAIDALUS根据状态空间 {{\boldsymbol{S}}_t} 计算所得。 {{\boldsymbol{A}}^*} 与 {\boldsymbol{A}} 的关系为
{\boldsymbol{A}} \subseteq {{\boldsymbol{A}}^*} (12) 基于动态调整的动作空间,状态转移概率和状态转移矩阵都需要随之调整。
3.3 状态转移概率
状态转移概率需要满足某些约束条件,其中最基本的一个是对任意状态s和动作a,转移到所有可能的下一状态的概率之和应为1。这可以用数学公式表示为
\sum\limits_{{s^\prime }} P \left( {{s^\prime }\mid s,a} \right) = 1 (13) 假设状态 {s^{\prime \prime }} 为已选择动作对应的状态,考虑到状态转移的不确定性,状态s转移到状态 {s^{\prime \prime }} 的概率 P\left( {{s^{\prime \prime }}\mid s,a} \right) 表示为
P\left( {{s^{\prime \prime }}\mid s,a} \right) = 1 - \sum\limits_{{s^\prime } \ne {s^{\prime \prime }}} P \left( {{s^\prime }\mid s,a} \right) (14) 3.4 奖励函数
奖励函数设计的好坏是无人机是否能够有效完成自主规避行为的重点。该奖励函数采用多方面引导主要包括4个部分,分别为训练成功奖励、碰撞惩罚、靠近目标点奖励和距离惩罚。
训练成功奖励用于奖励无人机到达目的地,可以表示为
{r_{\mathrm{s}}} = {K_{\mathrm{s}}}{d_{\mathrm{s}}} (15) 其中, {r_{\mathrm{s}}} 表示训练成功奖励, {K_{\mathrm{s}}} 为系数, {d_{\mathrm{s}}} 表示无人机是否到达目的地,默认为0,当无人机与目标之间的距离小于某一距离阈值,则可以认为无人机到达目的地,此时 {d_{\mathrm{s}}} 为1。
碰撞惩罚能够引导无人机规避威胁机或者障碍物,设置碰撞惩罚 {r_{\mathrm{c}}} 为
{r_{\mathrm{c}}} = {K_{\mathrm{c}}}{d_{\mathrm{c}}} (16) 其中, {d_{\mathrm{c}}} 表示无人机是否发生碰撞,默认为0,发生碰撞时,设置为1, {K_{\mathrm{c}}} 为系数。
靠近目标点奖励用于奖励无人机靠近目标点,用公式表示为
{r_{\mathrm{d}}} = \frac{{{K_{\mathrm{t}}}}}{{{d_{\mathrm{d}}}}} (17) 其中, {d_{\mathrm{d}}} 表示距离终点距离, {K_{\mathrm{t}}} 为系数。
无人机在飞行过程中,接近威胁机或障碍物在采取动作避让显然是耗时和低效的,而且在速度较快的情况下,容易发生碰撞。距离惩罚用来表示无人机飞行路径是否合理,惩罚无人机与威胁机或障碍物距离过近的情况。根据上文探测逻辑所获得的本机与威胁机或障碍物坐标,可求得无人机与威胁机或障碍物的距离 D(s) ,进而求得奖励函数
{r_l} = {\text{exp}}(aD(s)) (18) 其中, a 是调节参数。
综上所述,奖励函数由上述4个部分加和,最终的表达式如式(20)所示
\begin{split} r = \;&{r_{\mathrm{s}}} - {r_{\mathrm{c}}} + {r_{\mathrm{d}}} - {r_{\mathrm{l}}} \\ = \;&{K_{\mathrm{s}}}{d_{\mathrm{s}}} - {K_{\mathrm{c}}}{d_{\mathrm{c}}} + \frac{{{K_{\mathrm{t}}}}}{{{d_{\mathrm{d}}}}} - {\text{exp}}(aD(s)) \end{split} (19) 3.5 折扣因子
折扣因子通常用 \varUpsilon 表示,取值范围在0到1之间,用来决定未来奖励在当前决策中的重要性。 \varUpsilon 越大,表示模型更加关注长期奖励。具体来说,未来的奖励会被按时间递减的方式折扣。例如,在时间步t获得的奖励为 {\varUpsilon ^t}r 。
制定MDP模型的目标是找到一个最优的操作序列,该序列指定在每个时间步骤应该采取何种操作,以最大化从时间步骤1到最大时间步骤N的累计奖励
R = \max \sum\limits_{n = 1}^N {{\varUpsilon ^n}r_{{s^{(n - 1)}},{s^{(n)}}}^{\left( {{a_n}} \right)}} (20) 其中,a是在时间步长 n - 1 到n时采取的动作, {\varUpsilon ^n}r_{{s^{(n - 1)}},{s^{(n)}}}^{\left( {{a_n}} \right)} 为动作的奖励。
贝尔曼方程表达了当前状态的值与未来状态值之间的关系,从而可以用来计算或更新值函数的估计值。在策略 \pi 下,状态s的贝尔曼方程可以表示为
{V^a}(s) = \sum\limits_{a \in A} {\left[ {r(s,a) + g\sum\limits_{{s^{'}} \in S} P \left( {{s}\mid s,a} \right){V^{a}}\left( {{s^{'}}} \right)} \right]} (21) 4. 仿真验证与分析
4.1 仿真场景及参数设置
4.1.1 仿真环境介绍
在进行仿真时,本机和威胁机的位置状态信息可以分别用 GNSS (Global Navigation Satellite System)信号模拟器和无人机ADS-B(Automatic Dependent Surveillance-Broadcast)信号模拟系统生成。GNSS信号模拟器能够设置虚拟的无人机飞行轨迹,生成所需GNSS信号。无人机ADS-B信号模拟系统能够模拟ADS-B信号,通过广播式交通信息服务(Traffic Information Service – Broadcast, TIS-B)设备将ADS-B数据发送出去。
将数据接入DAIDALUS算法后,输出避让策略,再通过MDP算法进行决策。仿真环境的结构如图5所示。
4.1.2 场景设计
为了对MDP模型进行验证,设置一个多飞行器共存的空中交通环境,其中本机能够实时检测潜在冲突并生成指导建议,威胁机不具备实时冲突检测和规避的能力。假设在经度、纬度和高度分别为(36, 116.45, 0)到(36.15, 116.6, 400)的空域范围中,存在一架本机以及4架威胁机,本机用UAV0表示,飞行轨迹列出了起点及终点。威胁机分别用UAV1-UAV4表示,包括起点、终点以及航路点。无人机的飞行轨迹设计如表3所示。
表 3 飞行轨迹设计表无人机 飞行航路点 飞行高度(m) UAV0 36.03,116.46;36.13,116.57 UAV1 36.04,116.59;36.09,116.52; 36.13,116.46; 200 UAV2 36,116.45;36.07,116.5; 36.12,116.58; 180 UAV3 36.10,116.45;36.08,116.51; 36,116.55; 220 UAV4 36.15,116.48;36.05,116.5; 36.00,116.51; 200 威胁机的飞行轨迹散点图如图6所示。
4.1.3 参数设计
根据所设置的飞行计划,假设地球是一个球体,根据公式:
\left. \begin{gathered} {L_\varphi } = R \times \Delta \varphi \\ {L_\lambda } = R \times \Delta \lambda \times \cos(\varphi ) \\ \end{gathered} \right\} (22) 其中, \Delta \varphi 和 \Delta \lambda 分别为纬度和经度之差, {L_\varphi } 和 {L_\lambda } 分别为纬度和经度上的距离, R 为地球平均半径
6371 km, \varphi 为纬度。计算出空域的长宽分别为16.7 km和13.5 km,将状态空间进行等距离散化。考虑到状态转移的不确定性,设置转移到未选择动作对应的状态概率为0.05,已选择动作对应的状态概率为1 - 0.05(k - 1),其中k为本次状态转移时的动作个数。设计的参数如表4所示。
表 4 参数设计表参数名称 参数值 3维状态空间离散化宽度 100 m, 100 m, 100 m 状态转移概率 0.05, 1–0.05(k–1) 训练成功奖励系数 20 碰撞惩罚系数 20 距离惩罚系数 0.1 靠近目标点奖励系数 1 折扣因子 0.98, 0.95, 0.9 4.2 仿真结果与分析
4.2.1 值迭代
值迭代的核心思想是通过迭代更新状态值函数的估计值来逼近最优值函数,然后根据最优值函数提取最优策略。在算法中,首先初始化状态值函数的估计值,然后根据贝尔曼最优方程逐步更新状态值函数的估计值,直到收敛到最优值函数,最后根据最优值函数提取最优策略。
4.2.2 效率分析
本方法与DAIDALUS算法相比,在效率上有较大的优势,用DAIDALUS算法和基于MDP的DALDALUS算法分别对上文所设计的场景求解,通过值迭代计算出的最优飞行策略如图7的红色轨迹所示,无人机从起点到达终点的飞行步数为203步,对比实验的运行轨迹如图8中黄色轨迹所示。飞行步数为279步,两种方法本机与威胁机在飞行过程中均没有发生碰撞。
DAIDALUS算法通常专注于即时的避撞,在处理突发情况的时候有较高的反应速度,然而,它缺少全局优化的能力。基于MDP的DAIDALUS算法长期规划能力和奖励函数的设计,MDP可以在保证安全性的同时优化效率,通过本次实验的对比,本文方法在效率上提高了27.2%。
4.2.3 安全性分析
不同折扣因子下的每一个时间步的奖励和累计奖励分别如图9和图10所示。在 \varUpsilon = 0.95 和 \varUpsilon = 0.9 时,步数较大的情况下,奖励几乎为0,忽略了长期收益。当 \varUpsilon = 0.99 时,无人机选择了现在与未来都比较安全的路径,平衡了长期与短期的收益值,以避免潜在的碰撞风险。
无人机飞行过程中,本机与威胁机的距离变化如图11所示,本机与威胁机的距离都经历由大到小再变大的过程。本机及时采取策略,避免与威胁机靠近。
本机与最近威胁机的距离变化如图12所示,图中黑线表示距离变化,红线表示距离阈值,当小于该阈值时,表示无人机的净空区域被入侵。在比较密集的空域下,净空入侵率为5.8%,威胁机与本机最近距离为343 m。可以满足无人机安全飞行的要求。
5. 结束语
本文针对无人机在复杂的环境中飞行碰撞规避的问题,详细介绍DAIDALUS算法。提出了一种将DAIDALUS算法与马尔可夫决策过程相结合的决策方法,将DAIDALUS算法的指导策略作为MDP的动作空间,建立MDP模型。设计多机冲突的仿真场景,仿真结果表明:(1)通过对比实验,反映出本方法在效率上相较于DAIDALUS算法的优越性,在效率上提高了27.2%;(2)综合考虑了长期与短期收益,通过对比折扣因子的取值与各时间步奖励值的关系,最终选取折扣因子为0.99;(3)在多机冲突场景下,本方法能够使无人机应对多种冲突,与威胁机保持较远的安全距离,净空入侵率仅为5.8%。
但本文的仿真只考虑算法的感知功能在理想的情况,在实际飞行中,需要综合考虑存在各种不确定性,如传感器噪声、环境变化等因素。
-
表 1 警报参数表
警报级别 水平分离距离(m) 垂直分离距离(m) 平均警报时间(s) 无告警 > 1219 >213 >55 预防级 1219 213 55 纠正级 1219 137 55 警报级 1219 137 25 表 2 规避策略-无人机动作集合映射表
DAIDALUS规避策略 无人机动作 改变航向 - 向左转 左移 改变航向 - 向右转 右移 改变高度 - 上升 上升 改变高度 - 下降 下降 改变速度 – 加速 前进加速 改变速度 – 减速 前进减速 表 3 飞行轨迹设计表
无人机 飞行航路点 飞行高度(m) UAV0 36.03,116.46;36.13,116.57 UAV1 36.04,116.59;36.09,116.52; 36.13,116.46; 200 UAV2 36,116.45;36.07,116.5; 36.12,116.58; 180 UAV3 36.10,116.45;36.08,116.51; 36,116.55; 220 UAV4 36.15,116.48;36.05,116.5; 36.00,116.51; 200 表 4 参数设计表
参数名称 参数值 3维状态空间离散化宽度 100 m, 100 m, 100 m 状态转移概率 0.05, 1–0.05(k–1) 训练成功奖励系数 20 碰撞惩罚系数 20 距离惩罚系数 0.1 靠近目标点奖励系数 1 折扣因子 0.98, 0.95, 0.9 -
[1] DIEZ-TOMILLO J, ALCARAZ-CALERO J M, and WANG Qi. Face verification algorithms for UAV applications: An empirical comparative analysis[J]. Journal of Communications Software and Systems, 2024, 20(1): 1–12. doi: 10.24138/JCOMSS-2023-0165. [2] OMERI M, ISUFAJ R, and ORTIZ R M. Quantifying well clear for autonomous small UAS[J]. IEEE Access, 2022, 10: 68365–68383. doi: 10.1109/ACCESS.2022.3186025. [3] KURU K, PINDER J M, JON WATKINSON B, et al. Toward mid-air collision-free trajectory for autonomous and pilot-controlled unmanned aerial vehicles[J]. IEEE Access, 2023, 11: 100323–100342. doi: 10.1109/ACCESS.2023.3314504. [4] INCE B, MARTINEZ V C, SELVAM P K, et al. Sense and avoid considerations for safe sUAS operations in urban environments[J]. IEEE Aerospace and Electronic Systems Magazine, 2024, 5(7): 1–16. doi: 10.1109/MAES.2024.3397269. [5] LEE S, WU M G, and CONE A C. Evaluating noncooperative detect-and-avoid well clear definitions with alerting performance and surveillance requirement[J]. Journal of Air Transportation, 2021, 29(4): 171–183. doi: 10.2514/1.D0246. [6] RTCA. RTCA DO-365B Minimum Operational Performance Standards (MOPS) for detect and avoid (DAA) systems[S]. Washington: RTCA, 2021. [7] BERNARDES FERNANDES FERREIRA N, MOSCATO M, TITOLO L, et al. A provably correct floating-point implementation of well clear avionics concepts[C]. The 23rd Conference on Formal Methods in Computer-Aided Design, Wien, Austria, 2023: 37–46. doi: 10.34727/2023/isbn.978-3-85448-060-0_32. [8] RYU J Y, LEE H, and LEE H T. Detect and avoid AI system model using a deep neural network[C]. 2022 IEEE/AIAA 41st Digital Avionics Systems Conference, Portsmouth, USA, 2022: 1–8. doi: 10.1109/DASC55683.2022.9925767. [9] 高雅琪. 无人机系统中DAA模块的研究和设计实现[D]. [硕士论文], 电子科技大学, 2022. doi: 10.27005/d.cnki.gdzku.2022.003399.GAO Yaqi. Research design and implementation on DAA module of UAV system[D]. [Master dissertation], University of Electronic Science and Technology of China, 2022. doi: 10.27005/d.cnki.gdzku.2022.003399. [10] DE OLIVEIRA Í R, MATSUMOTO T, MAYNE A, et al. Analyzing the closed-loop performance of detect-and-avoid systems[C]. 2023 IEEE 26th International Conference on Intelligent Transportation Systems, Bilbao, Spain, 2023: 4947–4952. doi: 10.1109/ITSC57777.2023.10422365. [11] 赵柠霄. 无人机探测与避撞系统告警和引导逻辑的研究[D]. [硕士论文], 电子科技大学, 2023. doi: 10.27005/d.cnki.gdzku.2023.005879.ZHAO Ningxiao. Research on warning and guidance logic in detect and avoid of UAV[D]. [Master dissertation], University of Electronic Science and Technology of China, 2023. doi: 10.27005/d.cnki.gdzku.2023.005879. [12] LIU Haotian, JIN Jiangfeng, LIU Kun, et al. Research on UAV air combat maneuver decision based on decision tree CART algorithm[M]. FU Wenxing, GU Mancang, and NIU Yifeng. Proceedings of 2022 International Conference on Autonomous Unmanned Systems (ICAUS 2022). Singapore, Singapore: Springer, 2023: 2638–2650. doi: 10.1007/978-981-99-0479-2_243. [13] HU Shiguang, RU Le, LV Maolong, et al. Evolutionary game analysis of behaviour strategy for UAV swarm in communication-constrained environments[J]. IET Control Theory & Applications, 2024, 18(3): 350–363. doi: 10.1049/cth2.12602. [14] CHANG Zheng, DENG Hengwei, YOU Li, et al. Trajectory design and resource allocation for multi-UAV networks: Deep reinforcement learning approaches[J]. IEEE Transactions on Network Science and Engineering, 2023, 10(5): 2940–2951. doi: 10.1109/TNSE.2022.3171600. [15] SHEN Yang, WANG Xianbing, WANG Huajun, et al. A dynamic task assignment model for aviation emergency rescue based on multi-agent reinforcement learning[J]. Journal of Safety Science and Resilience, 2023, 4(3): 284–293. doi: 10.1016/J.JNLSSR.2023.06.001. [16] KATZ S M, ALVAREZ L E, OWEN M, et al. Collision risk and operational impact of speed change advisories as aircraft collision avoidance maneuvers[C]. The AIAA AVIATION 2022 Forum, Chicago, USA, 2022: 3824. doi: 10.2514/6.2022-3824. [17] 王允钊. 机载防撞系统ACAS X中TRM模块的设计与实现[D]. [硕士论文], 电子科技大学, 2021.WANG Yunzhao. Design and implementation of TRM module in airborne collision avoidance system X[D]. [Master dissertation], University of Electronic Science and Technology of China, 2021. [18] HE Donglin, YANG Youzhi, DENG Shengji, et al. Comparison of collision avoidance logic between ACAS X and TCAS II in general aviation flight[C]. 2023 IEEE 5th International Conference on Civil Aviation Safety and Information Technology, Dali, China, 2023: 568–573. doi: 10.1109/ICCASIT58768.2023.10351533. [19] RUBÍ B, MORCEGO B, and PÉREZ R. Quadrotor path following and reactive obstacle avoidance with deep reinforcement learning[J]. Journal of Intelligent & Robotic Systems, 2021, 103(4): 62. doi: 10.1007/s10846-021-01491-2. [20] KATZ S M, JULIAN K D, STRONG C A, et al. Generating probabilistic safety guarantees for neural network controllers[J]. Machine Learning, 2023, 112(8): 2903–2931. doi: 10.1007/s10994-021-06065-9. [21] MOON C and AHN J. Markov decision process-based potential field technique for UAV planning[J]. Journal of the Korean Society for Industrial and Applied Mathematics, 2021, 25(4): 149–161. doi: 10.12941/jksiam.2021.25.149. [22] LI Ming, BAI He, and KRISHNAMURTHI N. A Markov decision process for the interaction between autonomous collision avoidance and delayed pilot commands[J]. IFAC-PapersOnLine, 2019, 51(34): 378–383. doi: 10.1016/j.ifacol.2019.01.012. -