Reinforcement Learning Control Strategy of Quadrotor Unmanned Aerial Vehicles Based on Linear Filter

He’an HUA; Yongchun FANG; Chen QIAN; Xuetao ZHANG

doi:10.11999/JEIT210251

Volume 43 Issue 12

Dec. 2021

Turn off MathJax

Article Contents

Article Navigation > Journal of Electronics & Information Technology > 2021 > 43(12): 3407-3417

Zhang Rui, Liu Ji-qiang, Zhao Jia. An ID-based Key Pre-distribution Scheme for Wireless Sensor Networks[J]. Journal of Electronics & Information Technology, 2009, 31(4): 929-932. doi: 10.3724/SP.J.1146.2007.02010

Citation:

He’an HUA, Yongchun FANG, Chen QIAN, Xuetao ZHANG. Reinforcement Learning Control Strategy of Quadrotor Unmanned Aerial Vehicles Based on Linear Filter[J]. Journal of Electronics & Information Technology, 2021, 43(12): 3407-3417. doi: 10.11999/JEIT210251

Citation:

PDF( 3447 KB)

Reinforcement Learning Control Strategy of Quadrotor Unmanned Aerial Vehicles Based on Linear Filter

doi: 10.11999/JEIT210251

1.
College of Artificial Intelligence, Nankai University, Tianjin 300350, China
2.
Intelligent Robotic Laboratory, Dalian University of Technology, Dalian 116024, China

Funds: The National Natural Science Foundation of China (61873132, 61633012)

Received Date: 2021-03-26
Rev Recd Date: 2021-10-20

Available Online: 2021-10-27

Publish Date: 2021-12-21

Abstract

Abstract

In this paper, based on linear filter, a deep Reinforcement Learning (RL) strategy is proposed, then a novel intelligent control method is put forward for quadrotor Unmanned Aerial Vehicles (UAVs), which improves effectively the robustness against disturbance and unmodeled dynamics. First of all, based on linear reduced-order filtering technology, filter variables with fewer dimensions are designed as the input of the deep network, which reduces the exploration space of the strategy and improves the exploration efficiency. On this basis, to enhance strategy perception of steady-state errors, the filter variables and integration terms are combined to design the lumped error as the new network input, which improves the positioning accuracy of quadrotor UAVs. The novelty of this paper lies in that it is the first intelligent approach based on linear filtering technology, to eliminate successfully the influence of unknown disturbance and unmodeled dynamics of quadrotor UAVs, which improves the positioning accuracy. The results of comparative experiments show the effectiveness of the proposed method in terms of improving positioning accuracy and enhancing robustness.
- Quadrotor Unmanned Aerial Vehicles (UAVs),
- Intelligent control,
- Reinforcement Learning(RL),
- Unknown disturbance

FullText(HTML)

1. 引言

近年来，人类与机器人从独立的个体发展到共同协作，大大提高了工作效率。人机交互不仅提高了机器的灵活性，也可以使人类在不可到达或有危害的环境中工作。脑机接口(Brain Computer Interface, BCI)就是指无需通过外周神经和肌肉组织，可快速直接将大脑信号转换成控制外部设备的命令，为人机融合提供了一条实现通道，进一步提高了人机协作效率。基于稳态视觉诱发电位(Steady-State Visual Evoked Potential, SSVEP)的BCI由于其稳定、无需受试者训练并且具有较高的信息传输速率和准确率等特点而被广泛研究。可通过设置多种的视觉闪烁刺激频率来增加SSVEP信号类别，从而构建丰富的指令集，辅助机器完成多种操作^[1,2]。因此，提高SSVEP信号识别准确率和信息传输率仍是基于SSVEP信号的BCI系统的研究重点。

SSVEP信号分类常用的方法主要是基于典型相关分析方法(Canonical Correlation Analysis, CCA)^[3]，并以此为基础，衍生出各种改进算法^[4-7]。2015年Chen等人^[4]针对CCA方法在处理SSVEP信号中频谱谐波成分利用不足提出了滤波器组典型相关分析方法(Filter Bank Canonical Correlation Analysis, FBCCA)，增强了频率信息。由于CCA方法并未考虑到SSVEP信号的相位信息，2018年Nakanishi等人^[5]提出了提取任务相关成分方法(Task-Related Component Analysis, TRCA)，最大化重现多个试次间与任务相关的数据，从而提高了信噪比，并抑制自发脑电的干扰，目前该方法也是SSVEP信号识别最流行的方法之一。然而基于CCA算法作为无监督的频率识别方法，非常容易受到噪声干扰，在短时长或具有较多刺激目标的SSVEP信号分类中性能急剧下降，且TRCA算法在未锁相的异步处理的SSVEP信号分类中表现不佳^[8,9]。2018年，Waytowich等人^[8]提出了一种紧凑型卷积神经网络结构(Convolutional Neural Network, CNN)能够识别任何时间的任何刺激SSVEP信号，且识别准确率明显优于CCA方法和组合CCA方法。在现有的研究中，由于SSVEP信号在频域中的信号特征更加显著，因此通常先将SSVEP时域信号转换到频域中进行特征提取，再结合神经网络强大的自动特征提取能力，进一步提升了SSVEP信号分类的性能。Cecotti^[10]将卷积神经网络应用于SSVEP脑电信号的分类，在该卷积网络架构的两个隐藏层之间包含快速傅里叶变换，将SSVEP脑电信号从时域转化到频域。Nguyen等人^[11]分析了5个不同视觉闪烁刺激频率的SSVEP信号，采用基于FFT特征的两种组合方式作为CNN网络的输入，获得了更高的准确率。Kwak等人^[12]在静立和移动两种情况下测量脑控外骨骼的SSVEP信号，通过FFT将其转为频域表达并结合CNN网络进行解码。Ravi等人^[9]为了弥补相位信息的缺乏以2维空间横向拼接频域变换后的实部信息和虚部信息作为神经网络的输入。林艳飞等人^[13]纵向交叉排列频域特征信息，设计了相位学习及频率增强分类网络，提高SSVEP信号的分类效果。然而，目前SSVEP信号分类方法仅考虑了频率域中的幅度和相位特征，但由于个体差异性导致每个受试者对刺激的反应起始时间和刺激反应时长均有所不同，所以在短时窗口的SSVEP信号分类中仍存在特征信息提取不充分问题，从而导致系统稳定性和识别准确率均有所下降。

因此，本文提出一种多尺度1维卷积神经网络结构(Multi-Scale 1D Convolutional Neural Network, MS1D_CNN)，从频域、时域以及空域3个角度分析并优化SSVEP信号特征的提取。首先，该方法在频域上利用多个卷积层从FFT变换所得3维矩阵中充分提取频率特征，该频率特征包含了幅值和相位信息；然后，从电极通道空间和频率2个角度对脑电特征进行重校正，按照重要程度提升对当前任务有用的特征；最后，学习不同刺激时间窗长度的SSVEP信号样本来提高该模型的表征能力，并且利用不同大小的两步1维卷积核来并行提取频率和电极通道空间上的多尺度特征，从而提高较短刺激时长SSVEP信号的识别准确率和信息传输率。

2. 数据集及预处理

SSVEP信号采集过程如图1所示，从中可以看出不同频率闪烁的视觉刺激可诱发出SSVEP信号相应的特定频率，因此，在频率域分析SSVEP信号可提取到更为显著的特征。为了验证本文提出的MS1D_CNN模型在不同视觉闪烁刺激频率以及频率间隔的SSVEP刺激范式下均能有效分类，本文选取了刺激频率和刺激频率间隔均不相同的两个公开数据集。

图 1 SSVEP信号采集过程

下载: 全尺寸图片幻灯片

实验数据集1来自圣地亚哥的公开数据库^[14]。该数据集采自10名健康受试者，共包含12种频率刺激，从9.25 Hz到14.75 Hz，间隔为0.20 Hz，共有4种相位分别为0, 0.5π, π, 1.5π，分别排列在6 cm × 6 cm正方形的4×3网格中，如图2所示。两个相邻刺激之间的水平和垂直间隔分别为5.0 cm和1.5 cm。实验使用Bio-Semi Active Two EEG系统以2048 Hz的采样频率记录枕叶顶叶上8个活性电极的EEG数据。然后将记录的EEG数据降采样至256 Hz。每位受试者采集了12组实验对应于12种刺激频率，每组实验由15次试验组成，每次试验持续4 s。在每次试验开始之前，受试者需要在1 s内快速将目光转移到红色方块所提示的特定刺激目标位置上，并且受试者被要求在试验期间避免眨眼。

图 2 数据集1的SSVEP刺激范式^[14]

下载: 全尺寸图片幻灯片

实验数据集2来自清华大学的公开数据库^[15]。该数据集采自35名健康受试者，共包含40种频率刺激，从8.0 Hz到15.8 Hz，间隔为0.2 Hz，共4种相位分别为0, 0.5π, π, 1.5π，排列分布如图3所示。每次试验前红色方块提示在屏幕上持续0.5 s，受试者需要尽快在提示时间内将视线转移至目标。实验使用SynAmps2系统以1000 Hz的采样频率记录了覆盖受试者的整个头皮的64个电极通道信号。每位受试者每种刺激频率包含6个试次。为了消除常见的电力线噪声，在数据记录中应用了一个50 Hz的陷波滤波器，然后将所采集的脑电数据以6 s进行划分(刺激前0.5 s, 刺激后5.5 s)，随后将这些数据降采样到250 Hz。

图 3 数据集2的SSVEP刺激范式^[15]

下载: 全尺寸图片幻灯片

3. 数据预处理及分类方法

3.1 数据预处理

实验对两个数据集的每个电极通道均采用4阶巴特沃斯滤波器，从4 Hz到80 Hz对数据进行带通滤波处理。对于数据集1，在已有研究中视觉延迟时间被认为0.135 s^[16]，因此提取0.135 s到4.135 s的数据段。数据集2提供了64导联的脑电数据，本文期望用较少的电极来实现SSVEP信号的识别，因此提取覆盖中央区和枕顶叶区的30个电极，并选择8.6 Hz, 9.6 Hz, 10.6 Hz, 11.6 Hz, 12.6 Hz, 13.6 Hz, 14.6 Hz, 15.6 Hz这8种刺激目标频率^[13]，去掉刺激开始前时间和视觉延迟时间，提取0.64 s之后的SSVEP信号。

对于非线性、不平稳的EEG信号，每个被试者对相同视觉刺激频率反应的起始时间和刺激反应时长均有所不同，从而导致模型在不同被试上识别效果差异较大，降低了系统的稳定性。因此，本文对训练集采用0.5 s, 1.0 s, 1.5 s, 2.0 s, 2.5 s这4个时间窗口长度，且重叠度为50%进行分段，也起到扩充训练集的作用。为避免因为分段时滑动时间窗口导致重叠部分数据泄露，因此先对所有试次数进行训练集与测试集的划分，再进行时间窗口滑动分段。

最后，对所有信号样本的每个通道均进行1024点FFT变换到频率域，根据变换的对称性，只采用单边频率特征，因此，可以得到两个长度为512的实部向量和虚部向量。FFT变换可以将不同时间长度的样本转为固定大小的输入，充分提取了多种不同时间窗尺度样本的频率特征信息，提高了SSVEP信号的识别准确率。为了合理地利用各个频率点的特征幅值、相位信息，将频率的实部信息和虚部信息按各个频率点沿着通道方向拼接成3维频域特征矩阵，这样无需手动增加1维度即可类似图像大小进行卷积，因此网络的输入大小为2×C×512，其中C为通道数。整个预处理过程如图4所示。

图 4 脑电信号预处理

下载: 全尺寸图片幻灯片

3.2 卷积网络特征提取模型

不同被试者在佩戴脑电帽时每个电极所放置的位置均会有一定不同程度的偏移，对视觉闪烁刺激的电极通道响应强弱分布也不一样。并且，响应的信号中在目标刺激频率附近也会产生较高的能量，对SSVEP信号的识别造成一定干扰。因此本文引入Squeeze-and-Excitation(SE)模块^[17]，只需增加较少的计算量就能够同时学习电极通道之间以及各个频率之间复杂的相关性，自动获取每个通道的重要程度，并按照重要程度提升对当前任务有用的特征而抑制用处较小的特征。具体网络操作是通过全局平均池化，压缩每个通道的特征得到一个大小为1×C的向量(C为通道数)，利用全连接层对该向量分别进行降维、升维，来显式地学习每个通道特征矩阵的权重，最后将输出的新的大小为1×C的向量通过乘法逐通道加权到先前的特征上，完成在通道维度上的对原始特征的重标定。如图5所示，本文通过两路分支分别针对电极通道与各个频率进行特征的双层重校正，提高与当前任务相关的特征的重要性，并优化频率特征使其适应于每个受试者，最后将两个重校正后的信号叠加得到与输入大小相同的形状。

图 5 特征双层重校正

下载: 全尺寸图片幻灯片

在脑电特征重新校正之后，本文用不同大小的卷积层进一步从通道空间和频率两个角度提取深度特征。首先采用64个1×1卷积核，充分学习各个频率点实部与虚部之间的相位特征信息，并对新的脑电特征矩阵的维度进行提升，同时也增加了网络模型的非线性表征能力。之后由于所采集的脑电信号数据是一个狭长的矩形状，而这种大小为N×N的方形卷积核，不能较好地适应性提取脑电信号的深度特征，因此设计大小分别为N×1和1×N这两种1维卷积核来进行两步卷积操作，N×1的卷积核能充分地学习各个电极通道之间的空间位置信息，再结合1×N的卷积核则可以利用到不同频率之间的序列信息，有效地将SSVEP信号中的频域特征和空域特征结合在一起。再利用多个并行的不同大小卷积核进行卷积，提取不同尺度的空间和频域上的特征，无需过大的计算量就能大大增加了SSVEP信号特征的多样性。MS1D_CNN网络整体结构如图6所示，所有的权重均采用正态分布生成随机张量来初始化，在卷积过程中使用零填充来保证所有输出的可融合性，并且在每层卷积后使用批量归一化和dropout来防止模型过拟合，非线性计算均采用ReLU激活函数。最后一层为全连接层，使用softmax作为激活函数输出SSVEP信号分类结果。

图 6 多尺度神经网络模型

下载: 全尺寸图片幻灯片

3.3 网络参数设置

本文所提出的MS1D_CNN网络模型包含了1个卷积层和两个并行的卷积层，在每一个卷积层后的dropout比率设置为0.25，并且利用均值为0，方差为0.01的高斯分布初始化网络模型的权重。MS1D_CNN模型采用带有动量的随机梯度下降作为网络训练的优化算法，学习率设置为0.001，动量参数设置为0.9，通过最小化损失函数交叉熵对网络进行训练。批量大小设置为64，迭代次数设置为300。

4. 实验结果与分析

在相同的数据预处理条件下，本文将所提出的MS1D_CNN网络模型与传统方法TRCA^[4]和深度学习方法C_CNN^[9], PLFA_Net^[13], tCNN^[18], EEGNet^[8]进行对比。同时，为了验证使用不同时窗长度SSVEP信号训练MS1D_CNN网络模型的有效性，本文使用单一时间窗长度划分的数据集训练该模型进行比较，记作SMS1D_CNN。本文采用分类准确率(Accuracy, Acc)和信息传输速率(Information Translate Rate, ITR)作为SSVEP信号识别方法的性能评价指标，计算公式如式(1)和式(2)所示。ITR是指单次目标选择所传输的信息量，不仅与分类准确率相关，还考虑了类别数目和单次目标识别速度。

$B = {\log _2}N + P \times {\log _2}P + (1 - P) \times {\log _2}\frac{{(1 - P)}}{{(N - 1)}}$

(1)

${\text{ITR}} = B \times \frac{{60}}{T}$

(2)

其中，N为分类目标数，P为分类准确率，T为单次目标选择时间。

本文评估了这7种方法在时间窗口长度为1 s的SSVEP信号上的Acc和ITR。根据试次数的大小，本实验针对数据集1采用5折交叉验证，每折包含3个试次，而对于数据集2采用6折交叉验证，每折包含1个试次。表1和表2分别展示了所有方法在数据集1和数据集2(时间窗口长度为1 s)上交叉验证的平均实验结果。其中，传统方法TRCA^[4]在两个数据集上测试结果均较低，有研究表明该方法并不适用于基于固定窗口和步长分段这种异步处理数据未锁相的SSVEP信号，且获得类似的观察结果^[8,9]。本文所提出的MS1D_CNN网络模型在两种不同的数据集上测试均优于其他方法，平均分类准确率分别能达到89.35%和90.17%，平均ITR分别能达到109.09 bit/min和90.42 bit/min。

表 1 不同方法在数据集1(时间窗口长度为1 s)上的平均实验结果

方法	Acc(%)	ITR(bit/min)
TRCA	19.34	3.44
C_CNN	88.61	107.17
PLFA_Net	66.03	59.41
tCNN	85.24	98.82
EEGNet	87.25	103.72
SMS1D_CNN	89.22	108.75
MS1D_CNN	89.35	109.09

下载: 导出CSV

| 显示表格

表 2 不同方法在数据集2(时间窗口长度为1 s)上的平均实验结果

方法	Acc(%)	ITR(bit/min)
TRCA	19.48	1.12
C_CNN	79.58	67.86
PLFA_Net	85.42	79.66
tCNN	76.60	62.33
EEGNet	76.51	62.16
SMS1D_CNN	87.37	83.93
MS1D_CNN	90.17	90.42

下载: 导出CSV

| 显示表格

图7和图8分别展示了7种方法下在不同时间窗口长度的数据集1和数据集2上的平均分类准确率和信息传输率。在所有的刺激时间窗长度当中，本文所提出的MS1D_CNN网络模型在两个数据集上的平均分类准确率和信息传输率均优于其他方法。当刺激时间窗长度为2.5 s时，MS1D_CNN模型在两个数据集上的平均分类准确率均达到最高，分别为97.22%, 93.21%，ITR指标均在刺激时间窗长度为0.5 s时达到最高，分别为117.62 bit/min, 171.16 bit/min。

图 7 不同方法在不同时间窗长度(数据集1)上的实验结果

下载: 全尺寸图片幻灯片

图 8 不同方法在不同时间窗长度(数据集2)上的实验结果

下载: 全尺寸图片幻灯片

当所需训练试次数越少时，受试者的数据采集代价就越少，因此，本文设置了不同训练试次数来比较7种方法在SSVEP信号(时间窗口长度为1 s)上的分类准确率。图9展示了不同训练试次数在两个数据集上的分类结果，从中可以看出，在所有训练试次数中，本文所提出的MS1D_CNN网络模型均得到优于其他方法的结果。

图 9 不同训练试次数在两个数据集上(时间窗口长度为1 s)的实验结果

下载: 全尺寸图片幻灯片

针对两个数据集的受试者，本文分别进行了跨被试实验分析，即用多个受试者训练好的通用模型来检测未参与训练的受试者数据。针对数据集1，本文采用10折交叉验证，每折包含1个受试者的数据集。而对于数据集2，本文采用5折交叉验证，每折包含7个受试者的数据集。从表3和表4的实验结果中可以看出，本文所提出的MS1D_CNN网络模型在两个数据集上的跨被试性能均优于其他方法。相较于数据集1，数据集2包含的受试者数量较多，但每个受试者所采集的数据少于数据集1，从两个数据集的实验结果看，MS1D_CNN网络模型在数据集2上表现更加良好。

表 3 不同方法在数据集1(跨被试)上的平均实验结果

方法	Acc(%)	ITR(bit/min)
TRCA	23.44	6.03
C_CNN	74.73	75.81
PLFA_Net	58.59	46.95
tCNN	74.44	75.23
EEGNet	75.39	77.14
SMS1D_CNN	76.69	79.81
MS1D_CNN	77.46	81.41

下载: 导出CSV

| 显示表格

表 4 不同方法在数据集2(跨被试)上的平均实验结果

方法	Acc(%)	ITR(bit/min)
TRCA	21.29	1.73
C_CNN	93.10	97.76
PLFA_Net	87.99	85.33
tCNN	82.42	73.43
EEGNet	93.67	99.28
SMS1D_CNN	94.41	101.28
MS1D_CNN	96.06	105.99

下载: 导出CSV

| 显示表格

5. 总结

本文针对较短刺激时长SSVEP信号的特征提取不充分问题，提出一种网络模型MS1D_CNN充分挖掘频域和通道空间的特征信息，并且使用不同时间窗长度的SSVEP信号来训练MS1D_CNN模型，从频域、时域以及空域3个角度充分考虑分析提取特征。本文采用交叉验证的方法将所提出的方法与其他现有方法进行比较，并使用SSVEP信号识别中常用的准确率和ITR作为两个公开数据集的评价指标。其次，本文分析了在不同时间窗长度下所有模型的分类性能，以及不同训练试次数对实验结果的影响，有助于在后续的研究中以更短的时间窗长度和更少的训练试次数来识别SSVEP信号。最后，本文比较了两个数据集上跨被试SSVEP信号分类的性能，实验证明了本文所提出的MS1D_CNN模型优于其他现有方法，且在较多受试者的数据集上表现更为优异。

References(27)

References

[1]	张坤, 高晓光. 未知风场扰动下无人机三维航迹跟踪鲁棒最优控制[J]. 电子与信息学报, 2015, 37(12): 3009–3015. ZHANG Kun and GAO Xiaoguang. Robust optimal control for unmanned aerial vehicles’ three-dimensional trajectory tracking in wind disturbance[J]. Journal of Electronics &Information Technology, 2015, 37(12): 3009–3015.
[2]	宋大雷, 齐俊桐, 韩建达, 等. 旋翼飞行机器人系统建模与主动模型控制理论及实验研究[J]. 自动化学报, 2011, 37(4): 480–495. doi: 10.3724/SP.J.1004.2011.00480 SONG Dalei, QI Juntong, HAN Jianda, et al. Model identification and active modeling control for rotor fly-robot: Theory and experiment[J]. Acta Automatica Sinica, 2011, 37(4): 480–495. doi: 10.3724/SP.J.1004.2011.00480
[3]	孟祥冬, 何玉庆, 韩建达. 接触作业型飞行机械臂系统的力/位置混合控制[J]. 机器人, 2020, 42(2): 167–178. MENG Xiangdong, HE Yuqing, and HAN Jianda. Hybrid force/position control of aerial manipulators in contact operation[J]. Robot, 2020, 42(2): 167–178.
[4]	王诗章, 鲜斌, 杨森. 无人机吊挂飞行系统的减摆控制设计[J]. 自动化学报, 2018, 44(10): 1771–1780. WANG Shizhang, XIAN Bin, and YANG Sen. Anti-swing controller design for an unmanned aerial vehicle with a slung-load[J]. Acta Automatica Sinica, 2018, 44(10): 1771–1780.
[5]	甄子洋. 舰载无人机自主着舰回收制导与控制研究进展[J]. 自动化学报, 2019, 45(4): 669–681. ZHEN Ziyang. Research development in autonomous carrier-landing/ship-recovery guidance and control of unmanned aerial vehicles[J]. Acta Automatica Sinica, 2019, 45(4): 669–681.
[6]	赵太飞, 宫春杰, 张港, 等. 一种无人机集群安全高效的分区集结控制策略[J]. 电子与信息学报, 2021, 43(8): 2181–2188. doi: 10.11999/JEIT200601 ZHAO Taifei, GONG Chunjie, ZHANG Gang, et al. A safe and high efficiency control strategy of unmanned aerial vehicles partition rendezvous[J]. Journal of Electronics and Information Technology, 2021, 43(8): 2181–2188. doi: 10.11999/JEIT200601
[7]	李瑞涵, 王耀南, 谭建豪. Nesterov加速梯度无人机姿态融合算法[J]. 机器人, 2018, 40(6): 852–859. LI Ruihan, WANG Yaonan, and TAN Jianhao. Attitude fusion algorithm of UAV based on Nesterov accelerated gradient[J]. Robot, 2018, 40(6): 852–859.
[8]	高杨, 李东生, 程泽新. 无人机分布式集群态势感知模型研究[J]. 电子与信息学报, 2018, 40(6): 1271–1278. doi: 10.11999/JEIT170877 GAO Yang, LI Dongsheng, and CHENG Zexin. UAV distributed swarm situation awareness model[J]. Journal of Electronics &Information Technology, 2018, 40(6): 1271–1278. doi: 10.11999/JEIT170877
[9]	ZHENG Dongliang, WANG Hesheng, WANG Jingchuan, et al. Toward visibility guaranteed visual servoing control of quadrotor UAVs[J]. IEEE/ASME Transactions on Mechatronics, 2019, 24(3): 1087–1095. doi: 10.1109/TMECH.2019.2906430
[10]	ZHANG Xuetao, FANG Yongchun, ZHANG Xuebao, et al. A novel geometric hierarchical approach for dynamic visual servoing of quadrotors[J]. IEEE Transactions on Industrial Electronics, 2020, 67(5): 3840–3849. doi: 10.1109/TIE.2019.2917420
[11]	MAHONY R and HAMEL T. Image-based visual servo control of aerial robotic systems using linear image features[J]. IEEE Transactions on Robotics, 2005, 21(2): 227–239. doi: 10.1109/TRO.2004.835446
[12]	LIU Hao, ZHAO Wanbin, ZUO Zongyu, et al. Robust control for quadrotors with multiple time-varying uncertainties and delays[J]. IEEE Transactions on Industrial Electronics, 2017, 64(2): 1303–1312. doi: 10.1109/TIE.2016.2612618
[13]	HUA He’an, FANG Yongchun, ZHANG Xuetao, et al. Auto-tuning nonlinear PID-type controller for rotorcraft-based aggressive transportation[J]. Mechanical Systems and Signal Processing, 2020, 145: 106858. doi: 10.1016/j.ymssp.2020.106858
[14]	ZUO Zongyu and MALLIKARJUNAN S. L₁ adaptive backstepping for robust trajectory tracking of UAVs[J]. IEEE Transactions on Industrial Electronics, 2017, 64(4): 2944–2954. doi: 10.1109/TIE.2016.2632682
[15]	LV Zongyang, LI Shengming, WU Yuhu, et al. Adaptive control for a quadrotor transporting a cable-suspended payload with unknown mass in the presence of rotor downwash[J]. IEEE Transactions on Vehicular Technology, 2021, 70(9): 8505–8518. doi: 10.1109/TVT.2021.3096234
[16]	TIAN Bailing, YIN Liping, and WANG Hong. Finite-time reentry attitude control based on adaptive multivariable disturbance compensation[J]. IEEE Transactions on Industrial Electronics, 2015, 62(9): 5889–5898. doi: 10.1109/TIE.2015.2442224
[17]	XIAN Bin and HAO Wei. Nonlinear robust fault-tolerant control of the tilt trirotor UAV under rear servo's stuck fault: Theory and experiments[J]. IEEE Transactions on Industrial Informatics, 2019, 15(4): 2158–2166. doi: 10.1109/TII.2018.2858143
[18]	SHI Haobin, LI Xuesi, HWANG K S, et al. Decoupled visual servoing with fuzzy Q-learning[J]. IEEE Transactions on Industrial Informatics, 2018, 14(1): 241–252. doi: 10.1109/TII.2016.2617464
[19]	HWANGBO J, SA I, SIEGWART R, et al. Control of a quadrotor with reinforcement learning[J]. IEEE Robotics and Automation Letters, 2017, 2(4): 2096–2103. doi: 10.1109/LRA.2017.2720851
[20]	MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529–533. doi: 10.1038/nature14236
[21]	SILVER D, LEVER G, HEESS N, et al. Deterministic policy gradient algorithms[C]. The 31st International Conference on Machine Learning, Beijing, China, 2014: 387–395.
[22]	LILLICRAP T P, HUNT J J, PRITZEL A, et al. Continuous control with deep reinforcement learning[C]. Proceedings of the 4th International Conference on Learning Representations, San Juan, Puerto Rico, 2016: 1–14.
[23]	RODRIGUEZ-RAMOS A, SAMPEDRO C, BAVLE H, et al. A deep reinforcement learning strategy for UAV autonomous landing on a moving platform[J]. Journal of Intelligent & Robotic Systems, 2019, 93(1/2): 351–366.
[24]	WANG Yuanda, SUN Jia, HE Haibo, et al. Deterministic policy gradient with integral compensator for robust quadrotor control[J]. IEEE Transactions on Systems, Man, and Cybernetics:Systems, 2020, 50(10): 3713–3725. doi: 10.1109/TSMC.2018.2884725
[25]	WEI Qinglai, WANG Lingxiao, LIU Yu, et al. Optimal elevator group control via deep asynchronous actor-critic learning[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(12): 5245–5256. doi: 10.1109/TNNLS.2020.2965208
[26]	LEE T, LEOK M, and MCCLAMROCH N H. Geometric tracking control of a quadrotor UAV on SE(3)[C]. The 49th IEEE Conference on Decision and Control, Atlanta, USA, 2010: 5420–5425.
[27]	FURRER F, BURRI M, ACHTELIK M, et al. RotorS-a Modular Gazebo MAV Simulator Framework[M]. KOUBAA A. Robot Operating System (ROS): The Complete Reference (Volume 1). Cham: Springer, 2016: 595–625.