Scene Constrained Object Detection Method in High-Resolution Remote Sensing Images by Relation-Aware Global Attention
-
摘要: 高分辨率遥感影像中地物目标往往与所处场景类别息息相关,如能充分利用场景对地物目标的约束信息,有望进一步提升目标检测性能。考虑到场景信息和地物目标之间的关联关系,提出全局关系注意力(RGA)引导场景约束的高分辨率遥感影像目标检测方法。首先在多尺度特征融合检测器的基础网络之后,加入全局关系注意力学习全局场景特征;然后以学到的全局场景特征作为约束,结合方向响应卷积模块和多尺度特征模块进行目标预测;最后利用两个损失函数联合优化网络实现目标检测。在NWPU VHR-10数据集上进行了4组实验,在场景信息约束的条件下取得了更好的目标检测性能。Abstract: Ground objects in high-resolution remote sensing images are often closely related to the scene categories. If the constraint information of the scene on the ground object can be usefully employed, it is expected to improve further the performance of object detection. Considering the relationship between scene information and objects, a scene constrained object detection method in high-resolution remote sensing images by Relation-aware Global Attention (RGA) is proposed. First, the global scene features are learned by adding the global relational attention to the basic network in Feature fusion and Scaling-based Single Shot Detector (FS-SSD). Then, object is predicted by combining the oriented response convolution module with the multiscale feature module under the constraints of learned global scene features. Finally, two loss functions are used to optimize jointly the network to achieve object detection. Four experiments are conducted on NWPU VHR-10 dataset and better object detection performance is achieved under the constraints of scene information.
-
1. 引言
高分辨率遥感影像目标检测技术对人们提炼地表有用信息,充分发挥遥感数据效用具有重要的研究意义和实际应用价值[1]。近年来,以卷积神经网络(Convolutional Neural Network, CNN)为代表的深度学习方法,在高分辨率遥感影像目标检测中表现出优良的性能[2]。
基于深度学习的目标检测方法大致分为两类[3],一是以R-CNN, Fast R-CNN, Faster R-CNN为代表基于区域生成的二阶段方法,二是以YOLO, SSD为代表基于回归的一阶段方法。遥感影像具有背景复杂,目标分布密集、方向多变且尺度差异的特点,需要根据这些特点改进深度网络以完成遥感影像目标检测任务。Wang等人[4]提出了一种端到端多尺度视觉注意网络,通过关注目标区域的细节信息,改善了遥感影像背景复杂、目标分布密集的问题。Cheng等人[1]基于R-CNN提出了旋转不变的CNN模型,训练网络学习到具有旋转鲁棒性的特征。在我们已有的研究工作中[5]提出了一种多尺度特征融合检测网络(Feature fusion and Scaling-based Single Shot Detector, FS-SSD)用于无人机影像的小目标检测,通过加入反卷积层和平均池化层组成特征金字塔,经过特征融合完成多尺度特征预测。此外,我们还提出一种联合通道注意力和旋转不变深度特征的高分辨率遥感影像多尺度目标检测方法[6],在FS-SSD基础上加入通道注意力和方向响应卷积,获得旋转不变性的深度特征。
高分辨率遥感影像中地物目标和所处场景类别息息相关[7],而现有的检测方法较少考虑场景-目标的关联关系和总体认知关系,因而检测性能仍有提升空间。已有一些学者利用场景和目标的上下文关系改善目标检测性能,如Liu等人[8]通过融合场景和物体之间关系信息提出了结构推理网络,在提升目标检测任务的性能上发挥了很大作用。Zhang等人[9]提出全局关系注意力模块(RGA),通过充分利用图像中的全局结构信息,来获得特征的注意力权重,在行人再识别中取得了优异性能。这些研究结果表明,借助场景信息可以有效提高目标检测性能。
为此,本文提出全局关系引导场景约束的高分辨率遥感影像目标检测方法。主要贡献如下:
(1) 与现有的高分辨率遥感影像目标检测方法不同,提出利用全局关系注意力学习全局场景特征作为约束,通过建立场景信息和地物目标的关联关系指导目标检测任务。
(2) 在场景约束条件下,利用方向响应卷积模块和多尺度特征模块,生成兼具旋转不变和多尺度的目标特性信息,实现更准确的目标定位和分类。
(3) 通过交叉熵分类损失和定位损失的加权和联合优化目标检测网络,达到更优的预测性能。
2. 提出的方法
本文提出的全局关系引导场景约束的高分辨率遥感影像目标检测方法(OR-FS-SSD+RGA)总体架构如图1所示。以FS-SSD为基础网络,首先将遥感影像图片输入VGG16网络,在其之后加入全局关系注意力模块RGA,捕获全局的结构化关系信息;然后将全局场景特征作为约束输入方向响应卷积模块和多尺度特征模块,获得旋转不变的深度特征和多尺度预测特征图;最后利用损失函数优化网络实现高分辨率遥感影像目标检测。
2.1 全局关系引导的注意力
注意力机制旨在加强有区分度的特征和弱化无关的特征,但现有研究更多关注图片局部信息。如前所述,Zhang等人[9]提出全局关系注意力对行人再识别性能的提升具有很好的推动作用。而高分辨率遥感影像的目标检测方法也较少考虑场景信息和地物目标之间的关联关系,忽略了图像中有价值的全局上下文信息。此外,遥感影像目标往往具有多个尺度,文献[5]提出的FS-SSD目标检测网络对多尺度目标预测效果尤为突出。为此,本文在FS-SSD目标检测网络中加入全局关系注意力模块,包括全局空间关系注意力/全局通道关系注意力,通过提取全局场景特征作为约束获得全局场景上下文信息。
全局关系注意力结构如图2所示,输入图像由前端网络处理后得到特征图,特征图中的特征向量作为原始特征表示为特征节点xi
∈R L,其中i=1,2,···,N,N为特征数量,当前特征节点与其他所有特征节点之间的成对关系用r表示,将原始特征与成对关系拼接组合得到全局关系特征y。以特征节点x1举例来说,图中x1与其他特征节点之间的成对关系表示为r1 =(r1,1,r1,2,···, r1,N),将x1与成对关系r1拼接组合得到全局关系特征y1=[x1, r1]。同理,全部特征节点可以产生所有全局关系特征y (y1,y2,···, yN),y作为全局注意力的特征向量用于计算全局关系注意力权重值(a1,a2,···, aN)。这种成对特征关系的学习由于结合了所有特征位置的关系,可以很好地表示整张图片的全局场景特征,为此本文将依此建立全局关系来引导场景注意力的实施。下面将重点介绍全局空间关系注意力和全局通道关系注意力。
2.1.1 全局空间关系注意力
全局空间关系注意力是在特征图的空间维度上学习各个特征节点,对所有特征节点之间的成对关系进行紧凑的表示,得到在空间上具有全局化的结构信息。本文方法就是在目标检测网络中加入全局空间关系注意力(RGA-S),以获得整张遥感影像在空间上的全局场景信息作为场景约束。全局空间关系注意力的结构如图3所示,具体实现过程为:
步骤1 输入特征图S
∈R L×H×W,将特征图中每个空间位置的L维特征向量作为特征节点si∈R L(i=1,2, ···,N, N=H×W),形成一个节点图GS。步骤2 将特征节点输入两个Conv 1×1卷积层,得到两个特征节点的向量并进行点积,构成一个空间关系矩阵RS
∈R N×N来表示每个向量之间的关系,元素rsi,j 表示节点i与节点j间的成对关系:rSi,j=fS(si,sj)=θTS(si)φS(sj)θS(si)=ReLU(BN(Wθsi))φS(sj)=ReLU(BN(Wφsj))} (1) 其中,θS和
φS 为两个嵌入函数,包括共享参数的1×1卷积操作,批量标准化(Batch Normalization, BN)和修正线性单元ReLU激活函数,Wθ∈R L/k×L,Wφ∈R L/k×L,k是降维比例。同样地,节点j与节点i间的成对关系为rSj,i =fS(sj,si),由(rSi,j ,rSj,i )表示si和sj之间的双向关系。步骤3 对于第i个特征节点,将它和所有节点成对的关系按一定的顺序堆叠起来,获得一个空间关系向量
rsi =[RS(i,:),RS(:,i)]∈R 2N。步骤4 将空间关系向量与原始特征信息进行拼接,使其兼具全局结构信息和局部原始信息,得到空间关系注意力ES
∈R 1+N/k:ES=[poolC(ψS(si)),δS(rSj)]ψS(si)=ReLU(BN(Wψsi))δS(rSj)=ReLU(BN(WδrSj))} (2) 其中,ψS和δS表示对原始特征和空间关系特征的操作,包括Conv 1×1卷积、BN和ReLU,Wψ
∈R L/k×L, Wδ∈R 2N/2k×2N,poolC(·)表示通道维度上的全局平均池化操作,将原始的特征通道维度降为1。步骤5 通过空间关系注意力ES计算每个位置的注意力权重值ai,将注意力权重和原始特征相乘得到经过空间关系注意力加权的特征:
ai=Sigmoid(W2ReLU(W1ES)) (3) 其中,W1, W2由1×1卷积操作和 BN实现,W1以l的比例降维,W2将通道维度降为1。
2.1.2 全局通道关系注意力
全局通道关系注意力在通道维度上学习各个特征节点,对所有特征节点之间的成对关系进行紧凑表示,获得通道上全局结构信息,其结构如图4所示,具体实现过程为:
步骤1 输入特征图C
∈R L×H×W,取N=H×W通道大小的特征图作为特征节点ci∈R H×W(i=1,2, ···,L, L为节点数),构成一个节点图GC。步骤2 压缩输入特征C为C'
∈R (H×W)×L×1,用两个1×1卷积对C'进行转换,得到两个特征节点向量并进行点积,构成通道关系矩阵RC∈R L×L,元素rCi,j 表示节点i与节点j间的成对关系:rCi,j=fC(ci,cj)=θTC(ci)φC(cj)θC(ci)=ReLU(BN(Wθci))φC(cj)=ReLU(BN(Wφcj))} (4) 其中,θC和φC为两个嵌入函数,包括共享参数的1×1的卷积操作、BN和ReLU。
步骤3 对于第i个特征节点,将该特征节点和所有节点对应的成对关系堆叠在一起,得到通道关系向量
rCi,j =[RC(i,:),RC(:,i)]∈R 2L。步骤4 连接原始特征和通道关系矩阵,使通道关系注意力同时获得全局结构信息和局部原始信息:
EC=[poolS(ψC(ci)),δC(rCj)]ψC(ci)=ReLU(BN(Wψci))δC(rCj)=ReLU(BN(WδrCj))} (5) 其中,ψC和δC是针对原始特征和通道关系特征的操作,包括Conv 1×1卷积,BN和ReLU, poolS(·)表示空间维度上的全局平均池化操作,将原始的特征空间维度降为1×1。
步骤5 计算每个通道位置的注意力权重值bi,将注意力权重和原始特征相乘得到经过通道关系注意力加权的特征:
bi=Sigmoid(W2ReLU(W1EC)) (6) 其中,W1,W2由1×1卷积操作和 BN实现,W1以l的比例降维,W2将空间维度降为1×1。
2.2 场景约束的高分辨率遥感影像目标检测
将全局场景特征送入方向响应卷积和多尺度特征模块,生成兼具旋转不变和多尺度的目标特性信息,实现更准确定位和分类。最后通过交叉熵分类损失和定位损失的加权和联合优化目标检测网络。
2.2.1 方向响应卷积模块和多尺度特征模块
方向响应卷积模块包括4层大小为3×3的方向响应卷积(ORConv6_1, ORConv6_2, ORConv7_1, ORConv7_2)和Alignment特征编码(ORAlign)。方向响应卷积由主动旋转滤波器ARF构成,产生具有方向通道的特征图,使用ORAlign编码方式将具有方向性的特征图编码,使获得的特征具有旋转不变性。将遥感影像全局关系结构特征输入方向响应卷积后,得到在场景约束条件下旋转不变的深度特征。
多尺度特征模块包括反卷积层、平均池化层和特征融合3个部分。反卷积层包括3个卷积核大小为2×2的反卷积层和1个3×3的卷积层,用于提高特征图的空间分辨率,使得经过多层卷积的遥感影像特征图信息得到有效保留,之后加入平均池化层可以得到更加紧凑的特征信息。特征融合中将Conv4_3, FC7和ORConv6_2融合在一起,这样获得的遥感影像目标特征同时具备低层视觉信息和高层语义信息。在获得场景约束下的遥感影像目标特征之后,使用平均池化层和多尺度特征融合中最后的6个卷积层,共7个特征图作为预测特征图,特征图尺寸大小如表1所示。
表 1 OR-FS-SSD+RGA最终预测特征图尺寸Pred1 Pred2 Pred3 Pred4 Pred5 Pred6 Pred_avg 64×64 32×32 16×16 8×8 4×4 2×2 16×16 2.2.2 网络目标损失函数
由目标检测网络得到目标的深度特征后,比较网络输出和实际标注框的目标类别、位置信息,计算分类损失和定位损失的加权和来联合优化网络。本文分别使用交叉熵损失Lconf和Smooth L1损失Lloc作为分类损失函数和定位损失函数,对于任意目标u,交叉熵损失函数Lconf可以表示为
Lconf(u,c)=−N∑i∈Posupilg(⌢cpi)−∑i∈Neglg(⌢c0i)⌢cpi=exp(cpi)∑pexp(cpi)} (7) 其中,c为类别概率,i为预测框序号,p∈{0,1,···,10}为类别序号,p=0表示背景,
upi ∈{0,1},upi =1表示第i个预测框和第j个真实框相匹配,cpi 表示第i个预测框真实类别为p,Pos表示正样本的损失,Neg表示负样本(背景)的损失。Smooth L1损失函数Lloc可以表示为
Lloc=SmoothL1(u,c)={0.5(u−c)2,|u-c|<1|u−c|−0.5,其他 (8) 网络目标损失函数L为Lconf和Lloc的加权和:
L(u,c)=1N(Lconf(u,c)+αLloc(u,c)) (9) 其中,N为匹配的候选框的数量,α用于调整分类损失和定位损失之间的比例,默认设为1。
3. 实验结果与分析
3.1 实验步骤
3.1.1 数据集
本文实验采用西北工业大学标注的NWPU VHR-10[10]数据集。数据集包含10类目标,2934个实例,共800张图片(650张包含目标,150张为不包含目标的背景图片),其中715张通过Google地图获得,空间分辨率在0.5~2 m,其余85张图像是锐化的彩色红外图像,空间分辨率为0.08 m。输入网络图片大小为512×512,由于原始数据集数据量较小,容易产生过拟合现象,考虑到高分辨率数据特点,本文采用水平和垂直的镜像以及亮度调节的数据扩充策略,扩充为原来的6倍,60%作为训练集,20%验证集,20%测试集。
3.1.2 实验设置
实验使用Ubuntu16.04操作系统,NVIDIA TITAN XP加速处理器进行加速,Pytorch作为深度框架,SGD优化算法进行优化,VOC07+12预训练模型作为初始化,超参数设置如表2所示。
表 2 网络超参数设置迭代次数 学习率 批处理大小 动量 权重衰减 150 0.001 12 0.9 0.005 性能评价指标使用平均检测准确率(mean Average Precision, mAP)和检测速度(frames per second, fps)。
3.2 实验1:不同注意力模块对目标检测性能影响
本实验以OR-FS-SSD网络为基础,测试了分别加入不同注意力模块对目标检测准确率和速度的影响。为了简化表示,加入不同模块的网络记为“+模块名”,结果如图5所示。OR-FS-SSD是在FS-SSD中加入方向响应卷积的检测网络,获得93.86%mAP和29.50fps;+SE采用SENet[11]中的SE模块,使用经过空间全局平均池和两个非线性的全连接层的特征计算通道注意力,获得92.93%mAP和26.93fps;+CA采用DANet[12]中的通道注意力模块CAM,在局部特征建立丰富的上下文依赖关系,获得94.74%的mAP和29.57fps;CBAM[13]是从通道和空间两个维度获取注意力的模块,该模块和+ CBAM-C(仅通道),+CBAM-S(仅空间) 的mAP分别为92.78%, 93.53%和93.77%,检测速度分别为25.81fps, 27.77fps和27.88fps;本文方法通过关注全局场景信息检测目标,+RGA, +RGA-C(仅通道)和+RGA-S(仅空间)的mAP分别达到93.90%, 94.74%和95.59%,检测速度则为28.80fps, 28.18fps和30.07fps。
分析上述结果,在OR-FS-SSD网络基础上,各模块检测效果表现为RGA-S优于RGA-C优于RGA, CBAM-S优于CBAM-C优于CBAM,即CBAM和RGA均在仅使用空间注意力模块时效果最好。一般来说,遥感影像场景往往比较复杂,具有较强的空间分布规律,空间信息会显得更为重要,而空间注意力表达的是同一通道上不同位置的结构信息,可以使场景特征不受通道维度的影响。若同时使用空间和通道注意力,会使得空间特征和通道特征相互影响反而降低了检测效果。
3.3 实验2:每类目标检测准确率对比
本实验选取实验1中检测准确率较高的+SE, +CA, +CBAM-S和本文的+RGA-S共4个网络进行比较,每类目标准确率对比结果如图6所示。可以看出,本文方法+RGA-S在飞机检测上和其他方法相比有明显的提升,达到99.32%的检测准确率,这是因为在检测过程中加入场景信息作为约束,有效捕获了图像中的全局结构信息,而其他3种方法仅在局部范围内获取特征图的注意力权重值。对于棒球场、网球场、篮球场和田径场这些类目标,4个网络的检测准确率均达到99%以上,因为这些目标所在的场景类似,场景约束对其检测性能的提升并不明显。由于海港所在的场景较明显,+RGA-S很好地学习到了海港的场景特征,获得99.45%AP,相比+SE和+CBAM-S的网络准确率提高了8.57%和8.84%。4种方法在船舶、储油罐、桥和车辆的检测中准确率普遍较低,只有90%左右,尤其是车辆检测,这是由于其形态多变且所处的场景较复杂。综合来看,本文方法在目标检测中加入场景信息作为约束,对一些典型场景的目标检测性能是有作用的。
3.4 实验3:目标检测的主观检测结果
为更直观展示所提方法的检测性能,图7示出了FSSD, FS-SSD, Faster-RCNN, +CA和+RGA-S的主观结果。由于FSSD, FS-SSD, Faster-RCNN是用于常规图片的目标检测方法,对飞机、储油罐、桥和车辆等遥感影像目标存在漏检现象,检测准确率不高,Faster-RCNN对储油罐和车辆等分布密集的目标存在大量检测重叠框。+CA可以学习遥感影像目标方向不变性和尺度不变性的特征,在检测飞机上取得了较好的性能。本文+RGA-S方法利用场景信息作为约束对飞机实现了更精确的检测,检测出了所有的飞机目标,获得比其他方法更高的分类置信度。
3.5 实验4:和其他主流网络的检测性能对比
本实验选取表现最好的+RGA-S方法与其他主流网络的目标检测方法进行了性能比较,如表3所示,本文方法达到最高的95.59%mAP和30.07fps, Faster-RCNN检测精度高但速度较低,YOLOv3相对较好地权衡了检测速度与精度,两种方法分别获得mAP为93.10%和91.04%,检测速度为0.09FPS和14.68FPS。+CA[6]通过挖掘各个通道之间的相互依赖关系获得更具区分度的目标特征,获得mAP为94.74%和29.57%fps,已经取得了很好的性能,但没有利用场景类别和地物目标的关联关系。相比YOLOv3, Faster-RCNN和+CA,本文方法的mAP分别提高了4.55%, 2.49%和0.85%,检测速度提高了15.39fps, 29.98fps和0.5fps。LCFFN[14], GBD[15], CBD-E[16]和ORSIm[17]是专门用于遥感影像目标检测的网络,尽管mAP均在90+%,但是算法复杂度都比较高,fps仅为0.35, 2.2, 2和4.72。本文网络相比这4种方法检测准确率分别提高了1.92%, 1.64%, 0.61%和0.2%,检测速度大幅超过了这4种方法。
经过综合比较,本文方法利用方向响应卷积和多尺度融合策略,获得了目标旋转不变和多尺度特征,采用RGA-S在空间上提取遥感影像的全局场景信息,获得更好的目标检测性能。
4. 结束语
本文提出了一种全局关系注意力引导场景约束的高分辨率遥感影像目标检测方法。以FS-SSD目标检测网络为基础,加入全局关系注意力模块,获得遥感影像的全局结构化信息;然后以全局关系引导场景约束,结合方向响应卷积模块和多尺度特征模块进行目标预测;最后利用两个损失函数联合优化网络实现目标检测,提升了目标检测性能。在NWPU VHR-10数据集上,和现有的深度学习方法相比取得了更好的检测性能,mAP达到95.59%,检测速度30.07fps,说明在场景约束下可以有效提升目标检测的整体性能。然而在一些所处场景复杂且变化较大的目标,检测性能提升并不明显,说明利用全局注意力来学习场景上下文信息仍有改进空间,之后将考虑在目标检测网络中加入门控机制来强化捕获全局上下文信息的能力,产生更鲁棒的场景特征表达,进一步提高目标检测性能。
-
表 1 OR-FS-SSD+RGA最终预测特征图尺寸
Pred1 Pred2 Pred3 Pred4 Pred5 Pred6 Pred_avg 64×64 32×32 16×16 8×8 4×4 2×2 16×16 表 2 网络超参数设置
迭代次数 学习率 批处理大小 动量 权重衰减 150 0.001 12 0.9 0.005 -
[1] CHENG Gong, ZHOU Peicheng, and HAN Junwei. Learning rotation-invariant convolutional neural networks for object detection in VHR optical remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(12): 7405–7415. doi: 10.1109/TGRS.2016.2601622 [2] RADOVIC M, ADARKWA O, and WANG Qiaosong. Object recognition in aerial images using convolutional neural networks[J]. Journal of Imaging, 2017, 3(2): 21. doi: 10.3390/jimaging3020021 [3] LI Ke, WAN Gang, CHENG Gong, et al. Object detection in optical remote sensing images: A survey and a new benchmark[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159: 296–307. doi: 10.1016/j.isprsjprs.2019.11.023 [4] WANG Chen, BAI Xiao, WANG Shuai, et al. Multiscale visual attention networks for object detection in VHR remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(2): 310–314. doi: 10.1109/LGRS.2018.2872355 [5] LIANG Xi, ZHANG Jing, ZHUO Li, et al. Small object detection in unmanned aerial vehicle images using feature fusion and scaling-based single shot detector with spatial context analysis[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(6): 1758–1770. doi: 10.1109/TCSVT.2019.2905881 [6] ZHAO Xiaolei, ZHANG Jing, TIAN Jimiao, et al. Multiscale object detection in high-resolution remote sensing images via rotation invariant deep features driven by channel attention[J]. International Journal of Remote Sensing, 2021, 42(15): 5764–5783. doi: 10.1080/01431161.2021.1931537 [7] DIVVALA S K, HOIEM D, HAYS J H, et al. An empirical study of context in object detection[C]. 2009 IEEE Conference on Computer Vision and Pattern Recognition, Miami, USA, 2009: 1271–1278. [8] LIU Yong, WANG Ruiping, SHAN Shiguang, et al. Structure inference net: Object detection using scene-level context and instance-level relationships[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 6985–6994. [9] ZHANG Zhizheng, LAN Cuiling, ZENG Wenjun, et al. Relation-aware global attention for person re-identification[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 3183–3192. [10] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: Unified, real-time object detection[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 779–788. [11] HU Jie, SHEN Li, and SUN Gang. Squeeze-and-excitation networks[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 7132–7141. [12] FU Jun, LIU Jing, TIAN Haijie, et al. Dual attention network for scene segmentation[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 3141–3149. [13] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module[C]. Proceedings of the 15th European Conference on Computer Vision, Munich, Germany, 2018: 3–19. [14] LI Ke, CHENG Gong, BU Shuhui, et al. Rotation-insensitive and context-augmented object detection in remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(4): 2337–2348. doi: 10.1109/TGRS.2017.2778300 [15] ZENG Xingyu, OUYANG Wanli, YAN Junjie, et al. Crafting GBD-net for object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(9): 2109–2123. doi: 10.1109/TPAMI.2017.2745563 [16] ZHANG Jun, XIE Changming, XU Xia, et al. A contextual bidirectional enhancement method for remote sensing image object detection[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13: 4518–4531. doi: 10.1109/JSTARS.2020.3015049 [17] WU Xin, HONG Danfeng, TIAN Jiaojiao, et al. ORSIm detector: A novel object detection framework in optical remote sensing imagery using spatial-frequency channel features[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(7): 5146–5158. doi: 10.1109/TGRS.2019.2897139 期刊类型引用(8)
1. 马荣贵,张翼,董世浩. 基于无人机影像的改进YOLOv5道路目标检测. 无线电工程. 2025(01): 1-10 . 百度学术
2. 冯晓亮,陈欢,李厚芝. 面向遥感影像解译的观测小目标超分辨率重建方法. 测绘工程. 2025(02): 32-37 . 百度学术
3. 梁燕,饶星晨. 改进YOLOX的遥感图像目标检测算法. 计算机工程与应用. 2024(12): 181-188 . 百度学术
4. 李睿,李亚洲,赵建文,周卫波. 基于多尺度特征融合的地理测绘影像目标检测. 林业调查规划. 2024(04): 188-194 . 百度学术
5. 林瑞鸿,刘超,谭浩. 基于改进YOLOv7的遥感图像飞机目标检测. 现代计算机. 2024(21): 43-48 . 百度学术
6. 李科文,朱光磊,王辉,祝锐,狄兮尧,张天健,薛朝辉. 联合双重注意力机制和双向特征金字塔的遥感影像小目标检测. 遥感学报. 2024(12): 3231-3248 . 百度学术
7. 杨晨,佘璐,杨璐,冯自贤. 改进YOLOv5的遥感影像目标检测算法. 计算机工程与应用. 2023(15): 76-86 . 百度学术
8. 吴洪蕊,王伟娟,刘明素. 基于改进决策树算法的山区遥感影像变化检测方法. 北京测绘. 2023(12): 1655-1661 . 百度学术
其他类型引用(0)
-