Incremental Deep Learning for Remote Sensing Image Interpretation
-
摘要: 深度学习的发展推动了高精度遥感图像智能解译模型的涌现。然而,目前遥感智能解译模型大多基于预先定义的静态数据集独立训练,难以适应环境开放和需求动态的实际应用,严重阻碍了遥感智能解译模型的广域和长期运用。增量学习能使模型持续学习新知识,并保持对旧知识的记忆,近年来,被广泛应用于推动遥感智能解译模型演化、提升模型智能解译性能。该文面向多模态遥感数据、不同类型解译任务,全面调研了遥感图像智能解译增量学习方法,从遗忘问题解决思路、解译模型进化应用两个层面梳理了现有研究工作。在此基础上,从促进遥感图像解译模型进化研究的角度,展望和讨论了遥感领域增量学习的未来研究方向。Abstract: The significant advancement of deep learning has facilitated the emergence of high-precision interpretation models for remote-sensing images. However, a notable drawback is that the majority of interpretation models are trained independently on static datasets, rendering them incapable of adapting to open environments and dynamic demands. This limitation poses a substantial obstacle to the widespread and long-term application of remote-sensing interpretation models. Incremental learning, empowering models to continuously learn new knowledge while retaining previous knowledge, has been recently utilized to drive the evolution of interpretation models and improve their performance. A comprehensive investigation of incremental learning methods for multi-modal remote sensing data and diverse interpretation tasks is provided in this paper. Existing research efforts are organized and reviewed in terms of mitigating catastrophic forgetting and facilitating interpretation model evolution. Drawing from this research progress, this study deliberates on the future research directions for incremental learning in remote sensing, with the aim of advancing research in model evolution for remote sensing image interpretation.
-
1. 引言
遥感图像解译是指根据实际应用需求,结合解译标志(如形状、大小、颜色、纹理等)和解译经验,对遥感图像中的地物特征进行建模、分析、推理与判断,最终获取各类地物信息的过程[1]。早期的遥感图像解译以目视解译(又称目视判读,或目视判译)为主,由专业人员通过直接观察或借助辅助判读仪器在遥感图像上获取特定目标地物信息。目视解译准确性高、但效率低[2]。随着对地观测技术的发展,遥感数据呈爆发式增长,对遥感图像智能解译方法和技术提出了更为迫切的需求。
近年来,以深度学习为代表的新一代人工智能技术,因其强大的学习、感知和推理等能力在遥感图像解译的应用广度和深度迅速拓展,成为遥感图像智能解译的核心技术之一。面向场景识别[3–5]、目标检测[6–8]、地物分类[9–11]、变化检测[12–14]等典型遥感图像解译任务,产生了系列深度模型。遥感解译模型构建主要包含3个步骤:首先,针对具体的应用场景、解译任务和解译对象,收集大量的遥感图像数据。然后,根据应用需求预设语义类别,通过人工标注等方式构建大规模的遥感图像基准数据集。在此基础上,结合遥感图像地物目标的特性(如尺度和方向多变),设计网络架构,并采用全监督学习的训练方式,产生最终的解译模型。
深度学习的发展推动了多种遥感图像智能解译任务的精度提升。然而,这种高精度性能通常是基于封闭世界的假设,即模型在测试阶段只会遇见预定义的目标类别,并且测试图像和训练图像是独立同分布。实际应用难以满足封闭世界假设,主要有两个原因:真实世界是开放的,不同地域环境的同类地物可能存在巨大差异,甚至可能出现新的地物类别。此外,随着遥感图像的持续获取,应用需求也在不断变化。因此,基于静态数据集独立训练的解译模型只能在限定应用场景中服务于特定的解译任务。一旦应用场景或场景认知需求发生变化,模型的性能难以保证,甚至可能无法使用。这极大地限制了遥感智能解译模型的业务化运用。
为适应开放环境和满足动态需求,基于无限的遥感数据流,解译模型应具备持续吸收新知识、同时保留甚至优化旧知识,不断进化的能力。最简单的模型进化策略是利用新旧数据微调解译模型,通过多任务联合优化,使模型在多组训练数据对应的解译任务上都达到高性能[15]。但是,受隐私保护、存储限制等因素的影响,旧任务(或旧需求)的训练数据可能无法获取。若仅用新任务的数据训练模型,极易导致模型对旧任务知识的灾难性遗忘(catastrophic forgetting),从而在旧任务或旧数据上的性能下降。在无法获取旧数据的情况下,基于增量学习(incremental learning)的遥感图像解译模型进化成为近期的研究热点。增量学习旨在赋予模型类似人类的学习模式,使模型能够在无限数据流中进行渐进式学习,逐渐扩充和积累知识,不断适应新任务,同时不遗忘旧任务。
在遥感图像智能解译模型快速发展的当下,系统地分析面向遥感图像解译的增量学习方法,对于推动遥感图像解译模型进化研究具有十分重要的指导意义。当涉及深度模型的增量学习时,目前的综述主要关注计算机视觉领域中自然图像理解模型的增量学习方法[16–21]。相较于自然图像理解,遥感图像解译包含多时相变化检测、合成孔径雷达图像目标识别等特殊任务,相应地发展了针对这些解译模型的增量学习方法。然而,现有的综述较少关注这些方法。此外,即使是在技术上紧密相关的深度模型,如图像分割模型和地物分类模型,它们实现增量学习的思路也存在差异。例如,面向地物分类模型的增量学习方法利用遥感数据、地物目标等的特性缓解灾难性遗忘问题。然而,这方面的深入分析在现有综述中较为有限。
鉴于此,本文深入调研了面向遥感图像解译的增量学习方法,从遗忘问题解决思路、解译模型进化应用两个层面梳理了现有研究工作,同时展望了基于增量学习的遥感图像解译模型进化未来发展方向。
2. 增量学习问题定义
根据训练数据标注/模型测试设置的差异,增量学习通常分为3类,即任务增量学习(task incremental learning)、类别增量学习(class incremental learning)和域增量学习(domain incremental learning)[22]。以遥感图像场景识别模型进化为例,图1展示了不同类型的增量学习。
图 1 不同类型的遥感图像场景识别模型进化[23](1)任务增量学习是指通过多阶段学习使深度模型逐步适应一系列不同的任务。在每个阶段的模型训练中,仅包含当前学习任务的全部数据。在模型测试时,每个待测试图像都具有明确的任务编号。这使得模型只需关注单个任务内部的决策边界。任务增量学习通过为每个任务设计任务特定的网络模块或独立网络实现。在前一种方案中,会在共享的网络层顶部设计额外的特征编码层和任务预测头,而后一种方案则是为每个任务构建独立网络。因此,任务增量学习面临的挑战不仅是缓解遗忘问题,而且是学习有效的任务共享特征表征,并利用一个任务的知识提高模型在其他任务上的性能。
(2)类别增量学习旨在引导模型在已知语义类别(称为旧类别)的基础上,从新采集的训练数据中学习识别新的语义类别,并且无需重新学习旧类别。不同于任务增量学习,类别增量学习在多阶段学习中只有一个预测头。该预测头的参数量随着学习的类别数量增加而增加。此外,在类别增量学习的测试阶段,无需提供任务编号,测试图像可以属于已学习的任意类别。由于存在大量的网络权重共享和测试时任务编号未知,类别增量学习的主要挑战是避免遗忘已学习的类别,并解决类别之间的干扰问题。
(3)域增量学习的目标是让模型逐步适应新数据。新数据与旧数据共享相同的语义类别空间。然而,受自然场景的多样性、遥感平台/传感器的差异以及成像条件的变化等因素的影响,同一类别的地物目标在新旧数据上呈现完全不同的视觉特征。通过域增量学习,模型能够应对同一类别的分布变化,从而具备强大的泛化能力。在域增量学习的测试阶段,同样不提供测试图像所属的任务编号。与域增量学习相似的研究是域适应(domain adaptation),二者都致力于解决不同域之间的数据分布变化。然而,域适应专注于提高模型在目标域上的性能,而域增量学习则关注模型在所有已学习的域上的表现。
3. 增量学习方法回顾
根据遗忘问题的解决思路差异,面向遥感图像解译的增量学习大致分为基于知识蒸馏(knowledge distillation)、基于网络扩展(network expansion)和基于记忆回放(memory replay)的方法。当前,知识蒸馏和网络扩展已被应用于任务增量学习、类别增量学习和域增量学习。然而,记忆回放仅在类别增量学习和域增量学习中得到应用。表1总结了不同方法的优缺点和代表性研究成果。知识蒸馏借助损失函数的形式约束模型的参数更新,简单有效且易于实施,因此常与网络扩展、记忆回放组合,进一步增强模型的旧知识保留能力。然而,知识蒸馏需要保存旧模型,占用一定的存储空间。网络扩展与非增量的模型训练类似,即一组数据对应一部分网络参数。直接冻结已有参数即可有效保持旧知识,但不断扩大的网络规模增加了计算和存储成本,不利于解译模型的应用部署。记忆回放保存旧数据有助于模型感知新旧知识的边界。然而,随着旧数据的持续积累,存储成本也在增加。此外,多阶段回放少量旧数据容易导致过拟合,降低模型在旧数据、旧任务上的性能。尽管已有研究通过特征生成解决过拟合和高存储成本等问题,但生成模型的增量学习使伪特征的保真度难以保证。
表 1 面向遥感图像解译的增量学习方法对比与总结方法 核心思想 优点 缺点 代表性成果 知识蒸馏 新旧模型在同一输入图像上的输出保持一致 以损失函数的形式约束模型的参数更新,简单有效且易于实施 旧模型保存,占用一定的存储空间 逐任务知识蒸馏[24] 背景建模知识蒸馏[25] 空间-通道压缩特征蒸馏[26] 结构化知识蒸馏[27,28] 历史信息引导特征蒸馏[29] 网络扩展 增加独立网络参数学习新知识 直接冻结已有网络即可有效保持旧知识 不断扩大的网络规模增加计算和存储成本 增量学习建模为提升过程[30,31] 特征编码器深层结构扩展[32] 残差模块扩展[33,34] 特征迁移模块扩展[35] 记忆回放 保留少部分旧数据,帮助模型回忆旧知识 模型基于新旧数据优化,能够较好地感知新旧知识的边界 旧数据保留增加存储成本,且易产生过拟合 代表性样本选择[36–38] 预测偏差校正[39–46] 旧数据特征生成[24,47] 3.1 知识蒸馏
知识蒸馏[48]是指将知识从教师模型(深层网络)迁移至学生模型(浅层网络)的过程,旨在减少模型复杂性的同时尽可能维持高性能。在增量学习研究中,尽管无法获取旧数据,但考虑到旧模型已经学习到处理旧数据和完成旧任务的相关知识,并且旧模型可获取。因此,目前的增量学习研究将旧模型作为教师模型,指导新模型(即学生模型)的学习。通过知识蒸馏,新模型能够利用旧模型的知识,更快地适应新数据和新任务,同时在应对旧任务时保持高性能,避免了遗忘问题。根据知识蒸馏实施的位置,基于知识蒸馏的增量学习可以分成输出空间知识蒸馏和特征空间知识蒸馏。
(1)输出空间知识蒸馏:旧模型输出的概率分布被用作新模型的学习目标,通过比较两者的输出概率分布传递知识。形式上,基于知识蒸馏的方法在新模型训练时引入了知识蒸馏损失Lkd
Lkd=∑xi∈DtSIM(pt−1(xi),pt(xi)) (1) pt(xi)和pt−1(xi)表示新模型Mt、旧模型Mt−1在新数据集Dt的第i个样本xi上的输出分布。SIM(⋅,⋅)是衡量输出分布相似性的函数,常用的形式包括均方误差、交叉熵和KL散度等。特别地,针对目标检测的增量学习采用smooth l1计算新旧模型的边界框回归差异[49]。蒸馏损失与任务损失(如地物分类的交叉熵损失)共同优化新模型,分别负责巩固旧知识和学习新知识。
结合增量学习类型和解译任务特性,产生了多个输出空间知识蒸馏损失的变体。例如,针对地物分类的类别增量学习研究采用了逐任务的知识蒸馏损失[24]或背景建模的知识蒸馏损失[25]。在地物分类的类别增量学习中,每个阶段采集的数据集Dt对应于一组语义类别Ct的学习任务。通过多阶段的学习,新模型Mt能够识别输入图像中属于类别Call={C1,C2,⋯,Ct}的地物目标。对于分类任务,模型的预测头(prediction head)通常采用softmax作为激活函数,因此可以通过式(2)计算类别c上模型输出的概率ptc(xi)
ptc(xi)=exp(otc(xi))∑s∈Callexp(ots(xi)) (2) otc(xi)是模型Mt在类别c上的输出(logit)。在新类别学习时,旧类别被视为背景,因此交叉熵损失引导新模型将旧类别的输出压缩至背景类。相反,蒸馏损失要求新模型给予旧类别高于背景类的输出。交叉熵损失与蒸馏损失之间的矛盾阻碍了旧知识的维持。为了解决这个问题,Shan等人[24]提出在同一阶段学习的类别之间进行模型输出向概率分布的映射,然后执行逐任务的知识蒸馏。因此,式(1)和式(2)更改为
Ltkd=∑xi∈Dtt−1∑k=1SIM(pt−1k(xi),ptk(xi)) (3) ptk,c(xi)=exp(otc(xi))∑s∈Ckexp(ots(xi)) (4) 背景建模的知识蒸馏损失旨在解决背景偏移(background shift)[25]对旧知识迁移的负面影响。背景偏移指的是不同训练阶段中背景类的语义发生变化,即新数据的背景类涵盖了旧类别,而旧数据的背景类则包含了新类别。这种情况下,强行要求新旧模型在旧类别和背景类上的概率分布相似是不合理的。针对这个问题,Cermelli等人[25]提出了背景建模的思想,约束新模型的新类别和背景类的概率之和接近于旧模型的背景类概率。背景建模的知识蒸馏损失Lmib定义为
Lmib=∑xi∈DtSIM(pt−1(xi),ˆpt(xi)) (5) ˆptc(xi)={ptc(xi),c≠b∑s∈Ctpts(xi),c=b (6) 其中,b是背景类。
(2)特征空间知识蒸馏:旧模型的特征表征是新模型的学习目标,通过特征对齐实现知识的迁移。遵循输出空间知识蒸馏的形式,特征空间知识蒸馏损失可定义为
Lkd-feature=∑xi∈DtL∑l=1SIM(Ft−1l(xi),Ftl(xi)) (7) 其中,Ftl(xi),Ft−1l(xi)∈Rhl×wl×dl是新旧模型在l层输出的特征表征。由于两个模型通常具有相似的网络架构,因此可以在多个网络层(L>1)进行特征空间的知识蒸馏。可用的相似性度量函数包括l2范数、均方误差和余弦相似性。值得注意的是,若采用余弦相似性,新模型最小化的特征空间知识蒸馏损失为1−Lkd-feature。
逐像素的特征约束有效地巩固了旧知识,但同时减少了可用于新知识学习的网络容量,这导致新模型在新任务上性能不佳。如何平衡新知识学习和旧知识维持成为基于特征空间知识蒸馏的方法的研究难点之一。现有研究通过挖掘不同形式的知识来赋予特征空间知识蒸馏更大的灵活性。Shan等人[26]提出在空间维度和通道维度压缩深度特征,再约束特征的相似性
L′kd−feature=∑xi∈DtL∑l=1[SIM(Ft−1l,space(xi),Ftl,space(xi))+SIM(Ft−1l,channel(xi),Ftl,channel(xi))] (8) 其中空间维度和通道维度的特征压缩为
Ftl,space(xi)=dl∑d=1Ftl(xi) (9) Ftl,channel(xi)=hl∑h=1wl∑w=1Ftl(xi) (10) Feng等人[27]主张迁移旧模型学习到的结构化知识,例如像素间共存、相似、差异等交互信息,为此提出了像素亲和结构损失。该损失计算亲和矩阵(affinity matrix)建模像素交互信息,再约束新旧模型的亲和矩阵的一致性。该过程可定义为
Lpas=∑xi∈DtL∑l=1‖ (11) \begin{split} \qquad\; {\boldsymbol{A}}_{l}^{t}\left({x}_{i}\right)= \,& {\mathcal{N}}\left({\mathcal{R}}_{hw\times d}\left({\boldsymbol{{\mathcal{F}}}}_{l}^{t}\left({x}_{i}\right)\right)\right)\\ & \times {\mathcal{N}\left({\mathcal{R}}_{hw\times d}\left({{\boldsymbol{\mathcal{F}}}}_{l}^{t}\left({x}_{i}\right)\right)\right)}^{\mathrm{T}} \end{split} (12) 其中, {\boldsymbol{A}}_{l}^{t}\left({x}_{i}\right),{\boldsymbol{A}}_{l}^{t-1}\left({x}_{i}\right)\in {\mathbb{R}}^{N\times N} ( N={h}_{l}\times {w}_{l} )是新旧模型的亲和矩阵。 {\mathcal{R}}_{hw\times d}(\cdot ) 是变形函数,将输入矩阵的尺寸由 h\times w\times d 变为 hw\times d 。 \mathcal{N}(\cdot ) 是 {l}_{2} 归一化函数。类似地,Rong等人[28]设计了跨图像特征相关性蒸馏损失 {\mathcal{L}}_{\mathrm{c}\mathrm{f}\mathrm{r}\mathrm{d}} ,迁移一个批次(batch)中不同图像上像素对的语义相关性
{\mathcal{L}}_{\mathrm{c}\mathrm{f}\mathrm{r}\mathrm{d}}=\frac{1}{{B}^{2}}\sum _{i=1}^{B}\sum _{j=1}^{B}\sum _{l=1}^{L}\mathrm{K}\mathrm{L}\left({\boldsymbol{A}}_{l}^{t-1}\left({x}_{i},{x}_{j}\right),{\boldsymbol{A}}_{l}^{t}\left({x}_{i},{x}_{j}\right)\right) (13) {\boldsymbol{A}}_{l}^{t}\left({x}_{i},{x}_{j}\right)={\mathcal{R}}_{hw\times d}\left({{\boldsymbol{\mathcal{F}}}}_{l}^{t}\left({x}_{i}\right)\right)\times {{\mathcal{R}}_{hw\times d}\left({{\boldsymbol{\mathcal{F}}}}_{l}^{t}\left({x}_{j}\right)\right)}^{\mathrm{T}} (14) 其中, B 表示一个批次中的图像数量。 \mathrm{K}\mathrm{L}(\cdot ) 是KL散度函数。
与输出空间知识蒸馏损失相似,特征空间知识蒸馏损失也存在变体,以适应不同的增量学习类型和解译任务特性。例如,在地物分类的增量学习中,旧模型将新类别视为背景类,因此不应该限制新旧模型在属于新类别的像素位置具有相似的特征。“过时”知识的迁移阻碍新模型学习新知识。为了解决这个问题,Rong等人[29]融合了新数据的真值和旧模型对新数据的预测结果,生成了指示旧类别像素的掩膜。该掩膜用于加权式(7)的计算,仅在属于旧类别的像素位置对齐特征。
3.2 网络扩展
基于网络扩展的增量学习通过为每一阶段的新数据学习设置独立的网络参数,避免与旧知识相关联的模型权重被完全覆盖,从而达到旧知识保护和新知识学习的目标。在没有模型参数量约束时,可以选择复制整个网络架构,例如,GeoBoost算法[30,50]和基于高效通道注意的多尺度深度网络(Efficient Channel Attention-based MultiScale DepthWise Network, ECA-MSDWNet)[31]。与一组数据对应一个模型的非增量学习不同,GeoBoost扩展网络是将其视为一个弱学习器,用于弥补先前累加学习器在新数据上的性能不足。每个弱学习器自身并不是一个独立的任务模型。在学习新数据时,旧的学习器被全部冻结,利用梯度提升(gradient boosting)思想[51]更新新增学习器的参数。网络整体扩展是有效且易于实现的,但随着学习阶段的增多,该方法会增加模型的存储成本和推理时间,这对于实际应用部署并不利。针对此局限,ECA-MSDWNet在学习新数据后引入知识蒸馏进行模型压缩。
受模型存储限制等因素的制约,大多数研究专注于扩展网络的局部模块。深度网络通常包含特征编码器和预测头这两个关键模块。特征编码器的层次化结构使得网络可以逐级提取输入图像的不同层次信息,产生从低层到高层的特征表示。通常,低层特征主要捕获颜色、纹理和形状等信息,而高层特征则更加抽象且语义丰富。预测头接收高层特征,并由此产生模型的预测结果。这意味着高层特征与模型所学习的任务和数据是密切相关的。因此,部分研究将特征分解成共享特征和特定特征,并由此提出扩展特征编码器的深层网络层以学习新数据,如图2所示。最简单的做法是直接复制特征编码器的后半部分[32]。为了进一步减少模型参数量,最近的研究[33,34]提出添加与特征编码器并行的残差模块,以将共享特征转换为特定特征。这些残差模块由 1\times 1 卷积或缩放(及偏置)向量组成。然而,由于参数数量较少,可能难以提取足够的语义信息支撑准确的模型预测。因此,Lu等人[35]舍弃了特征分解的思路,而是利用完整的特征编码器学习新数据,然后在特征编码器的顶层增加特征迁移模块。该模块由2个 1\times 1 卷积层和3个 3\times 3 卷积层构成,旨在实现新模型向旧模型的特征转换。
3.3 记忆回放
基于记忆回放的增量学习放宽了旧数据完全无法获取的限制条件,允许保留模型在每个训练阶段的部分旧数据,以帮助模型在学习新数据时复习先前学习的知识。为了权衡数据存储成本和遗忘问题缓解,这类方法研究的重点之一是开发有效的样本抽样方法,以确保保留的少量数据能够尽可能代表原始数据集的分布。目前,遥感领域增量学习研究常用的抽样方法有随机抽样、群聚(herding)策略[52]、类边界(class boundary)样本选择等。
(1)随机抽样[32,39,53,54]:根据语义类别对训练样本进行分组。同一组内的样本被赋予相等的抽样概率。然后随机从每个组中抽取相同数量的样本予以保留。当同组样本之间的特征或分布差异较小时,随机抽样是简单且有效的代表性样本选择方法。相反,该方法可能抽取异常样本(远离同类样本分布区域),不利于新模型巩固旧数据的共性知识。
(2)群聚策略[40–43]:基于当前的模型特征编码器,计算属于同一个类别的所有样本的特征均值,作为类中心。然后按照样本与类中心之间的距离升序排列,并保留前若干个样本。该策略使得代表性样本的特征最接近原始数据集的特征均值,有利于帮助模型复习旧数据的共性知识。
(3)类边界样本选择[36–38,55,56]:类边界是指在特征空间中包围所有同类样本的边界线或者曲面[57]。为了在多阶段学习中保持对不同类别的区分能力,许多研究将靠近类边界的训练样本作为代表性样本存储。目前主要有两种类边界样本选择算法。第1种是基于局部几何和统计信息的选择算法[36,38,55,56],该算法将类边界样本细分为重叠区域和边缘区域的样本。对于给定的样本 {x}_{i} ,如果其近邻中同时存在多个同类别和其他类别的样本,则表明 {x}_{i} 位于多个类边界的重叠区域,因此应予以保留。相反,如果 {x}_{i} 的近邻只包含同类别的样本,并且这些样本大多分布在 {x}_{i} 的切平面的同一侧,那么可以确定 {x}_{i} 位于边缘区域,也应该保留。第2种是基于凸包构造(convex hull)的选择算法[37]。该算法首先确定同类样本中距离最远的3个极点。然后根据极点将数据集分成3个子集。接下来,递归地在每个子集中寻找极点并构建凸包。通过不断的递归能够找到覆盖大多数样本的凸包顶点。这些凸包顶点就是需要保留的代表性样本。
图3展示了不同抽样方法的结果。基于存储的旧数据,新模型可通过全监督的学习范式复习旧知识。然而,由于新旧数据之间巨大的数据量差异,新模型的预测很容易偏向新数据,从而导致新模型在旧数据上的性能不佳。因此,现有研究分别从训练调节和滞后调节两个角度提出了预测偏差校正的方法。
(1)训练调节:受限于内存和计算资源等因素,模型训练时采用随机抽样将新旧数据组成的训练集划分为多个批次。在每个训练迭代中,选择一个批次作为当前迭代的训练数据。由于旧数据的数量很少,在一次训练周期(epoch)中,模型对旧数据的关注相对较少。这促使研究者探索样本加权方法,通过增加旧数据的抽样概率,使其能够在一个训练周期中更频繁地参与模型的迭代优化。Tang等人[41]通过计算每个类别的抽样概率与该类别的样本数量成反比,提升旧类别样本的抽样概率。Huang等人[44]提出了渐进抽样策略。在训练初期,每个类别的样本抽样概率与该类别的样本数量成正比,以便模型专注于学习新类别。随着训练周期的增长,保持新旧类别的抽样概率相等。此时,由于旧类别的数据量较少,因此旧类别样本的抽样概率将大于新类别样本的抽样概率。类似地,Chen等人[45]构建了一个小型网络,用于学习每个存储样本的抽样概率,旨在使不同类别的样本抽样概率之和相等。除了调整数据输入外,Li等人[39]主张优化模型的训练策略,提出了可分离学习策略。旧数据内部的类别之间平衡,因为采用了随机抽样和群聚策略等方法为每个类别抽取并存储了相同数量的样本。同时,新数据内部的类别之间也相对平衡。基于此,可分离学习策略不将新旧数据组合在一起划分批次,而是分别从新旧数据中产生两个独立的批次。然后,将这两个批次依次输入模型计算预测损失。最后,根据损失之和更新模型参数,完成一次训练迭代。受长尾分布(long-tailed distribution)问题研究的启发,Zheng等人[46]根据新旧数据量加权模型的损失函数。
(2)滞后调节:训练调节的方法是在新模型优化时预防预测偏差问题。尽管这类方法有效,但可能导致新模型在新数据上学习收敛缓慢。滞后调节的方法是在新模型完成新数据学习和旧数据复习之后采取措施校正模型输出,而不会影响新数据的学习。Xi等人[40]提出了使用平衡的旧数据集微调模型预测头的方法。为避免微调阶段的旧数据过拟合,仅进行了少量的训练迭代,并且在网络架构设计时有意识地减少了预测头的参数量。考虑过拟合问题,Xu等人[42]使用额外的新旧平衡集学习一个偏差校正层,以显式地校准模型在新类别上的输出。该过程可以表示为
{q}_{c}=\left\{\begin{aligned} & {o}_{c}, \qquad\quad c\in {C}_{\mathrm{a}\mathrm{l}\mathrm{l}}\backslash {C}_{t}\\ & \alpha {o}_{c}+\beta ,\;\; c\in {C}_{t}\end{aligned}\right. (15) 其中, {o}_{c} 和 {q}_{c} 分别是模型的输出和偏差纠正的结果。偏差校正层的参数 \alpha 和 \beta 是基于额外的平衡集估计得到的,并在所有新类别上共享。当旧数据的数量较少,需要将其全部用于旧知识回顾,无法细分以构建额外平衡集时,Zhou等人[43]通过对齐新旧类别预测头的权重向量的平均模长来估计参数 \alpha
\alpha =\frac{\mathrm{M}\mathrm{e}\mathrm{a}\mathrm{n}\left(\left(\left\|{w}_{1},{w}_{2},\cdots ,{w}_{\left|{C}_{\mathrm{o}\mathrm{l}\mathrm{d}}\right|}\right\|\right)\right)}{\mathrm{M}\mathrm{e}\mathrm{a}\mathrm{n}\left(\left(\left\|{w}_{\left|{C}_{\mathrm{o}\mathrm{l}\mathrm{d}}\right|+1},{w}_{\left|{C}_{\mathrm{o}\mathrm{l}\mathrm{d}}\right|+2},\cdots ,{w}_{\left|{C}_{\mathrm{a}\mathrm{l}\mathrm{l}}\right|}\right\|\right)\right)} (16) \mathrm{M}\mathrm{e}\mathrm{a}\mathrm{n}(\cdot ) 计算权重向量模长的平均值。 {C}_{\mathrm{o}\mathrm{l}\mathrm{d}}={C}_{\mathrm{a}\mathrm{l}\mathrm{l}}\backslash {C}_{t} ,表示模型在前 t-1 阶段学习到的所有类别。参数 \beta 是基于知识回顾的旧数据结合同等数量的新数据,通过全监督训练优化得到。
存储真实数据进行记忆回放在实际应用时存在两个限制:多阶段的旧数据保留增加了数据存储成本。其次,少量数据的模型重复训练可能导致过拟合问题。针对这些局限性,一些研究利用生成模型,如生成对抗网络(Generative Adversarial Network, GAN)[58]和变分自编码器(Variational AutoEncoder, VAE)[59],捕获旧数据的分布,并在每次模型训练时自动生成多样的旧数据。考虑到遥感成像的特殊性,比如远距离俯视和易受大气影响,现有研究并不直接生成伪图像,而是生成伪特征,帮助模型复习旧知识[24,47,60]。在新数据到来时,生成模型需要继续学习新的分布,以便为下一阶段的模型训练生成服从当前分布的伪特征。Shan等人[24]引入了知识蒸馏,以确保新的生成模型不会遗忘旧分布。Ammour等人[47]基于真实特征和伪特征优化生成模型。
4. 遥感图像解译模型进化
随着对地观测技术的飞速发展,遥感图像数据呈爆发式增长[61,62]。其中,高空间分辨率的可见光遥感图像包含丰富的地表视觉信息,合成孔径雷达(Synthetic-Aperture Radar, SAR)图像可提供极端天气下的地物目标信息,而高光谱图像则提供详细的地物目标光谱信息。这些图像数据被广泛应用于环境监测、资源调查、减灾救灾、军事侦察等领域,具有重要的民用和军事应用价值。因此,针对这些图像的解译方法、技术和模型一直是人工智能、遥感对地观测等领域的研究重点,进而促使了面向这些图像解译模型的增量学习研究。本文根据数据模态,分别阐述了基于增量学习的遥感图像解译模型进化的研究进展。
4.1 可见光遥感图像
可见光图像解译模型的进化是当前遥感领域增量学习研究的热点。针对场景识别、目标检测、地物分类和变化检测等典型图像解译任务,已提出了系列增量学习方法。本文结合增量学习类型和解译任务,分析了解译模型进化的代表性实现。
4.1.1 类别增量学习
解译模型的类别增量学习使模型逐步区分不断增长的地物类别,从而适应地表环境的多样性。表2汇总了面向可见光图像解译的类别增量学习方法。代表性研究工作包括:
表 2 面向可见光图像解译的类别增量学习方法总结解译任务 文献 贡献 遗忘问题解决思路 知识蒸馏 网络扩展 记忆回放 场景识别 [31] 类别增量学习建模为特征提升过程,动态扩展模块化分类网络 \surd \surd \surd [38] 动态混合的样本选择策略和基于异构原型的学习框架,增加存储样本的信息量 \surd \times \surd [64] 利用可学习提示解耦场景识别的知识,避免特定知识的相互干扰缓解遗忘问题 \times \surd \times [65] 相互协作的瞬时网络和保持网络实现有效的旧知识召回和新知识积累 \surd \times \times [37] 凸包构造算法选取接近类边界的样本 \times \times \surd [53] 根据新旧类别的相似性设计类别学习顺序,提高新模型的新类别学习效率 \surd \times \surd [47] 利用VAE生成多样的旧类别特征,避免过拟合和存储成本高的问题 \times \times \surd [40] 平衡的旧数据集微调新模型的预测头,缓解新旧类别不平衡导致的预测偏差 \surd \times \surd [63] 扩展预测头学习新类别,并依据图像特征与任务原型的相似性选择预测头 \surd \surd \times 目标检测 [45] 基于熵的蓄水池抽样策略和样本抽样加权缓解回放不平衡导致的预测偏差 \times \times \surd [49] 在区域候选网络和预测头添加分支并迁移知识,实现新类别学习和旧知识保留 \surd \surd \times 地物分类 [28] 跨图像特征相关性蒸馏损失增强模型的新类别学习能力 \surd \times \times [24] 像素级旧特征生成,应对遗忘问题;逐任务知识蒸馏避免新类别向旧类别压缩 \surd \times \surd [26] 空间-通道维度的特征压缩并迁移,降低特征空间知识蒸馏的计算成本;信息熵量化旧模型预测的准确性,并仅使用高置信度像素预测维持旧知识 \surd \times \times [29] 历史信息引导模型关注前景(旧类别)区域的知识迁移;高置信度的旧模型预测与真实标签相结合,为新模型提供完整的类别监督信息 \surd \times \times [66] 多样蒸馏损失促使模型关注易被遗忘的小目标和目标边缘 \surd \times \times [67] 依据类别实例数量计算每张图像的重要性,确保存储图像的类别均衡 \surd \times \surd (1)场景识别是指根据图像内部地物的空间结构和分布模式识别场景的语义类别。知识蒸馏、记忆回放和网络扩展这3种方法都已用于缓解场景识别模型在新类别学习时的旧类别遗忘问题。其中,记忆回放是最常用的方法[37,38,40,47,53]。为了使保留的少量样本能够呈现原始数据集中同一类别样本的特征分布,一些研究采用群聚策略抽取靠近类中心的样本[40]或凸包构造算法选取接近类边界的样本[37]。类中心样本有助于模型感知旧类别的典型特征,而类边界样本有利于模型区分不同类别。综合考虑这两个因素,Fu等人[38]采用群聚策略以及基于局部几何和统计信息的选择算法,同时存储类中心和类边界的样本。随着学习的类别数量增加,数据存储的成本也相应增加。若限定固定的总样本存储数量,那么每当新类别增加时,就必须删除一些旧类别的样本,而且新类别样本的存储数量也会受到限制。稀缺的旧类别样本容易导致模型过拟合。针对这一问题,Ammour等人[47]利用VAE捕获旧类别数据的分布,并生成多样的旧类别特征,以帮助模型保持旧类别的判别能力。
针对场景识别的类别增量学习,网络扩展的典型应用是为新类别的学习添加模块化的分类网络[31]或分类器[63]。其中,前者将类别增量学习建模为特征提升(feature boosting)的过程。在学习新的一组类别时,旧模型的特征提取器和分类器被冻结,并引入一个由特征提取器和分类器组成的模块化分类网络。通过将旧模型和模块化分类网络的类别预测相加,产生新模型的预测结果,即新模型(强学习器)由旧模型(弱学习器)和模块化分类网络(弱学习器)构成。而后者则借鉴任务增量学习,采用独立分类器使模型只需学习区分不同的新类别。由于类别增量学习在测试阶段无法提供任务编号用于分类器的选择,Ammour等人[63]计算训练样本的特征均值作为任务原型,然后根据测试图像特征与任务原型之间的余弦距离选择分类器。知识蒸馏因其有效且易于实现的特点,常与记忆回放和网络扩展相结合[40,53,63],进一步巩固旧知识。
除了记忆回放、网络扩展等常规方法之外,最近的研究解耦场景识别的知识为共享知识和特定知识,通过避免模型优化过程中特定知识之间的相互干扰,以缓解遗忘问题[64]。场景识别的知识是指模型在数据集 {D}_{t} 上学习到的有关场景类别 {C}_{t} 判别的知识。如图4所示,通过引入可学习的提示(prompt),实现知识的解耦。具体而言,首先维护一个多阶段共享的提示池,每个提示具有唯一的关键词(key)。然后,采用键-值查询策略,根据输入图像的特征表征动态查找与其类别识别相关的一组提示。最后,这些提示与图像一起输入场景识别模型,引导模型执行特定的识别任务。在多阶段学习过程中,提示池与分类器一起更新,以使部分提示编码共享知识,而另一部分提示编码特定知识。
图 4 基于提示的增量学习[68]前述研究集中解决旧类别遗忘问题,而Ye等人[65]则强调了模型增量学习时的知识召回问题。在不同的训练阶段中,模型会学习到不同的语义类别。这些类别之间可能存在一些共性。例如,工业区和商业区两种场景类别都包含道路、建筑物等目标。因此,知识召回问题关注如何利用旧知识促进新知识的学习。针对该问题,Ye等人[65]提出了相互协作的瞬时网络(Transient Network, Trans-Net)和保持网络(Preserving Network, Pres-Net),分别编码新、旧类别的相关知识。当需要学习新的类别时,召回滤波器将Pres-Net和Trans-Net的深度特征嵌入到同一个低维特征空间中,以学习二者特征之间的可迁移性,并挖掘有效的迁移特征作为先验知识,引导Trans-Net学习新的类别。在Trans-Net训练完成后,通过特征空间和输出空间的3个相似性蒸馏损失更新Pres-Net,实现知识的积累。
(2)目标检测旨在识别图像中特定目标的位置和类别。与场景识别相比,遥感图像目标检测的类别增量学习研究较为有限,目前仅有FPN-IL模型[49]和在线持续目标检测器(Online Continual Object Detector, OCOD)[45]。FPN-IL基于双阶段的目标检测网络,在区域候选网络和最终预测头添加了专门学习新类别的独立分支。该分支由用于边界框回归和目标分类的全连接层组成。考虑到新数据中可能包含旧类别的目标,FPN-IL引入输出空间知识蒸馏,约束新旧模型中区域候选网络和预测头的旧分支输出的相似性。Chen等人[45]探讨了记忆回放中类别不平衡和回放不平衡对旧知识巩固的影响。遥感图像覆盖的视场范围广,单张图像中不同类别的目标实例数量往往存在巨大差异。选择代表性样本时,如果对每个类别抽样相同数量的图像,可能引发类别不平衡,使得模型偏向于巩固实例数量多的旧类别。相反,如果按每个类别抽样相同数量的实例,则实例数量多的旧类别将只有少量图像被存储,这意味着这些类别难以被抽取,参与新模型的训练,即产生了回放不平衡问题。为了解决这两个问题,OCOD采用信息熵量化回放的不平衡程度,其基本思想是,首先为每个类别维护一个与存储图像数量相同的向量,向量元素指示当前索引位置对应的图像中是否包含该类别的目标。然后根据各类别图像数量和所有类别图像数量之和计算信息熵,熵值越大表示回放分布越平衡。对于极端条件下某些类别的目标实例数量过少,无法实现平衡回放的情况,OCOD加权存储的每张图像,期望各类别的图像回放概率之和相同。
(3)地物分类的目标是为图像中的每个像素赋予一个语义类别,例如建筑物、林地和草地等。与场景识别(其中一个图像属于一个语义类别)不同,地物分类中用于新类别学习的图像可能包含属于旧类别的地物目标。这些目标在当前模型训练阶段被视为背景类。因此,地物分类的类别增量学习通常采用知识蒸馏来缓解遗忘问题,而不是记忆回放。由于新图像可能包含旧类别目标,一些研究利用旧模型为新数据中的旧类别目标生成伪标签[26,29,67,69]。伪标签与真实标签结合使用,为新模型的训练提供完整的类别监督信息。然而,由于新旧数据的分布差异,旧模型的预测可能不准确,导致错误的知识在多阶段的模型训练中不断累积。为了确保旧知识的正确性,研究者使用模型输出概率分布的信息熵[26]或者模型输出概率差异[29],量化旧模型预测的置信度,并仅使用高置信度的预测维持旧知识。随着数据分布差异的增大,旧模型预测的筛选可能会去除大部分像素,导致监督信息过少,不足以支撑旧知识的保护。鉴于此,目前基于知识蒸馏的方法更多地是直接约束新旧模型输出概率分布的相似性[24,29,66]。在此基础上,提出了背景建模的知识蒸馏损失[26,28]或逐任务的知识蒸馏损失[24],确保旧知识有效地迁移至新模型。为了进一步增强对旧知识的维持,一些研究在输出空间和特征空间同时执行知识蒸馏[26,28,29]。这些工作通过迁移空间-通道压缩知识[26]或结构化知识[28],平衡旧知识的保护和新知识的学习。 {l}_{2} 范数、均方误差和余弦相似性等方法被用于度量新旧模型深度特征的相似性[26,28,29]。
(4)常用数据集和方法性能对比:面向可见光遥感图像解译的类别增量学习研究常用数据集归纳如表3所示。加州大学默塞德分校土地利用数据集(UC Merced land use dataset, UC-Merced)[77]、光学遥感图像目标检测基准集(benchmark for object DetectIon in Optical Remote sensing images, DIOR)[79]和Potsdam[85](Vaihingen[86])数据集是场景识别、目标检测和地物分类任务最常用的数据集。研究者基于这些数据集,将预设的类别随机划分为多阶段的学习目标,以验证所提出方法的有效性。不同的数据集划分机制导致同类方法难以公平对比性能,亟需针对特定解译任务开发有效的评估基准。Li等人[76]提出了针对可见光遥感图像场景识别的增量学习基准集(Continual Learning benchmark for Remote Sensing, CLRS)。CLRS数据集由来自全球100多个国家和地区的15 000张图像组成,标注了25种场景类别(每类600张图像)。图像尺寸为256×256,图像分辨率范围从0.26~8.85 m。CLRS数据集为场景识别的类别增量学习、域增量学习和任务增量学习提供了训练集划分标准,以确保方法性能对比的公平性。由表4可知,解译模型的性能随着增量训练次数的增多而下降。此外,解译模型在大规模、多来源的数据集上进行类别增量学习时表现通常较差。究其原因,现有的类别增量学习方法旨在引导模型平衡新知识的学习和旧知识的保留,尚未考虑新旧数据分布差异问题。该问题导致旧模型难以准确预测新数据,进而降低了知识蒸馏的有效性。针对场景识别的类别增量学习方法结合使用知识蒸馏、网络扩展和记忆回放,有效地缓解了遗忘问题。然而,在多来源航空影像数据集(the Aerial Image Dataset, AID)[75]上,即使是最新方法[31]的平均准确率(mean ACCuracy, mACC)与理想上限仍存在超过10%的差距。面向地物分类的类别增量学习方法大多采用知识蒸馏解决遗忘问题,所以现有方法[24,28,29]在大规模航空影像实例分割数据集(instance Segmentation in Aerial Images Dataset, iSAID)[82]上的平均交并比(mean Intersection over Union, mIoU)仅约为30%。
表 3 面向可见光遥感图像解译的类别增量学习常用数据集解译任务 数据集 图像数量 类别数量 类别增量学习方法 场景识别 NWPU-RESISC45[70] 31500 45 [37,53,64] FGSCR-42[71] 9320 42 [38] PatternNet[72] 30400 38 [53] RSICB-256[73] 28000 35 [31,65] Optimal-31[74] 1860 31 [47,63] AID[75] 10000 30 [31,64,65] CLRS[76] 15000 25 [40] UC-Merced[77] 2100 21 [31,47,63–65] SIRI-WHU[78] 2400 12 [37] 目标检测 DIOR[79] 23463 20 [45,49] DOTA[80] 2806 15 [45,49] NWPU VHR-10[81] 800 10 [45] 地物分类 iSAID[82] 2806 15 [24,28,29] GCSS[83] 948 8 [29] Deepglobe[84] 1146 7 [24,26] Potsdam[85]/Vaihingen[86] 38/33 6 [24,26,28,66,67] Luxcarta[67] – 5 [67,69] 表 4 面向可见光图像解译的类别增量学习方法性能对比解译任务 研究工作 评价指标 数据集 增量训练次数 得分(%) 发布时间 场景识别 [31] mACC RSICB-256 9 91.10 TGRS’2024 AID 6 86.75 UC-Merced 3 94.29 [38] ACC FGSCR-42 8 89.06 TAES’2024 [64] ACC NWPU-RESISC45 9 72.90 GRSL’2023 AID 6 81.10 UC-Merced 3 92.33 [65] mACC RSICB-256 9 82.63 IEEE/CVF’2022 AID 6 88.93 UC-Merced 3 89.52 [37] ACC NWPU-RESISC45 7 93.47 TGRS’2022 SIRI-WHU 7 98.13 [53] mACC NWPU-RESISC45 9 49.42 JSTARS’2021 PatternNet 6 62.31 [47] ACC Optimal-31 10 86.80 GRSL’2022 UC-Merced 7 94.20 [40] ACC CLRS 4 32.30 CIOP’2021 [63] ACC Optimal-31 10 71.00 GRSL’2022 UC-Merced 7 89.00 目标检测 [45] mAP DIOR 20 34.40 EAAI’2023 DOTA 15 54.90 NWPU VHR-10 10 73.60 [49] mAP DIOR 2 68.45 TGRS’2022 DOTA 2 65.20 地物分类 [28] mIoU iSAID 6 31.88 TGRS’2023 Potsdam 5 74.44 Vaihingen 5 62.54 [24] mIoU iSAID 6 31.71 TGRS’2022 Deepglobe 6 57.00 Potsdam 2 77.70 Vaihingen 3 74.60 [26] mIoU Deepglobe 6 52.40 TGRS’2022 Potsdam 3 76.30 Vaihingen 3 74.10 [29] mIoU iSAID 6 30.21 TGRS’2022 GCSS 5 62.53 [66] mIoU Potsdam 2 75.92 TGRS’2022 Vaihingen 3 73.96 [67] F1 Luxcarta 3 68.09 JSTARS’2019 Potsdam 3 84.25 Vaihingen 3 87.44 4.1.2 域增量学习
良好的泛化能力是解译模型实现大范围、长期应用的关键前提。通过域增量学习的多阶段训练,模型能够逐步适应多样化的数据分布,提升其泛化能力。因此,近两年来,遥感领域的研究者们开始探索适用于解译模型的域增量学习方法,如表5所示。代表性研究工作包括:
表 5 面向可见光图像解译的域增量学习方法总结解译任务 文献 贡献 遗忘问题解决思路 知识蒸馏 网络扩展 记忆回放 场景识别 [87] 双网络知识协同学习策略增强场景识别模型的新知识学习和旧知识巩固能力 \surd \times \times 目标检测 [88] 为特征空间、输出空间的知识蒸馏添加可学习权重,解决预测偏差问题 \surd \times \surd 地物分类 [30] 域增量学习建模为提升过程,并利用自适应学习率确定每个网络的重要性 \times \surd \times [50] 扩展整个网络,新网络的学习目标是弥补已有模型在新数据上的性能不足 \times \surd \times 变化检测 [34] 输出空间和多层次特征空间的知识蒸馏保留旧知识;扩展域残差单位和解码器,学习新知识 \surd \surd \times (1)场景识别:李雪等人[87]提出了双网络知识协同学习策略,增强场景识别模型学习新知识和巩固旧知识的能力。该策略复制旧模型两次,分别形成协同模型和新模型。协同模型旨在维持旧知识,其学习目标是旧模型的输出、新数据的真实标签以及新模型的输出。通过持续保持双网络输出的一致性,有助于场景识别模型有效地学习新知识。协同模型的参数通过反向传播进行更新。新模型的参数则采用协同模型参数的指数加权平均形式更新。这样的更新方法使新模型更鲁棒,能够反映协同模型的学习状态,并提高识别精度。因此,新模型被用作场景识别的最终任务模型。
(2)目标检测:天(星载)、空(机载)、地(地面平台)综合观测网的建立能够提供多尺度的地物目标信息。然而,现有的目标检测模型主要为单一平台搭载的传感器设计,未能满足多平台遥感图像处理的需求。为此,Wang等人[88]提出了动态平衡网络(Dynamic Equilibrium Network, DENet),服务于天空地多源遥感图像的火灾检测。如图5所示,天空地多源遥感图像因观测尺度和视角的巨大差异,导致同一目标(火灾)在不同遥感图像中呈现完全不同的视觉特征。因此,DENet抽样部分旧数据用于记忆回放,并在特征空间和输出空间进行知识蒸馏,加强旧知识保护。为了应对新旧数据数量差异引起的模型预测偏差,DENet为特征蒸馏和输出蒸馏引入了可学习的损失权重,并根据新旧数据量的差异约束蒸馏损失权重的变化。
图 5 天空地多源可见光图像[88](3)地物分类:在全球尺度的典型地物要素制图中,地物分类模型不可避免地面临类间相似性和类内多样性的挑战。Yang等人[50]提出了GeoBoost模型,通过域增量学习的思想,稳健地提取建筑物信息,实现全球建筑物制图。GeoBoost以深度网络为基础学习器,并在gradient boosting框架中增加新的基础学习器,以弥补现有累加学习器在新数据上的性能不足。考虑到地震等自然灾害对建筑物目标和地理环境的改变,Ge等人[30]运用循环一致生成对抗网络(Cycle-consistent Generative Adversarial Networks, CycleGAN)生成具有灾区图像风格的仿真数据,进一步训练GeoBoost模型。这使得模型能够准确提取灾前和灾后的建筑物信息,为灾害救援和评估工作提供支持。
(4)变化检测:场景识别、目标检测和地物分类的域增量学习旨在适应同一地物目标的多样性,例如,具有不同形状和纹理的建筑物,而变化检测的域增量学习是适应由目标多样性及感兴趣目标的变化所引起的数据分布偏移。例如,一个二值变化检测模型最初在中山大学变化检测数据集(Sun Yat-Sen University Change Detection dataset, SYSU-CD)[89]上进行训练,能够识别建筑物建设、植被季节性变化及道路扩展等变化。之后,该模型在变化检测数据集(Change Detection Dataset, CDD)[90]进行再次优化,不仅检测到不同风格建筑物建设的变化,还能识别新增感兴趣目标(车辆移动)引起的变化。多域增量网络(MultiDomain Incremental Network, MDINet)[34]是首个关注变化检测域增量学习的工作。它主要包括3个模块:域共享的特征编码器、域残差单元和域特定的解码器。随着新数据的到来,MDINet复制域残差单元和解码器。域残差单元将共享特征分解为域特定和域无关的部分,并通过缩放和偏移组合这两部分特征,从而生成适应新数据的特征表征。域特定的解码器接收这些特征表征,生成模型的预测结果。由于解码器和残差单元与学习的域密切相关,它们的参数仅通过变化检测任务的损失进行优化。相反,特征编码器是域无关的,因此,MDINet利用特征共享层的特征蒸馏损失、旧解码器的输出蒸馏损失和检测任务损失共同优化编码器的参数。
(5)常用数据集和方法性能对比:如表6所示,为了测试域增量学习方法的有效性,研究者将大规模遥感场景识别数据集划分为多个子集,模拟数据分布的持续变化。值得注意的是,虽然大规模数据集的图像涵盖了全球多个国家和地区,并在不同的成像条件下采集,但随机划分仍难以保证各子集间的数据分布差异足够大,可能不足以体现所提方法的性能。针对这一问题,Yang等人[50]采取了根据图像采集的地理位置划分数据集的策略。尽管将多个遥感场景识别数据集组合以模拟新旧数据的分布差异是一个有效的策略,但数据集需要具有相同的标注语义类别,这限制了增量训练的次数,因而也难以充分验证方法的有效性。目前,针对可见光图像解译的域增量学习方法在有限的增量训练次数下表现不理想,有待更深入的研究。例如,在目标检测的域增量学习中,两次增量训练后的平均精度均值(mean Average Precision, mAP)仅能达到约50%[88],其中新旧域的mAP分别为91.03%和12.03%,表明检测模型严重遗忘旧分布。
表 6 面向可见光图像解译的域增量学习方法性能对比解译任务 文献 评价指标 数据集 增量训练次数 得分(%) 发布时间 场景识别 [87] ACC NWPU-RESISC45[70] 5 80.53 计算机应用’2024 AID[75] 5 77.40 目标检测 [88] mAP@0.5 FASDD_CD[91] \to FASDD_RS[91] 2 49.47 JAG’2023 FASDD_RS[91] \to FLAME[92] 2 51.53 地物分类 [30] OA DREAM-B ‡ [30] \to xBD[93] \to Haiti-xBD[30] 3 97.94
(仅新域)ISPRS’2023 [50] IoU DREAM-B[50] 4 63.72 Remote Sens.’2020 变化检测 [34] {\varDelta }_{\mathrm{I}\mathrm{o}\mathrm{U}} SYSU-CD[89] \to CDD[90] \to PRCV[34] 3 8.22 TGRS’2024 \to :指示模型增量学习顺序 4.1.3 任务增量学习
类别增量学习和域增量学习分别侧重于使模型适应新旧数据之间的输出空间差异、数据分布差异。然而,在实际应用时,解译模型可能需要同时应对这两种差异。例如,基于内蒙古高分二号卫星数据训练的地物分类模型在湖北省(千湖之省)国土资源调查应用时,需要适应成像条件变化、地物目标丰富多样等因素导致的数据分布偏移,并能够识别新增的土地利用类型,例如湖泊。鉴于此,部分学者已经探索了遥感解译模型的任务增量学习,将不同时刻获取的数据视作多个任务,并通过多阶段的模型训练使其适应一系列任务(参见表7)。在方法的研发和测试阶段,为了模拟任务增量学习过程,常将同一解译任务的多个数据集一起使用(见表8)。由于不同任务涉及的地物语义类别存在差异,解译模型的任务增量学习为每个任务配置了独立的预测头,这有助于保留旧任务的知识。在此基础上,现有研究重点在于模型特征编码器的设计,以进一步平衡新任务学习和旧任务保护。代表性的研究工作包括:
表 8 面向可见光图像解译的任务增量学习性能对比解译任务 文献 评价指标 数据集 增量训练次数 得分(%) 发布时间 场景识别 [35] mACC AID[75] 10 86.74 TGRS’2022 BigEarthNet[94] 5 95.89 EuroSAT[95] 2 94.85 EuroSAT[95] \to BigEarthNet[94] \to RS-C11[96] \to
RSSCN7[97] \to AID[75] \to SIRI-WHU[78] \to SAT-4[98]7 79.86 地物分类 [33] {\varDelta }_{\mathrm{m}\mathrm{I}\mathrm{o}\mathrm{U}} GID[99] \to BDCI2020[100] \to Deepglobe[84] \to
LoveDA-Urban[101] \to LoveDA-Rural[101]5 –5.46 Remote Sens.’2023 [27] mIoU Deepglobe[84] \to Potsdam[85] \to GCSS[83] 3 66.27 TGRS’2021 Vaihingen[86] \to Potsdam[85] 2 79.72 \to :指示模型增量学习顺序 (1)场景识别:通过为每个任务添加独立的特征编码器,可以有效防止旧任务知识的遗忘。但是,这种做法导致模型的参数量迅速增加,从而提高了存储成本和延长了推理时间。针对该问题,Lu等人[35]提出了轻量化增量学习方法(Lightweight Incremental Learning, LIL)。LIL冻结旧任务的预测头,同时利用新数据优化特征编码器及新任务的预测头。为了维持模型在处理旧任务时的性能,LIL引入了由5个卷积层构成的特征迁移模块。该模块旨在学习相邻任务之间特征分布的映射关系,实现从新任务特征到旧任务特征的迁移。特征蒸馏损失和对抗损失共同优化特征迁移模块。
(2)地物分类:知识蒸馏在旧知识保护方面的显著成效,启发了一些研究将其应用于任务增量学习[27,33]。特别地,Feng等人[27]指出,特征编码器的浅层网络和深层网络分别负责提取低层特征和高层特征。在不同的地物分类任务中,低层特征通常是相似或一致的,而高层特征则与特定任务学习的地物类别密切相关,随任务的变化而改变。基于此,他们提出在限制新旧模型低层特征的逐像素表征一致的同时,也约束新旧模型深层特征的像素亲和矩阵相似,以此保留模型在旧任务数据上学习到的像素间共存、相似、差异等交互信息。
4.2 合成孔径雷达图像
面向SAR图像解译的增量学习研究集中于目标识别模型的类别增量学习。如表9所示,现有研究普遍采用记忆回放解决旧类别遗忘问题。因此,研究重点包括两个方面:一是如何选择具有代表性的旧类别样本,二是如何应对由于新旧类别数据量的巨大差异所引发的新模型预测偏差。对于代表性样本的选择,常用方法包括随机抽样[32,39,54]、群聚策略[41,43]以及基于局部几何和统计信息的类边界选择[36,55,56]。此外,为了有效缓解由新旧类别不平衡引起的灾难性遗忘,研究者提出了若干策略,包括训练样本抽样加权[41,44]、损失函数加权[46]、可分离学习策略[39],以及偏差校正层的应用[43]。
表 9 面向合成孔径雷达图像目标识别的类别增量学习方法总结文献 贡献 遗忘问题解决思路 知识蒸馏 网络扩展 记忆回放 [102] 基于广义最大覆盖的样本选择,降低计算成本 \times \times \surd [56] 基于局部分布统计信息和全局分布密度信息选择代表性样本;评估测试样本的预测可靠性,并由此管理增量数据 \times \times \surd [32] 特征编码器深层结构扩展结合记忆回放、知识蒸馏,应对遗忘问题 \surd \surd \surd [44] 训练样本抽样加权和记忆增强的权重对齐,解决新旧类别不平衡导致的预测偏差 \surd \times \surd [54] Openmax算法帮助模型识别未知类别,此后利用记忆回放赋予模型持续学习未知类别的能力 \times \times \surd [39] 可分离学习策略缓解新旧类别不平衡导致的预测偏差 \surd \times \surd [41] 样本抽样加权,构建类别均衡的训练批次,校正预测偏差 \surd \times \surd [43] 类别分离损失解决新旧类别相似产生的混淆问题;偏差校正层应对新旧类别不平衡现象 \surd \times \surd [46] 类别的有效样本数加权交叉熵损失,解决新旧类别不平衡导致的预测偏差 \times \times \surd [36] 基于局部几何和统计信息的类边界样本选择,并利用SMOTE方法重采样,丰富旧类别样本 \times \times \surd [55] 基于局部几何和统计信息的类边界样本选择 \times \times \surd 为验证方法的有效性,常用MSTAR[103]和OpenSARShip[104]两个数据集模拟SAR图像目标识别的类别增量学习过程,如表10所示。MSTAR数据集包含5 173张SAR图像,覆盖10类军事目标。由于MSTAR数据集的规模相对较小,大多数研究通过存储并回放少量旧类别样本,即可有效巩固旧类别知识,因此即便在多次类别增量训练之后,仍能保持较高的识别精度。OpenSARShip数据集由来自哨兵一号卫星的11 346张SAR图像组成,涵盖17类船只目标。相较于MSTAR数据集,OpenSARShip数据集具有更为丰富的语义类别。然而,由于OpenSARShip数据集存在严重的类别不均衡问题,研究者根据各自的研究重点,构建了该数据集的不同子集。例如,Li等人[39]、Tang等人[41]以及Huang等人[44]选择了数据量占主导的2~4个类别进行类别增量学习模拟。而Zheng等人[46]则将数据量最大的类别划分为多个子类,进行了细粒度类别的增量学习。比较OpenSARShip数据集上的类别增量学习结果显示,随着新旧类别相似度的增加,仅依靠少量旧类别样本可能不足以帮助模型准确感知分类边界。细粒度类别的增量学习不仅使新类别学习变得困难,而且也增加了对旧类别的遗忘风险。因此,在进行3次细粒度类别增量训练后,现有工作[46]的准确率(ACCuracy, ACC)仅达到约52%。
表 10 面向合成孔径雷达图像目标识别的类别增量学习方法性能对比文献 网络架构 评价指标 数据集 每类存储量 增量训练次数 得分(%) 发布时间 [38] ResNet-34 ACC MSTAR 50 10 83.42 TAES’2024 [102] Autoencoder OA MSTAR 50 8 92.54 TGRS’2023 [56] A-ConvNets – MSTAR – – – TGRS’2023 [32] ViT-B ACC MSTAR 20 8 74.65 Remote Sens.’2023 [44] – ACC MSTAR + OpenSARShip 200(11个类别) 12 93.87 GRSL’2023 [54] CNN OA MSTAR – 3 92.70 RadarConf’2023 [39] DCFM-CNN ACC MSTAR 30 7 91.76 TGRS’2022 OpenSARShip 30 3 – [41] ResNet-18 ACC MSTAR + OpenSARShip 200(12个类别) 12 93.87 JSTARS’2022 [43] ResNet-18 ACC (top-5) MSTAR 20 10 97.17 Appli. Sci.’2022 [46] ResNet-18 ACC OpenSARShip – 3 51.15 IGARSS’2022 [36] – ACC MSTAR – 10 – TGRS’2020 [55] – ACC MSTAR 888(9个类别) 8 86.50 TGRS’2019 + :组合不同数据集模拟增量学习阶段 4.3 高光谱图像
高光谱图像分类是高光谱图像解译的重要任务之一,其目标是为图像中的每个像素赋予一个地物类别。如表11所示,高光谱图像分类的增量学习研究处于初步阶段。其中,Xu等人[42]采用记忆回放和输出空间知识蒸馏,有效缓解了旧类别的遗忘问题,在PaviaU[107],Salinas[108]和Houston[109]等高光谱图像分类数据集上达到了超过85%的平均准确率,详见表12。高光谱图像包含详细的地物目标光谱信息,可支撑地物的细粒度分类。因此,Bai等人[105]提出了基于线性规划的增量学习分类器(Linear Programming Incremental Learning Classifier, LPILC),逐步学习区分不同的大类和细粒度类别。在增量学习过程中,LPILC冻结了特征提取器和旧类别分类器的权重,仅用新数据优化新类别的分类器参数。为了评估LPILC在细粒度类别增量学习中的性能,Bai等人[105]依据地物光谱曲线的相似性,人工选择属于同一大类的子类。LPILC首先完成大类的学习,然后逐步学习子类。当所有子类学习完成后,大类的分类器权重将被删除。LPILC网络扩展的增量学习方式使得这一过程变得简单易行。不同于前述研究侧重单个数据集上的类别增量,Zhao等人[106]研究了高光谱图像分类模型的任务增量,使其适应不同数据集的分类任务。考虑到数据集之间的语义类别空间差异,他们为每个数据集添加了独立的分类器,并结合度量学习和知识蒸馏,确保新旧模型在光谱-空间特征和模型输出方面的一致性。此研究使分类模型能够同时应对PaviaU[107],Salinas[108],Houston[109]和Indian Pines[110]4个数据集的高光谱图像分类任务,这些数据集的传感器参数和成像条件存在明显差异,具体见表13。
表 12 面向高光谱图像分类的增量学习方法性能对比5. 研究展望
目前来看,面向遥感图像解译的增量学习研究处于起步阶段。鉴于前述研究进展,本文对遥感领域的增量学习研究展望如下:
(1)多样解译任务的增量学习:现有研究主要关注可见光遥感图像场景识别的增量学习。由于数据模态和解译任务之间的差异,现有方法难以支撑多样遥感图像解译模型的进化。以类别增量学习为例,新旧类别的高度相似性易导致解译模型在学习新类别后遗忘相似的旧类别。不同模态遥感数据的类别相似性成因各不相同。在可见光图像中,类别相似性主要源于地物目标具有相似的视觉特征(如纹理、形状等)。高光谱图像的类别相似性来自于地物目标相似的光谱曲线。至于SAR图像,不同类别的地物目标表现出相似的反射行为,是因为它们可能有相似的物理材料。针对遗忘问题的不同成因,亟需结合数据模态特性,设计增量学习方法。此外,已有研究依据地物分类任务的特性,设计逐任务知识蒸馏[24]或背景建模知识蒸馏[25],提升了地物分类模型的旧类别知识巩固能力。因此,面向不同模态的遥感数据和不同类型的解译任务,有必要发展相应的增量学习方法。目前,高光谱图像、多光谱图像等遥感数据以及目标检测、变化检测等解译任务的增量学习方法仍有待进一步探索。
(2)增量学习研究基准的构建:遥感领域的增量学习研究通过拆分或组合常规遥感图像数据集模拟增量学习过程,以验证方法的有效性。这种模拟策略通常只能产生少量的增量学习阶段。例如,类别增量学习研究使用Potsdam数据集模拟最多4个阶段的模型训练。类似的,任务增量学习研究使用4个常规数据集模拟4个阶段的模型训练。少量的增量学习阶段不足以充分测试增量学习方法的性能。此外,由于数据集选择和划分机制的差异,难以公平地比较和筛选出最实用的增量学习方法。因此,迫切需要建立大规模的增量学习基准数据集,并制定统一的数据划分规则,为后续增量学习发展提供数据支撑。
(3)有限训练样本的增量学习:绝大多数研究假设不同阶段采集的遥感数据具备足够数量且标注精细的训练样本,用于学习新知识。然而,实际应用难以满足这个假设。例如,对于解译模型的任务增量学习而言,多阶段标注大规模遥感图像数据集既耗时又费力。因此,有必要研究适应训练样本有限的增量学习方法,降低解译模型在学习新知识时对样本数量和标注质量的要求。当前,弱监督学习(weakly supervised learning)[111]和少样本学习(few-shot learning)[112–114]等研究领域的前沿技术已经初步引入类别增量学习,降低了解译模型在学习新类别时对标注样本的依赖。
(4)网络架构无关的增量学习:随着深度学习的发展,解译模型的网络架构从卷积神经网络(Convolutional Neural Network, CNN)逐步转向Transformer或Mamba架构,提升了智能解译的精度。无论采用何种架构的解译模型,实际应用均要求其具备持续学习的能力。然而,现有的增量学习研究几乎都是面向CNN架构的解译模型。已有研究表明,虽然某些增量学习方法在CNN架构中表现出色,但这些方法迁移至Transformer架构时并未能获得同等的性能增益[115]。因此,需要开发与网络架构无关的增量学习方法,而不应仅限于某一个或某一类特定架构的解译模型。
(5)新旧知识整合的增量学习:现有的增量学习研究致力于旧知识的维持和新知识的学习,缺乏对新数据、新知识与旧知识之间相关性的挖掘,这限制了解译模型进化的实际应用。以地物分类模型的增量学习为例,由于传感器参数、成像条件、地理位置等因素的差异,新旧数据之间不可避免地存在分布差异。单纯地保留旧知识使得模型难以应对数据分布的变化,从而无法准确预测新数据上的旧类别目标。此外,不同阶段采集的遥感数据集往往包含重叠的类别标注信息,然而现有研究将多阶段数据集视为多个任务,分别设置并优化独立的预测头。这相当于为不同分布的同一类别训练了多个模型。在实际应用中,人眼难以区分数据分布,以便选择模型推理的预测头。因此,亟需开发新旧知识整合的增量学习方法,使得模型既能够利用旧知识促进新知识的学习,同时利用新数据巩固并优化旧知识。
6. 结束语
增量学习赋予模型持续学习新知识并且不遗忘旧知识的能力,使其能够不断演化,以适应开放的应用环境和动态的应用需求。因此,有必要发展面向遥感图像解译的增量学习方法。本文全面调研了遥感领域增量学习的研究现状,并从技术和应用的角度梳理了现有研究工作,以供学者了解该研究方向已取得的成果。在此基础上,本文从应用、数据和方法的层面指出了未来发展的方向,例如,面向更多样的解译任务和增量学习研究基准构建等。
-
图 1 不同类型的遥感图像场景识别模型进化[23]
图 4 基于提示的增量学习[68]
图 5 天空地多源可见光图像[88]
表 1 面向遥感图像解译的增量学习方法对比与总结
方法 核心思想 优点 缺点 代表性成果 知识蒸馏 新旧模型在同一输入图像上的输出保持一致 以损失函数的形式约束模型的参数更新,简单有效且易于实施 旧模型保存,占用一定的存储空间 逐任务知识蒸馏[24] 背景建模知识蒸馏[25] 空间-通道压缩特征蒸馏[26] 结构化知识蒸馏[27,28] 历史信息引导特征蒸馏[29] 网络扩展 增加独立网络参数学习新知识 直接冻结已有网络即可有效保持旧知识 不断扩大的网络规模增加计算和存储成本 增量学习建模为提升过程[30,31] 特征编码器深层结构扩展[32] 残差模块扩展[33,34] 特征迁移模块扩展[35] 记忆回放 保留少部分旧数据,帮助模型回忆旧知识 模型基于新旧数据优化,能够较好地感知新旧知识的边界 旧数据保留增加存储成本,且易产生过拟合 代表性样本选择[36–38] 预测偏差校正[39–46] 旧数据特征生成[24,47] 表 2 面向可见光图像解译的类别增量学习方法总结
解译任务 文献 贡献 遗忘问题解决思路 知识蒸馏 网络扩展 记忆回放 场景识别 [31] 类别增量学习建模为特征提升过程,动态扩展模块化分类网络 \surd \surd \surd [38] 动态混合的样本选择策略和基于异构原型的学习框架,增加存储样本的信息量 \surd \times \surd [64] 利用可学习提示解耦场景识别的知识,避免特定知识的相互干扰缓解遗忘问题 \times \surd \times [65] 相互协作的瞬时网络和保持网络实现有效的旧知识召回和新知识积累 \surd \times \times [37] 凸包构造算法选取接近类边界的样本 \times \times \surd [53] 根据新旧类别的相似性设计类别学习顺序,提高新模型的新类别学习效率 \surd \times \surd [47] 利用VAE生成多样的旧类别特征,避免过拟合和存储成本高的问题 \times \times \surd [40] 平衡的旧数据集微调新模型的预测头,缓解新旧类别不平衡导致的预测偏差 \surd \times \surd [63] 扩展预测头学习新类别,并依据图像特征与任务原型的相似性选择预测头 \surd \surd \times 目标检测 [45] 基于熵的蓄水池抽样策略和样本抽样加权缓解回放不平衡导致的预测偏差 \times \times \surd [49] 在区域候选网络和预测头添加分支并迁移知识,实现新类别学习和旧知识保留 \surd \surd \times 地物分类 [28] 跨图像特征相关性蒸馏损失增强模型的新类别学习能力 \surd \times \times [24] 像素级旧特征生成,应对遗忘问题;逐任务知识蒸馏避免新类别向旧类别压缩 \surd \times \surd [26] 空间-通道维度的特征压缩并迁移,降低特征空间知识蒸馏的计算成本;信息熵量化旧模型预测的准确性,并仅使用高置信度像素预测维持旧知识 \surd \times \times [29] 历史信息引导模型关注前景(旧类别)区域的知识迁移;高置信度的旧模型预测与真实标签相结合,为新模型提供完整的类别监督信息 \surd \times \times [66] 多样蒸馏损失促使模型关注易被遗忘的小目标和目标边缘 \surd \times \times [67] 依据类别实例数量计算每张图像的重要性,确保存储图像的类别均衡 \surd \times \surd 表 3 面向可见光遥感图像解译的类别增量学习常用数据集
解译任务 数据集 图像数量 类别数量 类别增量学习方法 场景识别 NWPU-RESISC45[70] 31500 45 [37,53,64] FGSCR-42[71] 9320 42 [38] PatternNet[72] 30400 38 [53] RSICB-256[73] 28000 35 [31,65] Optimal-31[74] 1860 31 [47,63] AID[75] 10000 30 [31,64,65] CLRS[76] 15000 25 [40] UC-Merced[77] 2100 21 [31,47,63–65] SIRI-WHU[78] 2400 12 [37] 目标检测 DIOR[79] 23463 20 [45,49] DOTA[80] 2806 15 [45,49] NWPU VHR-10[81] 800 10 [45] 地物分类 iSAID[82] 2806 15 [24,28,29] GCSS[83] 948 8 [29] Deepglobe[84] 1146 7 [24,26] Potsdam[85]/Vaihingen[86] 38/33 6 [24,26,28,66,67] Luxcarta[67] – 5 [67,69] 表 4 面向可见光图像解译的类别增量学习方法性能对比
解译任务 研究工作 评价指标 数据集 增量训练次数 得分(%) 发布时间 场景识别 [31] mACC RSICB-256 9 91.10 TGRS’2024 AID 6 86.75 UC-Merced 3 94.29 [38] ACC FGSCR-42 8 89.06 TAES’2024 [64] ACC NWPU-RESISC45 9 72.90 GRSL’2023 AID 6 81.10 UC-Merced 3 92.33 [65] mACC RSICB-256 9 82.63 IEEE/CVF’2022 AID 6 88.93 UC-Merced 3 89.52 [37] ACC NWPU-RESISC45 7 93.47 TGRS’2022 SIRI-WHU 7 98.13 [53] mACC NWPU-RESISC45 9 49.42 JSTARS’2021 PatternNet 6 62.31 [47] ACC Optimal-31 10 86.80 GRSL’2022 UC-Merced 7 94.20 [40] ACC CLRS 4 32.30 CIOP’2021 [63] ACC Optimal-31 10 71.00 GRSL’2022 UC-Merced 7 89.00 目标检测 [45] mAP DIOR 20 34.40 EAAI’2023 DOTA 15 54.90 NWPU VHR-10 10 73.60 [49] mAP DIOR 2 68.45 TGRS’2022 DOTA 2 65.20 地物分类 [28] mIoU iSAID 6 31.88 TGRS’2023 Potsdam 5 74.44 Vaihingen 5 62.54 [24] mIoU iSAID 6 31.71 TGRS’2022 Deepglobe 6 57.00 Potsdam 2 77.70 Vaihingen 3 74.60 [26] mIoU Deepglobe 6 52.40 TGRS’2022 Potsdam 3 76.30 Vaihingen 3 74.10 [29] mIoU iSAID 6 30.21 TGRS’2022 GCSS 5 62.53 [66] mIoU Potsdam 2 75.92 TGRS’2022 Vaihingen 3 73.96 [67] F1 Luxcarta 3 68.09 JSTARS’2019 Potsdam 3 84.25 Vaihingen 3 87.44 表 5 面向可见光图像解译的域增量学习方法总结
解译任务 文献 贡献 遗忘问题解决思路 知识蒸馏 网络扩展 记忆回放 场景识别 [87] 双网络知识协同学习策略增强场景识别模型的新知识学习和旧知识巩固能力 \surd \times \times 目标检测 [88] 为特征空间、输出空间的知识蒸馏添加可学习权重,解决预测偏差问题 \surd \times \surd 地物分类 [30] 域增量学习建模为提升过程,并利用自适应学习率确定每个网络的重要性 \times \surd \times [50] 扩展整个网络,新网络的学习目标是弥补已有模型在新数据上的性能不足 \times \surd \times 变化检测 [34] 输出空间和多层次特征空间的知识蒸馏保留旧知识;扩展域残差单位和解码器,学习新知识 \surd \surd \times 表 6 面向可见光图像解译的域增量学习方法性能对比
解译任务 文献 评价指标 数据集 增量训练次数 得分(%) 发布时间 场景识别 [87] ACC NWPU-RESISC45[70] 5 80.53 计算机应用’2024 AID[75] 5 77.40 目标检测 [88] mAP@0.5 FASDD_CD[91] \to FASDD_RS[91] 2 49.47 JAG’2023 FASDD_RS[91] \to FLAME[92] 2 51.53 地物分类 [30] OA DREAM-B ‡ [30] \to xBD[93] \to Haiti-xBD[30] 3 97.94
(仅新域)ISPRS’2023 [50] IoU DREAM-B[50] 4 63.72 Remote Sens.’2020 变化检测 [34] {\varDelta }_{\mathrm{I}\mathrm{o}\mathrm{U}} SYSU-CD[89] \to CDD[90] \to PRCV[34] 3 8.22 TGRS’2024 \to :指示模型增量学习顺序 表 7 面向可见光图像解译的任务增量学习方法总结
表 8 面向可见光图像解译的任务增量学习性能对比
解译任务 文献 评价指标 数据集 增量训练次数 得分(%) 发布时间 场景识别 [35] mACC AID[75] 10 86.74 TGRS’2022 BigEarthNet[94] 5 95.89 EuroSAT[95] 2 94.85 EuroSAT[95] \to BigEarthNet[94] \to RS-C11[96] \to
RSSCN7[97] \to AID[75] \to SIRI-WHU[78] \to SAT-4[98]7 79.86 地物分类 [33] {\varDelta }_{\mathrm{m}\mathrm{I}\mathrm{o}\mathrm{U}} GID[99] \to BDCI2020[100] \to Deepglobe[84] \to
LoveDA-Urban[101] \to LoveDA-Rural[101]5 –5.46 Remote Sens.’2023 [27] mIoU Deepglobe[84] \to Potsdam[85] \to GCSS[83] 3 66.27 TGRS’2021 Vaihingen[86] \to Potsdam[85] 2 79.72 \to :指示模型增量学习顺序 表 9 面向合成孔径雷达图像目标识别的类别增量学习方法总结
文献 贡献 遗忘问题解决思路 知识蒸馏 网络扩展 记忆回放 [102] 基于广义最大覆盖的样本选择,降低计算成本 \times \times \surd [56] 基于局部分布统计信息和全局分布密度信息选择代表性样本;评估测试样本的预测可靠性,并由此管理增量数据 \times \times \surd [32] 特征编码器深层结构扩展结合记忆回放、知识蒸馏,应对遗忘问题 \surd \surd \surd [44] 训练样本抽样加权和记忆增强的权重对齐,解决新旧类别不平衡导致的预测偏差 \surd \times \surd [54] Openmax算法帮助模型识别未知类别,此后利用记忆回放赋予模型持续学习未知类别的能力 \times \times \surd [39] 可分离学习策略缓解新旧类别不平衡导致的预测偏差 \surd \times \surd [41] 样本抽样加权,构建类别均衡的训练批次,校正预测偏差 \surd \times \surd [43] 类别分离损失解决新旧类别相似产生的混淆问题;偏差校正层应对新旧类别不平衡现象 \surd \times \surd [46] 类别的有效样本数加权交叉熵损失,解决新旧类别不平衡导致的预测偏差 \times \times \surd [36] 基于局部几何和统计信息的类边界样本选择,并利用SMOTE方法重采样,丰富旧类别样本 \times \times \surd [55] 基于局部几何和统计信息的类边界样本选择 \times \times \surd 表 10 面向合成孔径雷达图像目标识别的类别增量学习方法性能对比
文献 网络架构 评价指标 数据集 每类存储量 增量训练次数 得分(%) 发布时间 [38] ResNet-34 ACC MSTAR 50 10 83.42 TAES’2024 [102] Autoencoder OA MSTAR 50 8 92.54 TGRS’2023 [56] A-ConvNets – MSTAR – – – TGRS’2023 [32] ViT-B ACC MSTAR 20 8 74.65 Remote Sens.’2023 [44] – ACC MSTAR + OpenSARShip 200(11个类别) 12 93.87 GRSL’2023 [54] CNN OA MSTAR – 3 92.70 RadarConf’2023 [39] DCFM-CNN ACC MSTAR 30 7 91.76 TGRS’2022 OpenSARShip 30 3 – [41] ResNet-18 ACC MSTAR + OpenSARShip 200(12个类别) 12 93.87 JSTARS’2022 [43] ResNet-18 ACC (top-5) MSTAR 20 10 97.17 Appli. Sci.’2022 [46] ResNet-18 ACC OpenSARShip – 3 51.15 IGARSS’2022 [36] – ACC MSTAR – 10 – TGRS’2020 [55] – ACC MSTAR 888(9个类别) 8 86.50 TGRS’2019 + :组合不同数据集模拟增量学习阶段 表 11 面向高光谱图像分类的增量学习方法总结
表 12 面向高光谱图像分类的增量学习方法性能对比
-
[1] 周培诚, 程塨, 姚西文, 等. 高分辨率遥感影像解译中的机器学习范式[J]. 遥感学报, 2021, 25(1): 182–197. doi: 10.11834/jrs.20210164.ZHOU Peicheng, CHENG Gong, YAO Xiwen, et al. Machine learning paradigms in high-resolution remote sensing image interpretation[J]. National Remote Sensing Bulletin, 2021, 25(1): 182–197. doi: 10.11834/jrs.20210164. [2] 梅安新, 彭望琭, 秦其明, 等. 遥感导论[M]. 北京: 高等教育出版社, 2001: 171–175.MEI Anxin, PENG Wanglu, QIN Qiming, et al. An Introduction to Remote Sensing[M]. Beijing: Higher Education Press, 2001: 171–175. [3] BI Qi, QIN Kun, ZHANG Han, et al. Local semantic enhanced ConvNet for aerial scene recognition[J]. IEEE Transactions on Image Processing, 2021, 30: 6498–6511. doi: 10.1109/TIP.2021.3092816. [4] BI Qi, ZHOU Beichen, QIN Kun, et al. All grains, one scheme (AGOS): Learning multigrain instance representation for aerial scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5629217. doi: 10.1109/TGRS.2022.3201755. [5] YANG Yuqun, TANG Xu, CHEUNG Y M, et al. SAGN: Semantic-aware graph network for remote sensing scene classification[J]. IEEE Transactions on Image Processing, 2023, 32: 1011–1025. doi: 10.1109/TIP.2023.3238310. [6] DING Jian, XUE Nan, LONG Yang, et al. Learning RoI transformer for oriented object detection in aerial images[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 2844–2853. doi: 10.1109/CVPR.2019.00296. [7] HAN Jiaming, DING Jian, XUE Nan, et al. ReDet: A rotation-equivariant detector for aerial object detection[C]. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nashville, USA, 2021: 2785–2794. doi: 10.1109/CVPR46437.2021.00281. [8] LI Yuxuan, HOU Qibin, ZHENG Zhaohui, et al. Large selective kernel network for remote sensing object detection[C]. 2023 IEEE/CVF International Conference on Computer Vision, Paris, France, 2023: 16748–16759. doi: 10.1109/ICCV51070.2023.01540. [9] LI Yansheng, CHEN Wei, HUANG Xin, et al. MFVNet: A deep adaptive fusion network with multiple field-of-views for remote sensing image semantic segmentation[J]. Science China Information Sciences, 2023, 66(4): 140305. doi: 10.1007/s11432-022-3599-y. [10] LIU Yinhe, SHI Sunan, WANG Junjue, et al. Seeing beyond the patch: Scale-adaptive semantic segmentation of high-resolution remote sensing imagery based on reinforcement learning[C]. 2023 IEEE/CVF International Conference on Computer Vision, Paris, France, 2023: 16822–16832. doi: 10.1109/ICCV51070.2023.01547. [11] BERGAMASCO L, BOVOLO F, and BRUZZONE L. A dual-branch deep learning architecture for multisensor and multitemporal remote sensing semantic segmentation[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2023, 16: 2147–2162. doi: 10.1109/JSTARS.2023.3243396. [12] PANG Chao, WU Jiang, DING Jian, et al. Detecting building changes with off-nadir aerial images[J]. Science China Information Sciences, 2023, 66(4): 140306. doi: 10.1007/s11432-022-3691-4. [13] WU Chen, DU Bo, and ZHANG Liangpei. Fully convolutional change detection framework with generative adversarial network for unsupervised, weakly supervised and regional supervised change detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(8): 9774–9788. doi: 10.1109/TPAMI.2023.3237896. [14] PANG Chao, WENG Xingxing, WU Jiang, et al. HiCD: Change detection in quality-varied images via hierarchical correlation distillation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5611816. doi: 10.1109/TGRS.2024.3367778. [15] ALHICHRI H. Multitask classification of remote sensing scenes using deep neural networks[C]. 2018 IEEE International Geoscience and Remote Sensing Symposium, Valencia, Spain, 2018: 1195–1198. doi: 10.1109/IGARSS.2018.8518874. [16] MASANA M, LIU Xialei, TWARDOWSKI B, et al. Class-incremental learning: Survey and performance evaluation on image classification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(5): 5513–5533. doi: 10.1109/TPAMI.2022.3213473. [17] DE LANGE M, ALJUNDI R, MASANA M, et al. A continual learning survey: Defying forgetting in classification tasks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(7): 3366–3385. doi: 10.1109/TPAMI.2021.3057446. [18] BELOUADAH E, POPESCU A, and KANELLOS I. A comprehensive study of class incremental learning algorithms for visual tasks[J]. Neural Networks, 2021, 135: 38–54. doi: 10.1016/j.neunet.2020.12.003. [19] LIU Hao, ZHOU Yong, LIU Bing, et al. Incremental learning with neural networks for computer vision: A survey[J]. Artificial Intelligence Review, 2023, 56(5): 4557–4589. doi: 10.1007/s10462-022-10294-2. [20] 周大蔚, 汪福运, 叶翰嘉, 等. 基于深度学习的类别增量学习算法综述[J]. 计算机学报, 2023, 46(8): 1577–1605. doi: 10.11897/SP.J.1016.2023.01577.ZHOU Dawei, WANG Fuyun, YE Hanjia, et al. Deep learning for class-incremental learning: A survey[J]. Chinese Journal of Computers, 2023, 46(8): 1577–1605. doi: 10.11897/SP.J.1016.2023.01577. [21] 朱飞, 张煦尧, 刘成林. 类别增量学习研究进展和性能评价[J]. 自动化学报, 2023, 49(3): 635–660. doi: 10.16383/j.aas.c220588.ZHU Fei, ZHANG Xuyao, and LIU Chenglin. Class incremental learning: A review and performance evaluation[J]. Acta Automatica Sinica, 2023, 49(3): 635–660. doi: 10.16383/j.aas.c220588. [22] VAN DE VEN G M, TUYTELAARS T, and TOLIAS A S. Three types of incremental learning[J]. Nature Machine Intelligence, 2022, 4(12): 1185–1197. doi: 10.1038/s42256-022-00568-3. [23] HIHN H and BRAUN D A. Hierarchically structured task-agnostic continual learning[J]. Machine Learning, 2023, 112(2): 655–686. doi: 10.1007/s10994-022-06283-9. [24] SHAN Lianlei, WANG Weiqiang, LV Ke, et al. Class-incremental semantic segmentation of aerial images via pixel-level feature generation and task-wise distillation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5635817. doi: 10.1109/TGRS.2022.3231351. [25] CERMELLI F, MANCINI M, BULÓ S R, et al. Modeling the background for incremental and weakly-supervised semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(12): 10099–10113. doi: 10.1109/TPAMI.2021.3133954. [26] SHAN Lianlei, WANG Weiqiang, LV Ke, et al. Class-incremental learning for semantic segmentation in aerial imagery via distillation in all aspects[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5615712. doi: 10.1109/TGRS.2021.3135456. [27] FENG Yingchao, SUN Xian, DIAO Wenhui, et al. Continual learning with structured inheritance for semantic segmentation in aerial imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5607017. doi: 10.1109/TGRS.2021.3076664. [28] RONG Xuee, WANG Peijin, DIAO Wenhui, et al. MiCro: Modeling cross-image semantic relationship dependencies for class-incremental semantic segmentation in remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5616218. doi: 10.1109/TGRS.2023.3297203. [29] RONG Xuee, SUN Xian, DIAO Wenhui, et al. Historical information-guided class-incremental semantic segmentation in remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5622618. doi: 10.1109/TGRS.2022.3170349. [30] GE Jiayi, TANG Hong, YANG Naisen, et al. Rapid identification of damaged buildings using incremental learning with transferred data from historical natural disaster cases[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2023, 195: 105–128. doi: 10.1016/j.isprsjprs.2022.11.010. [31] YE Zhen, ZHANG Yu, ZHANG Jinxin, et al. A multiscale incremental learning network for remote sensing scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 5606015. doi: 10.1109/TGRS.2024.3353737. [32] PAN Qidi, LIAO Kuo, HE Xuesi, et al. A class-incremental learning method for SAR images based on self-sustainment guidance representation[J]. Remote Sensing, 2023, 15(10): 2631. doi: 10.3390/rs15102631. [33] RUI Xue, LI Ziqiang, CAO Yang, et al. DILRS: Domain-incremental learning for semantic segmentation in multi-source remote sensing data[J]. Remote Sensing, 2023, 15(10): 2541. doi: 10.3390/rs15102541. [34] WENG Lean, YANG Wenqing, HU Boni, et al. MDINet: Multidomain incremental network for change detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62: 4402315. doi: 10.1109/TGRS.2023.3348878. [35] LU Xiaonan, SUN Xian, DIAO Wenhui, et al. LIL: Lightweight incremental learning approach through feature transfer for remote sensing image scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5611320. doi: 10.1109/TGRS.2021.3102629. [36] DANG Sihang, CAO Zongjie, CUI Zongyong, et al. Class boundary exemplar selection based incremental learning for automatic target recognition[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(8): 5782–5792. doi: 10.1109/TGRS.2020.2970076. [37] LIU Weiwei, NIE Xiangli, ZHANG Bo, et al. Incremental learning with open-set recognition for remote sensing image scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5622916. doi: 10.1109/TGRS.2022.3173995. [38] FU Yimin, LIU Zhunga, WU Changyuan, et al. Class-incremental recognition of objects in remote sensing images with dynamic hybrid exemplar selection[J]. IEEE Transactions on Aerospace and Electronic Systems, 2024. doi: 10.1109/TAES.2024.3363114. [39] LI Bin, CUI Zongyong, CAO Zongjie, et al. Incremental learning based on anchored class centers for SAR automatic target recognition[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5235313. doi: 10.1109/TGRS.2022.3208346. [40] XI Jiangbo, YAN Ziyun, JIANG Wandong, et al. Continual learning for scene classification of high resolution remote sensing images[C]. SPIE 12057, Twelfth International Conference on Information Optics and Photonics, Xi’an, China, 2021: 558–574. doi: 10.1117/12.2605919. [41] TANG Jiaxin, XIANG Deliang, ZHANG Fan, et al. Incremental SAR automatic target recognition with error correction and high plasticity[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2022, 15: 1327–1339. doi: 10.1109/JSTARS.2022.3141485. [42] XU Meng, ZHAO Yuanyuan, LIANG Yajun, et al. Hyperspectral image classification based on class-incremental learning with knowledge distillation[J]. Remote Sensing, 2022, 14(11): 2556. doi: 10.3390/rs14112556. [43] ZHOU Yongsheng, ZHANG Shuo, SUN Xiaokun, et al. SAR target incremental recognition based on hybrid loss function and class-bias correction[J]. Applied Sciences, 2022, 12(3): 1279. doi: 10.3390/app12031279. [44] HUANG Heqing, GAO Fei, WANG Jun, et al. An incremental SAR target recognition framework via memory-augmented weight alignment and enhancement discrimination[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 4005205. doi: 10.1109/LGRS.2023.3269480. [45] CHEN Xi, JIANG Jie, LI Zhiqiang, et al. An online continual object detector on VHR remote sensing images with class imbalance[J]. Engineering Applications of Artificial Intelligence, 2023, 117: 105549. doi: 10.1016/j.engappai.2022.105549. [46] ZHENG Zhi, NIE Xiangli, and ZHANG Bo. Fine-grained continual learning for SAR target recognition[C]. 2022 IEEE International Geoscience and Remote Sensing Symposium, Kuala Lumpur, Malaysia, 2022: 2207–2210. doi: 10.1109/IGARSS46834.2022.9884149. [47] AMMOUR N. Continual learning using data regeneration for remote sensing scene classification[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 8012805. doi: 10.1109/LGRS.2021.3080036. [48] HINTON Geoffrey, VINYALS Oriol, and DEAN Jeff. Distilling the knowledge in a neural network[FR/OL]. https://arxiv.org/abs/1503.02531, 2014. [49] CHEN Jingzhou, WANG Shihao, CHEN Ling, et al. Incremental detection of remote sensing objects with feature pyramid and knowledge distillation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5600413. doi: 10.1109/TGRS.2020.3042554. [50] YANG Naisen and TANG Hong. GeoBoost: An incremental deep learning approach toward global mapping of buildings from VHR remote sensing images[J]. Remote Sensing, 2020, 12(11): 1794. doi: 10.3390/rs12111794. [51] FRIEDMAN J H. Greedy function approximation: A gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5): 1189–1232. doi: 10.1214/aos/1013203451. [52] WELLING M. Herding dynamical weights to learn[C]. The 26th Annual International Conference on Machine Learning, Montreal, Canada, 2009: 1121–1128. doi: 10.1145/1553374.1553517. [53] BHAT S D, BANERJEE B, CHAUDHURI S, et al. CILEA-NET: Curriculum-based incremental learning framework for remote sensing image classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 5879–5890. doi: 10.1109/JSTARS.2021.3084408. [54] OVEIS A H, GIUSTI E, GHIO S, et al. Incremental learning in synthetic aperture radar images using openmax algorithm[C]. 2023 IEEE Radar Conference, San Antonio, USA, 2023: 1–6. doi: 10.1109/RadarConf2351548.2023.10149627. [55] DANG Sihang, CAO Zongjie, CUI Zongyong, et al. Open set incremental learning for automatic target recognition[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(7): 4445–4456. doi: 10.1109/TGRS.2019.2891266. [56] DANG Sihang, CUI Zongyong, CAO Zongjie, et al. Distribution reliability assessment-based incremental learning for automatic target recognition[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5208413. doi: 10.1109/TGRS.2023.3277873. [57] LI Yuhua and MAGUIRE L. Selecting critical patterns based on local geometrical and statistical information[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(6): 1189–1201. doi: 10.1109/TPAMI.2010.188. [58] GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets[C]. The 27th International Conference on Neural Information Processing Systems, Montreal, Canada, 2014: 2672–2680. doi: 10.5555/2969033.2969125. [59] KINGMA D P and WELLING M. Auto-encoding variational Bayes[C]. The 2nd International Conference on Learning Representations, Banff, Canada, 2014: 1–14. [60] AMMOUR N. Memory using data generator in continual learning for remote sensing scene classification[C]. 2021 IEEE International Geoscience and Remote Sensing Symposium IGARSS, Brussels, Belgium, 2021: 4924–4927. doi: 10.1109/IGARSS47720.2021.9553520. [61] 李德仁, 张良培, 夏桂松. 遥感大数据自动分析与数据挖掘[J]. 测绘学报, 2014, 43(12): 1211–1216. doi: 10.13485/j.cnki.11-2089.2014.0187.LI Deren, ZHANG Liangpei, and XIA Guisong. Automatic analysis and mining of remote sensing big data[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(12): 1211–1216. doi: 10.13485/j.cnki.11-2089.2014.0187. [62] 龚健雅, 许越, 胡翔云, 等. 遥感影像智能解译样本库现状与研究[J]. 测绘学报, 2021, 50(8): 1013–1022. doi: 10.11947/j.AGCS.2021.20210085.GONG Jianya, XU Yue, HU Xianyun, et al. Status analysis and research of sample database for intelligent interpretation of remote sensing image[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(8): 1013–1022. doi: 10.11947/j.AGCS.2021.20210085. [63] AMMOUR N, BAZI Y, ALHICHRI H, et al. Continual learning approach for remote sensing scene classification[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19: 8000905. doi: 10.1109/LGRS.2020.3019071. [64] ZHAO Ling, XU Linrui, ZHAO Li, et al. Continual learning for remote sensing image scene classification with prompt learning[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20: 6012005. doi: 10.1109/LGRS.2023.3328981. [65] YE Dingqi, PENG Jian, LI Haifeng, et al. Better memorization, better recall: A lifelong learning framework for remote sensing image scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5626814. doi: 10.1109/TGRS.2022.3190392. [66] LI Junxi, SUN Xian, DIAO Wenhui, et al. Class-incremental learning network for small objects enhancing of semantic segmentation in aerial imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5612920. doi: 10.1109/TGRS.2021.3124303. [67] TASAR O, TARABALKA Y, and ALLIEZ P. Incremental learning for semantic segmentation of large-scale remote sensing data[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(9): 3524–3537. doi: 10.1109/JSTARS.2019.2925416. [68] WANG Zifeng, ZHANG Zizhao, LEE C, et al. Learning to prompt for continual learning[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 139–149. doi: 10.1109/CVPR52688.2022.00024. [69] TASAR O, TARABALKA Y, and ALLIEZ P. Continual learning for dense labeling of satellite images[C]. 2019 IEEE International Geoscience and Remote Sensing Symposium, Yokohama, Japan, 2019: 4943–4946. doi: 10.1109/IGARSS.2019.8898615. [70] CHENG Gong, HAN Junwei, and LU Xiaoqiang. Remote sensing image scene classification: Benchmark and state of the art[J]. Proceedings of the IEEE, 2017, 105(10): 1865–1883. doi: 10.1109/JPROC.2017.2675998. [71] DI Yanghua, JIANG Zhiguo, and ZHANG Haopeng. A public dataset for fine-grained ship classification in optical remote sensing images[J]. Remote Sensing, 2021, 13(4): 747. doi: 10.3390/rs13040747. [72] ZHOU Weixun, NEWSAM S, LI Congmin, et al. PatternNet: A benchmark dataset for performance evaluation of remote sensing image retrieval[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 145: 197–209. doi: 10.1016/j.isprsjprs.2018.01.004. [73] LI Haifeng, JIANG Hao, GU Xin, et al. CLRS: Continual learning benchmark for remote sensing image scene classification[J]. Sensors, 2020, 20(4): 1226. doi: 10.3390/s20041226. [74] WANG Qi, LIU Shaoteng, CHANUSSOT J, et al. Scene classification with recurrent attention of VHR remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(2): 1155–1167. doi: 10.1109/TGRS.2018.2864987. [75] XIA Guisong, HU Jingwen, HU Fan, et al. AID: A benchmark data set for performance evaluation of aerial scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7): 3965–3981. doi: 10.1109/TGRS.2017.2685945. [76] LI Haifeng, DOU Xin, TAO Chao, et al. RSI-CB: A large-scale remote sensing image classification benchmark using crowdsourced data[J]. Sensors, 2020, 20(6): 1594. doi: 10.3390/s20061594. [77] YANG Yi and NEWSAM S. Bag-of-visual-words and spatial extensions for land-use classification[C]. The 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems, San Jose, USA, 2010: 270–279. doi: 10.1145/1869790.1869829. [78] ZHAO Bei, ZHONG Yanfei, XIA Guisong, et al. Dirichlet-derived multiple topic scene classification model for high spatial resolution remote sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(4): 2108–2123. doi: 10.1109/TGRS.2015.2496185. [79] LI Ke, WAN Gang, CHENG Gong, et al. Object detection in optical remote sensing images: A survey and a new benchmark[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159: 296–307. doi: 10.1016/j.isprsjprs.2019.11.023. [80] XIA Guisong, BAI Xiang, DING Jian, et al. DOTA: A large-scale dataset for object detection in aerial images[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 3974–3983. doi: 10.1109/CVPR.2018.00418. [81] CHENG Gong, HAN Junwei, ZHOU Peicheng, et al. Multi-class geospatial object detection and geographic image classification based on collection of part detectors[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2014, 98: 119–132. doi: 10.1016/j.isprsjprs.2014.10.002. [82] WAQAS ZAMIR S, ARORA A, GUPTA A, et al. ISAID: A large-scale dataset for instance segmentation in aerial images[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Long Beach, USA, 2019: 28–37. [83] SUN Xian, WANG Peijin, YAN Zhiyuan, et al. Automated high-resolution earth observation image interpretation: Outcome of the 2020 Gaofen challenge[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 8922–8940. doi: 10.1109/JSTARS.2021.3106941. [84] International Society for Photogrammetry and Remote Sensing. 2D semantic labeling contest–Potsdam[EB/OL]. https://www.isprs.org/education/benchmarks/UrbanSemLab/2d-sem-label-potsdam.aspx, 2024. [85] International Society for Photogrammetry and Remote Sensing. 2D semantic labeling-Vaihingen data[EB/OL]. https://www.isprs.org/education/benchmarks/UrbanSemLab/2d-sem-label-vaihingen.aspx, 2024. [86] DEMIR I, KOPERSKI K, LINDENBAUM D, et al. DeepGlobe 2018: A challenge to parse the earth through satellite images[C]. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Salt Lake City, USA, 2018: 172–181. doi: 10.1109/CVPRW.2018.00031. [87] 李雪, 姚光乐, 王洪辉, 等. 基于样本增量学习的遥感影像分类[J]. 计算机应用, 2024, 44(3): 732–736. doi: 10.11772/j.issn.1001-9081.2023030366.LI Xue, YAO Guangle, WANG Honghui, et al. Remote sensing image classification based on sample incremental learning[J]. Journal of Computer Applications, 2024, 44(3): 732–736. doi: 10.11772/j.issn.1001-9081.2023030366. [88] WANG Ming, YU Dayu, HE Wanting, et al. Domain-incremental learning for fire detection in space-air-ground integrated observation network[J]. International Journal of Applied Earth Observation and Geoinformation, 2023, 118: 103279. doi: 10.1016/j.jag.2023.103279. [89] SHI Qian, LIU Mengxi, LI Shengchen, et al. A deeply supervised attention metric-based network and an open aerial image dataset for remote sensing change detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5604816. doi: 10.1109/TGRS.2021.3085870. [90] LEBEDEV M A, VIZILTER Y V, VYGOLOV O V, et al. Change detection in remote sensing images using conditional adversarial networks[J]. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2018, XLII-2: 565–571. doi: 10.5194/isprs-archives-XLII-2-565-2018. [91] WANG Ming, JIANG Liangcun, YUE Peng, et al. FASDD: An open-access 100, 000-level flame and smoke detection dataset for deep learning in fire detection[J]. Earth System Science Data. doi: 10.5194/essd-2023-73. [92] SHAMSOSHOARA A, AFGHAH F, RAZI A, et al. Aerial imagery pile burn detection using deep learning: The FLAME dataset[J]. Computer Networks, 2021, 193: 108001. doi: 10.1016/j.comnet.2021.108001. [93] GUPTA R, GOODMAN B, PATEL N, et al. Creating xBD: A dataset for assessing building damage from satellite imagery[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Long Beach, USA, 2019: 10–17. [94] SUMBUL G, CHARFUELAN M, DEMIR B, et al. Bigearthnet: A large-scale benchmark archive for remote sensing image understanding[C]. 2019 IEEE International Geoscience and Remote Sensing Symposium, Yokohama, Japan, 2019: 5901–5904. doi: 10.1109/IGARSS.2019.8900532. [95] HELBER P, BISCHKE B, DENGEL A, et al. EuroSAT: A novel dataset and deep learning benchmark for land use and land cover classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(7): 2217–2226. doi: 10.1109/JSTARS.2019.2918242. [96] ZHAO Lijun, TANG Ping, and HUO Lianzhi. Feature significance-based multibag-of-visual-words model for remote sensing image scene classification[J]. Journal of Applied Remote Sensing, 2016, 10(3): 035004. doi: 10.1117/1.JRS.10.035004. [97] ZOU Qin, NI Lihao, ZHANG Tong, et al. Deep learning based feature selection for remote sensing scene classification[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(11): 2321–2325. doi: 10.1109/LGRS.2015.2475299. [98] BASU S, GANGULY S, MUKHOPADHYAY S, et al. DeepSat: A learning framework for satellite imagery[C]. The 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems, Seattle, USA, 2015: 37. doi: 10.1145/2820783.2820816. [99] TONG Xinyi, XIA Guisong, LU Qikai, et al. Land-cover classification with high-resolution remote sensing images using transferable deep models[J]. Remote Sensing of Environment, 2020, 237: 111322. doi: 10.1016/j.rse.2019.111322. [100] 第八届中国计算机学会大数据与计算智能大赛. 遥感影像地块分割数据集[EB/OL]. https://www.datafountain.cn/competitions/475, 2020.The 8th CCF Big Data and Computing Intelligence Contest. Remote sensing image segmentation dataset[EB/OL]. https://www.datafountain.cn/competitions/475, 2020. [101] WANG Junjue, ZHENG Zhuo, MA Ailong, et al. LoveDA: A remote sensing land-cover dataset for domain adaptive semantic segmentation[C/OL]. The 35th Conference on Neural Information Processing Systems Track on Datasets and Benchmarks, 2021: 1–12. [102] MA Xiaojie, JI Kefeng, FENG Sijia, et al. Open set recognition with incremental learning for SAR target classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5106114. doi: 10.1109/TGRS.2023.3283423. [103] KEYDEL E R, LEE S W, and MOORE J T. Mstar extended operating conditions: A tutorial[C]. SPIE 2757, Algorithms for Synthetic Aperture Radar Imagery III, Orlando, USA, 1996: 228–242. doi: 10.1117/12.242059. [104] HUANG Lanqing, LIU Bin, LI Boying, et al. OpenSARship: A dataset dedicated to sentinel-1 ship interpretation[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11(1): 195–208. doi: 10.1109/JSTARS.2017.2755672. [105] BAI Jing, YUAN Anran, XIAO Zhu, et al. Class incremental learning with few-shots based on linear programming for hyperspectral image classification[J]. IEEE Transactions on Cybernetics, 2022, 52(6): 5474–5485. doi: 10.1109/TCYB.2020.3032958. [106] ZHAO Wenzhi, PENG Rui, WANG Qiao, et al. Life-long learning with continual spectral-spatial feature distillation for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60: 5544214. doi: 10.1109/TGRS.2022.3222520. [107] GRAÑA M, VEGANZONS M A, and AYERDI B. Hyperspectral remote sensing scenes: Pavia Centre and university[EB/OL]. https://www.ehu.eus/ccwintco/index.php/Hyperspectral_Remote_Sensing_Scenes#Pavia_Centre_and_University, 2024. [108] GRAÑA M, VEGANZONS M A, and AYERDI B. Hyperspectral remote sensing scenes: Salinas[EB/OL]. https://www.ehu.eus/ccwintco/index.php/Hyperspectral_Remote_Sensing_Scenes#Salinas, 2024. [109] The National Center for Airborne Laser Mapping. 2013 IEEE GRSS data fusion contest-fusion of hyperspectral and LiDAR data[EB/OL]. https://hyperspectral.ee.uh.edu/?page_id, 2024. [110] BAUMGARDNER M F, BIEHL L L, and LANDGREBE D A. 220 band aviris hyperspectral image data set: June 12, 1992 Indian pine test site 3[EB/OL]. https://purr.purdue.edu/publications/1947/1, 2015. [111] LENCZNER G, CHAN-HON-TONG A, LUMINARI N, et al. Weakly-supervised continual learning for class-incremental segmentation[C]. 2022 IEEE International Geoscience and Remote Sensing Symposium, Kuala Lumpur, Malaysia, 2022: 4843–4846. doi: 10.1109/IGARSS46834.2022.9884547. [112] ZHU Zining, WANG Peijin, DIAO Wenhui, et al. Few-shot incremental learning with continual prototype calibration for remote sensing image fine-grained classification[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2023, 196: 210–227. doi: 10.1016/j.isprsjprs.2022.12.024. [113] ZHAO Yan, ZHAO Lingjun, DING Ding, et al. Few-shot class-incremental SAR target recognition via cosine prototype learning[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5212718. doi: 10.1109/TGRS.2023.3298016. [114] WANG Li, YANG Xinyao, TAN Haoyue, et al. Few-shot class-incremental SAR target recognition based on hierarchical embedding and incremental evolutionary network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 5204111. doi: 10.1109/TGRS.2023.3248040. [115] XU Zekai, ZHANG Mingyi, HOU Jiayue, et al. Delving into transformer for incremental semantic segmentation[EB/OL]. https://arxiv.org/abs/2211.10253, 2022. -