Head Pose Estimation Based on Tree-structure Cascaded Random Forests in Unconstrained Environment
-
摘要: 头部姿态估计是人类行为和注意力的关键,受到光照、噪声、身份、遮挡等许多因素的影响。为了提高非约束环境下的估计准确率和鲁棒性,该论文提出了树结构分层随机森林在非约束环境下的多类头部姿态估计。首先,为了消除不同环境的噪声影响,提取人脸区域的组合纹理特征,对人脸区域进行积极人脸子区域的分类,分类结果作为树结构分层随机森林的先验知识输入;其次,提出了一种树结构分层随机森林算法,分层估计多自由度下的头部姿态;再次,为了增强算法的分类能力,使用自适应高斯混合模型作为多层次子森林叶子节点的投票模型。在多个公共数据集上的多种非约束实验环境下进行头部姿态估计,最终实验结果表明所提算法在不同质量的图像上都有很好的估计准确率和鲁棒性。
-
关键词:
- 头部姿态估计 /
- 非约束环境 /
- 树结构分层随机森林 /
- 人脸积极子区域先验分类 /
- 自适应高斯混合模型
Abstract: Head pose estimation is an important evaluating indicator of human attention, which depends on many factors, such as illumination, noise, identification, occlusion and so on. In order to enhance estimation efficiency and accuracy, this paper presents tree-structure cascaded random forests to estimate head pose in different quality images. First, in order to eliminate the influence of different environment noise, combined texture features in random forests for positive facial patch classification are extracted, which will be the privileged inputs to estimate head pose. Second, a coarse-to-fine approach is proposed to estimate head pose both in the yaw and pitch, which is called tree-structure cascaded random forests. Third, an adaptive Gaussian mixture model is used to enhance discriminate vote energy in the tree distribution. This framework is evaluated in unconstrained environmental datasets. The experiments show that the proposed approach has a remarkable and robust performance in different quality images. -
1. 引言
持续学习,或者称为增量学习、终身学习,是指通过获取新知识并巩固过去经验的能力,能够随着时间不断学习。其中一个主要挑战是应对灾难性遗忘,即使用新样本更新模型会降低过去学到的现有知识[1–3]。过去的研究在应对这一挑战时假设对输入数据流具有不同程度的先验知识。监督持续学习通常假设存在任务和类别标签以及样本[4–7],而一般的持续学习或者无任务持续学习则消除了任务标签和边界,专注于对非稳态连续体的实时适应,尽管仍然使用类别标签[8–10]。更进一步,无监督持续学习完全删除所有标签,因此,算法需要自己从原始样本或流式结构中提炼知识[11–13]。
尽管持续学习取得了进展,但在真实环境中部署现有算法以实现随时间学习仍具挑战。现有研究假设能提前获知类别边界或总数,但在复杂环境中,获取这些先验知识几乎不可能。实际感知环境多变,数据质量不可控,且存在未知场景。例如,卫星图像分析系统可监测地表变化,但传统模型可能无法准确识别这些变化。持续学习可通过分析新图像并更新模型,提高监测准确性,帮助减少灾害损失。在此背景下,需要适应开放环境的自主智能感知,因此需要在智能感知基础研究上做出突破与革新。
为适应真实世界场景的不可预测性,本文将无监督学习拓展到更具挑战性和实用性的情况:无先验知识的自适应自监督持续学习。本文不做任何假设,与先前研究有明显差异:
(1)非独立同分布数据流:本文处理的数据流是单次通过的,无法依赖重复出现样本来提高性能。
(2)缺乏类别和任务标签:算法需在没有类别和任务标签的情况下学习,自主发现数据模式和结构。
(3)未知任务边界和类别数量:不依赖先验知识,需适应未知任务边界和类别数量。
(4)复杂的数据特性:考虑了输入数据流可能具有模糊的类别边界和类别不均衡情况。这些挑战突显了持续学习问题的复杂性和现实挑战。
针对这些挑战,本文提出进化网络模型(EvolveNet),一个无先验知识的自适应自监督持续学习算法。EvolveNet包含3个关键组件:伪监督对比损失、自监督遗忘损失和在线记忆更新,它们在最终的学习性能中起着至关重要的作用。伪监督对比学习通过引入不确定性估计和一致性正则化优化方法有效提高了模型性能。本文还采用上下文感知的体素对比损失来优化特征空间,确保更好的类间距离和类内距离,进一步提高分割性能。为了防止灾难性遗忘,使用自监督遗忘损失,并通过在线内存更新进行均匀子集选择,增强相似关系。因此,本文的损失函数利用特征表示之间的成对相似度,不依赖于标签或先验知识。同时,通过对比学习获得的表示已被证明比端到端交叉熵损失更加稳健。
本文的贡献可以总结如下:
(1)无先验知识的自适应自监督持续学习:EvolveNet是一种无需先验知识的自适应自监督持续学习方法,能够在无监督的情况下连续学习和保留以前的模式。
(2)组件设计:EvolveNet考虑了实际感知环境的复杂性,包括多模态数据、数据质量的不确定性、长尾分布和动态漂移等特征。它由3个核心组件构成:对抗伪监督学习损失、自监督遗忘损失和在线记忆更新,这些组件相互协同工作,提高学习性能,使EvolveNet能够更好地适应各种复杂和难以预测的环境,从而实现自主智能感知。
(3)超越现有算法:实验结果表明,EvolveNet模型在各项设置中均优于当前研究方法。在CIFAR-10, CIFAR-100和TinyImageNet数据集上,准确率有显著提升,并且在多模态的增量学习数据集Core-50和iLab-20M上表现最佳。
(4)跨数据集泛化:跨数据集的泛化实验显示EvolveNet在此方面更为稳健,证明了其具有更好的通用性和泛化能力,能够适应不同数据集和环境下的持续学习需求。
(5)开源代码与推动研究进展:本文在Github上开源了EvolveNet模型和核心代码,为研究社区提供了有价值的工具和平台。这一举措不仅使其他研究者能够更轻松地使用和改进EvolveNet,还推动了无监督持续学习领域的发展,激发更多人参与持续学习的研究和应用,共同推动该领域的进步。
2. 相关工作
自监督学习(Self-Supervised Learning, SSL)已成为解决无类别标签离线数据集的主要方法,通过学习低维表示以供下游任务使用。不同方法包括基于变分自编码器(Variational Auto-Encoder, VAE)的设计[5]、基于渐进聚类的方法[4,14–16]、基于信息论的技术以及对比学习[12,17,18]。尽管这些方法在提升特征表示方面取得了进展,但仍面临一个严重挑战:灾难性遗忘问题。当前方法[10,13]大多基于离线独立同分布数据,尽管在提升特征表示方面取得了重大进展,但仍存在一个严重的挑战:灾难性遗忘问题。这意味着当模型学习新任务时,它会忘记之前学到的知识未能有效解决这一问题。
监督持续学习(Supervised Continual Learning, SCL)旨在使模型能够持续学习新任务,而不会忘记之前学到的知识。研究主要集中在动态架构、正则化和经验重播3个方向上。动态架构方法调整网络结构以适应新任务,例如文献[4,13,17]。正则化技术通过约束参数范数或引入惩罚项来维持模型稳定性和泛化能力,例如文献[15,19,20]。经验重播方法利用记忆缓冲区存储历史经验并定期重播,以防止遗忘,如文献[4,13,17]。最近,更多工作关注在线监督持续学习,其中大多数依赖于记忆重播,例如 Co2L等[13,15,17,20] 。然而,当存在类别标签时,问题的复杂性会降低,因为模型可以直接从标签中学习。
无监督持续学习(Unsupervised Continual Learning, UCL)旨在解决模型在连续数据流上学习和适应新知识的挑战。在线UCL更具挑战性,因为需要处理连续非独立同分布的数据和单次通过的情况。持续生成模型是一种常见方法,利用混合生成重播来减轻遗忘,但计算成本较高。最近的研究开始将自监督知识蒸馏应用于基于任务的在线UCL,包括利用KMeans聚类的伪标签和自监督对比学习[21]。其他方法如 LUMP通过插值缓解遗忘[22],Mishra等人[20]提出了一种类似人类的注意机制,而KIERA和STAM采取了在线聚类和记忆更新[23],但仍依赖于任务边界和外部监督。
本文EvolveNet模型与现有方法不同,它在没有任何外部监督或先验知识的情况下,能够在线学习低维表示。这使得它更适应不可预测的现实世界环境,并具有更强的适应性和灵活性。
3. 无先验知识的自适应自监督持续学习
本节探讨了无先验知识的自适应自监督持续学习问题,这个设置是受到真实世界应用的启发,同时也对先前研究中的一些假设进行了拓展。
输入数据流。假设数据以逐渐增加的类别或分布的方式输入,模拟了环境连续变化和周期性采样的情况。输入样本是从一系列T个类别中抽取的,每个类别对应着一个唯一的分布。完整的输入序列可以表示为D={D1,D2,⋯,DT},其中Dt表示一个包含nt个样本批次的序列,即Dti={Dt1,Dt2,⋯,Dtnt}。这里t表示类别ID,u表示当前类别中批次的ID,每个数据批次Xtu是一个样本集合,使用大写字母表示批次,小写字母表示单个样本。每个训练批次Xtu在整个数据流中出现1次,但任务和类别标签不会被显示。学习算法不知道类别总数T、转换边界和批次数量nt。本文的目标是学习一个模型,能够在整个数据流中的任何时刻识别类别或分布{V1,V2,⋯,VT},而不需要外部标签的监督或先验知识。
训练和评估。本文的训练和评估设置与之前的研究[4,24]相似,如图1所示。模型是一个将数据映射到低维特征空间的表示映射函数,即fθ:X→Z,其中θ是可学习参数,Z是低维特征空间。训练过程基于特征表示批次Ztu=fθ(Xtu)进行自监督训练的。在训练期间,本文定期在独立的数据集E=(xj,yj)上测试冻结的模型θtu。E包含了从可能出现在{V1,V2,⋯,VT}中的每个类别中随机抽取的相同数量的标记样本。对于每个测试样本(xj,yj),本文计算学习到的潜在表示Z=fθ(xj) ,然后使用分类器g:Z→Y生成预测标签ˆy。分类器g可以是无监督的,也可以是有监督的,用于评估表示学习的不同方面。本文采用了谱聚类作为一种无监督聚类方法,并将无监督聚类准确率(Accuary, Acc)作为评估指标,其定义为在所有可能的簇与目标标签之间的最佳匹配准确率
Acc=maxΦ|E|∑j=11{yj=Φ(ˆyj)}|E| (1) 其中,预测标签ˆyj是样本xj的簇分配,Φ表示ˆyj和yj之间所有可能的映射。对于有监督分类,本文采用了k-最近邻(K-Nearest Neighbor, KNN)分类器。
挑战。本文所提自适应自监督持续学习EvolveNet模型,对比以往的无监督持续学习主要解决的5个问题:
(1)应对非独立同分布数据:与离线自监督学习中独立同分布数据和多次训练不同[14],EvolveNet需要处理非独立同分布的数据流。
(2)缺乏任务或类标签:与一般连续学习和基于任务的持续学习[25–27]不同,EvolveNet必须从数据流中学习知识,而不依赖外部监督。
(3)缺乏先验知识:EvolveNet需要在没有先验知识的情况下适应平滑转换、不平衡数据流或同时存在类别等复杂情况[5,16,28,29],而现有持续学习方法往往依赖于先验知识。
(4)提升持续学习性能:相较于带类标签监督持续学习算法[12,14,25],EvolveNet是否能够提升性能并减少遗忘。
(5)适应开放环境。模型是否能够持续学习跨数据集具有泛化能力,并且同样取得更好的性能。
4. EvolveNet模型
EvolveNet模型是一种无监督的持续学习方法,旨在解决自适应无监督持续学习中的挑战。它包括对抗伪监督学习损失、自监督遗忘损失和在线内存更新模块3个主要组件。EvolveNet通过将存储的内存样本与流式样本结合,有效应对了挑战(1)和挑战(4)。该模型采用对比学习+伪监督的对抗自监督学习范式,不依赖任务或类标签,能够处理挑战(2)和挑战(5)。利用不确定性估计法和一致性正则化处理提高了伪监督模型的性能。同时,引入上下文感知的体素对比损失,确保了较大的类间距离和较小的类内距离,进一步提高了分割性能,因此EvolveNet能够有效解决挑战(3)。
本文精心设计了协调的组件,以最大化EvolveNet的学习性能。对比损失提取内存样本的相似关系,遗忘损失保留相似知识以防止灾难性遗忘,而在线内存更新维护着过去具有代表性的原始样本。本文在内存缓冲区中记录原始输入样本,而不是特征表示,因为特征表示可能会变化。在EvolveNet框架中,内存缓冲区的大小为K,并存储内存样本{ei}Ki=1。每个流式批次Xtu的批大小为n=|Xtu|,与随机抽样的k个内存样本子集堆叠在一起形成合并批次{xi}k+ni=1。对堆叠数据应用双视图增强,得到{~xi}2k+2ni=1,然后送入表示学习模型fθ,以获取归一化的低维特征~zifθ(~xi)。EvolveNet从{~zi}2k+2ni=1中蒸馏成对相似度,然后用于计算伪监督对比和遗忘损失,以更新当前模型Xtu。另一方面,在线内存更新以前一个内存缓冲区{ei}Ki=1作为输入,选择M个样本的子集存储在更新后的内存缓冲区中。
4.1 自监督遗忘损失和对抗伪监督学习损失
EvolveNet的损失函数Ltotal包含两部分:用于学习表示的对抗伪监督学习损失Ladvpse,以及用于保留知识持续学习的自监督遗忘损失Lforget。损失函数Ltotal=λ⋅Lforget+β⋅Ladvpse,使用超参数λ,β来平衡这两个损失函数。这两个损失函数都依赖于成对相似度,因此不需要先验知识,并适应各种数据流。
4.1.1 对抗伪监督学习损失
本文的对比损失灵感来自于InfoNCE[18],该方法旨在增强特征空间中正样本对之间的相似性,从而减少负样本对之间的相似性。SimCLR[17]和SupCon[15]是典型的离线对比学习技术,它们使用了InfoNCE损失。然而,由于伪标签中存在的潜在噪声和特征空间中类别可分离性不足,从大量未标记图像中学习出鲁棒性表示仍然具有挑战性。这种挑战会极大地影响伪监督分割方法的性能。与SimCLR(仅将增强后的对视为正样本,无监督)和SupCon(基于标签形成正样本集合,监督)不同,本文提出一种新的半监督分割方法:对抗伪监督学习损失,它结合了对比学习+伪监督的对抗自监督学习技术,旨在提升半监督分割模型的性能,如图1所示。具体而言,(1)设计一种基于不确定性估计和一致性正则化的伪监督方法,学习图像空间中不同分割对象的鲁棒性表示,以降低伪标签中的噪声影响,进而提高半监督模型的分割性能;(2)提出一种上下文感知的体素对比损失和一种置信负采样策略,以确保特征空间内的类内一致性和类间区分度,进而增强特征空间中不同类别之间的语义可分离性,即对于正样本的两个不同视图,它们在距离空间中应该相近,同时远离特征空间中的负样本。
设定分割数据集中包含N个有标签的数据,和M个无标签数据,其中N≪M,本文将有标签数据的子集表示为Dv=(xvi,yvi)Ni=1,无标签数据的子集表示为Du=(xui)Mi=1。在半监督训练中,本文使用有标签数据Dv训练模型,其中x表示训练数据,y表示训练标签。目标是利用无标签数据Du进一步提高仅使用有标签数据Dv训练的模型性能。
如图1所示,在上采样模块中加入了一个投影头用于计算对比损失。在模型的前向传播中,包含4个输入:一个是正样本原始数据输入x,原始数据输入x的两个视图增强数据xΦ1和xΦ2,以及负样本数据x−,通过负样本数据可以用于模型的上下文感知的体素对比学习。4个输入数据对应的4个输出分别是ˆy,ˆyΦ1,ˆyΦ2和ˆy−。为了引入上下文感知的体素对比学习策略,首先计算每个输入对应的输出特征uΦ1,uΦ2和u−。
对于有标签数据的训练和损失函数,本文采用常用的交叉熵损失函数和Dice损失相结合作为总的分割损失函数Lseg(ˆy,y)=Lce(ˆy,y)+LDice(ˆy,y),Lce(ˆy,y)表示交叉熵损失,LDice(ˆy,y)表示Dice损失。对于末标记数据的训练和损失函数,则计算修正的伪监督损失Lrp和上下文感知的体素对比损失Lbc。无监督损失表示损失函数Lunsup和总损失函数Lsup具体为
Lunsup=αLrp(ˆyΦ1,ˆyΦ2,ˆy)+βLbc(uΦ1,uΦ2,u−),Lsup=Lseg+αLrp(ˆyΦ1,ˆyΦ2,ˆy)+βLbc(uΦ1,uΦ2,u−) (2) 其中,α和β是可调节的超参数。本文可以通过随机强度缩放、随机强度偏移和高斯噪声等操作对原始数据进行视图增强,得到增强后的数据xΦ1和xΦ2。伪监督技术通过在ˆyΦ1和ˆyΦ2之间应用监督损失函数来执行,因此伪监督损失定义为
Lp(ˆyΦi,ˆy)=Lce(ˆyΦi,σ(z/T)) (3) 其中,z是x的logits,σ是softmax函数,T是temperature参数。
标签噪声对伪监督的影响较大,因此常采用高置信度阈值处理伪标签以降低噪声。然而,对概率进行硬阈值化并不适合分割任务,因为不同类别的难度不同。这会导致模型更倾向于将困难类别预测为背景类。因此,利用不确定性估计来修正伪监督是一种更好的方法,不确定性修正伪监督损失定义为
Lurp(ˆyΦi,ˆy)=e−Dkl(ˆyΦi,ˆy)Lp(ˆyΦi,ˆy)+Dkl(ˆyΦi,ˆy),Dkl(ˆyΦi,ˆy)=ˆylg(ˆyˆyΦi) (4) 基于半监督学习的平滑假设,本文期望经过数据增强的样本xΦ1和xΦ2的预测应该相似。因此,引入一致性正则化来纠正伪监督,最小化ˆyΦ1和ˆyΦ2之间的差异。采用余弦距离Lcr(ˆyΦ1,ˆyΦ2)来度量两个视图的距离,并通过减少两个视图预测之间的余弦距离来最小化伪监督损失。在EvolveNet模型中提出的伪监督损失是不确定性损失和一致性正则化的线性组合
Lcr(ˆyΦ1,ˆyΦ2)=1−ˆyΦ1⋅ˆyΦ2‖ˆyΦ1‖2⋅‖ˆyΦ2‖2,Lrp(ˆyΦ1,ˆyΦ2,ˆy)=Lurp(ˆyΦ1,ˆy)+Lurp(ˆyΦ2,ˆy)+Lcr(ˆyΦ1,ˆyΦ2) (5) 基于半监督学习的平滑假设,本文不仅追求标签空间的一致性,还希望在特征空间中保持一致性。在实际开放环境中,EvolveNet模型在训练阶段可能无法提供足够的监督,导致正负样本在特征空间中的距离增大。为了解决这个问题,利用对比学习学习不同类别的特征表示是一种有效方法。因此,本文使用上下文感知的体素对比损失,通过拉近特征空间中正值对的距离、推远负值对的距离来实现这一目标
Lc(Φ1,Φ2)=−lgecos(Φ1,Φ2)/Tecos(Φ1,Φ2)/T+N∑Φn∈U−,n=1ecos(Φ1,Φn))/T (6) 其中,Φ2表示从特征图uΦ2中提取出来的正体素,Φn表示负体素,U−表示包含负样本的特征图,N是采样负体素的数量,T是temperature超参数。
4.1.2 自监督遗忘损失
为了避免灾难性遗忘,本文使用基于相似性分布的自监督遗忘损失,使用KL散度
Lforget=2(m+n)∑i=12(m+n)∑j=1,j≠i−pij⋅lgpijpast (7) 在这里,pij,ppastij分别是由模型θtu和冻结模型θtu−1映射得到的特征表示{~zi}2k+2ni=1和{˜zpasti=1}2k+2ni=1之间的成对相似度。为了形成有效的分布,本文要求给定实例的成对相似度总和为1:∑2k+2nj=1,i≠j,pij=1。对于ppastij也采用相同的规则。在EvolveNet中,学到的知识通过成对相似度来存储。因此,惩罚过去模型的成对相似度分布的KL散度可以防止灾难性更新。本文使用上一批次的冻结模型来处理伪标签,这种类似的蒸馏损失[3,30]已在监督或基于任务的持续学习中得到应用。
4.1.3 成对相似度
样本间的相似度对于EvolveNet至关重要,因此选择适当的度量标准非常关键。一个合适的样本间相似度度量应该考虑到所有流式和内存样本的全局分布,并且对于给定实例,应该满足遗忘损失所需的总和为一。本文采用了对称的随机近邻嵌入(Stochastic Neighbor Embedding, SNE)相似度度量,该度量来自t-分布随机邻域嵌入(t-distributedStochastic Neighbor Embedding, t-SNE),它捕捉了所有特征之间的全局相似性分布,因此不需要使用监督或先验知识。这个度量最初是为了通过近似相似概率分布来可视化高维数据而提出的,定义如下,τ是一个temperature超参数。
p(i,j)=exp(˜zj⋅˜zi/τ)+exp(˜zi⋅˜zj/τ)2(m+n)∑k=1,k≠iexp(˜zk⋅˜zi/τ) (8) 4.2 在线更新
在线内存更新旨在保留历史数据流中最具代表性的样本,以优化对比学习结果。挑战在于数据流可能存在非独立同分布和不平衡性。现有方法尝试通过分析干扰或梯度信息等方式提取信息样本。然而,大多数方法依赖于类别标签,不适用于自适应自监督持续学习。本文引入了基于分布的均匀子集抽样方法来进行内存更新,与以往的最小冗余策略不同,优先考虑了不相似的样本,而不依赖全局分布假设。
5. 实验
5.1 实验环境及参数设置
所有内存方法的缓冲区大小为1 280,内存批次大小为128,与流式批次相同。相似性阈值采用自适应阈值mean+δ(max−mean),其中mean和max分别是平均和最大成对相似度。通过自适应阈值,本文减轻了绝对相似性变化的影响。EvolveNet使用学习率为0.03的随机梯度下降优化器。
5.2 数据集
本文在CIFAR-10和TinyImageNet数据集上进行了实验。这两个数据集是计算机视觉领域的常用基准,用于图像分类和相关任务的研究。本文构建了来自CIFAR-10[6], CIFAR-100[31]和TinyImageNet子集[28]的在线单次数据流。此外,还在iLab-20M和Core-50数据集上对EvolveNet模型进行了评估。iLab-20M[18]和Core-50[12]数据集都包含大量多模态数据,可用于多模态和跨模态学习研究,并提供了增量学习的设置。通过在这些数据集上进行评估,可以全面验证模型在多模态环境下的性能、泛化能力以及增量持续学习任务中的表现。
5.3 基线模型
EvolveNet使用了基于InfoNCE的损失,将其与SimCLR[17],SupCon[15]以及以下使用SimCLR作为骨干的持续学习基线进行比较:
(1)在监督持续学习的组中,选择了PNN[31]、SI[7]和DER[14],并对其进行必要的修改以适应在线持续学习(UCL)。
(2)对于基于任务的UCL,本文使用了CaSSLe[25]的源代码,并在去除任务标签后进行比较。
(3)最后,与STAM[32]进行比较,使用其原始的数据加载器和参数,并且与LUMP[22]进行比较。
本文没有与基于VAE的方法[26,33]进行比较,因为它们在中等到大型图像数据集上的扩展性较差[6]。
5.4 性能评价指标
本文使用T作为谱聚类的聚类数量,并计算准确率(Acc)。有监督准确率评估采用KNN分类器,其中k=50。除了准确率外,特别关注遗忘度,用于评估模型性能。遗忘度(For)衡量了不同会话之间准确率的差异,即比较了所有会话中的最大准确率与最后一步的准确率。
5.5 模型准确率实验结果
5.5.1 最终准确率
图2展示了所有数据集的最终准确率(Acc)和KNN准确率。本文报告了3次随机试验后的平均值和标准差。EvolveNet几乎在所有流式模式上都优于最先进的持续学习算法,无论是在Acc还是KNN准确率方面。例如,在CIFAR-10上,EvolveNet相对于最佳基线提高了5.2%的Acc和3.4%的KNN。其他数据集也呈现类似的结果,表明了EvolveNet的强大适应性和性能优势,而且无需任何关于数据流的先验知识。
5.5.2 基线模型算法性能分析
本节对多种基线模型性能进行了分析。SimCLR的准确率相对较低,可能是因为它最初设计用于多个epoch的离线无监督表示学习,导致性能不佳。有监督对比学习并非总是提高准确率,可能会因过度拟合于有限的内存缓冲区而导致性能下降,相比于这些方法,本文的EvolveNet在所有数据集上表现更佳,尤其在避免灾难性遗忘方面。UCL模块CaSSLe依赖任务边界知识,其表现并不理想。另一方面,LUMP使用混合数据增强技术,尽管可能在某些数据集上表现不佳,但胜过其他基线模型,但由于其特殊的内存架构,无法进行下游任务的微调。
EvolveNet在不同数据集上表现出色的原因主要归结于几个关键因素。首先,引入不确定性估计和一致性正则化使得模型能够更好地捕获数据分布的复杂性,从而提高了性能。其次,上下文感知的体素对比损失确保了较大的类间距离和较小的类内距离,进一步增强了分割性能。此外,通过自监督遗忘损失和在线内存更新,EvolveNet成功避免了灾难性遗忘,保持了模型的稳定性和泛化能力。这些因素共同作用使得EvolveNet无需依赖任何关于数据流的先验知识,在各数据集上都表现出卓越性能。
在深入分析各项指标的基础上,可以更清晰地看到EvolveNet模型在持续学习任务中的优越性。因此,本文工作不仅在与传统带有类标签监督的算法(如SimCLR,Co2L)的比较中表现出显著优势,同时也在与其他无监督持续学习方法(如CaSSLe, LUMP)的比较中得到了验证,从而进一步凸显了EvolveNet作为一种自监督持续学习方法的有效性和潜力。
5.5.3 准确率与遗忘率曲线
本节展示了EvolveNet模型在不同数据集上的准确率和遗忘率曲线,这些曲线是评估模型性能和学习进展的关键指标。通过观察模型在持续学习过程中准确率和遗忘率的变化,本文深入了解了模型的学习轨迹、泛化能力以及避免灾难性遗忘的效果。
图3显示了EvolveNet模型在CIFAR-10,Core-50和iLab-20M数据集上的准确率和遗忘率曲线。随着学习的进行,准确率逐渐提高,同时遗忘率保持较低水平,表明了该模型在各数据集上具有良好的学习效果和成功避免灾难性遗忘的能力。综合观察准确率与遗忘率曲线,本文清晰地了解到了EvolveNet模型在不同数据集上的学习过程和性能变化,验证了其在无监督持续学习任务中的有效性和潜力,并在多种数据集上取得了优异的性能表现。
5.5.4 持续学习性能
为了全面评估EvolveNet模型在无监督持续学习任务中的性能,本文与其他流行的无监督持续学习方法进行了比较实验。通过在公开数据集(CIFAR-10, Core-50, iLab-20M)上的性能比较,可以清晰地了解EvolveNet模型的优势。结果表明,相较于其他方法,EvolveNet在所有数据集上都取得了更高的准确率,并且具有更低的遗忘率。在CIFAR-10数据集上,EvolveNet准确率达35.1%,仅有4.8%的遗忘率;在Core-50数据集上,准确率为79.1%,遗忘率为6.7%;在iLab-20M数据集上,准确率高达92.7%,仅有5.1%的遗忘率。相较于其他算法,如LUMP, DER, SimCLR, Co2L以及PNN, EvolveNet在所有数据集上都取得了更高的准确率和更低的遗忘率。这些结果表明了EvolveNet模型在无监督持续学习任务中的优越性和性能表现,凸显了其作为一种自监督持续学习方法的有效性和潜力。
5.6 消融实验
5.6.1 遗忘函数
本文尝试了各种对比损失和遗忘损失的组合,结果见表1。即使使用了重放缓冲区,SimCLR和SupCon在在线持续学习(UCL)上表现不佳。为了公平比较,移除了Co2L对类标签的依赖。EvolveNet通过伪监督对比损失在CIFAR-10上提高了4.43%的KNN准确率,通过遗忘损失在CIFAR-10上获得了2.51%的KNN准确率增益,在TinyImageNet数据集上提升了1.55%的准确率。在Core-50和iLab-20M数据集上也取得了最高3.77%的准确率增益。
5.6.2 损失函数
为了充分评估本文所提伪监督对比损失、自监督遗忘损失和在线记忆更新等方法在无监督持续学习中的有效性,进行了一系列实验,特别是针对iLab-20M数据集进行了详尽的分析。本文详细描述了设计的损失函数,并提供了对抗伪监督学习损失的消融实验结果。
消融实验验证了不同损失函数组合对模型性能的影响。考虑4种损失函数组合:伪监督损失(Lrp)、双向对比损失(Lbc)、不确定性估计(U)和一致性正则化(C)。结果如表2所示,在顺序数据流上,单独采用Lrp时平均最终KNN准确率为85.2%,而采用Lbc时为82.6%。然而,结合使用Lrp+Lbc时,准确率显著提高至89.5%,表明两者相辅相成,能够有效改善模型性能。进一步地,将Lrp与U或C相结合,观察到准确率分别提升至87.3%和88.1%。当同时采用Lrp,U和C时,准确率达到91.2%,表明综合应用这些损失函数能够更好地促进模型的学习和泛化能力。同时,结合Lrp, Lbc与U或C时,模型性能进一步提高至90.4%和91.0%。最终,将这些损失函数的组合应用到模型中,观察到当同时采用Lrp, Lbc, U和C时,平均KNN准确率达到92.7%。这些实验结果清晰地展示了本文所提方法在无监督持续学习任务中的显著性能提升,为所述方法的有效性提供了有力支持。
表 2 不同损失函数组合下顺序数据流的iLab-20M的平均KNN准确率(%)损失函数组合 平均最终KNN准确率 Lrp 85.2 Lbc 82.6 Lrp + Lbc 89.5 Lrp + U 87.3 Lrp + C 88.1 Lrp + U + C 91.2 Lrp + Lbc + U 90.4 Lrp + Lbc + C 91.0 Lrp + Lbc + U + C 92.7 5.7 跨数据集的泛化能力
本文进行了另一个实验,以测试EvolveNet模型在不同数据集上的持续学习和泛化能力。先在Core-50上进行增量训练,然后在iLab-20M数据集上评估模型性能。接着,在iLab-20M上进行增量训练,并在Core-50上进行评估,以验证模型是否能够实现跨数据集的泛化能力,并提升性能。
跨数据集泛化具有挑战性,原因包括:
摄像头类型:Core-50使用手持摄像头拍摄图像,而iLab-20M使用转台摄像头拍摄图像。
物体类别:这两个数据集的物体类别不重叠,没有共同的物体。
物体类型:iLab-20M包含与车辆相关的玩具物体,而Core-50包含与日常生活相关的手动操作的物体。
表3总结了跨数据集泛化实验的结果,其中包括(1)在iLab-20M上训练、在Core-50上测试的情况以及(2)在Core-50上训练、在iLab-20M上测试的情况。除了准确率外,本文还展示了相对降低情况,即相对于在相同数据集上训练和测试的结果(参见表4)。本文观察到,在跨数据集泛化方面,EvolveNet相较于带有类标签监督的方法始终表现更加稳健。实验结果表明,自我监督能够提取更多与域无关的表示,从而提高了视觉表示的通用性,尤其在增量设置下。
表 3 在Core-50和iLab-20M上的跨数据集泛化。训练数据集⇒ iLab-20M Core-50 测试数据集⇒ Core-50 iLab-20M 模型 Acc(↑) Δ(%)(↓) Acc(↑) Δ(%)(↓) SimCLR[17] 53.5 17 49.3 26 EvolveNet 71.6 8 79.9 15 表 4 EvolveNet模型在CIFAR-10,Core-50和iLab-20M数据集上与带类标签的持续学习算法的性能比较5.8 超参数
在EvolveNet模型中,本文通过实验研究了影响性能和鲁棒性的关键参数。其中,权重平衡系数λ在平衡伪对比损失和自监督遗忘损失之间发挥着关键作用。本文进行了针对3种不同类型的输入数据流的超参数实验,包括递增类别顺序流,参考了先前的研究方法。在CIFAR-10数据流上进行了6次随机试验,图4显示了不同λu对模型性能的影响,发现λ=1.0能够产生最佳结果。此外,发现阈值u在定义伪正样本时也至关重要。将伪正样本限制为更有可能属于一个类别的附近样本可以提高性能。这些实验结果强调了在EvolveNet模型中超参数的选择对模型性能的重要性,并提供了关于权重平衡系数λ和阈值u的最佳设置。通过对这些参数进行调优,能够使模型在各种输入数据流情况下都能够实现最佳性能,进一步证明了EvolveNet模型的有效性和鲁棒性。
6. 结束语
本文介绍了无需先验知识的自监督持续学习模型—进化网络模型(EvolveNet),通过不确定性估计和一致性正则化提升性能,并在特征空间引入上下文感知的体素对比损失以进一步提升分割性能。EvolveNet利用自监督遗忘损失避免灾难性遗忘,实验结果显示其显著提高了持续学习性能,并在跨数据集泛化中表现稳健,验证了其有效性和适应性。
未来研究可集中于进一步提升EvolveNet效能并探索广泛应用的关键方向:首先,进一步改进EvolveNet的自适应性能力。通过探索更复杂的对比学习+伪监督的对抗自监督学习方法和损失函数,提高模型对不确定性的处理能力,增强在真实场景中的鲁棒性。其次,拓展EvolveNet的应用场景,例如自动驾驶中的场景理解、医学影像分析中的病灶检测与分割等。最后,进一步优化EvolveNet的计算效率和模型大小,设计高效的模型结构和训练策略,结合硬件加速技术,提高在大规模数据和实时应用中的部署效率。这些努力将推动持续学习和自主智能感知领域的发展,为面向未知环境的智能系统提供更强大和灵活的解决方案。
期刊类型引用(1)
1. 张乐,荆晓远,任娟. 基于半自动提示工程人工智能任务代码生成方法. 信息技术与信息化. 2024(12): 205-210 . 百度学术
其他类型引用(0)
-
计量
- 文章访问数: 2562
- HTML全文浏览量: 145
- PDF下载量: 866
- 被引次数: 1