Saliency Object Detection Utilizing Adaptive Convolutional Attention and Mask Structure
-
摘要: 显著目标检测(SOD)旨在模仿人类视觉系统注意力机制和认知机制来自动提取场景中的显著物体。虽然现有基于卷积神经网络 (CNN)或Transformer的模型不断刷新该领域方法的性能,但较少研究关注以下两个问题:(1)此领域多数方法常采用逐像素点的密集预测方式以获取像素显著值,然而该方式不符合基于人类视觉系统的场景解析机制,即人眼通常对语义区域进行整体分析而非关注像素级信息;(2)增强上下文信息关联在SOD任务中受到广泛关注,但通过Transformer主干结构获取长程关联特征不一定具有优势。SOD应更关注目标在适当区域内其中心-邻域差异性而非全局长程依赖。针对上述问题,该文提出一种新的显著目标检测模型,将CNN形式的自适应注意力和掩码注意力集成到网络中,以提高显著目标检测的性能。该算法设计了基于掩码感知的解码模块,通过将交叉注意力限制在预测的掩码区域来感知图像特征,有助于网络更好地聚焦于显著目标的整体区域。同时,该文设计了基于卷积注意力的上下文特征增强模块,与Transformer逐层建立长程关系不同,该模块仅捕获最高层特征中的适当上下文关联,避免引入无关的全局信息。该文在4个广泛使用的数据集上进行了实验评估,结果表明,该文提出的方法在不同场景下均取得了显著的性能提升,具有良好的泛化能力和稳定性。
-
关键词:
- 显著目标检测 /
- 卷积神经网络形式的自适应注意力 /
- 掩码注意力 /
- 特征增强
Abstract:Objective Salient Object Detection (SOD) aims to replicate the human visual system’s attentional processes by identifying visually prominent objects within a scene. Recent advancements in Convolutional Neural Networks (CNNs) and Transformer-based models have improved performance; however, several limitations remain: (1) Most existing models depend on pixel-wise dense predictions, diverging from the human visual system’s focus on region-level analysis, which can result in inconsistent saliency distribution within semantic regions. (2) The common application of Transformers to capture global dependencies may not be ideal for SOD, as the task prioritizes center-surround contrasts in local areas rather than global long-range correlations. This study proposes an innovative SOD model that integrates CNN-style adaptive attention and mask-aware mechanisms to enhance contextual feature representation and overall performance. Methods The proposed model architecture comprises a feature extraction backbone, contextual enhancement modules, and a mask-aware decoding structure. A CNN backbone, specifically Res2Net, is employed for extracting multi-scale features from input images. These features are processed hierarchically to preserve both spatial detail and semantic richness. Additionally, this framework utilizes a top-down pathway with feature pyramids to enhance multi-scale representations. High-level features are further refined through specialized modules to improve saliency prediction. Central to this architecture is the ConvoluTional attention-based contextual Feature Enhancement (CTFE) module. By using adaptive convolutional attention, this module effectively captures meaningful contextual associations without relying on global dependencies, as seen in Transformer-based methods. The CTFE focuses on modeling center-surround contrasts within relevant regions, avoiding unnecessary computational overhead. Features refined by the CTFE module are integrated with lower-level features through the Feature Fusion Module (FFM). Two fusion strategiesAttention-Fusion and Simple-Fusion—were evaluated to identify the most effective method for merging hierarchical features. The decoding process is managed by the Mask-Aware Transformer (MAT) module, which predicts salient regions by restricting attention to mask-defined areas. This strategy ensures that the decoding process prioritizes regions relevant to saliency, enhancing semantic consistency while reducing noise from irrelevant background information. The MAT module’s ability to generate both masks and object confidence scores makes it particularly suited for complex scenes. Multiple loss functions guide the training process: Mask loss, computed using Dice loss, ensures that predicted masks closely align with ground truth. Ranking loss prioritizes the significance of salient regions, while edge loss sharpens boundaries to clearly distinguish salient objects from their background. These objectives are optimized jointly using the Adam optimizer with a dynamically adjusted learning rate. Results and Discussions Experiments were conducted using the PyTorch framework on an RTX 3090 GPU, with training configurations optimized for SOD datasets. The input resolution was set to 384×384 pixels, and data augmentation techniques, such as horizontal flipping and random cropping, were applied. The learning rate was initialized at 6e–6 and adjusted dynamically, with the Adam optimizer employed to minimize the combined loss functions. Experimental evaluations were performed on four widely used datasets: SOD, DUTS-TE, DUT-OMRON, and ECSSD. The proposed model demonstrated exceptional performance across all datasets, showing significant improvements in Mean Absolute Error (MAE) and maximum F-measure metrics. For instance, on the DUTS-TE dataset, the model achieved an MAE of 0.023 and a maximum F-measure of 0.9508, exceeding competing methods such as MENet and VSCode. Visual comparisons indicate that the proposed method generates saliency maps that closely align with the ground truth, effectively addressing challenging scenarios including fine structures, multiple objects, and complex backgrounds. In contrast, other methods often incorporate irrelevant regions or fail to accurately capture object details. Ablation experiments validated the effectiveness of crucial components. For example, the incorporation of the CTFE module resulted in a reduction of MAE from 0.109 to 0.102. Additionally, the Simple-Fusion strategy outperformed the Attention-Fusion approach, yielding a lower MAE and a higher maximum F-measure score. The integration of IOU and BCE-based edge loss further enhanced boundary sharpness, demonstrating superior performance compared to Canny-based edge loss. Heatmaps illustrate the contributions of the CTFE and MAT modules in emphasizing salient regions while preserving semantic consistency. The CTFE effectively accentuates center-surround contrasts, while the MAT captures global object-level semantics. These visualizations highlight the model’s ability to focus on critical areas while minimizing background noise. Conclusions This study presents a novel SOD framework that integrates CNN-style adaptive attention with mask-aware decoding mechanisms. The proposed model addresses the limitations of existing approaches by enhancing semantic consistency and contextual representation while avoiding excessive dependence on global variables. Comprehensive evaluations demonstrate its robustness, generalization capability, and significant performance enhancements across multiple benchmarks. Future research will investigate further optimization of the architecture and its application to multimodal SOD tasks, including RGB-D and RGB-T saliency detection. -
1. 引言
网络虚拟化[1—4]是一种可以在底层物理网络上创建多种异构虚拟网络的技术。虚拟网映射是指:通过映射算法将虚拟网络部署在能满足其约束条件的底层网络上。其中,请求接受率和节能是映射过程中两个重要的指标。前者代表了虚拟请求的接受情况,如何将有限资源高效分配,以映射更多的虚拟请求是虚拟网映射过程中要重点考虑的问题。后者代表系统的能耗量,由于高功耗不仅导致运行维护成本增加,而且带来大量碳排放,加剧温室效应。因此如何有效地租用资源,降低开销,提高收益,已成为亟待解决的问题。但两者之间存在资源竞争关系,仅考虑节能会影响虚拟网构建成功率,一味追求请求接受率又会影响网络资源利用率。
国内外研究主要集中于优化单一目标以获得最优解。例如通过设置反馈系统,找到稳定的处于活跃状态的底层资源子集,然后将虚拟网映射到该区域中,以增加休眠节点和链路数量,从而降低能耗[5]。又如利用启发式算法为底层资源设置优先级,已有的被激活的底层节点和链路拥有更高的优先权,通过优先权的设置将虚拟资源映射在较小的子集中[6]。在内容分发网络CDN中[7],为了解决能源成本问题,提出一种成本感知容量配置算法,动态规划多个ISP中CDN服务器集群的服务容量,并优化其在能量消耗和跨ISP流量方面的总体运营成本。在解决云计算网络的虚拟网节能映射问题中[8],通过建立混合整数线性规划模型,整合网络和数据中心的资源来实现节能。通过建立整数线性规划公式[9],以最小化每个虚拟请求的电力成本,解决灵活栅格光网络中的虚拟网映射节能问题。在无线网络虚拟化中的节能问题中[10],通过使用随机优化和Lyapunov优化方法来解决跨层优化问题,进而到达节能效果。
此类方法虽能降低能耗,但其主导思想是通过关闭尽可能多的底层设备达到节能的目的,这将会使业务载荷过于集中在某些节点和链路上,导致“热点”和“瓶颈”出现,进而影响请求接受率。同样地,在以提高请求接受率为目标的算法中,主要关注底层网络的效用问题,忽略底层网络能耗,从而造成不必要的能量消耗。因此,如何对节能和请求接受率进行权衡是虚拟网映射过程中的重大挑战。
现有的解决多目标问题的方法主要集中在两个方面:数学规划法和智能优化算法。数学规划法通常将多目标问题转化为单目标问题[11],其中各个目标间的权重往往无法明确给出,因此这类方法应用起来有一定局限。智能优化算法多集中于粒子群多目标优化算法[12],此类算法容易陷入局部最优且存在映射时间过长的问题。基于此,本文使用纳什议价理论来权衡节能和请求接受率间的关系,避免目标间权重的选择,找到全局最优。提出一种基于纳什议价博弈的虚拟网多目标映射算法(Multi-Objective Virtual Network Embedding algorithm based on Nash Bargaining, MOVNE-NB), 将虚拟网映射问题建模成一个纳什议价过程,把请求接受率和节能看作两个参与人,通过求解纳什议价解,得到一个兼顾全局最优及公平的虚拟网映射方案,在确保两指标公平性的同时提高虚拟网映射的整体性能。
2. 相关知识
在网络虚拟化环境中,考虑到要解决对抗冲突中最优解的问题,选取纳什议价理论对请求接受率和节能进行优化。纳什议价是一个经典的合作博弈框架[13,14],主要研究具有资源冲突的参与人间的策略选择及均衡问题。通过具有约束力的谈判规则使博弈各方的利益都有所增加,达到共赢。在保证谈判过程中公正性的同时获得一个帕累托有效解,保证全局最优。对于此类问题,有纳什公理:帕累托有效性、对称性、等价收益不变性、无关选择独立性。纳什证实了在满足以上4条公理的条件下,此问题拥有唯一合作解
x0=argmaxx[f1(x)−d1] ·[f2(x)−d2] ,该解落在帕累托前沿上,且可实现博弈结果的全局利益最大化及公平性。其中,f1, f2是博弈双方的收益函数,(d1, d2)表示博弈双方可能得到的最差收益,称为“谈判协议的最佳替代”(Best Alternative To a Negotiated Agreement, BATNA)[15]。3. 基于纳什议价的多目标映射算法
3.1 模型构建
3.1.1 网络模型构建
(1)虚拟网映射请求接受率模型:最大化请求接受率需最大化成功映射的虚拟节点和虚拟链路。因此,将该问题建模成
max[∑nfn+∑lfl]s·t· (1) (∀u∈NV)(∀j∈NS):fuj⋅ReqCPU(u)CPU(j) (2) (∀ljk∈LS)(∀luw∈LV):fuwjk⋅ReqBWL(luw)BWL(ljk) (3) (∀u∈NV):∑j∈NSfuj=1 (4) (∀j∈NS):∑i∈NVfij=1 (5) (∀u∈NV)(∀j∈NS):fuj∈{0,1} (6) (∀ljk∈LS)(∀luw∈LV):fuwjk∈{0,1} (7) 其中,
fn=fuj⋅(∑∀u∈NVReqCPU(u)) ,fl=fuwjk ⋅(∑∀ljk∈LSReqBWL(luw)) 。式(2),式(3)为容量约束,ReqCPU(u)表示虚拟节点u的CPU资源请求量,CPU(j)表示物理节点j的CPU资源总量;ReqBWL(luw)表示虚拟链路luw的带宽资源请求量,BWL(ljk)表示物理链路ljk的带宽资源总量。式(4)限制一个虚拟节点只能映射到一个底层节点,若虚拟节点u成功部署在底层节点j上,则fju=1;否则fju=0。式(5)表示相同虚拟节点不能映射到同一底层节点,NNo为虚拟网络节点数量。式(6)为变量约束,若虚拟链路luw成功部署在底层链路ljk上,则fuwjk =1否则fuwjk =0。(2)虚拟网映射节能模型:虚拟网节能映射的目标是最小化能耗。其能耗由节点及链路共同组成。因此,将节能问题建模成
min[∑ngn+∑lgl] (8) 其中,
gn=fuj⋅(pb+pl⋅u) 。pb为服务器空载时的基本功耗,pm为服务器的满载功耗,pl=pm−pb⋅u 为处理器利用率。gl=fuwjk⋅pn , pn为基本能耗。约束条件同请求接受率模型。3.1.2 纳什议价模型构建
根据纳什公理以及请求接受率和节能模型[16]可以建立基于纳什议价的虚拟网映射模型,设aAAR和aEER分别为请求接受率和节能的BATNA,则将纳什议价优化问题建模成
max[(∑nfn+∑lfl)−aAAR]⋅[(∑ngn+∑lgl)−aEER]s.t.∑nfn+∑lfl≥aAAR,∑ngn+∑lgl≥aEER} (9) 其中,两个参与人都可以通过改变自己的BATNA来改进自身利益。参与人操纵BATNA的过程如图1所示。其中P为BATNA,坐标为(a, b)。
(y−b)/(x−a)=k/h 为纳什方程,表示将剩余(即总价值减去参与人最后底线后所得到的剩余价值)v–a–b以h/k的比例分配给谈判者。所有将剩余分配完的点(x, y)都落在由点(v, 0)和(0, v)确定的直线x+y=v上。此时,点Q就是纳什均衡解。若参与人A为了提高利益将BATNA移至P1,则从此时的纳什解为Q′,意味着有利于A,而不利于B。因此,当参与人操纵其BATNA向右下方移动时将会提高自身利益而损害对方利益。从而导致最终解的不公平甚至议价失败。3.2 公平议价机制
根据3.1节分析,为了避免解的不公平或者议价失败,本节设置公平议价机制保证议价公平进行。首先根据定理1找到可以达到帕累托有效解的初始BATNA,由式(9)计算出目标,每个参与人由定理2改变自身的BATNA,在纳什议价的框架下经过多次迭代得到到达帕累托前沿的最优BATNA。进而得到请求接受率和节能的最优目标。则有以下定义。
定义 1 最优最差目标:若
(xAARn,xAARl) 和(xEERn,xEERl) 分别是请求接受率和节能的最优解,那么请求接受率最优目标和最差目标分别定义为AARb=∑nfn(xAARn)+∑lfl(xAARl) ,AARw= ∑nfn(xEERn)+∑lfl(xEERl) 。同样地,节能最优目标和最差目标分别为
EERb=∑ngn(xEERn)+∑lgl(xEERl) ,EERw= ∑ngn(xAARn)+∑lgl(xAARl) 。在迭代开始时,需要设置初始BATNA,初始值的好坏将决定议价是否成功。因此,初始BATNA的设置十分重要,则有定理1。
定理 1 假设请求接受率和节能的代价方程是连续的,那么BATNA
(AARw,EERw) 将会产生一个公平的议价结果。证明 令
x∗=(x∗n,xl∗) 是式(10)中BATNA为(AARw,EERw) 的情况下的最优化方法。在此情况下的请求接受率和节能的目标分别为sAAR和sEER。假设存在纳什议价问题(s′,d′) ,令:s′AAR=α⋅sAAR+β ,d′AAR=α⋅dAAR+β ,其中,α=EERw−EERbAARw−AARb ,β=EERb⋅AARw−EERw⋅AARbAARw−AARb 。s′AAR 和s′EER 分别表示问题(s′,d′) 中请求接受率和节能的目标,因此,AAR′w=EER′w ,AAR′b=EER′b 。令(yAAR, yEER) 为(s′,d′) 的一个可行集,则有∑[α⋅(∑ngn+ ∑lgl)+β]=yEER 和∑[α⋅(∑nfn+∑lfl)+β] =yAAR ,由于∑ngn+∑lgl 和∑nfn+∑lfl 是连续函数,该方程一定有解。意味着(yAAR,yEER) 是(s′,d′) 的一个可行结果。因此,一定有s′EER =s′AAR 。根据纳什议价模型的等价收益的不变性可知EERb=α⋅AARb+β (10) sEER=α⋅sAAR+β (11) EERw=α⋅AARw+β (12) 由式(11)和式(12)可得
EERw−sEER=α⋅(AARw−sAAR) (13) 同理,由式(10)和式(12),可得
EERw−EERb=α⋅(AARw−AARb) (14) 由式(13)和式(14)可得
EERw−sEEREERw−EERb=AARw−sAARAARw−AARb (15) 综上所述,定理1给出了一个初始BATNA可以在请求接受率和节能模型之间产生一个公平的交易。 证毕
初始BATNA设置成功后,在迭代过程中,对于BATNA的更新有定理2。
定理 2 令
(a(k)AAR,a(k)EER) 为第k次迭代的BATNA,初始化BATNA为(AARw,EERw) ,则每个参与人的BATNA更新应遵守以下BATNA改变方程a(k+1)AAR=a(k)AAR+12(∑nf(k)n+∑lf(k)l) (16) a(k+1)EER=a(k)EER+12(∑ng(k)n+∑lg(k)l) (17) 证明 在本博弈中,请求接受率第1个回合的BATNA为w1=AARw。如果节能的利益
π 超过2AARw,则节能接受AARw,否则拒绝AARw。若是首次谈判的BATNA无法通过,则请求接受率对节能的利益预测为均匀分布[0,π ],此时第2个回合要求的BATNA为w2=1/2π 。如果节能的利益π 超过w2,则接受BATNA,否则继续拒绝。利用逆向归纳法,如果在第1个回合中,节能已经拒绝了请求接受率的BATNA,拒绝的收益为0,则第2个回合的谈判是节能最后的机会。因此当且仅当π >w2时,节能的选择策略为接受,而无论第1个回合的w1值为多少,此时节能的利益总是大于零。而在第2个回合中,节能推断请求接受率的利润是标准分布于[0,π ]。因此,节能选择的w2要使自己的利益最大化,即:max(w2⋅p2a+0⋅p2r) ,其中p2a和p2r分别是节能接受和拒绝w2的概率。于是上述最大值问题变为:max[w2((p1−p2)/p1)] ,节能第2个回合的最优BATNA为w2=p1/2 ,此时双方的最大收益为:请求接受率δπ1/2 ,节能δ(π−π1)/2 。因此,对于节能来说,已知谈判进行到第2回合时所能得到的最大利益。所以首次谈判节能如果选择接受w1 ,则必须满足π−w1≥δ(π−π1)/2 ,整理得w2≥w1+((δ−2)/2)π 。综上所述,在初始BATNA为(EERw, AARw)时,可推出定理2的BATNA改变方程。 证毕在多次迭代后,根据纳什公理,此博弈将达到一个趋于帕累托前沿[13]的有效解。
3.3 基于纳什议价的虚拟网映射算法
基于以上求得的纳什议价解,虚拟网映射算法如下:
算法 1 MOVNE-NB
(1)对于每个虚拟节点,找出满足其资源请求的物理节点集合;对于每条虚拟链路,找出满足其资源请求的物理链路集合;
(2)对于CPUi, BWLi, cpui, bwli,由式(1)和式(8)计算请求接受率和节能的最优目标;
(3)根据更新方程依次更新ak及bk的值;
(4)由目标式(9)计算博弈结果;
(5)返回AAR, EER, |Vi|, |Vl|, |Si|, |Sl|的值;
(6)按资源请求量大小降序排列虚拟节点:
nvi , i=1, 2, ···, Vi,得到虚拟节点nvi 的可映射物理节点集合;(7)遍历候选集合:如果未找到满足条件的物理节点,则返回节点映射失败标志;否则挑选S中消耗资源
A(nv) 最大的虚拟节点nvmax ,若满足CVN≤CSN ,则将nvmax 映射到nsmax 上,即FN(nvmax)= nsmax ,更新nsmax 的剩余资源。//按资源从大到小排序进行节点映射;(8)按资源请求量大小降序排列虚拟链路:
lvi , i=1, 2, ···, Vl;(9)对于每条虚拟链路:如果最短路径不存在,返回链路映射失败标志;否则获取虚拟链路
lvi 两端的虚拟节点nvbi 和nvei ,得到虚拟链路lvi 的可映射链路集合。选择H中带宽资源最大的虚拟链路lvmax(nvbi,nvei) 。使用k-最短路径算法连接lvmax(nvbi, nvei) ,若路径lsmax(nsbi,nsei) 满足带宽约束CVL≤CSL ,则将lvmax(nvbi,nvei) 映射到lsmax(nsbi,nsei) 上,即FL(lvmax)=lsmax ;(10)返回MAP_SUCCESS标志。
由上述流程可知,该算法第(1)步时间复杂度与物理节点和物理链路的个数有关,为O(
‖Si‖ +‖Sl‖ )。第(3)步迭代过程的时间复杂度与ak和bk有关,即O(‖ak‖ +‖bk‖ ),第(6)步及第(7)步的时间复杂度为O(‖Si‖ ‖Vi‖ ‖Vi‖ log‖Vi‖ ),第(8)步排序算法,第(9)步链路映射过程中,k-最短路径算法时间复杂度为O(‖Si‖log ‖Si‖+k ‖Si‖ ‖Sl‖ ),因此链路映射过程的时间复杂度为O(‖Vl‖log‖Vl‖+‖Vl‖ ‖Si‖log‖Si‖+‖Vl‖k‖Si‖+‖Vl‖‖Sl‖ )。其中,‖Vi‖ 和‖Vl‖ 分别为虚拟网请求的节点个数和链路个数。‖Si‖ 和‖Sl‖ 分别为底层网络映射集合节点个数和链路个数。4. 实验
4.1 实验环境
实验所用PC参数如下,CPU: 3.4 GHz,内存:4 G。用GT-ITM[17]模型和NS2软件生成底层物理网络和虚拟请求的拓扑结构。实验设计同文献[16],底层网络节点数为100,节点相互之间连接的概率为0.5,底层物理网络和虚拟网资源分布情况为:(1)底层物理节点CPU资源量的值分布区间为[50, 100],且服从均匀分布。(2)底层物理链路带宽资源量的值分布区间为[50, 100],且服从均匀分布。(3)虚拟节点CPU资源请求量的值分布区间为[0, 14],且服从均匀分布。(4)虚拟链路带宽资源需求量的值分布区间为[0, 34],且服从均匀分布。平均100个时间单元可到达20个虚拟网请求,且服从泊松分布。虚拟网请求总个数为2000个,运行时间单元个数约为14000个。节点和链路能量消耗中常量值设置同文献[18]: Pl = 150, Pb = 150, Pn = 15。
4.2 结果分析
(1)公平性分析:首先判定公平性,如果SAAR和SEER是本方案得到的解所对应的请求接受率和节能目标,当且仅当满足式(18)时
PIWOS=AARw−SAARAARw−AARb=EERw−SEEREERw−EERb (18) 此时,所得到的解是公平的。即请求接受率和节能的优化率相同,在博弈过程中的让步率相同。记为PIWOS(Performance Improvement in the Whole Optimization Space),代表此目标的性能优化率。
为了验证公平性,设计实验与传统的解决多目标优化方法:聚合目标函数(Aggregate Object Function, AOF)[19]和
ε 约束法(ε -Constraint Methed,ε -CM)[20]作对比。在AOF方法中,建造聚合函数:
α⋅AARb⋅sEER+ β⋅EERb⋅sAAR 。其中,α 代表请求接受率的权值,β 代表节能的权值,α +β =1。在AOF中为(α ,β )选取不同的值:AOF(0.2, 0.8), AOF(0.5, 0.5), AOF(0.8, 0.2)。在
ε -CM方法中,(1)令请求接受率为优化目标,节能为约束条件,记为ε -CM(AAR),即EER<0.95⋅EERw 。(2)令节能为优化目标,请求接受率为约束条件,记为ε -CM(EER),即AAR<0.95⋅AARw 。图2表明不同的方法对于节能和请求接受率的优化程度不同,MOVNE-NB在权衡两目标的公平性上有较为明显的优势。MOVNE-NB的PIWOS值为(0.7355, 0.7355),表明请求接受率和节能在各自的优化空间上得到了相同程度的优化。而AOF(0.2, 0.8)的PIWOS值为(0.5587, 0.8353),表示在节能和请求接受率的系数设为0.2和0.8时更倾向于优化请求接受率。当其系数设为0.5和0.5时,即AOF(0.5, 0.5)时,PIWOS值为(0.9068, 0.3687),此时的结果表明优化结果偏向于节能。AOF(0.8 0.2)的PIWOS值为(0.9983, 0.0129),
ε -CM(AAR)的PIWOS值为(0.4311, 0.8827),都存在优化程度不公平的问题。在优化过程中优化其中一个目标后忽略了另一个目标的性能,导致最终的优化结果相差过大。其中ε -CM(EER)没有得到可行方法。因此,运用本文算法可以避免权值的选择,得到的映射方案既保证了公平性,又在最大程度上保证了两者的优化程度。(2)映射结果分析:本文选取文献[5]的EA-FB, PR-FB算法及文献[6]的EH_Alg算法进行对比实验。图3图4表明与EA-FB, PR-FB和EH_Alg算法相比,MOVNE-NB算法的平均节点开启量分别降低5.1%, 7.3%和9.6%。平均链路开启量分别降低2.4%, 2.6%和4.6%,这是由于MOVNE-NB算法经过纳什议价的处理后,在保证请求接受率的情况下节能,尽可能使处于激活状态的节点和链路数降低。图5表明与EA-FB, PR-FB和EH_Alg算法相比系统能耗分别降低10.8%, 10.2%和12.5%。这是由于开启的节点和链路数量越少,底层网络能耗越低。图6表明MOVNE-NB算法的收益成本比有所提高。这是由于收益成本比受链路映射影响,其值与承载虚拟链路的物理路径长度成反比。而EA-FB, PR-FB和EH_Alg算法以节能为目标,力求将虚拟请求映射在相对较小的底层网络集合中,这样必定会导致其中部分链路资源利用率过高,使承载虚拟链路的底层链路过长,进而使收益成本比的下降幅度加大。图7表明EA-FB, PR-FB和EH_Alg算法的请求接受率均呈下降趋势,MOVNE-NB算法在运行10000个时间单位后有回升的趋势。这是由于EA-FB, PR-FB和EH_Alg算法以节能为目标,在不考虑请求接受率的情况下,将业务量过于集中在较小拓扑中,从而导致底层网络“瓶颈”的出现,影响请求接受率。而MOVNE-NB算法综合考虑节能和请求接受率,在两者间寻找较好的平衡。图8表明运行22000个时间单位后,EA-FB, PR-FB, EH_Alg和MOVNE-NB算法的映射时间分别为123 s, 120 s, 94 s, 120 s。与EH_Alg算法相比,MOVNE-NB算法的运行时间有所增加,EH_Alg算法在对节点优先级进行排序时,选取节点CPU资源、剩余CPU资源以及是否为开启状态为考量标准,其时间复杂度仅与节点总数,邻居节点数和链路总数有关。而EA-FB, PR-FB和MOVNE-NB算法在选取节点时,都利用迭代算法寻找映射集合后再对节点排序,因此映射时长有所增加。
5. 结束语
本文综合考虑请求接受率和节能的性能,首次将纳什议价模型运用到虚拟网映射问题上,提出一种基于博弈论纳什议价模型的虚拟网映射算法(MOVNE-NB),利用谈判技术权衡虚拟网映射过程中请求接受率和节能两个指标的性能。实验表明本文算法不仅能产生一个帕累托有效解,同时保证了全局最优及公平性,进而提高了映射综合质量。虽然将博弈论引入虚拟网中,在保证请求接受率的情况下达到了节能的效果,但在节能方向上,还有深入研究的空间。因此,下一步将继续在节能方向上展开工作,深入挖掘其他更加契合的映射算法。
-
表 1 所有参与评价方法在4个数据集上的Max F-measure, MAE测度的定量评价结果
方法(年份) 速度 (fps) SOD ECSSD DUTS-TE DUT-OMRON MAE↓ Fmaxβ↑ MAE↓ Fmaxβ↑ MAE↓ Fmaxβ↑ MAE↓ Fmaxβ↑ EGNet(2019) 30.5 0.0969 0.8778 0.0374 0.9474 0.0386 0.8880 0.0528 0.8155 PoolNet(2019) 32.0 0.1000 0.8690 0.0390 0.9440 0.0400 0.8860 0.0560 0.8300 MINet(2020) 86.1 0.0920 0.8680 0.0342 0.9475 0.0373 0.8833 0.0559 0.8098 AADFNet(2020) 15.0 0.0903 0.8677 0.0280 0.9543 0.0314 0.8993 0.0488 0.8143 SACNet(2021) 11.2 0.0934 0.8804 0.0309 0.9512 0.0339 0.8944 0.0523 0.8287 ICON(2022) 58.5 0.0841 0.8790 0.0318 0.9503 0.0370 0.8917 0.0569 0.8254 MENet(2023) 45.0 0.0874 0.8780 0.0307 0.9549 0.0281 0.9123 0.0380 0.8337 VSCode(2024) 39.8 0.0602 0.8817 0.0245 0.9560 0.0262 0.9150 0.0473 0.8315 本文 46.0 0.0567 0.8872 0.0230 0.9508 0.0243 0.8966 0.0352 0.8290 表 2 不同模块的定量消融实验结果
实验 方法 SOD MAE↓ Fmaxβ↑ a Baseline 0.109 1 0.869 6 b Baseline+CTFE 0.102 0 0.875 5 c Baseline+CTFE+MAT 0.056 7 0.887 2 d Baseline+CTFE+MAT+
Canny Loss0.058 0 0.885 3 e Baseline+CTFE+MAT+
IOU_BCE Loss0.056 7 0.887 2 f Attention-Fusion 0.064 7 0.876 1 g Simple-Fusion 0.056 7 0.887 2 表 3 不同损失比重的实验结果
损失比重 SOD Lmask Lrank Ledge MAE↓ Fmaxβ↑ 1 0.5 0.5 0.060 0 0.883 3 0.5 1 0.5 0.058 9 0.873 5 0.5 0.5 1 0.073 5 0.871 4 1 1 1 0.056 7 0.887 2 -
[1] ZHOU Huajun, XIE Xiaohua, LAI Jianhuang, et al. Interactive two-stream decoder for accurate and fast saliency detection[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 9138–9147. doi: 10.1109/CVPR42600.2020.00916. [2] LIANG Pengpeng, PANG Yu, LIAO Chunyuan, et al. Adaptive objectness for object tracking[J]. IEEE Signal Processing Letters, 2016, 23(7): 949–953. doi: 10.1109/LSP.2016.2556706. [3] RUTISHAUSER U, WALTHER D, KOCH C, et al. Is bottom-up attention useful for object recognition?[C]. 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Washington, USA, 2004: II-II. doi: 10.1109/CVPR.2004.1315142. [4] ZHANG Jing, FAN Dengping, DAI Yuchao, et al. RGB-D saliency detection via cascaded mutual information minimization[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 4318–4327. doi: 10.1109/ICCV48922.2021.00430. [5] LI Aixuan, MAO Yuxin, ZHANG Jing, et al. Mutual information regularization for weakly-supervised RGB-D salient object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34(1): 397–410. doi: 10.1109/TCSVT.2023.3285249. [6] LIAO Guibiao, GAO Wei, LI Ge, et al. Cross-collaborative fusion-encoder network for robust RGB-thermal salient object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(11): 7646–7661. doi: 10.1109/TCSVT.2022.3184840. [7] CHEN Yilei, Li Gongyang, AN Ping, et al. Light field salient object detection with sparse views via complementary and discriminative interaction network[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024, 34(2): 1070–1085. doi: 10.1109/TCSVT.2023.3290600. [8] ITTI L, KOCH C, and NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254–1259. doi: 10.1109/34.730558. [9] JIANG Huaizu, WANG Jingdong, YUAN Zejian, et al. Salient object detection: A discriminative regional feature integration approach[C]. 2013 IEEE Conference on Computer Vision and Pattern Recognition, Portland, USA, 2013: 2083–2090. doi: 10.1109/CVPR.2013.271. [10] LI Guanbin and YU Yizhou. Visual saliency based on multiscale deep features[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition, Boston, USA, 2015: 5455–5463. doi: 10.1109/CVPR.2015.7299184. [11] LEE G, TAI Y W, and KIM J. Deep saliency with encoded low level distance map and high level features[C]. 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 660–668. doi: 10.1109/CVPR.2016.78. [12] WANG Linzhao, WANG Lijun, LU Huchuan, et al. Salient object detection with recurrent fully convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(7): 1734–1746. doi: 10.1109/TPAMI.2018.2846598. [13] LIU Nian, ZHANG Ni, WAN Kaiyuan, et al. Visual saliency transformer[C]. 2021 IEEE/CVF International Conference on Computer Vision, Montreal, Canada, 2021: 4702–4712. doi: 10.1109/ICCV48922.2021.00468. [14] YUN Yike and LIN Weisi. SelfReformer: Self-refined network with transformer for salient object detection[J]. arXiv: 2205.11283, 2022. [15] ZHU Lei, CHEN Jiaxing, HU Xiaowei, et al. Aggregating attentional dilated features for salient object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2020, 30(10): 3358–3371. doi: 10.1109/TCSVT.2019.2941017. [16] XIE Enze, WANG Wenhai, YU Zhiding, et al. SegFormer: Simple and efficient design for semantic segmentation with transformers[C]. The 35th International Conference on Neural Information Processing Systems, 2021: 924. [17] WANG Libo, LI Rui, ZHANG Ce, et al. UNetFormer: A UNet-like transformer for efficient semantic segmentation of remote sensing urban scene imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 190: 196–214. doi: 10.1016/j.isprsjprs.2022.06.008. [18] ZHOU Daquan, KANG Bingyi, JIN Xiaojie, et al. DeepViT: Towards deeper vision transformer[J]. arXiv: 2103.11886, 2021. [19] GAO Shanghua, CHENG Mingming, ZHAO Kai, et al. Res2Net: A new multi-scale backbone architecture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(2): 652–662. doi: 10.1109/TPAMI.2019.2938758. [20] LIN Xian, YAN Zengqiang, DENG Xianbo, et al. ConvFormer: Plug-and-play CNN-style transformers for improving medical image segmentation[C]. The 26th International Conference on Medical Image Computing and Computer-Assisted Intervention, Vancouver, Canada, 2023: 642–651. doi: 10.1007/978-3-031-43901-8_61. [21] CHENG Bowen, MISRA I, SCHWING A G, et al. Masked-attention mask transformer for universal image segmentation[C]. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition, New Orleans, USA, 2022: 1280–1289. doi: 10.1109/CVPR52688.2022.00135. [22] ZHAO Jiaxing, LIU Jiangjiang, FAN Dengping, et al. EGNet: Edge guidance network for salient object detection[C]. 2019 IEEE/CVF International Conference on Computer Vision, Seoul, Korea (South), 2019: 8778–8787. doi: 10.1109/ICCV.2019.00887. [23] LIU Jiangjiang, HOU Qibin, CHENG Mingming, et al. A simple pooling-based design for real-time salient object detection[C]. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, USA, 2019: 3912–3921. doi: 10.1109/CVPR.2019.00404. [24] PANG Youwei, ZHAO Xiaoqi, ZHANG Lihe, et al. Multi-scale interactive network for salient object detection[C]. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2020: 9410–9419. doi: 10.1109/CVPR42600.2020.00943. [25] HU Xiaowei, FU C, ZHU Lei, et al. SAC-Net: Spatial attenuation context for salient object detection[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2021, 31(3): 1079–1090. doi: 10.1109/TCSVT.2020.2995220. [26] ZHUGE Mingchen, FAN Dengping, LIU Nian, et al. Salient object detection via integrity learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2023, 45(3): 3738–3752. doi: 10.1109/TPAMI.2022.3179526. [27] WANG Yi, WANG Ruili, FAN Xin, et al. Pixels, regions, and objects: Multiple enhancement for salient object detection[C]. 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Vancouver, Canada, 2023: 10031–10040. doi: 10.1109/CVPR527292023.00967. [28] LUO Ziyang, LIU Nian, ZHAO Wangbo, et al. VSCode: General visual salient and camouflaged object detection with 2D prompt learning[C]. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seattle, USA, 2024: 17169–17180. doi: 10.1109/CVPR52733.2024.01625. 期刊类型引用(2)
1. 余建军,吴春明. 基于可满足性模理论的虚拟网映射问题求解. 计算机应用与软件. 2023(02): 138-143 . 百度学术
2. 张祥,王艳,纪志成. 加急订单扰动的多目标柔性作业车间动态调度问题研究. 南京理工大学学报. 2021(03): 344-351 . 百度学术
其他类型引用(1)
-