A Low-Power Network-on-Chip Power-Gating Design with Bypass Mechanism
-
摘要: 随着技术尺寸的缩小,静态功耗在片上网络 (NoC)的功耗开销中占据主导地位。功率门控作为一种通用的功耗节约技术,将NoC中空闲模块关闭以降低静态功耗。然而,传统的功率门控技术带来了诸如数据包唤醒延迟,盈亏平衡时间等问题。为了解决上述问题,该文提出代替功率门控路由器进行数据包传输的分区旁路传输机制 (PBTI),并基于该旁路机制设计了低延迟低功耗的功率门控方案。PBTI使用相互独立的旁路分别处理东西方向传输的数据包,并在旁路内部使用公共的缓冲区以提高缓冲区利用率。PBTI可以在路由器断电时实现数据包的注入、传输和弹出。即使网络中所有的路由器均处于功率门控状态,数据包也可以从源节点传输到目的节点。当流量增大超过PBTI的传输能力时,路由器以列为单位进行统一的唤醒。实验结果表明,与不使用功率门控的NoC相比,所提方案降低了83.4%的静态功耗和17.2%的数据包延迟,同时只额外增加了6.2%的面积开销。相较于常规的功率门控方案该文功率门控设计实现了更低的功耗和延迟,具有显著的优势。Abstract: Static power consumption dominates the power overhead of Network-on-Chip (NoC) as the technology size shrinks. Power gating, a generalized power saving technique, turns off idle modules in NoCs to reduce static power consumption. However, the conventional power gating technique brings problems such as packet wake-up delay, break-even time, etc. To solve the above problems, the Partition Bypass Transmission Infrastructure (PBTI), which replaces the power gated router for packet transmission, is proposed in this paper, and a low-latency, low-power power gating scheme has been designed based upon this bypass mechanism. PBTI uses mutually independent bypasses to handle east-west packets separately, and uses common buffers within the bypasses to improve buffer utilization. PBTI can inject, transmit, and eject packets when the router is powered off. Packets can be transmitted from the source node to the destination node even if all routers in the network are power gated. When the traffic increases beyond the transmission capacity of PBTI, the routers perform a uniform wake-up in columns. Experimental results show that compared to the NoC without power gating, the scheme in this paper reduces 83.4% of static power consumption and 17.2% of packet delay, while adding only 6.2% additional area overhead. Compared to the conventional power gating scheme the power gated design in this paper achieves lower power consumption and delay, which is a significant advantage.
-
Key words:
- Network-on-Chip /
- Power gating /
- Bypass /
- Static power
-
1. 引言
动目标检测在诸如交通监控等计算机视觉领域具有广泛应用[1]。作为自动视频分析的第1步,动目标检测旨在确定和分割感兴趣目标,据此为后续目标追踪和行为识别提供依据[2]。
动目标检测算法可分为帧差法[3]、光流法[4]和背景减除(Background Subtraction, BS)法[5]3类。帧差法快速简单但其仅在相邻帧间比较目标与背景差异导致无法提取完整目标区域[6]。光流法依视频时空梯度估算运动场,需计算整幅图像光流信息,计算开销大[7]。BS法将背景模板和视频帧不同部分视为动目标[8]。传统中值模型等构建模板虽较简单,但存在运动背景时检测效果不甚理想[9]。据此,Stauffer等人[10]提出高斯混合(Mixture of Gaussian, MoG)模型。MoG相对稳定且精确,但模型参数固定导致其难以适应场景变化。针对此缺点,Zivkovic[11]提出改进自适应高斯混合模型,然其建模时间较长。针对此问题,Candès等人[12]提出稳健主分量分析(Robust Principal Component Analysis, RPCA)模型,将观测矩阵分解为低秩与稀疏矩阵,利用主分量追踪(Principal Component Pursuit, PCP)法求解。RPCA虽不存在参数更新,然其未考虑观测噪声使得噪声环境下检测精度显著下降。基于此,Ding等人[13]提出贝叶斯稳健主分量分析(Bayesian Robust Principal Component Analysis, BRPCA)模型,考虑噪声同时引入贝叶斯方法以增强模型稳健性,然而当观测矩阵出现数据丢失时该模型所使用
L2 损失项将导致检测性能下降[14]。针对此问题,Wang等人[15]提出稳健矩阵分解概率(Probabilistic Robust Matrix Factorization, PRMF)方法,基于L1 损失及L2 正则项以解决BRPCA存在的问题。但由于未能利用前景像素空间分布特性从而导致算法虚警率较高进而动态背景下动目标检测性能较低。针对此问题,Zhou等人[16]提出低秩表示检测连续前景(DEtecting Contiguous Outliers in the LOw-rank Representation, DECOLOR)法,利用稀疏前景聚类特性解决动态背景下PRMF方法性能不佳问题,然而由于该模型贪婪特性,强运动背景场景下检测精度显著降低。综上,本文提出一种动态背景下基于低秩与稀疏分解的目标检测方法。该方法先引入
γ 范数近似矩阵秩函数以解决核范数过惩罚较大奇异值导致有偏估计致使最小化问题无法获得最优解进而降低检测性能的问题。而后针对L1 范数未充分使用前景像素空域先验信息问题,利用L1/2 范数对前景进行稀疏约束以抑制动态背景。进而基于虚警像素稀疏及空间不连续特性,对前景施加空间连续性(Spatial Continuity, SC)约束使得前景抽取更完整。最后利用基于交替方向最小化(Alternating Direction Minimizing, ADM)策略扩展的增广拉格朗日乘子(Augmented Lagrange Multiplier, ALM)法求解所得模型以实现动目标检测。2. RPCA检测模型
设图像序列
M∈Rm×n×s ,其中m ,n 分别为图像高度和宽度,s 为帧数。将M 重构为Z∈Rmn×s ,则动目标检测可建模为式(1)的RPCA问题[12]minH,K‖H‖∗+λ‖K‖1,s.t.Z=H+K (1) 其中,
H∈Rmn×s ,K∈Rmn×s 分别为低秩背景和稀疏前景矩阵,‖⋅‖∗ 为核范数,‖⋅‖1 为L1 范数,λ 为权衡低秩和稀疏度的正则因子。强动态背景下,RPCA模型无法完整检测目标且前景充斥大量背景像素,检测性能较差[17]。主要原因在于核范数近似矩阵秩函数过度惩罚矩阵较大奇异值,致核范数最小化问题无法获得最优解进而降低目标检测性能[18]。据此,本文采用非凸γ 范数代替核范数以获得秩函数近乎无偏估计。此外,相较于L1 范数,L1/2 范数可获得更加稀疏前景矩阵,因此可降低虚警率[19]。同时,对前景施加SC约束可抑制动态背景像素影响。综上,本文提出基于γ 和L1/2 范数SC正则化低秩近似(γ−norm&L1/2−norm and Spatial Continuity regularized Low-Rank approximation,SCLR−γ&L1/2 )动目标检测方法以改善动态背景下目标检测精度。3. 基于
SCLR−γ&L1/2 的动目标检测方法本节首先介绍
γ 和L1/2 范数并提出SC约束正则化,而后构建SCLR−γ&L1/2 动目标检测模型,最后利用基于ADM的ALM方法对所得优化问题进行求解。3.1
γ 范数由于核范数可导致有偏估计,而极大极小凹加(Minmax Concave Plus, MCP)函数可近似无偏估计矩阵秩函数,因而作为MCP矩阵扩展形式的
γ 范数在秩最小化问题中可得更好近似解[20]。给定向量β=(β1β2···βp)T∈Rp ,λ>0 ,γ>1 , MCP函数可定义为Mλ,γ(β)=∑pi=1Ωλ,γ(βi) 。其中Ωλ,γ(t)=λ∫t0[1−x/λγ]+dx={λ2γ/2, |t|≥λγλ|t|−t2/2γ,其他 (2) 其中,
(z)+=max{z,0} 。同理,给定矩阵A=[Aij]∈Rm×n ,其MCP范数可定义为Mλ,γ(A)=∑i,jΩλ,γ(Ai,j) 。设矩阵
A 奇异值分解(Singular Value Decomposition, SVD)可表示为A=UAΣAVAT ,其中,UA=[u1u2⋯un] ,VA=[v1v2···vn] ,ΣA=diag(σ1σ2···σn) ,且σ1≥σ2≥⋯≥σn≥0 ,σi(A) 表示A 的第i 个奇异值,令σ(A)=(σ1(A)σ2(A)···σr(A))T ,r=min{m,n} 。定义Ωγ(t)=Ω1,γ(t) ,Mγ(A)=M1,γ(A) ,则矩阵A 的γ 范数可定义为‖A‖γ=∑ri=1∫σi(A)0(1−u/γ)+du=∑ri=1Ω1,γ(σi(A))= Mγ(σ(A)) 。3.2
L1/2 范数Lq 正则化中,q∈(1/2,1) 时q 值越小,解越稀疏;q∈(0,1/2) 时解的稀疏性无明显差异[21]。因而L1/2 相较于L1 范数具有较好稀疏特性。假设矩阵A 划分为{A1A2···As} ,则L1/2 范数可定义为‖A‖1/2=(∑si=1|Ai|1/2)2 。3.3 SC约束
通常,前景矩阵
K 中动态背景造成的虚警像素具有稀疏但不连续特性,而潜在被检测动目标具备明显且连续强度变化这一特征[22]。因此对前景施加SC约束以抑制动态背景像素可使前景更为完整进而降低虚警率。设K∈Rmn×s 由{K1K2···Ks} 构成,Kk∈Rm×n 为第k 帧,则SC约束可表示为Φ(K)=∑sk=1‖Kk‖SC 。其中,‖Kk‖SC 为第k 帧所有像素值之和,即‖Kk‖SC=m−1∑i=1n−1∑j=1√(Kkh(i,j))2+(Kkv(i,j))2+m−1∑i=1|Kkv(i,n)|+n−1∑j=1|Kkh(m,j)| (3) 其中,
Kkh 和Kkv 分别定义为图像水平和垂直方向上的操作[23]Kkh(i,j)={Kk(i,j+1)−Kk(i,j),j<n0,j=n (4) Kkv(i,j)={Kk(i+1,j)−Kk(i,j),i<m0,i=m (5) 其中,
Kk(i,j) 为第k 帧图像i 行j 列位置像素值。综上所述,为提高秩函数近似精度且在抽取稀疏前景目标同时抑制动态背景的影响以改善目标检测性能,本文提出如下
SCLR−γ&L1/2 动目标检测模型minH,K‖H‖γ+λ1‖K‖1/21/2+λ2Φ(K),s.t.‖Z−H−K‖22≤ε (6) 其中,
‖K‖1/21/2 为矩阵K 的L1/2 正则化,‖⋅‖2 为欧氏范数。λ1 权衡前景稀疏性,λ2 控制约束强度,ε 为误差上界。3.4 所提模型求解
本文采用ALM法[24]求解式(6)动目标检测优化问题,为方便后续使用交替最小化策略求解,令
G=K ,此时式(6)转化为式(7)的等价问题minH,K,G‖H‖γ+λ1‖K‖1/21/2+λ2Φ(G),s.t.‖Z−H−K‖22≤ε,K−G=0 (7) 通常,约束条件
K−G=0 在工程中较为苛刻,等价松弛为‖K−G‖22≤ε1 ,ε1 为误差上界,式(7)等价为minH,K,G‖H‖γ+λ1‖K‖1/21/2+λ2Φ(G),s.t.‖Z−H−K‖22≤ε,‖K−G‖22≤ε1 (8) 则增广拉格朗日函数可表示为
minLμ1,μ2(H,K,G,Y1,Y2)=minH,K,G,Y1,Y2‖H‖γ+λ1‖K‖1/21/2+λ2Φ(G)+⟨Y1,Z−H−K⟩+⟨Y2,K−G⟩+μ1/2‖Z−H−K‖22+μ2/2‖K−G‖22 (9) 其中,
Y1 和Y2 为拉格朗日乘子,μ1 和μ2 为惩罚参数。式(9)最优化问题可划分为如下4个子问题。(1) 更新
Hk+1 minH‖H‖γ+⟨Y1k,Z−H−Kk⟩+μ1/2‖Z−H−Kk‖22 (10) 由于
‖H‖γ 关于σ(H) 非凸,可每次迭代时使用‖H‖γ 在σ(Hold) 的局部线性逼近(Locally Linear Approximation, LLA)进行近似求解,其中Hold 为上一次迭代值[18]。因此,式(10)可进一步表示为minHQγ(σ(H)|σ(Hold))+⟨Y1k,Z−H−Kk⟩+μ1/2‖Z−H−Kk‖22 (11) 其中,
Qγ(A|Aold)=Mγ(Aold)+∑i,j(1−|Aoldij|/γ)+(|Aij|−|Aoldij|) 为给定Aold 时Mγ(A) 的LLA。式(11)最优解为ˆHk+1←S1/μ1,Λ(Z−Kk+Yk1/μ1) (12) 其中,
Sτ,Λ(Y)=minX12‖X−Y‖22+τQγ(σ(X)|σ(Xold)) ,Sτ,Λ(X)=UXDτ,Λ(ΣX)VTX 为广义奇异值收缩算子,Λ=(I−ΣXold/γ)+ ,I 为单位矩阵。[Dτ,Λ(A)]ij=sgn(Aij)(|Aij|−τΛij) 为广义收缩算子,sgn(⋅) 为符号函数。(2) 更新
Kk+1 minKλ1‖K‖1/21/2+⟨Y1k,Z−Hk+1−K⟩+⟨Y2k,K−Gk⟩+μ1/2‖Z−Hk+1−K‖22+μ2/2‖K−Gk‖22 (13) 式(13)可通过文献[25]中的半阈值化算子(Half-Thresholding Operator, HTO)求解。求解式(13)前,先由式(14)的
L1/2 正则化问题推导出HTOminx∈RN{‖y−Ax‖22+λ‖x‖1/21/2} (14) 其中,
A∈RM×N 为给定矩阵,y 为观测数据,x=(x1x2⋯xN)T∈RN 为待恢复稀疏结构,λ>0 为正则化参数。对于式(14),只要‖x‖1/21/2 的梯度∇(‖x‖1/21/2) 其预解式存在,即对于任意正实数λ ,算子Rλ,1/2(⋅)=(I+λ/2∇(‖⋅‖1/21/2))−1 均被定义,则可得x=(I+λμ/2∇(‖⋅‖1/21/2))−1(x+μAT(y−Ax))=Rλμ,1/2(x+μAT(y−Ax)) (15) μ 为正的参数,定义Bμ(x)=x+μAT(y−Ax) ,则得到x=Rλμ,1/2(Bμ(x)) 。由文献[25]知,对角非线性表示算子Rλ,1/2(x)=(fλ,1/2(x1)fλ,1/2(x2)···fλ,1/2(xN))T ,其中,fλ,1/2(xi)=2/3xi(1+cos(2π/3−2/3φλ(xi))) 且φλ(xi)=arccos(λ/8(|xi|/3)−(3/2)) 。由此,可得L1/2 正则化问题阈值化函数为hλμ,1/2(x)={fλμ,1/2(x), |x|>3√54/4(λμ)2/30, 其他 (16) 问题式(14)阈值可表示为
x=Hλμ,1/2(Bμ(x)) ,Hλμ,1/2(x)=(hλμ,1/2(x1)hλμ,1/2(x2)···hλμ,1/2(xN))T 。式(16)为半阈值化函数,Hλμ, 1/2为 HTO。综上所述,基于HTO,可得问题式(13)最优解为
ˆKk+1←H2λ1/(μ1+μ2)⋅[(Y1k−Y2k+μ1Z−μ1Hk+1+μ2Gk)/(μ1+μ2)] (17) (3) 更新
Gk+1 minGλ2Φ(G)+⟨Y2k,Kk+1−G⟩+μ2/2‖Kk+1−G‖22 (18) 式(18)可等价为
minGλ2Φ(G)+μ2/2‖G−(Kk+1+(Y2k/μ2))‖22 。假设W=Kk+1+Y2k/μ2 ,W=[W1W2···Ws]∈Rmn×s ,G=[G1G2···Gs]∈Rmn×s ,则min{Gj}sj=1λ2s∑j=1‖Gj‖SC+μ2/2s∑j=1‖Gj−Wj‖22 (19) 其中,
Gj∈Rmn×1 ,Wj∈Rmn×1 。将Gj 和Wj 重塑为2维形式,即min{(Gj)m×n}sj=1λ2s∑j=1‖(Gj)m×n‖SC+μ2/2s∑j=1‖(Gj)m×n−(Wj)m×n‖22 (20) 式(20)的最优化问题可拆分为
s 个子问题,且每个子问题都可使用文献[26]中的快速梯度投影法求解,即(Gj)m×n=PC((Wj)m×n−λ2/μ2L(p,q)) 。其中,(p,q) 为矩阵对,p∈R(m−1)×n ,q∈Rm×(n−1) 。L 定义为R(m−1)×n×∈Rm×(n−1)→Rm×n ,L(p,q)i,j=pi,j+qi,j−pi−1,j−qi,j−1,i=1,2,···,m;j=1,2,···,n 。PC 表示集合C=Rm×n 上的正交投影算子。对于n 维空间Bl.u={x:l≤xij≤u,∀i,j} ,若C=Bl,u ,则PBl,u(x)ij={l,xij<lxij, l≤xi,j≤uu,xij>u (21) 获得各子问题最优解后,将其重塑为
Gjk+1∈Rmn×1 ,则Gk+1 可通过式(22)更新ˆGk+1←[Gk+11Gk+12⋯Gk+1s] (22) (4) 更新拉格朗日乘子
Y1k+1=Y1k+μ1(Z−Hk+1−Kk+1) (23) Y2k+1=Y2k+μ2(Gk+1−Kk+1) (24) 在已知观测矩阵
Z 条件下,通过式(12),式(17)和式(22)交替优化H ,K 和G 直至满足迭代收敛条件:‖Z−Hk−Kk‖22≤φ‖Z‖22 ,φ 为控制误差的常数,依据实验选取φ=1×10−5 。综上,本文所提基于低秩与稀疏分解的动目标检测方法步骤如表1所示。表 1 低秩与稀疏分解动目标检测方法算法:使用ADM策略扩展的ALM法求解问题式(7) 输入:观测矩阵Z,参数γ, λ1, λ2, μ1, μ2和φ。 输出:H, K和G。 (1):固定其他变量,计算式(12)以更新变量H; (2):固定其他变量,由式(17)更新变量K; (3):固定其他变量,计算式(22)以更新变量G; (4):由式(23)和式(24)更新拉格朗日乘子Y1和Y2; (5):重复步骤(1)—(4),直至满足收敛条件。 4. 实验及分析
实验数据集:本文利用CDnet-2014[17]和UCSD[27]数据集的5个视频序列(Boats, Bottle, Rain, Fountain, Fall)作为测试集,并与MoG[10], PCP[12], BRPCA[13], PRMF[15]和DECOLOR(DEC)[16]算法对比以验证动态背景下所提方法动目标检测的有效性。实验环境如下:处理器i7-7700,内存8GB,仿真软件MATLAB R2017b。评价指标:本文采用准确率(Precision)、召回率(Recall)和F值(F-measure)作为评价指标。真阳性(True Positive, TP)为正确分类为前景像素的数目,假阳性(False Positive, FP)为误分类为前景而实际为背景像素的数目,假阴性(False Negative, FN)为被错误分类为背景而实际为前景像素的数目。
Precision=TP/(TP+FP) ,Recall=TP/(TP+FN) ,F-measure=2(Precision×Recall/(Precision+Recall)) 。4.1 参数设置
依据实验,本文设置
λ1=0.4/√mn ,λ2=2/√mn ,μ1=μ2=1×10−3 ,φ=1×10−5 。由文献[18]可知,参数γ 应被设置为严格大于1的较小实数。为确定最优γ 取值,经多次重复实验,本文在[1,10] 范围内重复实验以研究不同γ 取值对F-measure的影响。为调整方便,本文从集合{1,2,4,6,8,10} 中选择离散的最优参数。由图1可知,在不同动态背景场景下,F-measure随
γ 取值变化产生的波动不大,稳健性较好。[1,4] 内各场景下F-measure均不断增大,[4,10] 内随γ 增大F-measure均呈减小趋势,从而可知当γ=4 时所提SCLR−γ&L1/2 模型在不同动态背景场景下均可实现最优动目标检测,因而,在以下实验中均设置γ=4 。4.2 定性分析
图2为6种算法在5个动态背景场景下部分目标检测结果对比。由图2(c)可知,当环境存在不同程度动态背景干扰时,所提方法均可较好抑制动态背景,同时目标检测结果较为完整,从而表明所提方法具有较高检测精度和稳健性。由图2(d)可知,BRPCA算法在Boats, Fountain和Fall场景下对动态背景抑制较差,其虽在Bottle和Rain场景下可抑制大部分动态背景但虚警率较高。由图2(e)可知,DEC算法在不同动态场景下均存在较严重误检,检测精度较差。由图2(f),图2(g)及图2(h)可知,PRMF, MoG和PCP算法在Rain场景下可较好抑制动态背景,然而均不同程度丢失目标细节,检测结果不够完整,且在Boats, Bottle, Fountain和Fall场景下均不能较好抑制动态背景。
4.3 定量分析
所提方法及5种对比算法在5个场景下的Precision, Recall和F-measure对比如图3所示。其中,图3(f)为6种算法在5个场景下3个性能指标的平均值对比图,其对应数据指标如表2所示。加粗字体标识Precision, Recall和F-measure之最大值,下划线标识对应次最大值。由图3可知,所提方法在各场景下均有较高Precision, Recall和F-measure值。由表2可知,所提方法在所有场景下均具有最高Precision和F-measure。DEC算法平均Recall值稍高于本文所提方法,由图2可知是由于其在动态背景场景下检测的前景区域过于平滑且包含较多虚警像素。
表 2 不同场景下6种算法评价指标平均值评价指标 PCP MoG PRMF DEC BRPCA 本文算法 Precision 0.4715 0.4896 0.5556 0.6938 0.7908 0.8967 Recall 0.7888 0.7978 0.8193 0.9199 0.8953 0.9181 F-measure 0.5440 0.5885 0.6387 0.7643 0.8333 0.9022 此外,通过对比平均F-measure以分别验证非凸
γ 范数、L1/2 范数及SC约束相较于RPCA模型的性能提升效果。由图4知,使用非凸γ 范数,L1/2 范数及SC约束时F-measure相较于RPCA模型均有不同程度提升。与使用非凸γ 范数及L1/2 范数约束相比,施加SC约束相较于RPCA模型性能提升最大,说明利用动目标具备明显且连续强度变化这一特征施加SC约束可有效抑制动态背景像素进而提高动目标检测精度。4.4 计算复杂度分析
本文所提
SCLR−γ&L1/2 模型计算复杂度主要由SVD及若干矩阵乘法运算决定。给定单幅大小为m×n 共计s 帧图像序列,令a=mn ,b=s 。每次迭代时,分别更新H ,K ,G 及拉格朗日乘子Y1 ,Y2 。更新H 时首先计算a×b 大小的矩阵SVD,需(4a2b+8ab2+9b3) 次浮点运算[28],然后利用广义奇异值收缩算子求得收缩奇异值矩阵并与左、右奇异向量矩阵相乘,此时需要((a+b)r2) 次浮点运算,r≤min(a,b) 为图像序列矩阵的秩。可得更新H 时需O(a2b+ab2+b3) 次浮点运算。更新K ,G ,Y1 和Y2 需逐元素相加和收缩操作,需O(ab) 次浮点运算。综上,所提方法总计算复杂度为O(a2b+ab2+b3+4ab)=O(a2b+ab2+b3) 。为进一步验证所提方法时间开销性能,选取100帧分辨率为
432×288 的RGB图像序列进行多次重复实验,对比平均运行时间以分析所提方法和对比算法时间开销大小。由表3知,与PCP和BRPCA算法相比,本文所提方法运行时间较短,表明所提方法时间开销更小。虽然与MoG、PRMF和DEC算法相比本文所提方法运行时间较长,即时间开销较大,然而结合上述定性与定量分析可知,本文所提方法检测性能显著优于上述3种算法,本文所提方法以牺牲一定程度的计算效率为代价换取明显的动目标检测性能提升。表 3 不同动目标检测算法平均运行时间对比(s)算法 PCP MoG PRMF DEC BRPCA 本文算法 运行时间 541.55 177.70 105.31 288.36 6161.29 498.42 5. 结论
基于低秩与稀疏分解理论,本文提出一种基于
γ 和L1/2 范数SC正则化动目标检测方法。所提方法通过引入γ 范数得到最小化问题最优解以提高检测准确率,同时利用L1/2 范数获得更加稀疏前景矩阵。基于虚警像素稀疏且不连续特性对前景施加SC约束以抽取更为完整和平滑前景,进而构建SCLR−γ&L1/2 模型。最后,利用基于ADM扩展的ALM法求解约束最小化问题。实验结果表明,与主流算法对比,所提方法在所有场景下均具有最高准确率和F值,可显著改善动目标检测精度。 -
1 缓冲区平衡路由算法
输入: destination address of the packet D, buffer available
signals from neighboring disconnected routers Available,
address of the local router R输出: the packet routing port Direction Begin 1. IF((Available.E==0||Available.W==0)&&(Available.N==1)
&&(R.y<D.y)) THEN2. //using YX routing algorithm 3. Direction=North; 4. ELSE IF((Available.E==0||Available.W==0)&&(Available.S==1)
&&(R.y>D.y)) THEN5. //using YX routing algorithm 6. Direction=South; 7. ELSE 8. //using XY routing algorithm 9. IF(R.x<D.x) THEN 10. Direction=East; 11. ELSE IF(R.x>D.x) THEN Direction=Wast; 12. ELSE IF(R.y<D.y) THEN Direction=North; 13. ELSE IF(R.y>D.y) THEN Direction=South; 14. ELSE Direction=Local; 15. END IF 16. END IF 17. END 表 1 实验基本参数设置表
参数 设置 网络拓扑 8×8 Mesh 缓冲区大小/端口 8 flits 虚通道数量/端口 2 数据包大小 2~6 flits 路由算法 XY,缓冲区平衡路由算法 传输链路宽度 32 bits 路由器频率 1 GHz 流量模式 均匀随机,转置,洗牌 路由器唤醒延迟 8 cycles 盈亏平衡时间 10 cycles 路由器断电等待时间 4 cycles -
[1] MONEMI A, PÉREZ I, LEYVA N, et al. PlugSMART: A pluggable open-source module to implement multihop bypass in networks-on-chip[C]. The 15th IEEE/ACM International Symposium on Networks-on-Chip, Madison, USA, 2021: 41–48. [2] SUN Chenglong, OUYANG Yiming, and LU Yingchun. DCBuf: A high-performance wireless network-on-chip architecture with distributed wireless interconnects and centralized buffer sharing[J]. Wireless Networks, 2022, 28(2): 505–520. doi: 10.1007/s11276-021-02882-x. [3] OUYANG Yiming, XU Dongyu, CHEN Zhimou, et al. REE: Reconfigurable and energy-efficient router architecture in wireless network-on-chip[J]. Microelectronics Journal, 2022, 129: 105600. doi: 10.1016/j.mejo.2022.105600. [4] CHEN Hui, CHEN Peng, ZHOU Jun, et al. ArSMART: An improved SMART NoC design supporting arbitrary-turn transmission[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2022, 41(5): 1316–1329. doi: 10.1109/TCAD.2021.3091961. [5] SUN Chenglong, OUYANG Yiming, and LIANG Huaguo. Architecting a congestion pre-avoidance and load-balanced wireless network-on-chip[J]. Journal of Parallel and Distributed Computing, 2022, 161: 143–154. doi: 10.1016/j.jpdc.2021.12.003. [6] DAYA B K, CHEN C H O, SUBRAMANIAN S, et al. SCORPIO: A 36-core research chip demonstrating snoopy coherence on a scalable mesh NoC with in-network ordering[J]. ACM SIGARCH Computer Architecture News, 2014, 42(3): 25–36. doi: 10.1145/2678373.2665680. [7] KIM J S, TAYLOR M B, MILLER J, et al. Energy characterization of a tiled architecture processor with on-chip networks[C]. 2003 International Symposium on Low Power Electronics and Design, Seoul, Korea (South), 2003: 424–427. doi: 10.1109/LPE.2003.1231942. [8] WOO S C, OHARA M, TORRIE E, et al. The SPLASH-2 programs: Characterization and methodological considerations[J]. ACM SIGARCH Computer Architecture News, 1995, 23(2): 24–36. doi: 10.1145/225830.223990. [9] FARROKHBAKHT H, KAMALI H M, and HESSABI S. SMART: A scalable mapping and routing technique for power-gating in NoC routers[C]. 2017 Eleventh IEEE/ACM International Symposium on Networks-on-Chip, Seoul, Korea (South), 2017: 1–8. [10] ZHOU Wu, OUYANG Yiming, LI Jianhua, et al. A transparent virtual channel power gating method for on-chip network routers[J]. Integration, 2023, 88: 286–297. doi: 10.1016/j.vlsi.2022.10.004. [11] SAMIH A, WANG Ren, KRISHNA A, et al. Energy-efficient interconnect via Router Parking[C]. 2013 IEEE 19th International Symposium on High Performance Computer Architecture, Shenzhen, China, 2013: 508–519. doi: 10.1109/HPCA.2013.6522345. [12] WANG Peng, NIKNAM S, WANG Zhiying, et al. A novel approach to reduce packet latency increase caused by power gating in network-on-chip[C]. 2017 Eleventh IEEE/ACM International Symposium on Networks-on-Chip, Seoul, Korea (South), 2017: 1–8. [13] XU Dongyu, OUYANG Yiming, ZHOU Wu, et al. Improving power and performance of on-chip network through virtual channel sharing and power gating[J]. Integration, 2023, 93: 102059. doi: 10.1016/j.vlsi.2023.102059. [14] CHEN Lizhong and PINKSTON T M. NoRD: Node-router decoupling for effective power-gating of on-chip routers[C]. 2012 45th Annual IEEE/ACM International Symposium on Microarchitecture, Vancouver, Canada, 2012: 270–281. doi: 10.1109/MICRO.2012.33. [15] FARROKHBAKHT H, TARAM M, KHALEGHI B, et al. TooT: An efficient and scalable power-gating method for NoC routers[C]. 2016 Tenth IEEE/ACM International Symposium on Networks-on-Chip, Nara, Japan, 2016: 1–8. doi: 10.1109/NOCS.2016.7579326. 期刊类型引用(5)
1. 刘焕淋,王展鹏,陈勇,张彤,熊琪乐,胡俊岭. 物理损伤感知的多芯光纤网络动态路由资源分配方法. 电子学报. 2022(02): 502-507 . 百度学术
2. 孙炳毅,静国刚. 基于分片感知的面向边缘计算的虚拟光网络映射策略. 工业控制计算机. 2022(10): 117-120 . 百度学术
3. 刘焕淋,王展鹏,任杰,陈勇,方菲,温濛. 基于模式间串扰避免的弹性光交换节点冲突解决方法. 电子与信息学报. 2021(08): 2224-2231 . 本站查看
4. 任雁,赵晓丽. 光网络的光通路状态实时感知研究. 激光杂志. 2021(09): 72-75 . 百度学术
5. 刘焕淋,杜理想,陈勇,胡会霞. 串扰感知的空分弹性光网络频谱转换器稀疏配置和资源分配方法. 电子与信息学报. 2020(07): 1718-1725 . 本站查看
其他类型引用(1)
-