Loading [MathJax]/jax/output/HTML-CSS/jax.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

一种旁路机制下的低功耗片上网络功率门控设计

欧阳一鸣 陈志远 徐冬雨 梁华国

刘焕淋, 方菲, 黄俊, 陈勇, 向敏, 马跃. 面向业务的弹性光网络光路损伤感知能效路由策略[J]. 电子与信息学报, 2019, 41(5): 1202-1209. doi: 10.11999/JEIT180580
引用本文: 欧阳一鸣, 陈志远, 徐冬雨, 梁华国. 一种旁路机制下的低功耗片上网络功率门控设计[J]. 电子与信息学报, 2024, 46(8): 3436-3444. doi: 10.11999/JEIT231257
Huanlin LIU, Fei FANG, Jun HUANG, Yong CHEN, Min XIANG, Yue MA. Energy Efficiency Routing Strategy with Lightpath Impairment Awareness in Service-Oriented Elastic Optical Networks[J]. Journal of Electronics & Information Technology, 2019, 41(5): 1202-1209. doi: 10.11999/JEIT180580
Citation: OUYANG Yiming, CHEN Zhiyuan, XU Dongyu, LIANG Huaguo. A Low-Power Network-on-Chip Power-Gating Design with Bypass Mechanism[J]. Journal of Electronics & Information Technology, 2024, 46(8): 3436-3444. doi: 10.11999/JEIT231257

一种旁路机制下的低功耗片上网络功率门控设计

doi: 10.11999/JEIT231257 cstr: 32379.14.JEIT231257
基金项目: 国家自然科学基金(62374049)
详细信息
    作者简介:

    欧阳一鸣:男,教授,研究方向为片上网络与片上系统、嵌入式系统的综合与测试、数字系统设计自动化等

    陈志远:男,硕士生,研究方向为片上网络的功率门控

    徐冬雨:男,博士生,研究方向为片上网络的可重构技术

    梁华国:男,教授,研究方向为容错计算与硬件安全、嵌入式系统综合与测试、智能控制系统等

    通讯作者:

    陈志远 czy20221002@163.com

  • 中图分类号: TP302

A Low-Power Network-on-Chip Power-Gating Design with Bypass Mechanism

Funds: The National Natural Science Foundation of China (62374049)
  • 摘要: 随着技术尺寸的缩小,静态功耗在片上网络 (NoC)的功耗开销中占据主导地位。功率门控作为一种通用的功耗节约技术,将NoC中空闲模块关闭以降低静态功耗。然而,传统的功率门控技术带来了诸如数据包唤醒延迟,盈亏平衡时间等问题。为了解决上述问题,该文提出代替功率门控路由器进行数据包传输的分区旁路传输机制 (PBTI),并基于该旁路机制设计了低延迟低功耗的功率门控方案。PBTI使用相互独立的旁路分别处理东西方向传输的数据包,并在旁路内部使用公共的缓冲区以提高缓冲区利用率。PBTI可以在路由器断电时实现数据包的注入、传输和弹出。即使网络中所有的路由器均处于功率门控状态,数据包也可以从源节点传输到目的节点。当流量增大超过PBTI的传输能力时,路由器以列为单位进行统一的唤醒。实验结果表明,与不使用功率门控的NoC相比,所提方案降低了83.4%的静态功耗和17.2%的数据包延迟,同时只额外增加了6.2%的面积开销。相较于常规的功率门控方案该文功率门控设计实现了更低的功耗和延迟,具有显著的优势。
  • 动目标检测在诸如交通监控等计算机视觉领域具有广泛应用[1]。作为自动视频分析的第1步,动目标检测旨在确定和分割感兴趣目标,据此为后续目标追踪和行为识别提供依据[2]

    动目标检测算法可分为帧差法[3]、光流法[4]和背景减除(Background Subtraction, BS)法[5]3类。帧差法快速简单但其仅在相邻帧间比较目标与背景差异导致无法提取完整目标区域[6]。光流法依视频时空梯度估算运动场,需计算整幅图像光流信息,计算开销大[7]。BS法将背景模板和视频帧不同部分视为动目标[8]。传统中值模型等构建模板虽较简单,但存在运动背景时检测效果不甚理想[9]。据此,Stauffer等人[10]提出高斯混合(Mixture of Gaussian, MoG)模型。MoG相对稳定且精确,但模型参数固定导致其难以适应场景变化。针对此缺点,Zivkovic[11]提出改进自适应高斯混合模型,然其建模时间较长。针对此问题,Candès等人[12]提出稳健主分量分析(Robust Principal Component Analysis, RPCA)模型,将观测矩阵分解为低秩与稀疏矩阵,利用主分量追踪(Principal Component Pursuit, PCP)法求解。RPCA虽不存在参数更新,然其未考虑观测噪声使得噪声环境下检测精度显著下降。基于此,Ding等人[13]提出贝叶斯稳健主分量分析(Bayesian Robust Principal Component Analysis, BRPCA)模型,考虑噪声同时引入贝叶斯方法以增强模型稳健性,然而当观测矩阵出现数据丢失时该模型所使用L2损失项将导致检测性能下降[14]。针对此问题,Wang等人[15]提出稳健矩阵分解概率(Probabilistic Robust Matrix Factorization, PRMF)方法,基于L1损失及L2正则项以解决BRPCA存在的问题。但由于未能利用前景像素空间分布特性从而导致算法虚警率较高进而动态背景下动目标检测性能较低。针对此问题,Zhou等人[16]提出低秩表示检测连续前景(DEtecting Contiguous Outliers in the LOw-rank Representation, DECOLOR)法,利用稀疏前景聚类特性解决动态背景下PRMF方法性能不佳问题,然而由于该模型贪婪特性,强运动背景场景下检测精度显著降低。

    综上,本文提出一种动态背景下基于低秩与稀疏分解的目标检测方法。该方法先引入γ范数近似矩阵秩函数以解决核范数过惩罚较大奇异值导致有偏估计致使最小化问题无法获得最优解进而降低检测性能的问题。而后针对L1范数未充分使用前景像素空域先验信息问题,利用L1/2范数对前景进行稀疏约束以抑制动态背景。进而基于虚警像素稀疏及空间不连续特性,对前景施加空间连续性(Spatial Continuity, SC)约束使得前景抽取更完整。最后利用基于交替方向最小化(Alternating Direction Minimizing, ADM)策略扩展的增广拉格朗日乘子(Augmented Lagrange Multiplier, ALM)法求解所得模型以实现动目标检测。

    设图像序列MRm×n×s,其中m, n分别为图像高度和宽度,s为帧数。将M重构为ZRmn×s,则动目标检测可建模为式(1)的RPCA问题[12]

    minH,KH+λK1,s.t.Z=H+K (1)

    其中,HRmn×s, KRmn×s分别为低秩背景和稀疏前景矩阵,为核范数,1L1范数,λ为权衡低秩和稀疏度的正则因子。强动态背景下,RPCA模型无法完整检测目标且前景充斥大量背景像素,检测性能较差[17]。主要原因在于核范数近似矩阵秩函数过度惩罚矩阵较大奇异值,致核范数最小化问题无法获得最优解进而降低目标检测性能[18]。据此,本文采用非凸γ范数代替核范数以获得秩函数近乎无偏估计。此外,相较于L1范数,L1/2范数可获得更加稀疏前景矩阵,因此可降低虚警率[19]。同时,对前景施加SC约束可抑制动态背景像素影响。综上,本文提出基于γL1/2范数SC正则化低秩近似(γnorm&L1/2norm and Spatial Continuity regularized Low-Rank approximation, SCLRγ&L1/2)动目标检测方法以改善动态背景下目标检测精度。

    本节首先介绍γL1/2范数并提出SC约束正则化,而后构建SCLRγ&L1/2动目标检测模型,最后利用基于ADM的ALM方法对所得优化问题进行求解。

    由于核范数可导致有偏估计,而极大极小凹加(Minmax Concave Plus, MCP)函数可近似无偏估计矩阵秩函数,因而作为MCP矩阵扩展形式的γ范数在秩最小化问题中可得更好近似解[20]。给定向量β=(β1β2···βp)TRp, λ>0, γ>1, MCP函数可定义为Mλ,γ(β)=pi=1Ωλ,γ(βi)。其中

    Ωλ,γ(t)=λt0[1x/λγ]+dx={λ2γ/2, |t|λγλ|t|t2/2γ,其他 (2)

    其中,(z)+=max{z,0}。同理,给定矩阵A=[Aij]Rm×n,其MCP范数可定义为Mλ,γ(A)=i,jΩλ,γ(Ai,j)

    设矩阵A奇异值分解(Singular Value Decomposition, SVD)可表示为A=UAΣAVAT,其中,UA=[u1u2un], VA=[v1v2···vn], ΣA=diag(σ1σ2···σn),且σ1σ2σn0, σi(A)表示A的第i个奇异值,令σ(A)=(σ1(A)σ2(A)···σr(A))T, r=min{m,n}。定义Ωγ(t)=Ω1,γ(t), Mγ(A)=M1,γ(A),则矩阵Aγ范数可定义为Aγ=ri=1σi(A)0(1u/γ)+du=ri=1Ω1,γ(σi(A))=Mγ(σ(A))

    Lq正则化中,q(1/2,1)q值越小,解越稀疏;q(0,1/2)时解的稀疏性无明显差异[21]。因而L1/2相较于L1范数具有较好稀疏特性。假设矩阵A划分为{A1A2···As},则L1/2范数可定义为A1/2=(si=1|Ai|1/2)2

    通常,前景矩阵K中动态背景造成的虚警像素具有稀疏但不连续特性,而潜在被检测动目标具备明显且连续强度变化这一特征[22]。因此对前景施加SC约束以抑制动态背景像素可使前景更为完整进而降低虚警率。设KRmn×s{K1K2···Ks}构成,KkRm×n为第k帧,则SC约束可表示为Φ(K)=sk=1KkSC。其中,KkSC为第k帧所有像素值之和,即

    KkSC=m1i=1n1j=1(Kkh(i,j))2+(Kkv(i,j))2+m1i=1|Kkv(i,n)|+n1j=1|Kkh(m,j)| (3)

    其中,KkhKkv分别定义为图像水平和垂直方向上的操作[23]

    Kkh(i,j)={Kk(i,j+1)Kk(i,j),j<n0,j=n (4)
    Kkv(i,j)={Kk(i+1,j)Kk(i,j),i<m0,i=m (5)

    其中,Kk(i,j)为第k帧图像ij列位置像素值。

    综上所述,为提高秩函数近似精度且在抽取稀疏前景目标同时抑制动态背景的影响以改善目标检测性能,本文提出如下SCLRγ&L1/2动目标检测模型

    minH,KHγ+λ1K1/21/2+λ2Φ(K),s.t.ZHK22ε (6)

    其中,K1/21/2为矩阵KL1/2正则化,2为欧氏范数。λ1权衡前景稀疏性,λ2控制约束强度,ε为误差上界。

    本文采用ALM法[24]求解式(6)动目标检测优化问题,为方便后续使用交替最小化策略求解,令G=K,此时式(6)转化为式(7)的等价问题

    minH,K,GHγ+λ1K1/21/2+λ2Φ(G),s.t.ZHK22ε,KG=0 (7)

    通常,约束条件KG=0在工程中较为苛刻,等价松弛为KG22ε1, ε1为误差上界,式(7)等价为

    minH,K,GHγ+λ1K1/21/2+λ2Φ(G),s.t.ZHK22ε,KG22ε1 (8)

    则增广拉格朗日函数可表示为

    minLμ1,μ2(H,K,G,Y1,Y2)=minH,K,G,Y1,Y2Hγ+λ1K1/21/2+λ2Φ(G)+Y1,ZHK+Y2,KG+μ1/2ZHK22+μ2/2KG22 (9)

    其中,Y1Y2为拉格朗日乘子,μ1μ2为惩罚参数。式(9)最优化问题可划分为如下4个子问题。

    (1) 更新Hk+1

    minHHγ+Y1k,ZHKk+μ1/2ZHKk22 (10)

    由于Hγ关于σ(H)非凸,可每次迭代时使用Hγσ(Hold)的局部线性逼近(Locally Linear Approximation, LLA)进行近似求解,其中Hold为上一次迭代值[18]。因此,式(10)可进一步表示为

    minHQγ(σ(H)|σ(Hold))+Y1k,ZHKk+μ1/2ZHKk22 (11)

    其中,Qγ(A|Aold)=Mγ(Aold)+i,j(1|Aoldij|/γ)+(|Aij||Aoldij|)为给定AoldMγ(A)的LLA。式(11)最优解为

    ˆHk+1S1/μ1,Λ(ZKk+Yk1/μ1) (12)

    其中,Sτ,Λ(Y)=minX12XY22+τQγ(σ(X)|σ(Xold)), Sτ,Λ(X)=UXDτ,Λ(ΣX)VTX为广义奇异值收缩算子,Λ=(IΣXold/γ)+, I为单位矩阵。[Dτ,Λ(A)]ij=sgn(Aij)(|Aij|τΛij)为广义收缩算子,sgn()为符号函数。

    (2) 更新Kk+1

    minKλ1K1/21/2+Y1k,ZHk+1K+Y2k,KGk+μ1/2ZHk+1K22+μ2/2KGk22 (13)

    式(13)可通过文献[25]中的半阈值化算子(Half-Thresholding Operator, HTO)求解。求解式(13)前,先由式(14)的L1/2正则化问题推导出HTO

    minxRN{yAx22+λx1/21/2} (14)

    其中,ARM×N为给定矩阵,y为观测数据,x=(x1x2xN)TRN为待恢复稀疏结构,λ>0为正则化参数。对于式(14),只要x1/21/2的梯度(x1/21/2)其预解式存在,即对于任意正实数λ,算子Rλ,1/2()=(I+λ/2(1/21/2))1均被定义,则可得

    x=(I+λμ/2(1/21/2))1(x+μAT(yAx))=Rλμ,1/2(x+μAT(yAx)) (15)

    μ为正的参数,定义Bμ(x)=x+μAT(yAx),则得到x=Rλμ,1/2(Bμ(x))。由文献[25]知,对角非线性表示算子 Rλ,1/2(x)=(fλ,1/2(x1)fλ,1/2(x2)···fλ,1/2(xN))T,其中,fλ,1/2(xi)=2/3xi(1+cos(2π/32/3φλ(xi)))φλ(xi)=arccos(λ/8(|xi|/3)(3/2))。由此,可得L1/2正则化问题阈值化函数为

    hλμ,1/2(x)={fλμ,1/2(x), |x|>354/4(λμ)2/30,  其他 (16)

    问题式(14)阈值可表示为x=Hλμ,1/2(Bμ(x)), Hλμ,1/2(x)=(hλμ,1/2(x1)hλμ,1/2(x2)···hλμ,1/2(xN))T。式(16)为半阈值化函数,Hλμ, 1/2为 HTO。

    综上所述,基于HTO,可得问题式(13)最优解为

    ˆKk+1H2λ1/(μ1+μ2)[(Y1kY2k+μ1Zμ1Hk+1+μ2Gk)/(μ1+μ2)] (17)

    (3) 更新Gk+1

    minGλ2Φ(G)+Y2k,Kk+1G+μ2/2Kk+1G22 (18)

    式(18)可等价为minGλ2Φ(G)+μ2/2G(Kk+1+(Y2k/μ2))22。假设W=Kk+1+Y2k/μ2, W=[W1W2···Ws]Rmn×s, G=[G1G2···Gs]Rmn×s,则

    min{Gj}sj=1λ2sj=1GjSC+μ2/2sj=1GjWj22 (19)

    其中,GjRmn×1, WjRmn×1。将GjWj重塑为2维形式,即

    min{(Gj)m×n}sj=1λ2sj=1(Gj)m×nSC+μ2/2sj=1(Gj)m×n(Wj)m×n22 (20)

    式(20)的最优化问题可拆分为s个子问题,且每个子问题都可使用文献[26]中的快速梯度投影法求解,即(Gj)m×n=PC((Wj)m×nλ2/μ2L(p,q))。其中,(p,q)为矩阵对,pR(m1)×n, qRm×(n1)L定义为R(m1)×n×Rm×(n1)Rm×n, L(p,q)i,j=pi,j+qi,jpi1,jqi,j1,i=1,2,···,m;j=1,2,···,nPC表示集合C=Rm×n上的正交投影算子。对于n维空间Bl.u={x:lxiju,i,j},若 C=Bl,u,则

    PBl,u(x)ij={l,xij<lxij,  lxi,juu,xij>u (21)

    获得各子问题最优解后,将其重塑为Gjk+1Rmn×1,则 Gk+1可通过式(22)更新

    ˆGk+1[Gk+11Gk+12Gk+1s] (22)

    (4) 更新拉格朗日乘子

    Y1k+1=Y1k+μ1(ZHk+1Kk+1) (23)
    Y2k+1=Y2k+μ2(Gk+1Kk+1) (24)

    在已知观测矩阵Z条件下,通过式(12),式(17)和式(22)交替优化H, KG直至满足迭代收敛条件:ZHkKk22φZ22, φ为控制误差的常数,依据实验选取φ=1×105。综上,本文所提基于低秩与稀疏分解的动目标检测方法步骤如表1所示。

    表 1  低秩与稀疏分解动目标检测方法
     算法:使用ADM策略扩展的ALM法求解问题式(7)
     输入:观测矩阵Z,参数γ, λ1, λ2, μ1, μ2φ
     输出:H, KG
     (1):固定其他变量,计算式(12)以更新变量H
     (2):固定其他变量,由式(17)更新变量K
     (3):固定其他变量,计算式(22)以更新变量G
     (4):由式(23)和式(24)更新拉格朗日乘子Y1Y2
     (5):重复步骤(1)—(4),直至满足收敛条件。
    下载: 导出CSV 
    | 显示表格

    实验数据集:本文利用CDnet-2014[17]和UCSD[27]数据集的5个视频序列(Boats, Bottle, Rain, Fountain, Fall)作为测试集,并与MoG[10], PCP[12], BRPCA[13], PRMF[15]和DECOLOR(DEC)[16]算法对比以验证动态背景下所提方法动目标检测的有效性。实验环境如下:处理器i7-7700,内存8GB,仿真软件MATLAB R2017b。评价指标:本文采用准确率(Precision)、召回率(Recall)和F值(F-measure)作为评价指标。真阳性(True Positive, TP)为正确分类为前景像素的数目,假阳性(False Positive, FP)为误分类为前景而实际为背景像素的数目,假阴性(False Negative, FN)为被错误分类为背景而实际为前景像素的数目。Precision=TP/(TP+FP), Recall=TP/(TP+FN), F-measure=2(Precision×Recall/(Precision+Recall))

    依据实验,本文设置λ1=0.4/mn, λ2=2/mn, μ1=μ2=1×103, φ=1×105。由文献[18]可知,参数γ应被设置为严格大于1的较小实数。为确定最优γ取值,经多次重复实验,本文在[1,10]范围内重复实验以研究不同γ取值对F-measure的影响。为调整方便,本文从集合{1,2,4,6,8,10}中选择离散的最优参数。

    图1可知,在不同动态背景场景下,F-measure随γ取值变化产生的波动不大,稳健性较好。[1,4]内各场景下F-measure均不断增大,[4,10]内随γ增大F-measure均呈减小趋势,从而可知当γ=4时所提SCLRγ&L1/2模型在不同动态背景场景下均可实现最优动目标检测,因而,在以下实验中均设置γ=4

    图 1  不同场景下F-measure随γ取值变化曲线

    图2为6种算法在5个动态背景场景下部分目标检测结果对比。由图2(c)可知,当环境存在不同程度动态背景干扰时,所提方法均可较好抑制动态背景,同时目标检测结果较为完整,从而表明所提方法具有较高检测精度和稳健性。由图2(d)可知,BRPCA算法在Boats, Fountain和Fall场景下对动态背景抑制较差,其虽在Bottle和Rain场景下可抑制大部分动态背景但虚警率较高。由图2(e)可知,DEC算法在不同动态场景下均存在较严重误检,检测精度较差。由图2(f)图2(g)图2(h)可知,PRMF, MoG和PCP算法在Rain场景下可较好抑制动态背景,然而均不同程度丢失目标细节,检测结果不够完整,且在Boats, Bottle, Fountain和Fall场景下均不能较好抑制动态背景。

    图 2  检测结果对比

    所提方法及5种对比算法在5个场景下的Precision, Recall和F-measure对比如图3所示。其中,图3(f)为6种算法在5个场景下3个性能指标的平均值对比图,其对应数据指标如表2所示。加粗字体标识Precision, Recall和F-measure之最大值,下划线标识对应次最大值。由图3可知,所提方法在各场景下均有较高Precision, Recall和F-measure值。由表2可知,所提方法在所有场景下均具有最高Precision和F-measure。DEC算法平均Recall值稍高于本文所提方法,由图2可知是由于其在动态背景场景下检测的前景区域过于平滑且包含较多虚警像素。

    表 2  不同场景下6种算法评价指标平均值
    评价指标PCPMoGPRMFDECBRPCA本文算法
    Precision0.47150.48960.55560.69380.79080.8967
    Recall0.78880.79780.81930.91990.89530.9181
    F-measure0.54400.58850.63870.76430.83330.9022
    下载: 导出CSV 
    | 显示表格
    图 3  动目标检测定量分析对比

    此外,通过对比平均F-measure以分别验证非凸γ范数、L1/2范数及SC约束相较于RPCA模型的性能提升效果。由图4知,使用非凸γ范数,L1/2范数及SC约束时F-measure相较于RPCA模型均有不同程度提升。与使用非凸γ范数及L1/2范数约束相比,施加SC约束相较于RPCA模型性能提升最大,说明利用动目标具备明显且连续强度变化这一特征施加SC约束可有效抑制动态背景像素进而提高动目标检测精度。

    图 4  各部分性能提升对比

    本文所提SCLRγ&L1/2模型计算复杂度主要由SVD及若干矩阵乘法运算决定。给定单幅大小为m×n共计s帧图像序列,令a=mn, b=s。每次迭代时,分别更新H, K, G及拉格朗日乘子Y1, Y2。更新H时首先计算a×b大小的矩阵SVD,需(4a2b+8ab2+9b3)次浮点运算[28],然后利用广义奇异值收缩算子求得收缩奇异值矩阵并与左、右奇异向量矩阵相乘,此时需要((a+b)r2)次浮点运算,rmin(a,b)为图像序列矩阵的秩。可得更新H时需O(a2b+ab2+b3)次浮点运算。更新K, G, Y1Y2需逐元素相加和收缩操作,需O(ab)次浮点运算。综上,所提方法总计算复杂度为O(a2b+ab2+b3+4ab)=O(a2b+ab2+b3)

    为进一步验证所提方法时间开销性能,选取100帧分辨率为432×288的RGB图像序列进行多次重复实验,对比平均运行时间以分析所提方法和对比算法时间开销大小。由表3知,与PCP和BRPCA算法相比,本文所提方法运行时间较短,表明所提方法时间开销更小。虽然与MoG、PRMF和DEC算法相比本文所提方法运行时间较长,即时间开销较大,然而结合上述定性与定量分析可知,本文所提方法检测性能显著优于上述3种算法,本文所提方法以牺牲一定程度的计算效率为代价换取明显的动目标检测性能提升。

    表 3  不同动目标检测算法平均运行时间对比(s)
    算法PCPMoGPRMFDECBRPCA本文算法
    运行时间541.55177.70105.31288.366161.29498.42
    下载: 导出CSV 
    | 显示表格

    基于低秩与稀疏分解理论,本文提出一种基于γL1/2范数SC正则化动目标检测方法。所提方法通过引入γ范数得到最小化问题最优解以提高检测准确率,同时利用L1/2范数获得更加稀疏前景矩阵。基于虚警像素稀疏且不连续特性对前景施加SC约束以抽取更为完整和平滑前景,进而构建SCLRγ&L1/2模型。最后,利用基于ADM扩展的ALM法求解约束最小化问题。实验结果表明,与主流算法对比,所提方法在所有场景下均具有最高准确率和F值,可显著改善动目标检测精度。

  • 图  1  不同缓冲区深度对数据包延迟和饱和点的影响

    图  2  PBTI旁路设计

    图  3  PBTI数据包传输网络

    图  4  数据包传输3种情况

    图  5  旁路控制机制

    图  6  NI接口设计

    图  7  路由器功率门控硬件

    图  8  不同流量模式下的平均数据包延迟

    图  9  真实应用下的平均数据包延迟

    图  10  不同流量模式下的归一化静态功耗

    图  11  静态功耗和总功耗节省

    图  12  真实应用下的归一化静态功耗

    1  缓冲区平衡路由算法

     输入: destination address of the packet D, buffer available
     signals from neighboring disconnected routers Available,
     address of the local router R
     输出: the packet routing port Direction
     Begin
     1. IF((Available.E==0||Available.W==0)&&(Available.N==1)
     &&(R.y<D.y)) THEN
     2.  //using YX routing algorithm
     3.  Direction=North;
     4. ELSE
     IF((Available.E==0||Available.W==0)&&(Available.S==1)
     &&(R.y>D.y)) THEN
     5.  //using YX routing algorithm
     6.  Direction=South;
     7. ELSE
     8. //using XY routing algorithm
     9. IF(R.x<D.x) THEN
     10. Direction=East;
     11. ELSE IF(R.x>D.x) THEN Direction=Wast;
     12. ELSE IF(R.y<D.y) THEN Direction=North;
     13. ELSE IF(R.y>D.y) THEN Direction=South;
     14. ELSE Direction=Local;
     15. END IF
     16. END IF
     17. END
    下载: 导出CSV

    表  1  实验基本参数设置表

    参数 设置
    网络拓扑 8×8 Mesh
    缓冲区大小/端口 8 flits
    虚通道数量/端口 2
    数据包大小 2~6 flits
    路由算法 XY,缓冲区平衡路由算法
    传输链路宽度 32 bits
    路由器频率 1 GHz
    流量模式 均匀随机,转置,洗牌
    路由器唤醒延迟 8 cycles
    盈亏平衡时间 10 cycles
    路由器断电等待时间 4 cycles
    下载: 导出CSV
  • [1] MONEMI A, PÉREZ I, LEYVA N, et al. PlugSMART: A pluggable open-source module to implement multihop bypass in networks-on-chip[C]. The 15th IEEE/ACM International Symposium on Networks-on-Chip, Madison, USA, 2021: 41–48.
    [2] SUN Chenglong, OUYANG Yiming, and LU Yingchun. DCBuf: A high-performance wireless network-on-chip architecture with distributed wireless interconnects and centralized buffer sharing[J]. Wireless Networks, 2022, 28(2): 505–520. doi: 10.1007/s11276-021-02882-x.
    [3] OUYANG Yiming, XU Dongyu, CHEN Zhimou, et al. REE: Reconfigurable and energy-efficient router architecture in wireless network-on-chip[J]. Microelectronics Journal, 2022, 129: 105600. doi: 10.1016/j.mejo.2022.105600.
    [4] CHEN Hui, CHEN Peng, ZHOU Jun, et al. ArSMART: An improved SMART NoC design supporting arbitrary-turn transmission[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2022, 41(5): 1316–1329. doi: 10.1109/TCAD.2021.3091961.
    [5] SUN Chenglong, OUYANG Yiming, and LIANG Huaguo. Architecting a congestion pre-avoidance and load-balanced wireless network-on-chip[J]. Journal of Parallel and Distributed Computing, 2022, 161: 143–154. doi: 10.1016/j.jpdc.2021.12.003.
    [6] DAYA B K, CHEN C H O, SUBRAMANIAN S, et al. SCORPIO: A 36-core research chip demonstrating snoopy coherence on a scalable mesh NoC with in-network ordering[J]. ACM SIGARCH Computer Architecture News, 2014, 42(3): 25–36. doi: 10.1145/2678373.2665680.
    [7] KIM J S, TAYLOR M B, MILLER J, et al. Energy characterization of a tiled architecture processor with on-chip networks[C]. 2003 International Symposium on Low Power Electronics and Design, Seoul, Korea (South), 2003: 424–427. doi: 10.1109/LPE.2003.1231942.
    [8] WOO S C, OHARA M, TORRIE E, et al. The SPLASH-2 programs: Characterization and methodological considerations[J]. ACM SIGARCH Computer Architecture News, 1995, 23(2): 24–36. doi: 10.1145/225830.223990.
    [9] FARROKHBAKHT H, KAMALI H M, and HESSABI S. SMART: A scalable mapping and routing technique for power-gating in NoC routers[C]. 2017 Eleventh IEEE/ACM International Symposium on Networks-on-Chip, Seoul, Korea (South), 2017: 1–8.
    [10] ZHOU Wu, OUYANG Yiming, LI Jianhua, et al. A transparent virtual channel power gating method for on-chip network routers[J]. Integration, 2023, 88: 286–297. doi: 10.1016/j.vlsi.2022.10.004.
    [11] SAMIH A, WANG Ren, KRISHNA A, et al. Energy-efficient interconnect via Router Parking[C]. 2013 IEEE 19th International Symposium on High Performance Computer Architecture, Shenzhen, China, 2013: 508–519. doi: 10.1109/HPCA.2013.6522345.
    [12] WANG Peng, NIKNAM S, WANG Zhiying, et al. A novel approach to reduce packet latency increase caused by power gating in network-on-chip[C]. 2017 Eleventh IEEE/ACM International Symposium on Networks-on-Chip, Seoul, Korea (South), 2017: 1–8.
    [13] XU Dongyu, OUYANG Yiming, ZHOU Wu, et al. Improving power and performance of on-chip network through virtual channel sharing and power gating[J]. Integration, 2023, 93: 102059. doi: 10.1016/j.vlsi.2023.102059.
    [14] CHEN Lizhong and PINKSTON T M. NoRD: Node-router decoupling for effective power-gating of on-chip routers[C]. 2012 45th Annual IEEE/ACM International Symposium on Microarchitecture, Vancouver, Canada, 2012: 270–281. doi: 10.1109/MICRO.2012.33.
    [15] FARROKHBAKHT H, TARAM M, KHALEGHI B, et al. TooT: An efficient and scalable power-gating method for NoC routers[C]. 2016 Tenth IEEE/ACM International Symposium on Networks-on-Chip, Nara, Japan, 2016: 1–8. doi: 10.1109/NOCS.2016.7579326.
  • 期刊类型引用(5)

    1. 刘焕淋,王展鹏,陈勇,张彤,熊琪乐,胡俊岭. 物理损伤感知的多芯光纤网络动态路由资源分配方法. 电子学报. 2022(02): 502-507 . 百度学术
    2. 孙炳毅,静国刚. 基于分片感知的面向边缘计算的虚拟光网络映射策略. 工业控制计算机. 2022(10): 117-120 . 百度学术
    3. 刘焕淋,王展鹏,任杰,陈勇,方菲,温濛. 基于模式间串扰避免的弹性光交换节点冲突解决方法. 电子与信息学报. 2021(08): 2224-2231 . 本站查看
    4. 任雁,赵晓丽. 光网络的光通路状态实时感知研究. 激光杂志. 2021(09): 72-75 . 百度学术
    5. 刘焕淋,杜理想,陈勇,胡会霞. 串扰感知的空分弹性光网络频谱转换器稀疏配置和资源分配方法. 电子与信息学报. 2020(07): 1718-1725 . 本站查看

    其他类型引用(1)

  • 加载中
图(12) / 表(2)
计量
  • 文章访问数:  217
  • HTML全文浏览量:  121
  • PDF下载量:  40
  • 被引次数: 6
出版历程
  • 收稿日期:  2023-11-14
  • 修回日期:  2024-04-23
  • 网络出版日期:  2024-05-13
  • 刊出日期:  2024-08-10

目录

/

返回文章
返回