NN-EdgeBuilder: High-performance Neural Network Inference Framework for Edge Devices
-
摘要: 飞速发展的神经网络已经在目标检测等领域取得了巨大的成功,通过神经网络推理框架将网络模型高效地自动部署在各类边缘端设备上是目前重要的研究方向。针对以上问题,该文设计一个针对边缘端FPGA的神经网络推理框架NN-EdgeBuilder,能够利用基于多目标贝叶斯优化的设计空间探索算法充分探索网络每层的并行度因子和量化位宽,接着调用高性能且通用的硬件加速算子来生成低延迟、低功耗的神经网络加速器。该文使用NN-EdgeBuilder在Ultra96-V2 FPGA上部署了UltraNet和VGG网络,生成的UltraNet-P1加速器与最先进的UltraNet定制加速器相比,功耗和能效比表现分别提升了17.71%和21.54%。与主流的推理框架相比,NN-EdgeBuilder生成的VGG加速器能效比提升了4.40倍,数字信号处理器(DSP)的计算效率提升了50.65%。Abstract: The rapidly developing neural network has achieved great success in fields such as target detection. Currently, an important research direction is to deploy efficiently and automatically network models on various edge devices through a neural network inference framework. In response to these issues, a neural network inference framework NN-EdgeBuilder for edge FPGA is designed in this paper, which can fully explore the parallelism factors and quantization bit widths of each layer of the network through a design space exploration algorithm based on multi-objective Bayesian optimization. Then high-performance and universal hardware acceleration operators are called to generate low-latency and low-power neural network accelerators. NN-EdgeBuilder is used to deploy UltraNet and VGG networks on Ultra96-V2 FPGA in this study, and the generated UltraNet-P1 accelerator improves power consumption and energy efficiency by 17.71% and 21.54%, respectively, compared with the state-of-the-art UltraNet custom accelerator. Compared with mainstream inference frameworks, energy efficiency of the VGG accelerator generated by NN-EdgeBuilder is improved by 4.40 times and Digital Signal Processor(DSP) computing efficiency is improved by 50.65%.
-
1. 引言
音频均衡的目的在于提高收听环境中的声音质量[1,2]。随着汽车的普及,车载音频设备有着广阔的市场前景。由于狭小封闭的车内空间、有限的扬声器安装位置以及汽车行驶时的胎噪路噪,导致车载音频音质下降[3,4]。为了提高车载音响的音质,一般通过调节车载音频处理系统中的核心部件、均衡器来实现[1,2]。通过均衡器直接从音源发声端对音频信号的频率响应曲线进行修正、补偿等调节,可使人耳听到的音频信号的频响曲线更加平直、均匀,使驾乘人员能够听到更加动听、真实的声音。
音频均衡器是对声频中的某些频段进行提升或衰减的声电处理设备,一般分为图示均衡器和参数均衡器[1,2]。图示均衡器为中心频率与带宽固定而增益可调的滤波器组,参数均衡器为中心频率、带宽和增益均可进行调整的滤波器组[1]。图示均衡器结构简单,直观明了,在专业音响中应用非常广泛。参数均衡器调节灵活,可以完成更细致的修补工作,满足消费者对高品质车载音效的需求,是未来车载音频均衡器发展的方向。
车载音频系统失真通常为线性失真,对应为系统频率响应的幅度和相位失真。尽管相位失真在某些情况下可以被察觉,但其影响远小于幅度失真的影响。因此,音频均衡器应专注于校正系统的幅度响应,而不是其相位响应[5,6]。
在音频均衡算法设计方面,目前主要有3类算法。第1类是基于智能优化算法:Pepe等人[3]提出了一种基于遗传进化算法的多声道音频均衡技术来调整均衡滤波器系数,该方法可以找到全局最优解,但效率低于常规的优化方法;Prince等人[7]提出了一种基于遗传进化算法的高阶无限脉冲响应(Infinite Impulse Response, IIR)滤波器均衡方法,该方法计算成本较高;Pepe等人[8]提出了一种基于引力搜索算法的音频均衡方法,该方法迭代次数较多,计算量较大。第2类是神经网络算法:Pepe等人[9]提出了一种基于深度神经网络算法来设计音频均衡器;Rämö等人[10,11]提出了一种基于神经网络的1/3倍频程图示均衡器校正方法;Välimäki等人[12]通过训练一个神经网络来拟合图示均衡器的目标增益;Ramírez等人[13]提出了一种端到端的卷积神经网络来设计图示均衡器。尽管神经网络算法具备强大的非线性拟合能力,可以任意精度逼近任何非线性连续函数,但其网络模型复杂度较高,且对硬件设备的计算能力有较高的要求。第3类是滤波器组算法:Rämö等人[14]提出了一种用于音频处理的高阶图示均衡器设计算法,该方法拟合误差在
±2 dB以内,不满足高保真音频要求。现有的低阶图示均衡器校正方法有串联图示均衡器[15-17]和并联图示均衡器[18-23]。Liski等人[15-17]提出了一种精确的串联图示均衡器校正方法,该方法拟合误差在1 dB以内,满足高保真音频要求;文献[18-20]提出了一种将串联图示均衡器转化为延迟并联图示均衡器的方法,拟合误差也在1 dB以内;Rämö等人[22]提出了一种高精度的并联图示均衡器校正方法,该方法拟合误差虽然在1 dB以内,但是设计过程较复杂;Bank等人[21]对文献[22]方法进行了改进,减少了设计时间;Tao等人[19]对文献[22]的滤波器阶数进行了优化,降低了滤波器的总阶数;Chen等人[23]提出了一种基于预失真的并联图示均衡器校正方法,该方法拟合误差达到1.7 dB,不满足高保真音频要求。综上所述,现有的较低计算成本的先进的图示均衡器校正方法有Liski等人[16-18]提出的精确的串并联图示均衡器和Rämö等人[21,22]提出的高精度并联图示均衡器。这3种设计方法拟合误差都在1 dB以内,符合高保真音频要求。然而,在车载声场环境下,这3种设计方法都不能适应车载音响动态变化的声场,因为这3种方法都是针对静态的情况。
针对以上问题,本文提出一种能够适应车载音响声场动态变化的高精度并联图示均衡器校正方法。实验结果表明,本文所提方法比文献[16,18,21,22]方法所用均衡滤波器个数平均减少大约20%,拟合的目标增益更准确,校正车载扬声器声场效果更好。
本文组织如下:第2节介绍图示均衡器的串并转换方法;第3节阐述所提方法;第4节为实验结果分析;第5节为本文结论。
2. 图示均衡器的串并转换方法
Liski等人[18]提出了一种将高精度的串联图示均衡器转化为延迟并联图示均衡器的方法。方法如下所述。
一个2阶滤波器传递函数如式(1)所示[18]
F(z)=k01+b1z−1+b2z−21+a1z−1+a2z−2 (1) 其中,
k0 为增益参数,b1 和b2 为前馈系数,a1 和a2 为反馈系数。对于
S 个串联的2阶滤波器组,其传递函数为F(z)=G0S∏s=11+b1,sz−1+b2,sz−21+a1,sz−1+a2,sz−2 (2) 其中增益参数
G0 为G0=S∏s=1k0,s (3) 图示均衡器串联组成示意图如图1所示。其中
S 是均衡滤波器的个数。单个2阶滤波器结构框图如图2所示。文献[18]给出的串并转换方法流程如下。首先,将式(2)写成非因果形式
F(z)=G0S∏s=1z2+b1,sz+b2,sz2+a1,sz+a2,s (4) 假设
F(z) 的部分分式展开为F(z)=d0+N∑n=1˜rnz−pn (5) 其中,
d0 为常数,pn 为极点,˜rn 为极点对应的留数。使用Heaviside cover-up方法计算留数为
˜rn=(z−pn)F(z)|z=pn (6) 接下来通过将式(5)转化为标准的因果滤波器形式引入延迟
F(z)=d0+N∑n=1˜rnz−pn=d0+N∑n=1z−1˜rnz−1(z−pn)=d0+z−1N∑n=1˜rn1−pnz−1 (7) 为了求解
d0 ,联立式(2)和式(7)为F(z)=G0S∏s=11+b1,sz−1+b2,sz−21+a1,sz−1+a2,sz−2 =d0+z−1N∑n=1˜rn1−pnz−1 (8) 令
z→∞ 得到d0=G0 。为了得到实值滤波器系数,需要组合复共轭极点对,如式(9)所示
Fp(z)=˜r11−p1z−1+˜r21−p2z−1=(˜r1+˜r2)−(˜r1p2+˜r2p1)z−1(1−p1z−1)(1−p2z−1) (9) 最后得到的延迟并联图示均衡器传递函数为
F(z)=d0+z−1S∑s=1c0,s+c1,sz−11+a1,sz−1+a2,sz−2 (10) 其中,
c0,s=˜r(2s−1)+˜r(2s) ,c1,s=−˜r(2s−1)p(2s)− ˜r(2s)p(2s−1) 。通过以上步骤就将串联的2阶滤波器转化为延迟并联形式。图示均衡器并联组成示意图如图3所示。其中S 是均衡滤波器的个数。单个2阶滤波器结构框图如图4所示。3. 无重叠频带的自适应非对称并联图示均衡器校正
本节提出一种用于车载音频的自适应增益精确并联图示均衡器校正方法。所提设计中目标增益是自适应获得的,所设计的并联图示均衡器校正车载扬声器的声场效果较好。
3.1 自适应增益和车载扬声器频响范围识别
第2节介绍的方法需要首先设计精确的串联图示均衡器(Accurate Cascade Graphic Equalizer, ACGE)[16],接着通过其阐述的串并转化方法将ACGE转化为精确的并联图示均衡器(Accurate Parallel Graphic Equalizer, APGE)[18]。APGE方法设计出的图示均衡器与目标增益的误差在
±1 dB以内,达到高保真音频要求。然而,该方法的目标增益只是人为地预先设定,并没有考虑到动态变化的情况。在车载音频声场环境下,车载扬声器的声场会随着车辆的高速行驶而不断变化,在这种情况下拟合目标增益效果会变差。本文所提出的方法在APGE基础上加入了车载扬声器有效频响范围识别和自适应计算目标增益,称为自适应增益-精确的并联图示均衡器(Adaptive Gain-Accurate Parallel Graphic Equalizer, AG-APGE)。AG-APGE方法减少了均衡滤波器个数,自适应计算的目标增益比人工给定的目标增益更准确,因此图示均衡器响应的拟合效果更精准,最终校正后的曲线更平坦。
图5是本文算法的应用系统框图。车载音响系统主要由扬声器、功放电路和数字信号处理器(Digital Signal Processor, DSP)等部分组成,形成一个独立的系统。其中,DSP片上系统为整个车载音响系统的核心部分,负责音频的解码、信号处理以及均衡等功能。整个系统的流程为:首先车载音响系统播放特定的白噪声音频,然后通过麦克风收集到车内的环境影响后的失真音频信号。失真信号被传到电脑(Personal Computer, PC)端中的AG-APGE算法模块,该算法模块计算出最优的滤波器组参数后,PC端通过通信协议与车载音响系统的DSP片上系统进行通信,修改DSP系统中对应通道上的均衡滤波器参数,完成参数的自适应调整。
设车载音响系统频率响应为
H0(k) ,它表示待校正的频率响应。H0(k) 是其传递函数在单位圆上的第k 部分归一化弧度制角频率ωk/fs 处的值,其中k 是ejωk/fs 的简写,fs 是采样频率。设校正后频率响应为Hs(k) ,它表示H0(k) 经过由s 个均衡滤波器组成的图示均衡器滤波后的频率响应。设目标频率响应为T(k) 。设校正频率响应为C(k) 。文献[18]的目标增益是人为预先设定的,不能适应车载音响声场的变化。并且文献[18]的均衡频率范围固定为20~20000 Hz。在车载声场环境下,由于扬声器对音频信号有其特定的频率响应范围,因此图示均衡器设计考虑的频率范围是扬声器的有效频率响应范围而不是固定的20~20000 Hz。AG-APGE方法能够适应车载音响声场的不断变化并且其均衡的频率范围是每个扬声器对应的有效频率响应范围,并不是固定的20~20000 Hz。
因此,首先需要对车载扬声器进行有效频率响应范围识别。步骤如下:取车载音响系统幅度响应得到
|H0(k)| ,以其最大值做归一化处理并转化为对数幅度响应刻度,取归一化处理后的系统对数幅度响应的–15 dB(经验值)处对应的频率值,最小的频率值和最大的频率值即为扬声器通带范围的边界。根据扬声器的频率响应范围,可以将扬声器分为低音、中音、高音、中低音、中高音和全频段等类型。车载扬声器分类和常见的频率响应范围如表1所示。设扬声器上限截止频率为ef (end frequency),扬声器下限截止频率为if (initial frequency)。表 1 车载扬声器分类及其频响范围表车载扬声器分类 常见频率响应范围 低音 20~150 Hz 中音 150 Hz~5 kHz 高音 5~20 kHz 中低音 20 Hz~5 kHz 中高音 110 Hz~20 kHz 全频段 50 Hz~20 kHz 当扬声器识别为全频段扬声器时,取目标幅度响应为车载音响系统幅度响应在有效频率响应范围内的算术平均值。即如式(11)所示
|T(k)|=meanωif≤ωk≤ωef(|H0(k)|),全频段扬声器 (11) 其中,mean(
· )表示取算术平均值。对数校正幅度响应
20lg|C(k)| 为20lg|T(k)| 与20lg|H0(k)| 相减,即如式(12)所示20lg|C(k)|=20lg|T(k)|−20lg|H0(k)|,ωif≤ωk≤ωef (12) 接下来,在
20lg|C(k)| 上计算目标增益点对应的增益值,以此自适应获得S 个目标增益设置点。分别对应S 个均衡滤波器。3.2 AG-APGE设计
这部分首先利用3.1节得到的
S 个目标增益设置点和2阶IIR峰谷滤波器原型设计ACGE,再用第2节介绍的串并转化方法将其转化为APGE[18]。本文使用的2阶对称IIR峰谷滤波器原型定义为[24]
F(z)=1+Gβ−2cos(ωc)z−1+(1−Gβ)z−21+β−2cos(ωc)z−1+(1−β)z−2 (13) β={tan(B/2),G=1√|G2B−1||G2−G2B|tan(B2),其它 (14) 其中,
G 为线性峰值增益,ωc 为中心频率,B 为带宽,GB 为带宽处线性增益值。对于1/3倍频程情况,文献[18]方法定义了
20lg(GB,s)=0.4×20lg(Gs) 。其中s=1,2,⋯,S 。GB,s 和Gs 分别为第s 个频段的均衡滤波器的带宽增益和峰值增益。同时定义了每个频带滤波器的带宽为相邻频带滤波器中心频率的差值,对于1/3倍频程情况,有Bs=(3√2−1/3√2)ωc,s≈0.4662ωc,s 。1/3倍频程的中心频率
fc 和带宽fB 如表2所示。表 2 1/3倍频程中心频率和带宽频带编号 fc(Hz) fB(Hz) 频带编号 fc(Hz) fB(Hz) 1 20 9.3 17 800 373 2 25 11.7 18 1000 466.2 3 31.5 14.7 19 1250 582.8 4 40 18.6 20 1600 745.9 5 50 23.3 21 2000 932.4 6 63 29.4 22 2500 1166 7 80 37.3 23 3150 1469 8 100 46.6 24 4000 1865 9 125 58.3 25 5000 2331 10 160 74.6 26 6300 2937 11 200 93.2 27 8000 3730 12 250 116.6 28 10000 4662 13 315 146.9 29 12500 5828 14 400 186.5 30 16000 7459 15 500 233.1 31 20000 9324 16 630 293.7 其中,
ωc=2πfc/fs ,B=2πfB/fs ,fs 是采样频率。由于相邻滤波器之间的重叠频带影响,会导致实际图示均衡器幅度响应和目标增益误差较大,文献[18]通过使用交互矩阵来减小这种误差。文献[18]通过在目标增益点之间加入额外的频率点,频率点频率值为相邻目标增益点频率值的几何平均值,频率点增益值为相邻目标增益点增益值的算术平均值。具有
2S−1 行S 列的交互矩阵定义为Dk,s=20lg|Fs(k)|gp (15) 其中,
k=1,2,⋯,2S−1 并且s=1,2,⋯,S 。1/3倍频程中gp =17 dB。则均衡滤波器最优增益为gopt1=D+t=(DTD)−1DTt (16) 其中,
D+ 为D 的伪逆矩阵,t 为具有2S−1 个元素的列向量,其奇数行元素值为原始目标增益分贝值,偶数行元素值为相邻增益分贝值的算术平均值。为了进一步减小误差,需要将
gopt1 替代gp =17 dB作为新的原型增益去更新交互矩阵D 。得到的新的交互矩阵定义为D1 。则均衡滤波器最优增益为gopt2=D1+t=(D1TD1)−1D1Tt (17) 通过式(17)最终得到每个频带的滤波器最优分贝增益。将最优分贝增益转化为最优线性增益后带入式(13)和式(14)中,就设计出了
S 个串联的2阶对称峰谷滤波器组。最后,通过第2节介绍的串并转化方法就将该串联的2阶峰谷滤波器组转化为延迟并联形式。延迟并联形式的2阶带通滤波器中心频率处两侧的幅度响应是非对称的,即滤波器中心频率处两侧幅度响应的陡峭程度不一样。3.3 所提方法校正车载扬声器声场
将所提方法设计的图示均衡器幅度响应去拟合对数校正幅度响应
20lg|C(k)| ,用图示均衡器幅度响应去校正车载音响系统对数幅度响应20lg|H0(k)| ,最终得到校正后对数幅度响应20lg|HS(k)| ,如式(18)和式(19)所示20lg|HS(k)|=20lg|H0(k)|+20lg|S∑s=1˜Fs(k)| (18) 20lg|HS(k)|→20lg|T(k)| (19) 其中,
˜Fs(k) 为Fs(k) 经过变换后的并联结构的滤波器频率响应,20lg|HS(k)| 趋近于20lg|T(k)| 。将
20lg|HS(k)| 和20lg|T(k)| 比较,评估校正效果。校正效果通过谱平坦度度量(Spectral Flatness Measure, SFM)指标衡量[25]。定义频率响应˜Hs(k)=Hs(k)T(k) ,则SFM 定义为˜Hs(k) 模平方的几何平均值与算术平均值之比,即如式(20)所示SFMs=NN√N∏k=1|˜Hs(k)|2N∑k=1|˜Hs(k)|2 (20) 其中,
N 为在有效频率响应范围内取的频率值数量,SFMs 表示经过s 个图示均衡滤波器校正后的SFM 。4. 实验结果与分析
本文通过MATLAB平台对采集的50个实测数据进行音频的分析以及算法的实现。所提方法AG-APGE和ACGE[16], APGE[18]以及文献[21]的并联图示均衡器设计(Parallel Graphic Equalizer, PGE)对比。使用的采样频率为192 kHz。
图6显示了不同图示均衡器校正方法拟合滤波器目标增益的情况。对采集的某个实测数据进行扬声器频率响应范围识别可以得到该车载扬声器为全频段扬声器,频率响应范围是50~14000 Hz。在50~14000 Hz这段频率范围进行自适应校正。本文方法所用均衡滤波器个数是动态变化的,为10~25个。在该实验中,本文方法使用了25个2阶带通滤波器。而ACGE, PGE和APGE分别使用了31个2阶峰谷滤波器、62个2阶带通滤波器和31个2阶带通滤波器。图6(a)、图6(b)和图6(c)中,3种设计方法都是固定的20~20000 Hz频率范围,并且由于增益是人为设定的,滤波器的实际增益与目标增益有一定的误差,从而拟合的均衡器响应与目标增益误差较大。红圆圈为滤波器目标增益设置点,黑圆圈为实际增益设置点,可以看到这3种设计方法都有6个校正无效的点,并且拟合的最大增益误差分别为0.94 dB, 3.33 dB和1.14 dB。这既浪费了计算资源也不满足高保真音频要求。图6(d)中,由于加入了扬声器频响范围识别和自适应计算增益,因而均衡频率范围控制在50~14000 Hz,滤波器的实际增益与目标增益一致,拟合的最大增益误差仅为0.23 dB。这既节省了计算资源也满足了高保真音频要求。
图7显示了不同方法拟合的均衡器响应比较情况。将4种设计方法得到的均衡器响应放在一起,可以明显看出,只有本文方法AG-APGE高精度拟合目标增益设置点。
图8显示了不同图示均衡器校正方法对全频段扬声器进行校正的情况。对采集的某个实测数据进行扬声器频率响应范围识别可以得到该扬声器为全频段扬声器,频率响应范围是50~14000 Hz。在50~14000 Hz这段频率范围进行自适应校正。由于车内的干扰以及音响设备本身的干扰,在全频段范围内白噪声会有不同程度的失真。图8(a)、图8(b)和图8(c)中,蓝色曲线为车载扬声器实际幅度响应,黑粗实线分别为3种设计方法得到的均衡器幅度响应,黑点划线为目标幅度响应,黑虚线为目标幅度响应的
±1 dB误差边界线。将均衡器幅度响应去校正车载扬声器实际幅度响应得到校正后幅度响应,即图中的红实线。从图8(a)、图8(b)和图8(c)可以看到,3种设计方法校正后的幅度响应部分超出了±1 dB的误差容限,不满足高保真音频要求,且谱平坦度分别为0.994, 0.989和0.993。图8(d)中,经过自适应校正算法处理后,校正后的音频信号频谱曲线趋于平直,基本在目标响应的±1 dB误差范围内,达到较好的校正效果,基本满足高保真音频要求。且谱平坦度为0.996。图9显示了不同方法校正后的幅度响应对比情况。从中可以明显看出,本文方法比其他3种方法的校正效果好。
表3显示了不同设计方法的指标对比情况。对采集的50个数据进行了分析统计,表中的数值是对50个数据求取算术平均值后的结果。ACGE, PGE, APGE和AG-APGE拟合的平均最大增益误差分别为1.08 dB, 2.65 dB, 1.07 dB和0.23 dB。只有本文方法AG-APGE满足高保真音频要求。信号平均原始谱平坦度为0.652,4种方法平均校正后信号谱平坦度分别为0.987, 0.980, 0.986和0.991。由于本文方法拟合目标增益精度最高,从而校正后信号谱平坦度最高。前3种设计方法由于是固定的均衡范围,因而其均衡滤波器个数分别为31, 62和31。而本文方法加入了扬声器频响范围识别,因而其平均均衡滤波器个数最少,为25个。
表 3 不同方法指标对比指标 ACGE PGE APGE AG-APGE 平均拟合最大误差(dB) 1.08 2.65 1.07 0.23 平均原始SFM 0.652 0.652 0.652 0.652 平均校正后SFM 0.987 0.980 0.986 0.991 平均均衡滤波器个数 31 62 31 25 平均设计所需时间 0.57 ms 1.22 s 0.70 ms 0.48 ms 平均操作数 加法 124 248 124 100 乘法 155 249 125 101 总和 279 497 249 201 对于ACGE,每个频带滤波器有4次加法和4次乘法,31个这样的频带加上
G0 部分1次乘法以及31个频带之间的乘法,一共就有124次加法和155次乘法。对于PGE,每个滤波器有3次加法和4次乘法,62个这样的滤波器加上常数项以及它们之间的加法,一共有248次加法和249次乘法。对于APGE,每个频带滤波器有3次加法和4次乘法,31个这样的频带以及整个结构的加法,一共有124次加法和125次乘法。对于AG-APGE,由于平均使用了25个滤波器,因此一共有100次加法和101次乘法。因此本文方法的操作数最少。表3中设计时间为输入目标增益设置点后计算滤波器系数所需的时间。PGE方法设计滤波器步骤较复杂,因此平均设计所需时间最长,为1.22 s。本文方法平均设计所需时间和ACGE方法以及APGE方法为同一个数量级,但由于本文方法比这两种方法所用平均均衡滤波器个数少大约20%,因此本文方法设计图示均衡器速度最快。5. 结束语
本文介绍了一种无重叠频带的自适应非对称并联图示均衡器校正方法并用于车载扬声器均衡,提出了一种自适应计算滤波器目标增益和识别车载扬声器频响范围的方法。图示均衡器是基于并联结构设计的,这意味着图示均衡器可以在图形处理器中实现,以提高效率。现有的经典图示均衡器校正方法拟合目标增益精度都很高,拟合误差都在1 dB以内。然而,在车载应用背景下,车载音响的声场会动态变化,导致滤波器拟合的增益与目标增益有一定的误差。并且每个车载扬声器有其特定的有效频响范围,而经典方法的固定均衡频率范围会造成计算资源的浪费。经过具体的仿真和对多种实验结果的评估,证明了所提出的方法在车载应用背景下比经典方法所用均衡滤波器个数平均减少大约20%,同时高精度拟合目标增益,且校正效果较好。因此,所提出的方法比经典方法更适用于车载音频均衡应用。
-
算法1 全连接运算循环嵌套 (1) Loop1: for(ci=0;ci < CI;ci++) (2) Loop2: for(co=0;co < CO;co++) (3) Ofc[co]+=Ifc[ci]×Ffc[co,ci] (4) EndLoop 算法2 卷积运算循环嵌套 (1) Loop1: for(wo=0;wo < WO;wo++) (2) Loop2: for(ho=0;ho < HO;ho++) (3) Loop3: for(co=0;co < CO;co++) (4) Loop4: for(ci=0;ci < CI;ci++) (5) Loop5: for(hf=0;hf < HF;hf++) (6) Loop6: for(wf=0;wf < WF;wf++) (7) Oconv[co,ho,wo]+=Iconv[ci,ho+hf,
wo+wf]×Fconv[co,ci,hf,wf](8) EndLoop 算法3 贝叶斯优化算法流程 输入:设计空间F,代理模型GPM,采集函数EHVIC,目标
函数φ(x),约束C(x)输出:推理框架NN-EdgeBuilder自动部署的加速器设计空间的
Pareto前沿P(V)(1) 在F内采样,得到包含J个样本的数据集Dφ=(X,Y),约
束集DC={C(x)}(2) while !(停止条件) do (3) 根据样本集Dφ和约束集DC拟合代理模型GPM (4) 对于∀p∈Pn,算出期望的超体积改进量EHVI(x)和满足
约束的期望CS(p)(5) 求出采集函数的极值xJ+1=argmaxx∈FEHVIC(x),选择
新的采样点(6) 运行Vivado工具流得到准确的函数值φ(xJ+1),约束
C(xJ+1)(7) 更新数据集Dφ和约束集DC (8) end while (9) return加速器设计空间的Pareto前沿P(V) 表 1 UltraNet加速器性能对比
加速器 IOU FPS Energy(J) GOPS GOPS/W UltraNet-P1 0.702 2107 30.2 387.7 319.9 UltraNet-P2 0.703 2090 33.0 384.6 292.8 SEUer 0.703 2020 36.7 371.7 263.2 ultrateam 0.703 2266 40.3 416.9 239.7 表 2 NN-EdgeBuilder和其他推理框架部署VGG网络的性能对比
NN-EdgeBuilder DeepBurning-SEG[6] fpgaConvNet[7] HyBridDNN[8] DNNBuilder[9] 支持的
深度学习框架PyTorch,
TensorFlow & Keras– Caffe & Torch – Caffe FPGA平台 ZU3EG ZU3EG XC7Z020 XC7Z020 XC7Z045 频率(MHz) 250 200 125 100 200 DSP 360 264 220 220 680 量化精度 4 bit 8 bit 16 bit 16 bit 8 bit GOPS 418 203 48 83 524 GOPS/DSP 1.16 0.77 0.22 0.38 0.77 GOPS/W 320.2 – 7.3 32.0 72.8 -
[1] SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. The 3rd International Conference on Learning Representations, San Diego, USA, 2015: 1–14. [2] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition[C]. The 2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016: 770–778. [3] 张萌, 张经纬, 李国庆, 等. 面向深度神经网络加速芯片的高效硬件优化策略[J]. 电子与信息学报, 2021, 43(6): 1510–1517. doi: 10.11999/JEIT210002ZHANG Meng, ZHANG Jingwei, LI Guoqing, et al. Efficient hardware optimization strategies for deep neural networks acceleration chip[J]. Journal of Electronics &Information Technology, 2021, 43(6): 1510–1517. doi: 10.11999/JEIT210002 [4] ZHANG Xiaofan, LU Haoming, HAO Cong, et al. SkyNet: a hardware-efficient method for object detection and tracking on embedded systems[C]. Machine Learning and Systems, Austin, USA, 2020: 216–229. [5] LI Guoqing, ZHANG Jingwei, ZHANG Meng, et al. Efficient depthwise separable convolution accelerator for classification and UAV object detection[J]. Neurocomputing, 2022, 490: 1–16. doi: 10.1016/j.neucom.2022.02.071 [6] CAI Xuyi, WANG Ying, MA Xiaohan, et al. DeepBurning-SEG: Generating DNN accelerators of segment-grained pipeline architecture[C]. 2022 55th IEEE/ACM International Symposium on Microarchitecture (MICRO), Chicago, USA, 2022: 1396–1413. [7] VENIERIS S I and BOUGANIS C S. fpgaConvNet: Mapping regular and irregular convolutional neural networks on FPGAs[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(2): 326–342. doi: 10.1109/TNNLS.2018.2844093 [8] YE Hanchen, ZHANG Xiaofan, HUANG Zhize, et al. HybridDNN: A framework for high-performance hybrid DNN accelerator design and implementation[C]. 2020 57th ACM/IEEE Design Automation Conference (DAC), San Francisco, USA, 2020: 1–6. [9] ZHANG Xiaofan, WANG Junsong, ZHU Chao, et al. DNNBuilder: An automated tool for building high-performance DNN hardware accelerators for FPGAs[C]. 2018 IEEE/ACM International Conference on Computer-Aided Design (ICCAD), San Diego, USA, 2018: 1–8. [10] BANNER R, NAHSHAN Y, and SOUDRY D. Post training 4-bit quantization of convolutional networks for rapid-deployment[C]. The 33rd International Conference on Neural Information Processing Systems, Vancouver, Canada, 2019: 714. [11] DUARTE J, HAN S, HARRIS P, et al. Fast inference of deep neural networks in FPGAs for particle physics[J]. Journal of Instrumentation, 2018, 13: P07027. doi: 10.1088/1748-0221/13/07/P07027 [12] GHIELMETTI N, LONCAR V, PIERINI M, et al. Real-time semantic segmentation on FPGAs for autonomous vehicles with hls4ml[J]. Machine Learning:Science and Technology, 2022, 3(4): 045011. doi: 10.1088/2632-2153/ac9cb5 [13] ZHANG Zheng, CHEN Tinghuan, HUANG Jiaxin, et al. A fast parameter tuning framework via transfer learning and multi-objective bayesian optimization[C]. The 59th ACM/IEEE Design Automation Conference, San Francisco, USA, 2022: 133–138. doi: 10.1145/3489517.3530430. [14] HUTTER F, HOOS H H, and LEYTON-BROWN K. Sequential model-based optimization for general algorithm configuration[C]. The 5th International Conference on Learning and Intelligent Optimization, Rome, Italy, 2011: 507–523. [15] ZHAN Dawei and XING Huanlai. Expected improvement for expensive optimization: A review[J]. Journal of Global Optimization, 2020, 78(3): 507–544. doi: 10.1007/s10898-020-00923-x [16] EMMERICH M T M, DEUTZ A H, and KLINKENBERG J W. Hypervolume-based expected improvement: Monotonicity properties and exact computation[C]. 2011 IEEE Congress of Evolutionary Computation (CEC), New Orleans, USA, 2011: 2147–2154. [17] ABDOLSHAH M, SHILTON A, RANA S, et al. Expected hypervolume improvement with constraints[C]. 2018 24th International Conference on Pattern Recognition (ICPR), Beijing, China, 2018: 3238–3243. 期刊类型引用(1)
1. 王丹. 多通道广播音频信号处理中的相位校正技术. 电声技术. 2024(10): 117-119 . 百度学术
其他类型引用(0)
-