图共 14个 表共 3
    • 图  1  卷积层运算过程

      Figure 1. 

    • 图  2  1个输入通道的卷积运算过程

      Figure 2. 

    • 图  3  N个输入通道的卷积窗口并行计算

      Figure 3. 

    • 图  4  累加器并行运算

      Figure 4. 

    • 图  5  经典加法树

      Figure 5. 

    • 图  6  本文设计的加法树

      Figure 6. 

    • 图  7  乘法-加法树模块

      Figure 7. 

    • 图  8  卷积窗口数据重用

      Figure 8. 

    • 图  9  窗口缓存结构

      Figure 9. 

    • 图  10  窗口缓存时序

      Figure 10. 

    • 图  11  输出通道并行模块

      Figure 11. 

    • 图  12  并行加速方案结构

      Figure 12. 

    • 图  13  卷积窗口流水线

      Figure 13. 

    • 图  14  FPGA, CPU, GPU的性能对比

      Figure 14. 

    • 层名称层结构参数量(个)
      卷积层1卷积核大小3×3,卷积核个数15,步长1150
      激活层10
      池化层1池化大小2×2,步长20
      卷积层2卷积核大小6×6,卷积核个数20,步长110820
      激活层20
      池化层2池化大小2×2,步长20
      全连接层输出神经元个数103210

      表 1  卷积神经网络结构参数

    • 资源比例(%)
      ALMs89423/11356079
      Block Memory730151/124928006
      DSPs342/342100

      表 2  FPGA资源消耗情况

    • 文献[7]文献[11]文献[12]本文方法
      FPGAZynq XC7Z045ZynqXC7Z045Virtex-7 VX690TCyclone V 5CGXF
      频率(MHz)150100150100
      DSP资源780(86.7%)824(91.6%)1376(38%)342(100%)
      量化策略16 bit fixed16 bit fixed16 bit fixed16 bit fixed
      功耗(W)9.6309.40025.0009.711
      性能(GOPS)136.97229.50570.00317.86
      能效比(GOPS/W)14.2224.4222.8032.73

      表 3  与文献FPGA硬件加速对比