一种用于常开型智能视觉感算系统的极速高精度模拟减法器

刘博; 王想军; 麦麦提·那扎买提; 郑辞晏; 向菲; 魏琦; 杨兴华; 乔飞

doi:10.11999/JEIT231099

一种用于常开型智能视觉感算系统的极速高精度模拟减法器

doi: 10.11999/JEIT231099

1.
河南科技大学信息工程学院洛阳 471023
2.
清华大学北京 100084
3.
广东技术师范大学广州 510665
4.
北京林业大学理学院北京 100091

基金项目: 国家自然科学基金(92164203, 62334006, 61704049)，新疆维吾尔自治区重点研发计划(2022B01008)，河南省科技攻关计划(232102211066, 242102211101)，河南省高校青年骨干教师计划(2020GGJS077)

详细信息

作者简介:
刘博：男，副教授，研究方向为生物感算一体及通信芯片设计及其应用系统

王想军：男，硕士生，研究方向为智能视觉感知集成电路

麦麦提·那扎买提：男，博士研究生，研究方向为超低功耗智能视觉感知芯片设计，面向视觉感知的能量采集和能量管理架构和电路设计

郑辞晏：女，副教授，研究方向为基于忆阻器的信号感知与处理电路设计

向菲：女，副教授，研究方向为信息安全和保密通信技术

魏琦：男，副研究员，研究方向为集成电路设计

杨兴华：男，讲师，研究方向为近似计算电路系统设计

乔飞：男，副研究员，研究方向为智能感知集成电路与系统

通讯作者:
乔飞　qiaofei@tsinghua.edu.cn

中图分类号: TN911.73; TN492
计量
- 文章访问数: 287
- HTML全文浏览量: 90
- PDF下载量: 33
- 被引次数: 0
出版历程
- 收稿日期: 2023-10-10
- 修回日期: 2024-08-24
- 网络出版日期: 2024-08-30
- 刊出日期: 2024-09-26

Ultra High-speed High-precision Analog Subtractor Applied to Always-on Intelligent Visual Sense-computing System

1.
College of Information Engineering, Henan University of Science and Technology, Luoyang 471023, China
2.
Tsinghua University, Beijing 100084, China
3.
Guangdong Polytechnic Normal University, Guangzhou 510665, China
4.
College of Science, Beijing Forestry University, Beijing 100091, China

Funds: The National Natural Science Foundation of China (92164203, 62334006, 61704049), The Key Research and Development Program of Xinjiang Uygur Autonomous Region (2022B01008), The Key Science and Technology Program of Henan Province (232102211066, 242102211101) , The Young Teacher Talent Program of Henan Province (2020GGJS077)

摘要

摘要: 常开型智能视觉感算系统对图像边缘特征提取的精度和实时性要求更高，其硬件能耗也随之暴增。采用模拟减法器代替传统数字处理在模拟域同步实现感知和边缘特征提取，可有效降低感存算一体系统的整体能耗，但与此同时，突破10^–7 s数量级的长计算时间也成为了模拟减法器设计的瓶颈。该文提出一种新型的模拟减法运算电路结构，由模拟域的信号采样和减法运算两个功能电路组成。信号采样电路进一步由经改进的自举采样开关和采样电容组成；减法运算则由所提出的一种新型开关电容式模拟减法电路执行，可在2次采样时间内实现3次减法运算的高速并行处理。基于TSMC 180 nm/1.8 V CMOS工艺，完成整体模拟减法运算电路的设计。仿真实验结果表明，该减法器能够实现在模拟域中信号采样与计算的同步并行处理，一次并行处理的周期仅为20 ns，具备高速计算能力；减法器的计算取值范围宽至–900～900 mV，相对误差小于1.65%，最低仅为0.1%左右，处理精度高；电路能耗为25～27.8 pJ，处于中等可接受水平。综上，所提模拟减法器具备良好的速度、精度和能耗的性能平衡，可有效适用于高性能常开型智能视觉感知系统。
- 模拟减法器 /
- 自举采样开关 /
- 电荷守恒定律 /
- 极速 /
- 高精度
Abstract: Always-on intelligent visual sense-computing (Senputing) system has higher requirement on the accuracy and real-time of edge feature extraction on target image, and thus the accompanying hardware energy consumption increases accordingly. Since an analog subtracter can realize visual sensing and edge feature extraction synchronously in analogue domain instead of the traditional digital processing, the overall energy consumption of sensing-storage-computing integrated system can be effectively reduced. But meanwhile, the long calculation time beyond the order of 10^–7 s has also become the bottleneck of design of analog subtracter circuits. A novel analogue subtraction circuit structure is proposed in this paper, which consists of two functional circuits in analogue domain: signal sampling and subtraction module. The signal sampling circuit is further composed of an improved bootstrapped sampling switch and a pair of sampling capacitors; The subtraction operation is performed by a novel switched capacitor analog subtraction circuit, which can realize high-speed parallel processing of three subtraction operations in two sampling times. Based on TSMC 180 nm/1.8 V CMOS technology, the design of the whole analog subtraction circuit is implemented. The simulation results show that, The proposed analog subtracter can realize synchronous parallel processing of signal sampling and computation in analogue domain, and the cycle of one parallel processing is only 20 ns, which has high-speed computing capability. The calculated value range of the subtracter is sufficiently wide from –900～900 mV, the relative error is less than 1.65%, the lowest one is only about 0.1%, which proves that the computing accuracy is high; The energy consumption is 25～27.8 pJ, which is in the acceptable medium level. Therefore, the proposed analog subtracter has a significant performance trade-off on speed, precision and energy consumption, and can be effectively applied to high-performance always-on intelligent visual senputing system.
- Analog subtractor /
- Bootstrap sample switch /
- Charge conservation law /
- Ultra high-speed /
- High-precision

HTML全文

1. 引言

高质量的道路场景深度图像对道路目标检测、车辆自主定位和建图等应用都是至关重要的^[1-3]。比如，Yang等人^[4]提出的3维道路车辆检测算法中就需要借助稠密且精确的深度图像来更好地确定车辆的3维边界。近年来，随着无人驾驶等研究和应用的快速发展，如何获取高质量的道路场景深度图像已经成为一个重要的研究课题。

目前深度图像的主要获取方式有飞行时间相机(Time Of Flight, TOF)、双目立体视觉和激光雷达(Light Detection And Ranging, LiDAR)。室外环境的光照变化与室内环境相比更加强烈，场景深度的变化范围更大，综合情况更加复杂，大多数深度传感器在室外场景中无法有效工作。比如， TOF深度传感器测量范围小，对光照敏感，在强光照的环境下会失去作用出现大量黑区，因此不合适道路场景的应用。双目立体视觉方法获得的视差图在无特征区域会有较多的信息缺失，且整个计算过程非常复杂耗时，在存在大量无纹理区域的道路场景中存在很大的局限性。激光雷达可以获得高精度深度图像，适合道路场景的应用，但是激光雷达得到的深度图像非常稀疏，缺失的深度信息带来了极大的不确定性，仍难以满足后续实际应用的需求。如何发掘场景稠密彩色图像和稀疏深度图像的内在约束关系，完成稀疏深度图像的高质量补全是目前的研究热点。

近年来，国内外研究人员利用卷积神经网络对稀疏深度图像补全进行了研究^[5-8]。Shivakumar等人^[9]提出了一种双支编解码结构的深度补全网络DFuseNet，通过设计两个编码网络分别学习彩色图像与稀疏深度图像的特征，但该方法只是将编码网络提取到的两种特征简单地进行相加输入到解码网络中，并没有考虑两个编码网络提取特征过程之间的联系，彩色图像的中间过程特征没有很好地利用到重建过程中。针对多模态特征融合的问题，Lee等人^[10]还提出了一种交叉引导的深度卷积神经网络结构CrossGuide，该方法使用两个编码网络分别提取稀疏深度图像和彩色图像的特征，将两个编码端的输出相加之后输入一个解码网络，CrossGuide在编码网络的不同阶段中加入了感知机制模块，用于多模态特征融合，该模块可以使网络通过学习两个分支中不同模态特征之间的权重来优化特征，起到了不同模态特征之间信息交互的作用。CrossGuide的交叉感知模块为多模态特征融合提供了一种思路，但仍存在一定的局限性：深度信息在编码的起始阶段由于过度稀疏，其自身并不能提供有效的感知信息，因此分配到高权重的特征可能并不是对当前任务有用的特征，导致CrossGuide的补全结果并不理想。Qiu等人^[11]将表面法向量作为深度信息与彩色图像的中间媒介，研究了激光雷达稀疏深度信息的补全，提出了一种端到端的深度补全网络DeepLiDAR，表面法向量为深度信息与彩色图像之间建立了一定的联系，然而计算的复杂度与特征分辨率有关，由于表面法向量的引入，在训练前首先需要额外准备作为输入的掩模图像和作为监督信号之一的表面法向量，其次在训练过程中网络需要额外预测表面法向量等特征图像，势必会导致网络整体的参数量非常巨大，造成训练的难度极高。根据实验的结果，DeepLiDAR的网络参数量为144 M，远超没有引入表面法向量的网络，庞大的参数量使得该算法在实际使用中受到一定的限制。

针对上述问题，本文设计了带有通道感知机制的多尺度多阶段引导策略来更好地建立彩色和深度两个不同模态特征之间的联系；提出了一种轻量化的带有通道随机混合功能的多尺度卷积模块，提升网络表征能力的同时控制网络的参数量；并构造了多阶段损失来约束网络学习映射关系。本文提出的算法参数量仅约为4 M，在保持轻量化的同时补全重建高质量的深度图像。本文主要的创新与贡献如下：

(1) 针对彩色图像与深度图像多模态特征的融合问题，本文设计了一种带有通道感知机制的多阶段多尺度引导融合策略，可以有效地利用彩色特征指导深度图像的补全。

(2) 针对深度补全算法网络复杂度较高的问题，本文提出了一种轻量化的带有通道随机混合功能的多尺度卷积模块，提升网络表征能力的同时控制网络的参数量。

(3) 在训练过程中，本文提出了一种分阶段多权重的训练策略，通过设置带权重的多阶段损失函数，完成对网络更好的优化，实现更高质量的深度图像补全重建。

2. 本文方法

2.1 多阶段多尺度引导结构

如图1所示，本文设计了一种新颖的多阶段多尺度引导的轻量化编解码网络，该补全网络由彩色图像引导重建分支和深度图像精细化补全分支构成。首先，将彩色图像作为先验信息与稀疏深度图像一起作为4通道图像输入彩色图像引导重建分支中，引导深度图像的稠密特征重建(第1阶段)；然后将彩色图像引导重建分支解码端中的4种分辨率特征分别拼接至深度图像精细化补全分支编码端对应分辨率的特征图像中，4种分辨率的稠密深度特征图像可作为引导特征，充分在精细化重建阶段中发挥引导作用(第2阶段)，达到多模态特征融合引导的作用。同时，为了提升网络的表征能力，在两个分支的编码端都使用了本文提出的带有通道随机混合的轻量化多尺度卷积模块，使用多个尺度的并行结构提升网络的表征能力，并使用1维卷积替代2维卷积来控制网络的参数量，达到轻量化的目的。并且，在两个分支的解码端中都加入本文提出的通道感知机制，可以在多个阶段多个尺度上聚焦到重要的引导特征上，提升深度图像精细化重建效果。在训练过程中，本文采用多损失函数的策略完成由粗到细的深度图像补全过程。本文设计的深度补全网络可以构造稀疏深度图像、稠密彩色图像和稠密深度图像3者之间的端到端映射关系，实现高质量的稠密道路深度图像补全。

图 1 本文深度图像补全网络框架

下载: 全尺寸图片幻灯片

2.2 带通道随机混合的多尺度卷积模块

本文设计的通道随机混合多尺度卷积模块如图2所示。首先将输入多尺度卷积模块的通道数拆分为大小相同的两个部分，分别输入两个不同尺度的分支中

图 2 本文设计的带通道随机混合模块的多尺度卷积模块结构

下载: 全尺寸图片幻灯片

${{\boldsymbol{F}}_3},{{\boldsymbol{F}}_5} = {\text{Spl}}({{\boldsymbol{X}}_{m - 1}})$

(1)

其中， ${{\boldsymbol{X}}_{m - 1}} \in {R^{B \times 2C \times H \times W}}$ ， ${{\boldsymbol{F}}_3} \in {R^{B \times C \times H \times W}}$ ， ${{\boldsymbol{F}}_5} \in {R^{B \times C \times H \times W}}$ 。在两个分支中，采用两个1维卷积去替代2维卷积来减少网络的参数量。

本文双分支多尺度卷积的流程为

$\left. \begin{gathered} {\boldsymbol{R}}_1{\text{ = }}\sigma (\omega _{3 \times 1}^1*{{\boldsymbol{F}}_3}) \\ {\boldsymbol{R}}_2{\text{ = }}\sigma (bn(\omega _{1 \times 3}^1*{\boldsymbol{R}}_1)) \\ {\boldsymbol{R}}_3{\text{ = }}\sigma (\omega _{3 \times 1}^2*{\boldsymbol{R}}_2){\text{ }} \\ {\boldsymbol{R}}_4{\text{ = dr}}(bn(\omega _{1 \times 3}^2*{\boldsymbol{R}}_3))) \\ \end{gathered} \right\}$

(2)

$\left. \begin{gathered} {\boldsymbol{P}}_1{\text{ = }}\sigma (\omega _{5 \times 1}^1*{{\boldsymbol{F}}_5}) \\ {\boldsymbol{P}}_2{\text{ = }}\sigma (bn(\omega _{1 \times 5}^1*{\boldsymbol{P}}_1)) \\ {\boldsymbol{P}}_3{\text{ = }}\sigma (\omega _{5 \times 1}^2*{\boldsymbol{P}}_2){\text{ }} \\ {\boldsymbol{P}}_4{\text{ = dr}}(bn(\omega _{1 \times 5}^2*{\boldsymbol{P}}_3))) \\ \end{gathered} \right\}$

(3)

${{\boldsymbol{F}}_{{\text{concat}}}}{\text{ = }}\sigma (\langle {\boldsymbol{R}}_{\text{4, }}{\boldsymbol{P}}_{\text{4}}\rangle )$

(4)

其中， $*$ 表示卷积运算， $\sigma ( \cdot )$ 表示ReLU激活函数， $\langle \cdot \rangle$ 表示特征拼接，dr表示dropout。在各自分支的终点，本文使用Dropout技术随机舍弃一部分神经元防止网络过拟合现象的发生，提升网络的泛化能力。最后将两个分支输出的特征图像沿通道的维度进行拼接。

将数据一分为二输入并行的两条支路，虽然通过不同尺度的卷积核可以得到更加多样性的特征，但是两个支路之间互不通信，容易产生边界效应，并导致部分特征信息的丢失。为了解决这个问题，本文增加了通道随机混合模块来增加各个通道间的相关性。通道随机混合过程如图2所示，将 ${{\boldsymbol{F}}_{{\text{con}}}} \in {R^{B \times 2C \times H \times W}}$ 输入通道随机混合模块之后，首先进行通道拆分，将4维特征升维变为5维特征 ${{\boldsymbol{F}}_{{\text{reg}}}} \in {R^{B \times G \times C//G \times H \times W}}$ ，之后将第2维与第3维交换位置，打乱特征得到 ${{\boldsymbol{F}}_{{\text{tr}}}} \in {R^{B \times C//G \times C \times H \times W}}$ ，最后将第2维与第3维随机合并得到输出 ${{\boldsymbol{X}}_m} \in {R^{B \times 2C \times H \times W}}$ 。经过通道随机混合模块之后，各个通道间的特征重新排列，可以有更多的关联性，防止边界效应发生的同时尽可能保留特征信息。

2.3 通道感知模块

注意力机制^[12-14]在目标识别等高级语义计算机视觉任务中大显身手，通过分辨不同通道的重要性，缩小兴趣范围，使网络可以专注于更重要的特征。但是图像增强、图像恢复等低级语义计算机视觉任务中，研究人员多数认为所有通道信息的重要性是平等的。在RCAN (Residual Channel Attention Network)^[15]中，作者认为不同通道的特征图像对最终超分辨率重建结果的贡献程度是不一样的，首次将通道感知的机制引入图像超分辨问题^[16]中，让网络不断地聚焦于重要的特征，提升了超分辨率重建的效果。受RCAN^[15]的启发，本文在低级语义的深度补全任务中引入通道感知机制的思想，提出了一种通道感知模块，如图3所示。

图 3 本文通道感知模块

下载: 全尺寸图片幻灯片

对于任意给定的特征图像 ${\boldsymbol{F}} \in {R^{B \times C \times H \times W}}$ ，首先经过两层带有归一化层的3×3卷积层，统一输入数据的分布

${{\boldsymbol{R}}_{\text{d}}}{\text{ = }}bn(\omega _{3 \times 3}^2 * (bn(\omega _{3 \times 3}^1 * {\boldsymbol{F}})))$

(5)

然后，沿着特征图像的长和宽维度分别进行最大值池化和平均值池化得到 ${\boldsymbol{F}}_{{\text{max}}}^{{\text{ch}}} \in {R^{B \times C \times 1 \times 1}}$ 和 ${\boldsymbol{F}}_{{\text{avg}}}^{{\text{ch}}} \in {R^{B \times C \times 1 \times 1}}$ ，并沿着通道维度拼接池化操作后的特征图像，得到空间压缩后的特征 ${\boldsymbol{F}}_{{\text{co}}}^{{\text{ch}}} \in {R^{B \times 2C \times 1 \times 1}}$

$\left. \begin{gathered} {\boldsymbol{F}}_{{\text{max}}}^{{\text{ch}}}{\text{ = MaxPool}}({{\boldsymbol{R}}_{\text{d}}}) \\ {\boldsymbol{F}}_{{\text{avg}}}^{{\text{ch}}}{\text{ = AvgPool}}({{\boldsymbol{R}}_{\text{d}}}) \\ {\boldsymbol{F}}_{{\text{co}}}^{{\text{ch}}}{\text{ = }}\langle {\boldsymbol{F}}_{{\text{max}}}^{{\text{ch}}},{\boldsymbol{F}}_{{\text{avg}}}^{{\text{ch}}}\rangle \\ \end{gathered} \right\}$

(6)

利用1×1卷积将 ${\boldsymbol{F}}_{{\text{co}}}^{{\text{ch}}} \in {R^{B \times 2C \times 1 \times 1}}$ 进行降维得到特征 ${\boldsymbol{F}}_{{\text{do}}}^{{\text{ch}}} \in {R^{B \times C \times 1 \times 1}}$ ，使通道维度的尺度与输入的特征保持一致

${\boldsymbol{F}}_{{\text{do}}}^{{\text{ch}}}{\text{ = }}\omega _{1 \times 1}^2*(\sigma (\omega _{1 \times 1}^1*{\boldsymbol{F}}_{{\text{co}}}^{{\text{ch}}})))$

(7)

最后，使用Sigmod激活函数对特征 ${\boldsymbol{F}}_{{\text{do}}}^{{\text{ch}}} \in {R^{B \times C \times 1 \times 1}}$ 进行非线性映射，得到最终的通道感知模块权重 ${{\boldsymbol{M}}_{{\text{ch}}}} \in {R^{B \times C \times 1 \times 1}}$ ， ${{\boldsymbol{M}}_{{\text{ch}}}}$ 是网络通过无监督的方式学习到的特征图像各个通道的重要性分布。将 ${{\boldsymbol{M}}_{{\text{ch}}}}$ 与最初的输入特征图 ${\boldsymbol{F}} \in {R^{B \times C \times H \times W}}$ 进行元素乘，即可赋予不同通道不同的权重。

${{\boldsymbol{M}}_{{\text{ch}}}}{\text{ = Sigmod}}({\boldsymbol{F}}_{{\text{do }}}^{{\text{ch}}})$

(8)

在训练过程中，通道感知模块可以无监督地筛选出对深度补全任务有用的特征图像，抑制相对不重要的特征图像，经过多次筛选之后可以提升有用特征的纯度。

编解码网络在解码端通过多次上采样解码得到目标结构。在基于编解码结构的深度补全网络中，编码端负责提取特征，补全的工作主要在解码端进行。因此在深度图像补全网络中本文的通道感知模块可以起到多阶段聚焦的作用：一是在彩色图像引导重建分支的解码端帮助网络筛选有用的特征融合进行深度图像精细化补全分支；二是在深度图像精细化补全分支中的解码端帮助网络挑选最终的有用特征进行精细化补全重建。

2.4 损失函数

为了充分发挥本文设计的多阶段补全结构的性能，本文利用真实的深度图像对两个阶段的网络分别进行监督训练，本算法鼓励每个阶段都输出各自的预测稠密深度图像，本文损失函数定义为

$\begin{split} L = & {\lambda _1}\frac{1}{N}\sum\limits_{i = 1}^N {{\text{||}}1_{\{ d = = 0\} }^{(s)} \cdot ({{\boldsymbol{D}}_i} - {{\tilde {\boldsymbol{D}}}}_i^{\text{c}})|{|^2}} \\ & + {\lambda _2}\frac{1}{N}\sum\limits_{i = 1}^N {{\text{||}}1_{\{ d = = 0\} }^{(s)} \cdot ({{\boldsymbol{D}}_i} - {{\tilde {\boldsymbol{D}}}}_i^{\text{d}})|{|^2}} {\text{ + }}\sum\limits_{j = 1}^T {\beta ||{\omega ^j}|{|^2}} \end{split}$

(9)

其中， ${{\tilde {\boldsymbol{D}}}}_i^{\text{c}}$ 和 ${{\tilde {\boldsymbol{D}}}}_i^{\text{d}}$ 分别为彩色图像引导重建分支和深度图像精细化补全分支输出的预测稠密深度图， ${\lambda _1}$ 和 ${\lambda _2}$ 为两分支损失函数的权重， $T$ 为训练的迭代次数，本算法使用 $L_2$ 正则化来约束模型参数，有效降低网络过拟合的风险，并将权重衰减超参数 $\beta$ 设为0.0001。由于在训练过程中，训练标签也并非稠密，只有标签中的有效值可以提供有效的监督误差，因此在计算误差的过程中仅计算预测的稠密深度图像与标签中的有效值的像素之间的误差，忽略标签中的缺失部分。

3. 实验结果分析

3.1 模型训练细节

本文采用了分阶段多权重的训练策略，使网络能够更好地收敛。在训练的前20个周期，本文将损失函数中的 ${\lambda _1}$ 和 ${\lambda _2}$ 分别设置为0.4和0.6；在21～50个训练周期，将 ${\lambda _1}$ 和 ${\lambda _2}$ 分别设置为0.1和0.9；在51个周期之后，将 ${\lambda _1}$ 和 ${\lambda _2}$ 分别设置为0和1。因为在训练的起始阶段，由于稀疏深度图像缺少稠密特征的引导需要充分发挥彩色图像的先验引导作用，因此利用彩色图像引导重建分支的损失函数来辅助训练；当学习到彩色图像的引导特征后，在训练的后期将训练重心移向深度图像精细化补全分支的损失函数。

本文选择的训练优化器为Adam，学习率的初始值设置为0.001，学习率的调整策略为每50个训练周期下降10倍，网络的整个训练周期为150个epoch。所有实验均在Nvidia GTX 1080Ti GPU上使用深度学习框架PyTorch实现。

3.2 数据集和评价标准

本文实验中使用的数据集是KITTI Depth Completion^[17]深度补全评估数据集。本文共使用了86898帧训练图像，1000帧验证图像，1000帧测试图像。数据集中的每一帧都包含了同场景下的稀疏深度图像和彩色图像，稀疏深度图像是使用Velodyne HDL-64E激光雷达采集得到。同时该数据集利用位姿关系融合了前后11个相邻帧的激光雷达稀疏深度信息生成半稠密深度图像，并将此作为训练集、验证集和测试集的标签。KITTI提供的原始稀疏深度图像分辨率为352×1216，有效深度像素为18400个点，约占总体的4.3%，半稠密深度的深度图像的平均有效深度像素约为13%。

本文使用均方根误差(Root Mean Square Error, RMSE)、平均绝对误差(Mean Absolute Error, MAE)、逆深度均方根误差(Inverse depth Root Mean Square Error, iRMSE)、逆深度均方误差(Inverse depth Mean Square Error, iMAE)和参数量(Params)作为评估指标。其中RMSE与MAE的单位均为毫米(mm)，iRMSE与iMAE的单位均为1/km，参数量的单位为兆(M)。

3.3 结果分析

在KITTI测试集上的定量实验结果如表1所示(粗体表示最优结果，下划线表示次优结果)，参与比较的方法有基于表面法向量约束的DeepLiDAR^[11]和PwP^[18]、基于感知机制的CrossGuide^[10]、基于置信图约束的NConv-CNN-L2^[19]和Conf-Net^[20]、基于编解码结构的CSPN^[21], DFine-Net^[22], SSGP^[23]和DFuse-Net^[9]以及基于无监督的Sparse-to-Dense(gd)^[8]。其中，基于表面法向量、置信图等信息辅助深度图像补全的方法取得了较好的效果，但是让网络去学习这些额外的信息大大增加网络复杂度。基于表面法向量约束的DeepLiDAR方法由于需要预测额外的表面法向量，因此整体网络相当复杂，在模型的参数量上是本文方法的近40倍。本文多阶段多尺度引导的深度补全网络在训练和推理的所有过程中，均不需要额外辅助信息，通过端到端的方式以轻量化的形式高效构建稀疏深度图像与稠密深度图像之间的映射关系，由表1可以看出本文方法在保证模型轻量化的同时在多项指标上均达到了最优。

表 1 基于KITTI 测试集的实验结果比较

方法	RMSE	MAE	iRMSE	iMAE	Params(M)
DFuse-Net	1206.66	429.93	3.62	1.79	4.66
CSPN	1019.64	279.46	2.93	1.15	256.08
Conf-Net	962.28	257.54	3.10	1.09	/
DFine-Net	943.89	304.17	3.21	1.39	/
Sparse-to-Dense(gd)	814.73	249.95	2.80	1.21	26.1
NConv-CNN-L2	829.98	233.26	2.60	1.03	/
SSGP	838.22	244.70	2.51	1.09	/
CrossGuide	807.42	253.98	2.73	1.33	30
PwP	777.05	235.17	2.23	1.13	/
DeepLiDAR	758.38	226.50	2.56	1.15	144
本文	767.29	225.94	2.18	1.00	4.05

下载: 导出CSV

| 显示表格

为了进一步展示本文多阶段多尺度引导深度补全算法的效果，图4给出了不同算法的视觉定性比较结果，可以看出本文算法相较于其他方法能更好地恢复出物体细节得到清晰可辨的物体结构，更好地区分前景与后景的边缘区域。比如，车辆轮廓的补全结果可以看到Sparse-to-Dense的补全结果呈现不连续的状态，颗粒状明显，CSPN的补全结果中只有车辆的大致轮廓，车辆的车窗和车门细节并没有恢复出来，本文的补全方法可以得到精细的物体细节，可以非常清楚地分辨车辆的轮廓和车窗。

图 4 KITTI数据集定性结果比较图例

下载: 全尺寸图片幻灯片

3.4 消融实验结果分析

为了分析本文网络中设计的各个模块对深度补全结果的影响，通过控制变量法开展消融实验来验证各模块的合理性，实验结果如表2所示。

表 2 基于KITTI验证集的消融实验结果比较

Case	彩色引导分支	精细补全分支	单损失函数	双损失函数	通道感知模块	多尺度卷积模块	RMSE	MAE
1	√		√				836.10	247.90
2		√	√				845.20	255.70
3	√	√	√				830.50	243.40
4	√	√		√			809.90	231.50
5	√	√	√		√		816.20	240.20
6	√	√		√	√		783.37	217.60
7	√	√		√	√	√	775.43	209.80

下载: 导出CSV

| 显示表格

3.4.1 多阶段多尺度引导结构

首先为了说明双分支引导结构的合理性，如表2的case1, case2和case3所示，本文进行了如下3个消融实验：case1为仅使用彩色引导分支；case2为仅使用精细化补全分支；case3为本文双分支结构(仅监督精细化补全分支的损失函数)。在实验结果中可以看出，case3的双支结构在RMSE和MAE指标上均好于case1和case2的单支结构，说明了本文设计的双支结构的有效性。同时case1的彩色引导4通道输入的补全结果好于case2的单通道稀疏深度输入的补全结果，也验证了稠密彩色图像可以为稀疏深度图像的补全提供先验引导信息。

3.4.2 双损失函数

本文双损失函数的设计是为了鼓励每个分支都输出各自的预测稠密深度图像，配合3.1节所述的分阶段多权重的训练策略，双支协同学习网络的深度补全映射关系。如表2的case3和case4所示，双损失函数的设计大大提升了深度补全网络的性能，在RMSE指标上下降了20.6 mm，MAE指标上下降了11.9 mm，表明了双损失函数确实可以约束网络更好地学习到深度补全的映射关系。

3.4.3 通道感知模块

本文设计的通道感知模块在网络中无监督地学习权重去衡量和评估特征的重要性，辅助特征融合来提高深度补全的效果。如表2所示，在case3和case5中，控制双分支网络+单损失函数的结构为不变量，通道感知模块为变量，加入通道感知模块后，RMSE和MAE指标下降了约1.7%和1.3%；在case4和case6中，控制双支网络+双损失函数的结构为不变量，通道感知模块为变量，在加入通道感知模块后RMSE和MAE指标下降了约3.2%和6.0%。

因此，通道感知模块可以有效地提升深度补全任务的效果。并且值得注意的是，通道感知机制在双损失函数的网络结构中，有着更大的提升效果，这是因为双损失函数可以有效地约束彩色引导分支生成更具引导作用的多尺度特征图像，感知机制也因此可以更好地发挥特征筛选的功能，从而实现高质量的深度补全。

3.4.4 多尺度卷积模块

为了验证本文多尺度卷积模块的合理性，设计了case6和case7消融实验，其中case7是加入多尺度卷积模块后本文网络的最终设计方案(注意，除case7之外所有消融实验中均使用等深度的3×3卷积层来替代本文的多尺度卷积模块)。本文设计的多尺度卷积模块可以提取更加多样性且兼顾多尺度需求的特征信息，同时本文多尺度卷积模块使用随机通道混合的机制增加了不同尺度的特征之间的关联性。如表2所示，在网络结构中加入了多尺度卷积模块，进一步提升了本文网络的深度图像补全效果。

3.5 运行时间

为了验证本文网络轻量化设计的效果，表3给出了不同深度补全网络在KITTI测试集上的推理时间比较，均采用Nvidia GTX 1080Ti GPU进行测试。对于各端到端的深度补全网络来说，网络的推理时间即深度图像补全所需的时间，如表3所示本文算法的补全时间仅为0.09 s，说明本文网络在保证高质量补全效果的同时实现了轻量化的设计，可以很好地满足实际应用的需求。

表 3 不同算法运行时间比较(s)

	CSPN	SSGP	CrossGuidence	PwP	本文
时间	1.0	0.14	0.2	0.1	0.09

下载: 导出CSV

| 显示表格

4. 结束语

本文设计了带有通道感知机制的多尺度多阶段引导策略来更好地建立彩色和深度两个不同模态特征之间的联系，充分发掘了彩色图像和深度图像的内在约束关系。本文设计了一种轻量化的带有通道随机混合功能的多尺度卷积模块，提升网络表征能力的同时控制网络的参数量，本文网络参数量仅约为4 M。同时本文构造了分阶段多权重损失的训练策略来约束网络学习映射关系，充分发挥本文设计的多阶段补全结构的性能，提升了深度图像的补全重建效果。

图 1 视觉感知系统最前端 CIS信号接收过程抽象图

下载: 全尺寸图片幻灯片

图 2 两种常用减法运算电路架构

下载: 全尺寸图片幻灯片

图 3 2次采样完成3次减法运算的电阻式模拟减法器

下载: 全尺寸图片幻灯片

图 4 电阻式模拟减法器的运算时序图

下载: 全尺寸图片幻灯片

图 5 结合采样保持功能的基于单运放实现3次减法运算的开关电容式模拟减法运算电路

下载: 全尺寸图片幻灯片

图 6 减法器3次减法运算功能示意图

下载: 全尺寸图片幻灯片

图 7 常规的栅压自举采样开关

下载: 全尺寸图片幻灯片

图 8 所提自举采样开关

下载: 全尺寸图片幻灯片

图 9 自举采样开关的瞬态仿真结果

下载: 全尺寸图片幻灯片

图 10 自举采样开关基于DFT的频谱及动态性能

下载: 全尺寸图片幻灯片

图 11 理想的减法计算差值与减法电路的仿真输出结果对比

下载: 全尺寸图片幻灯片

图 12 不同的减法器差值输出对应的误差采样曲线

下载: 全尺寸图片幻灯片

图 13 整体模拟域减法运算电路的计算值与仿真值的对比

下载: 全尺寸图片幻灯片

图 14 不同的减法器差值输出对应的误差采样曲线

下载: 全尺寸图片幻灯片

图 15 模拟减法器计算值与能耗的曲线

下载: 全尺寸图片幻灯片

表 1 本文设计与他参考文献各指标对比

指标参数	2023年^[22]	2022年^[23]	2021年^[24]	2020年^[25]	本文
工艺(nm)	180	180	180	180	180
电源电压(V)	1.8	1.8	1.2	1.8	1.8
采样率(MS/s)	50	50	50	1	100
ENOB(bit)	16.5	16.5	13.6	14	16.79
SNDR(dB)	101.1	101.11	83.7	86.94	102.85
SFDR(dBc)	101.8	101.83	83.9	87.32	103.09
THD(dB)	N/A	–101.2	–83.7	–87.3	–103.08

下载: 导出CSV

表 2 本文提出的模拟减法运算电路与其他设计案例的对比

文献	工作类型	工艺尺寸(nm)	电源电压(V)	总计算时间(μs )	能耗(nJ )	计算误差(%)
本文	开关电容式模拟减法器	180	1.8	0.02	0.0278^b	<1.65
[14]	KCL电流模式减法器	350	–	0.45^a	50000^b	<3^c
[15]	开关电容式模拟减法器	180	0.56 /0.8	1220^a	0.0125^b	–
[19]	忆阻器式模拟减法器	180	4	0.2^a	0.019^b	–
[20]	开关电容式模拟减法器	180	1.8	2	8.67^b	<12.73
注：a: 每一帧的处理时间；b: 每一帧能耗；c: 像素不匹配误差

下载: 导出CSV

参考文献(25)

[1]	HSU Y C and CHANG R C H. Intelligent chips and technologies for AIoT era[C]. Proceedings of 2020 IEEE Asian Solid-State Circuits Conference, Hiroshima, Japan, 2020: 1–4. doi: 10.1109/A-SSCC48613.2020.9336122.
[2]	HOCKLEY W E. The picture superiority effect in associative recognition[J]. Memory & Cognition, 2008, 36(7): 1351–1359. doi: 10.3758/MC.36.7.1351.
[3]	姚峰林. 数字图像处理及在工程中的应用[M]. 北京: 北京理工大学出版社, 2014. YAO Fenglin. Digital Image Processing and Application in Engineering[M]. Beijing: Beijing Institute of Technology Press, 2014.
[4]	CHOI J, SHIN J, KANG Dongwu, et al. Always-on CMOS image sensor for mobile and wearable devices[J]. IEEE Journal of Solid-State Circuits, 2016, 51(1): 130–140. doi: 10.1109/JSSC.2015.2470526.
[5]	CHIOU A Y C and HSIEH C C. An ULV PWM CMOS imager with adaptive-multiple-sampling linear response, HDR imaging, and energy harvesting[J]. IEEE Journal of Solid-State Circuits, 2019, 54(1): 298–306. doi: 10.1109/JSSC.2018.2870559.
[6]	AL BAHOU A, KARUNARATNE G, ANDRI R, et al. XNORBIN: A 95 TOp/s/W hardware accelerator for binary convolutional neural networks[C]. Proceedings of 2018 IEEE Symposium in Low-Power and High-Speed Chips, Yokohama, Japan, 2018: 1–3. doi: 10.1109/CoolChips.2018.8373076.
[7]	KRESTINSKAYA O and JAMES A P. Binary weighted memristive analog deep neural network for near-sensor edge processing[C]. Proceedings of 2018 IEEE 18th International Conference on Nanotechnology, Cork, Ireland, 2018: 1–4. doi: 10.1109/NANO.2018.8626224.
[8]	ZHANG Jintao, WANG Zhuo, and VERMA N. In-memory computation of a machine-learning classifier in a standard 6T SRAM array[J]. IEEE Journal of Solid-State Circuits, 2017, 52(4): 915–924. doi: 10.1109/JSSC.2016.2642198.
[9]	JOKIC P, EMERY S, and BENINI L. BinaryEye: A 20 kfps streaming camera system on FPGA with real-time on-device image recognition using binary neural networks[C]. Proceedings of 2018 IEEE 13th International Symposium on Industrial Embedded Systems, Graz, Austria, 2018: 1–7. doi: 10.1109/SIES.2018.8442108.
[10]	LI Ziwei, XU Han, LIU Zheyu, et al. A 2.17μW@120fps ultra-low-power dual-mode CMOS image sensor with senputing architecture[C]. Proceedings of 2022 27th Asia and South Pacific Design Automation Conference, Taipei, China, 2022: 92–93. doi: 10.1109/ASP-DAC52403.2022.9712591.
[11]	TAKAHASHI N, FUJITA K, and SHIBATA T. A pixel-parallel self-similitude processing for multiple-resolution edge-filtering analog image sensors[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2009, 56(11): 2384–2392. doi: 10.1109/TCSI.2009.2015598.
[12]	TAKAHASHI N and SHIBATA T. A row-parallel cyclic-line-access edge detection CMOS image sensor employing global thresholding operation[C]. Proceedings of 2010 IEEE International Symposium on Circuits and Systems, Paris, France, 2010: 625–628. doi: 10.1109/ISCAS.2010.5537512.
[13]	DORZHIGULOV A, BERDALIYEV Y, and JAMES A P. Coarse to fine difference edge detection with binary neural firing model[C]. Proceedings of 2017 International Conference on Advances in Computing, Communications and Informatics, Udupi, India, 2017: 1098–1102. doi: 10.1109/ICACCI.2017.8125988.
[14]	GARCIA-LAMONT J. Analogue CMOS prototype vision chip with Prewitt edge processing[J]. Analog Integrated Circuits and Signal Processing, 2012, 71(3): 507–514. doi: 10.1007/s10470-011-9694-6.
[15]	CHIU M Y, CHEN Guancheng, HUANG Y H, et al. A 0.56V/0.8V vision sensor with temporal contrast pixel and column-parallel local binary pattern extraction for dynamic depth sensing using stereo vision[C]. Proceedings of 2022 IEEE Asian Solid-State Circuits Conference, Taipei, China, 2022: 1–3. doi: 10.1109/A-SSCC56115.2022.9980799.
[16]	LIU Liqiao, REN Xu, ZHAO Kai, et al. FD-SOI-based pixel with real-time frame difference for motion extraction and image preprocessing[J]. IEEE Transactions on Electron Devices, 2023, 70(2): 594–599. doi: 10.1109/TED.2022.3231573.
[17]	XU Han, LIN Ningchao, LUO Li, et al. Senputing: An ultra-low-power always-on vision perception chip featuring the deep fusion of sensing and computing[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2022, 69(1): 232–243. doi: 10.1109/TCSI.2021.3090668.
[18]	JAKLIN M, GARCÍA-LESTA D, BREA V M, et al. Low-power techniques on a CMOS vision sensor chip for event generation by frame differencing with high dynamic range[C]. Proceedings of 2022 29th IEEE International Conference on Electronics, Circuits and Systems, Glasgow, United Kingdom, 2022: 1–4. doi: 10.1109/ICECS202256217.2022.9970907.
[19]	KRESTINSKAYA O and JAMES A P. Real-time analog pixel-to-pixel dynamic frame differencing with memristive sensing circuits[C]. Proceedings of 2018 IEEE SENSORS, New Delhi, India, 2018: 1–4. doi: 10.1109/ICSENS.2018.8589849.
[20]	NAZHAMAITI M, XU Han, LIU Zheyu, et al. NS-MD: Near-sensor motion detection with energy harvesting image sensor for always-on visual perception[J]. IEEE Transactions on Circuits and Systems II: Express Briefs, 2021, 68(9): 3078–3082. doi: 10.1109/TCSII.2021.3087840.
[21]	ABO A M and GRAY P R. A 1.5-V, 10-bit, 14.3-MS/s CMOS pipeline analog-to-digital converter[J]. IEEE Journal of Solid-State Circuits, 1999, 34(5): 599–606. doi: 10.1109/4.760369.
[22]	CAO Chao, ZHAO Wei, FAN Jihui, et al. A complementary high linearity bootstrap switch based on negative voltage bootstrap capacitor[J]. Microelectronics Journal, 2023, 133: 105695. doi: 10.1016/j.mejo.2023.105695.
[23]	ZHAO Wei, CAO Chao, FAN Jihui, et al. Improved complementary bootstrap switch based on negative voltage bootstrap capacitance[C]. Proceedings of 2022 IEEE 16th International Conference on Solid-State & Integrated Circuit Technology, Nangjing, China, 2022: 1–3. doi: 10.1109/ICSICT55466.2022.9963367.
[24]	WEI Cong, WEI Rongshan, and HE Minghua. Bootstrapped switch with improved linearity based on a negative-voltage bootstrapped capacitor[J]. IEICE Electronics Express, 2021, 18(7): 20210062. doi: 10.1587/elex.18.20210062.
[25]	KHAJEH M G and SOBHI J. An 87-dB-SNDR 1MS/s bilateral bootstrapped CMOS switch for sample-and-hold circuit[C]. Proceedings of 2020 28th Iranian Conference on Electrical Engineering, Tabriz, Iran, 2020: 1–5. doi: 10.1109/ICEE50131.2020.9260778.

施引文献

资源附件(0)

访问统计

图(15) / 表(2)

计量

文章访问数: 287
HTML全文浏览量: 90
PDF下载量: 33
被引次数: 0

1. 引言
2. 本文方法
2.1 多阶段多尺度引导结构
2.2 带通道随机混合的多尺度卷积模块
2.3 通道感知模块
2.4 损失函数
3. 实验结果分析
3.1 模型训练细节
3.2 数据集和评价标准
3.3 结果分析
3.4 消融实验结果分析
3.5 运行时间
4. 结束语

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

一种用于常开型智能视觉感算系统的极速高精度模拟减法器

doi: 10.11999/JEIT231099

通讯作者:
乔飞　qiaofei@tsinghua.edu.cn

计量

Ultra High-speed High-precision Analog Subtractor Applied to Always-on Intelligent Visual Sense-computing System

1. 引言

2. 本文方法

2.1 多阶段多尺度引导结构

2.2 带通道随机混合的多尺度卷积模块

2.3 通道感知模块

2.4 损失函数

3. 实验结果分析

3.1 模型训练细节

3.2 数据集和评价标准

3.3 结果分析

3.4 消融实验结果分析

3.4.1 多阶段多尺度引导结构

3.4.2 双损失函数

3.4.3 通道感知模块

3.4.4 多尺度卷积模块

3.5 运行时间

4. 结束语

计量

目录

1. 引言

2. 本文方法

2.1 多阶段多尺度引导结构

2.2 带通道随机混合的多尺度卷积模块

2.3 通道感知模块

2.4 损失函数

3. 实验结果分析

3.1 模型训练细节

3.2 数据集和评价标准

3.3 结果分析

3.4 消融实验结果分析

3.5 运行时间

4. 结束语

留言板

一种用于常开型智能视觉感算系统的极速高精度模拟减法器

doi: 10.11999/JEIT231099

通讯作者: 乔飞 qiaofei@tsinghua.edu.cn

计量

出版历程

Ultra High-speed High-precision Analog Subtractor Applied to Always-on Intelligent Visual Sense-computing System

1. 引言

2. 本文方法

2.1 多阶段多尺度引导结构

2.2 带通道随机混合的多尺度卷积模块

2.3 通道感知模块

2.4 损失函数

3. 实验结果分析

3.1 模型训练细节

3.2 数据集和评价标准

3.3 结果分析

3.4 消融实验结果分析

3.4.1 多阶段多尺度引导结构

3.4.2 双损失函数

3.4.3 通道感知模块

3.4.4 多尺度卷积模块

3.5 运行时间

4. 结束语

计量

出版历程

目录

1. 引言

2. 本文方法

2.1 多阶段多尺度引导结构

2.2 带通道随机混合的多尺度卷积模块

2.3 通道感知模块

2.4 损失函数

3. 实验结果分析

3.1 模型训练细节

3.2 数据集和评价标准

3.3 结果分析

3.4 消融实验结果分析

3.5 运行时间

4. 结束语

通讯作者:
乔飞　qiaofei@tsinghua.edu.cn