高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于SRAM的感存算一体化技术综述

杨兴华 杨子翼 苏海津 姜炜煌 张静 魏琦 骆丽 王忠静 吕华芳 乔飞

杨兴华, 杨子翼, 苏海津, 姜炜煌, 张静, 魏琦, 骆丽, 王忠静, 吕华芳, 乔飞. 基于SRAM的感存算一体化技术综述[J]. 电子与信息学报, 2023, 45(8): 2828-2838. doi: 10.11999/JEIT220815
引用本文: 杨兴华, 杨子翼, 苏海津, 姜炜煌, 张静, 魏琦, 骆丽, 王忠静, 吕华芳, 乔飞. 基于SRAM的感存算一体化技术综述[J]. 电子与信息学报, 2023, 45(8): 2828-2838. doi: 10.11999/JEIT220815
YANG Xinghua, YANG Ziyi, SU Haijin, JIANG Weihuang, ZHANG Jing, WEI Qi, LUO Li, WANG Zhongjing, LÜ Huafang, QIAO Fei. Review of the Fused Technology of Sensing, Storage and Computing Based on SRAM[J]. Journal of Electronics & Information Technology, 2023, 45(8): 2828-2838. doi: 10.11999/JEIT220815
Citation: YANG Xinghua, YANG Ziyi, SU Haijin, JIANG Weihuang, ZHANG Jing, WEI Qi, LUO Li, WANG Zhongjing, LÜ Huafang, QIAO Fei. Review of the Fused Technology of Sensing, Storage and Computing Based on SRAM[J]. Journal of Electronics & Information Technology, 2023, 45(8): 2828-2838. doi: 10.11999/JEIT220815

基于SRAM的感存算一体化技术综述

doi: 10.11999/JEIT220815
基金项目: 国家自然科学基金(92164203),清华大学-宁夏银川水联网数字治水联合研究院基金项目(SKL-IOW-2020TC2003)
详细信息
    作者简介:

    杨兴华:男,讲师,研究方向为近似计算电路系统设计

    张静:女,教授,研究方向为智能传感技术、第三代半导体器件

    魏琦:男,副研究员,研究方向为集成电路设计

    骆丽:女,教授,研究方向为微电子学与固体电子学

    王忠静:男,教授,研究方向为水利物联网感知

    吕华芳:女,高级工程师,研究方向为水利物联网感知

    乔飞:男,副研究员,研究方向为智能感知集成电路与系统

    通讯作者:

    杨子翼 yangziyi0128@gmail.com

  • 中图分类号: TN403

Review of the Fused Technology of Sensing, Storage and Computing Based on SRAM

Funds: The National Natural Science Foundation of China (92164203),The Tsinghua University-Ningxia Yinchuan Water Network Digital Water Control Joint Research Institute Fund Project (SKL-IOW-2020TC2003)
  • 摘要: 基于SRAM(静态随机存取)存储器的感存算一体化芯片架构将传感、存储和计算功能结合,通过使存储单元具备计算能力,避免了计算过程中数据的搬移,解决了冯诺依曼架构所面临的“存储墙”的问题。该结构与传感器部分结合,可以实现超高速、超低功耗的运算能力。SRAM存储器相较于其他存储器在速度方面具有较大优势,主要体现在该架构能够实现较高的能效比,在精度增强后可以保证较高精度,适用于低功耗高性能要求下的大算力场景设计。该文调研了近几年来关于感存算一体化的研究,介绍了传统感知系统和持续感知系统及感算共融系统,并介绍了基于SRAM存储器的感存算一体芯片最常见的几种计算单元结构,在电压域、电荷域和数字域考察了基于SRAM的感存算一体的研究发展,进行分析对比其优劣势,结合调研分析讨论了该领域的未来发展方向。
  • 冯诺依曼体系结构是现代计算机的基础。在冯诺依曼结构中,中央处理器从存储器中提取指令和数据进行计算,按照要求进行处理,然后将结果发送回内存进行存储[1-3]。存储数据位置和处理数据位置之间存在物理隔离,数据传输会产生较大能耗。近年来,随着大数据、人工智能等领域的高速发展,所需处理的数据量迅速增长,不得不面临“存储墙”的问题。

    存内计算架构已成为解决冯诺依曼结构“存储墙”挑战的最有前景的方法之一。存算一体架构将存储单元和计算单元结合,将计算在存储单元进行。目前针对存算一体架构的研究,主要涉及的领域是电压域、电荷域和数字域。针对实际面积开销、功耗损失、精度等实际需求进行设计选择。感存算一体架构是将存内计算架构与传感进行进一步的结合。存内计算架构是感存算一体架构的基础。感存算一体架构基于事件的感知特性[4-8]及设计需求[9,10],应用于触觉感知领域[11-14]、视觉感知领域[15-17]和听觉感知领域[18]等。

    本文介绍了3种基本的SRAM存储器基本存算单元,从基于SRAM的存内计算技术和感存算一体技术两方面,综述了该领域的主要研究方向、研究进展及技术比较,对该领域未来的发展进行展望。

    传感技术与人类的生活息息相关,为生活提供了很多的便利。如图1所示,传统的传感系统的处理流程主要有3步,首先将感知到的信号转换为模拟电信号,之后通过模数转换器(Analog-to-Digital Converter, ADC)进行模数转换,最后在数字域进行信号处理[3]。随着人工智能和物联网的快速发展,由于需要感知的数据量急剧增加且系统能耗受限,传统感知系统无法完成持续数据采集和智能处理的工作,开始向智能持续感知系统转化。

    图 1  传统感知系统的处理流程

    持续感知系统,即由事件驱动或应用驱动,对于处理的任务或事件持续做出及时响应的感知系统。并且能够运行智能算法进行数据处理。持续感知系统与传统的常开型传统感知系统不同,如图2所示,持续感知系统不需要一直处于工作状态,只需要由事件驱动处理相关事件或者任务[4-8]。在持续感知系统中,设计可以放松对一些指标的要求,降低了设计难度和制造成本[9,10]。此外,系统较长的待机时间,使得能够部署在各种智能应用中,并且优化电路设计使传感器具有对信息进行预处理的能力,在降低功耗的前提下实现了更多的功能。在持续感知系统的基础上,增加了一定智能处理的能力。针对信号感知及智能处理的需求,设计要求要有实时性,由于事件驱动,所以要求对感知的数据极其敏感,对时间及时做出响应,由于庞大的数据源源不断地传输进来,占据大量的带宽,对处理能力要求很高,因此要求传感终端具备一定的本地智能化处理能力。并且有高能效的需求,以满足实际应用中的具体环境,如野外环境检测等应用场景,实际应用的传感和数据传输,需要通过能量收集技术为其提供能量,因此需要具备高能效,本地化的传感信息处理能力。基于安全性的考虑,本地化的传感信息处理进行加密以避免传感数据在采集和传输至网络层过程中遇到问题造成隐私泄露等安全问题。

    图 2  持续感知系统与传统感知系统的功耗模式对

    感算共融感知系统根据感知形态可分为触觉[11-14]视觉[15-17]和听觉[18]感知等系统。该系统首先应用于图像传感芯片设计中,该传感处理单元由感光二极管、算术逻辑单元(Arithmetic Logic Unit, ALU)和存储单元组成,将传感处理单元排列成阵列,在传感端实现低层次的图像预处理,提升图像预处理的效率。通过在传感端进行数据处理,减少了传感器与处理器之间测数据传输、存取和计算的操作,降低了功耗并且更高效。常规的视觉信息处理是通过基于帧的相机采集信息,将捕获到的模拟信息通过ADC转换为数字形式,再通过使用诸如人工神经网络(Artificial Neural Network, ANN)的机器学习算法进行处理。这样的处理会带来大量冗余和高功耗,感算共融的持续感知系统实现混合信号域的计算,来提高ANN中后续信号处理的效率并降低了功耗。

    感算共融感知系统不仅可以应用在视觉感知上,也可以应用在听觉、触觉等感知系统。基于应用层面,采集的感知信号主要应用于高层次语义的检测和识别等领域,如触觉感知的手势识别、听觉的语音声纹识别等,被广泛应用于智能机器人、机械和语音关键词唤醒等场景中。

    以Li等人[19]的面向语音应用的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients, MFCC)特征提取结构为例,之前的相关工作主要是在数字域中实现的,因此会导致ADC模数转换和频域转换产生的大量能耗,该架构在混合信号域提取声学特征,降低了ADC的成本及带来的功耗,将计算从数字域转换到模拟域进行操作,以达到更快、更低功耗的声学特征提取。并研究发现特定情况下混合信号MFCC特征比传统方法具有更好的噪声鲁棒性。由于没有频域转化,模拟域能够提取无损的声学特征。以实现更节能和更快的MFCC特征提取。

    其他感知系统与视觉系统相似,将算法与感算共融系统结合,低功耗、高鲁棒性的前提下实现功能。

    SRAM是经典的存储器之一,其工作原理是在字线(Write Line, WL)驱动下内部存储单元与位线(Bit Line, BL)之间的读写操作,从计算角度看,其本质上完成了WL输入和存储数据的与运算并由BL输出,因此可以用于简单的逻辑计算。正是由于这个特性,学者开始思考能否在SRAM完成特定的计算任务。下面将介绍如何基于上述原理使用标准的6T单元实现了存内计算,及在此基础上优化设计的分裂式6T SRAM和4+2T SRAM等单元结构。

    标准的6T SRAM单元示意图如图3所示。该结构由2个P沟道金属氧化物半导体(Positive channel Metal Oxide Semiconductor, PMOS)和4个N沟道金属氧化物半导体(Negative channel-Metal-Oxide-Semiconductor, NMOS)组成。位线BL读取数据,字线WL控制读写。中间4管组成两个交叉连接反相器锁存数据。两侧两管作为BL的读写开关。

    图 3  SRAM 6T单元电路

    SRAM的基本单元有3种状态,分别为空闲、读、写。在空闲状态时,WL为低电平,将基本单元与位线隔离,两个反相器保持状态,只要保持与高、低电平连接。在进行读取操作时,先进行预充电,将位线BL充电到逻辑“1”,通过控制WL高低电平,进行读写操作。根据所存储数据,BL和BLB分别置于逻辑“0”和逻辑“1”。在进行写入操作时,根据要写入数据,设置BL, BLB的不同高低电平,字线WL设置为高电平,位线数据载入SRAM的基本单元。操作数由字线WL电压和存储节点数据表示,处理结果通过BL和BLB之间的电压差来反映。

    文献[20-22]等采用了分裂式6T SRAM结构,如图4所示。传统的6T SRAM存内计算只能通过单一WL实现VDD或GND输入,与存储的权值完成AND逻辑运算。分裂式6T SRAM则将输入信号分离成WLL和WLR双端输入,当输入信号为+1时激活WLL,输入信号为–1时激活WLR,再与预先存储的权值执行与计算,如此即可实现输入与权值同或逻辑运算。如果逻辑计算结果为1,则对应BLL或BLR充电,反之则对应BLL或BLR放电,再通过读出电路完成计算。该设计的优势是在不增加面积的前提下增加了对同或逻辑及同或神经网络的支持,同时具有较低的功耗;但是仍只能完成简单的逻辑计算,没有实现对复杂乘累加计算的电路映射。

    图 4  分裂式6T SRAM单元结构

    为了进一步拓展传统6T SRAM存储单元在存内计算中的应用,一种方法是改善其在多位被激活情况下的读取噪声容限下降问题。Dong等人[23]提出了一种4+2T SRAM存储单元,结构如图5所示。

    图 5  4+2T 存储器单元结构

    顶部的WWL充分利用了深度耗尽通道技术中的强体效应,采用 N 阱作为存储器的写字线,依靠改变字线WL和存储节点的电压执行不同的操作。深度耗尽通道技术可以显著提高写入容限,其具有低工艺变化和高体效应系数的双重优点。

    中间为两个交叉耦合的反相器结构,每个反相器具有独立的VDD端,用于当作存储器的WBL或WBLB。当执行写操作时,需降低其中一条电源线上电压,同时降低写字线N阱上的电压,使反相器中PMOS晶体管的阈值电压降低,从而允许将WBL和WBLB上的数据写入到存储节点中。

    左右两侧的晶体管栅极相连,组成去耦的差分结构,将读取端口与存储节点相隔离。这两个晶体管作为存储器的读取或选择端口,用于完成读取和逻辑操作。这种去耦的差分读取结构设计显著提高了多位激活情况下的读取噪声容限,实现了可靠的读取、多种布尔逻辑操作和多位存内计算功能。

    在上文已经介绍了SRAM存内计算在电路单元层面的多样性,多种单元结构能够实现不同的计算功能。本章将从更加顶层的架构层面进一步介绍SRAM存内计算,学者在电压域、电荷域和数字域等均实现了多层多比特神经网络在电路上的映射。

    基于电压域的感存算技术是目前最常见的存内计算的方式。其主要形式是将传感器的输入转换为模拟电压信号,通过模拟电压信号驱动SRAM阵列中的字线WL开关对位线BLs进行充电/放电。最后,对BLs上的结果进行累加或平均,以获得乘累加(Multiply ACcumulate, MAC)操作的输出。下面将介绍近年来基于电压域的感存算技术的研究进展。

    Najafi等人[24]提出了一种6T SRAM单元的存内计算结构。该结构的特点是采用IG鳍式场效应晶体管(Fin Field-Effect Transistor, FinFET)技术设计的。该单元分别通过将数据存储节点与读取位线解耦和降低上拉网络的强度来消除读取干扰并提高写入能力。受益于IGFFIET的背栅极,该单元的泄露功率较小,读取能量相较于传统的6T和8T SRAM单元大大降低。

    Yu等人[25]提出了一种双7T SRAM单元存内计算结构,其结构如图6所示,当二进制输入0或1通过静态高压(H)或短负脉冲应用于RWL时,位单元存储3元权重1(QL=H, QR=L))、0QL=L, QR=L)或+1(QL=L, QR=H)。当短脉冲应用于RWL时,其栅极连接到存储“H”的内部节点(QL或QR)的晶体管开启,并放电读取位线(RBLL或RBLR)。使用连接在相同读取位线(RBLL/RBLR)中的位单元在每列中执行基于电流放电操作的累加。一列表示存储在所有位单元中的权重与通过所有水平读取位线的输入激活之间的点积运算,这些水平读取位线也与所有其他列共享,以实现大规模并行MAC操作。

    图 6  双7T SRAM 单元

    Yu等人[26]提出了一种基于8T SRAM的存内计算结构,如图7所示,使用一对写 BL(WBL和WBLb)和两个NMOS存取晶体管向写字线WWL施加高电压。除了用于写入操作的存取晶体管,还添加了两个额外的NMOS晶体管用于去耦读取操作,当对应的 SRAM内部存储节点电压为高(H)且读取字线RWL电压为低(L)时,用于去耦读取操作的两个NMOS晶体管之一导通。

    图 7  8T SRAM单元电路

    Gupta等人[27]提出了一种9T SRAM存内计算结构,实现了NAND, NOR, AND或布尔逻辑。其9T SRAM的存内计算原理图如图8所示,9T SRAM的读写操作与8TSRAM相同。对于9TSRAM的写入操作,在WBL和WBLB的控制下将数据存储到4T单元。通过T8,T9从单元读取数据。对于读取操作,WWL写入字线端口处于逻辑低位,在T8和T9的作用下,将在RBL读取位线端口中获取数据并执行读取操作。额外添加一个晶体管,以达到提高写入噪声容限,并使SRAM在读写操作中更加高效的作用。

    图 8  SRAM 9T单元电路

    尽管电压域计算是目前相对主流的实现方式,但是其存在的问题也逐渐显著,即难以实现高精度计算,难以搭载大网络。前文介绍电压域计算是基于金属-氧化物半导体场效应(Metal-Oxide-Semiconductor Field-Effect Transistor, MOSFET)晶体管的放电电流实现的,因此晶体管的性能稳定对计算的精度至关重要,但是遗憾的是MOSFET晶体管受到工艺偏差和工艺、电压、温度效应的影响十分显著。此外高精度的量化必然导致位线BL上信号裕度的下降,更大的网络则需要更多的计算单元,导致放电电流的增大。以上问题会导致潜在的位线电压过低的风险,导致放电晶体管从饱和区进入线性区,放电电流的大小不再简单受WL控制,导致计算误差明显增大。为了解决精度低的问题,人们想到了使用工艺更加稳定,受环境影响小的电容作为计算的载体,通过对电容电压的操作完成计算,这就是电荷域计算。

    Dong等人[28]基于7 nm FinFET先进工艺和8T SRAM单元实现了电荷域存内计算,该设计使用比例电容阵列实现了4 bit的权值。分成4列2行,下行电容为计算电容,满足8:4:2:1的等比例关系;上行电容则为补偿电容,将每列的总电容值补偿至相同电容。执行计算时首先将各电容预充电至VDD;然后将各列间开关断开,字线向8T单元输入脉冲信号使电容阵列从位线上放电,此时每列总电容值相同,因此满足相同的放电规律;计算完成后将补偿电荷和计算电容之间开关断开,各列之间电容导通进行电荷重分配,由于容值满足2的比例关系,因此可以实现对应的权重比例。使用电容阵列实现多比特权值的方式避免了电流域计算多周期计算结果在数字域权重补偿的过程,使得完整计算过程可以全通过模拟计算方式实现,进一步降低了计算功耗。

    Jia等人[29]基于6T SRAM基本单元和开关电容实现AND和XNOR基本运算单元,如图9所示,当执行同或计算时,当且仅当IA图像数据和W为相同信号时结果为高电平;当执行AND计算时,IAb信号通路也输入IA激活值信号,当且仅当IA和W均为高电平时结果为高电平。不同的计算结果对应开关电容的充电与否,结果为高电平时对应电容充电至VDD。计算周期结束后部分电容电压为VDD,剩余均为GND。然后打开各电容间连接开关,完成并联进行电荷重分配至相同电压,即可完成存算阵列中一列的乘累加计算。这种设计的优势是同时实现了与和同或编码方式的神经网络。同时电荷域计算的信号裕度上下限分别为VDD和GND,相比于电流域计算有所拓展,提高了计算的精度;此外各电容的容值取代晶体管参数成为最关键的精度影响因素,这进一步提高了模拟计算的精度。

    图 9  开关电容阵列实现电荷域计算

    Kim等人[30]提出了一种基于电荷共享的10T SRAM存内计算结构,如图10所示,该结构无需数模转换器直接输入2 bit的激活值数字信号,高低位分别连接至Msbl和Lsbl,并连接成双倍比例关系的电容。在进行电荷充分配时不同容值的电容对电荷的贡献不同,因此可完成2 bit×1 bit的电荷域计算。其设计优势在于节约了数模转换器数据转换的功耗,但缺陷是单元晶体管数量较多,牺牲了片上面积。

    图 10  电荷域计算10T单元

    Oh等人[31]提出了一种基于8晶体管和2电容(8T2C)SRAM存内计算结构,如图11所示,实现内存二元神经网络(Binary Neural Networks, BNN)加速器的功能。当工作于存储器模式时,Wli和Wlo同时激活,控制内部存储单元与BL间读写操作。工作于BNN加速器模式时,Wli首先开启,输入激活值与存储权值完成与计算,并向开关电容充电。随后Wlo开启,Wli关闭,左右开关电容在BL和BLB上完成电荷重分配,完成1 bit×1 bit的电荷域计算。该设计优势在于双开关设计有效地避免了6T单元结构存在的SRAM写干扰风险,提高了系统鲁棒性;同时计算的信号裕度进一步提升至11 mV,提高了计算精度;双电容设计可有效减少单个电容的容值,降低了电容充放电的动态功耗。

    图 11  电荷域计算10T单元

    为了解决模拟域存内计算在工艺偏差、工艺尺寸缩小导致的不良影响、数据转换单元导致的功耗和面积开销、噪声敏感性、计算和数模转换精度以及可扩展和可重构性等方面的问题,数字域的存内计算研究和应用受到学术界和工业界的广泛关注。

    基于SRAM的数字域的存内计算是指采用SRAM结构作为存储单元,配合其他逻辑门电路单元组成存内计算模块,能够完成一些运算任务的技术。这种思想被广泛应用于人工智能、机器学习领域,通过将运算模块进行组合与扩展,实现多精度、多位数的逻辑运算,进而用于构建神经网络并进行运算,计算任务通常包括布尔逻辑运算和内容寻址存储并读取。

    Kim等人[32]提出了一种能够实现1-16位权重位数和输入精度可调节的数字域存内计算电路结构,其用于完成高能效的深度神经网络(Deep Neural Networks, DNN)处理。文中提出一种“N+7”位的列型乘累加单元,该结构实现了权重精度 N 位可变。其计算方式具体为:首先将数字串行输入到同一列中的所有乘累加运算单元,并与SRAM中预先加载的权重相乘,并行执行按位乘法运算。然后使用垂直连接的N+7个全加器,对每列按位相乘结果进行累加。该运算输入精度取决于串行输入周期数,因此多位输入情况下需要对每个周期内的运算结果进行累加。

    Chih等人[33]提出了一种基于 6T SRAM的全数字存内计算结构,该结构用于完成卷积神经网络中的乘累加运算,支持大规模并行乘累加运算,具有高能效面积比和大吞吐量。通过对存内计算单元排列方式的重构,可以改变拓扑结构,实现对不同神经网络的搭建和运算。此外,通过对卷积层中执行乘累加运算的权重和输入激活值的复用,极大降低了内存访问的能量开销。该存内计算结构具有两种模式,在 SRAM 模式下,将权重预加载到存内计算单元的SRAM中;在存内计算模式下,执行乘累加操作。

    Kim等人[34]介绍了一种串行计算的数字存内计算体系结构,如图12所示,该结构实现了权重和输入精度从 1 bit到 16 bit可调,用于完成可重构的神经网络搭建和计算。这种数字存内计算电路完全采用纯数字电路单元进行搭建,使用改进的同或门和全加器在数字域执行按位乘累加操作,避免了模拟存内计算电路的工艺变化、噪声敏感性和数据转换开销的问题。该结构对每一列并行输入信号,并在列内并行完成乘累加运算,实现了芯片面积和数据吞吐量的平衡,达到了处理神经网络的高性能和高能效。

    图 12  串行计算的可重构数字存内计算体系结构

    Lin等人[35]提出了一种基于 10T SRAM 的数字存内计算结构,该结构通过省略垂直数据存储,缓解了 SRAM 的写入复杂度,提高了存内计算的稳定性。通过将字线的交叉布局,实现了存内计算单元阵列中多行或多列的并行激活,并能够同时在两个方向上进行矢量逻辑运算。此外,该结构中水平读取通道可实现矩阵的转置。存内计算电路结构由可重构的数据通道线、读出放大器、复用的读出端口和10T SRAM存储单元结构组成,实现了内容可寻址存储器的功能,支持按列或按行的数据搜索。

    Fujiwara等人[36]提出了一种数字域存内计算电路,该结构可以同时实现64位乘累加和写操作与宽范围的动态电压-频率调整。在该结构中,所有输入驱动器以及读写地址解码器与所有乘累加单元共享,通过多路复用器在每个周期中输出 1 位数字并完成按位乘法运算。通过将存储单元分区,实现了64位乘累加并行运算。其具体运算过程是:每个按位乘法器对读取位线上的信号和每个周期的输入信息执行按位乘法操作,再送入加法器树进行累加得到部分和,移位器使能输入位有效,使累加器输出最终的乘累加结果。其中,移位器和累加器可以对得到的部分和进行有符号的计算。

    Yan等人[37]提出了一个32 kbit无模数转换器的 SRAM 数字存内计算电路结构,提高了电路密度和灵活性。该结构在紧凑的区域内采用动态逻辑计算电路取代了传统的数模转换器或CMOS静态逻辑,采用的可重构本地处理单元支持按位与、或、异或运算,采用的后向求和电路达到超过98% 的深度神经网络利用率。此外,该存内计算电路还将乘累加操作扩展到向量矩阵乘法和矢量哈达玛积的计算。

    本节介绍了今年相关电压域、电荷域及数字域的相关研究。在基于电荷共享的SRAM单元中,由于会引入到电容,会增加产生的总功耗,较大的存算阵列导致电容产生更高的面积开销。每个存算单元中的电容都需要通过额外的开关相互耦合,额外增加晶体管的数量,进而增加了存算单元的面积。部分研究会使用不同结构的电容类型,由金属边缘结构形成的mom电容可以放在存算单元上,不会产生额外的面积开销,但是由于mom电容的特性,与存算单元面积适配的电容容值较小。相较于模拟域,数字域的特点可以很好地实现高精度的计算,可以完成在模拟域中较难完成的工作,如布尔逻辑运算等。并且可以规避模拟域存内计算存在的工艺问题的影响、面积代价及精度问题等。同时,数字域的操作会伴随着功耗损失等问题。

    本文首先介绍了传统的感知系统及其处理流程,并延展介绍持续感知系统和感算共融感知系统,然后讲解了几种基于 SRAM 的存内计算存储单元的电路结构和基本原理,其中包括经典的6T SRAM、分裂式6T SRAM以及4+2T SRAM。最后将基于SRAM的存内计算技术按照应用域分为3个主要类别,即电压域、电荷域和数字域,给出了每种应用域的定义,展示并分析了3种应用域近3年国内外的研究成果。

    传统的感知系统由于不能满足人工智能,物联网等领域所带来感知数据量的增加和较高的能耗的问题,向智能持续感知系统和感算共融系统转化,与算法结合,实现更多功能并降低数据传输、计算及访存能耗。持续感知和感算共融系统将成为未来的重要研究方向。

    由于SRAM存内计算技术具有高算力、低功耗、低成本等优势[38],基于 SRAM 的存内计算技术将运算单元集成到内存中,完成了数据在存储单元中的计算处理,避免了数据在内存和运算单元模块之间频繁交换,打破了冯诺伊曼架构在“存储墙”“功耗墙”的瓶颈,使基于 SRAM 的存内计算成为智能计算的新发展点。随着近年来人工智能、神经网络等技术的快速发展和突破性需求增长,人工智能硬件化朝着更大的并行性、更高的能源效率、更大的吞吐量和更好的兼容性发展,存内计算技术在机器学习、高效能智能计算处理、物联网多场景下边缘端设备部署等方面具有广阔的发展潜力和应用前景。不过,存内计算同样面临着硬件资源复用、单元设计、模拟运算优化等实际技术问题[39]

    感存算系统未来发展仍然面临不少的挑战。存内计算存在输出的线性度不稳定的问题,会影响最终精度。 为了提高芯片的性能,设计的存算阵列大小一般会根据一般能容纳参数量最大的卷积层设计。并且增加晶体管及电容等器件数量实现更多功能,引起整个系统的功耗及延迟增加。在一些芯片中,通常会采用多行并行同时计算的设计,提高效率的同时也会增加输出紊乱的风险。芯片的存内计算会伴随着外围电路的辅助。计算结果通过高精度的ADC进行量化输出,ADC数量会随着存算阵列的增大而增大,因此这些外围电路也会增大整体的面积。这些都是未来值得关注和研究解决的问题。

    随着人们对数据吞吐量、计算速度、存储密度和超低功耗的日益增长的需求,产业界和学术界对新型器件、新型电路结构和制造工艺的极致追求也更加凸显,由于忆阻器具有低功耗、高响应、纳米级、非易失性等特性,因此在存内计算电路的设计中表现出新的活力与巨大的发展潜力。忆阻器在实现仿生神经元的电路设计方面具有优势,因此多用于实现低功耗的类脑计算电路和多种神经网络的搭建,能够实现高密度的数据存储和并行逻辑计算,进一步推动了低功耗与高密度计算的存算一体结构的发展。将忆阻器与微纳传感器相结合,可以实现将感知、存储、计算集成于一体的更为紧凑的芯片电路架构,这种技术被称为感存算一体技术,逐渐成为新的研究热点方向,在人工智能、大数据、物联网、常开型智能感知边缘设备部署等相关领域具有重要研究价值。目前,基于忆阻器的感存算一体技术主要按照感觉的种类进行划分,主流方向为触觉、视觉、嗅觉、听觉等。在现有技术成果下,基于忆阻器的感存算一体电路结构能够处理的数据量还有待扩展,电路能够完成的功能也有待开发,在执行复杂、难度较大的任务时,其性能还不够理想。未来,新型忆阻材料及制造工艺、新型微纳传感器、3维堆叠集成工艺[40]等将成为感存算一体技术的重要研究方向。

  • 图  1  传统感知系统的处理流程

    图  2  持续感知系统与传统感知系统的功耗模式对

    图  3  SRAM 6T单元电路

    图  4  分裂式6T SRAM单元结构

    图  5  4+2T 存储器单元结构

    图  6  双7T SRAM 单元

    图  7  8T SRAM单元电路

    图  8  SRAM 9T单元电路

    图  9  开关电容阵列实现电荷域计算

    图  10  电荷域计算10T单元

    图  11  电荷域计算10T单元

    图  12  串行计算的可重构数字存内计算体系结构

  • [1] HAENSCH W, GOKMEN T, and PURI R. The next generation of deep learning hardware: Analog computing[J]. Proceedings of the IEEE, 2019, 107(1): 108–122. doi: 10.1109/JPROC.2018.2871057
    [2] MA Yufei, DU Yuan, DU Li, et al. In-memory computing: The next-generation AI computing paradigm[C]. 2020 on Great Lakes Symposium on VLSI, New York, USA, 2020: 265–270.
    [3] 李桂宏, 乔飞. 面向边缘智能设备的持续感知集成电路与系统[J]. 微纳电子与智能制造, 2019, 1(2): 47–61. doi: 10.19816/j.cnki.10-1594/tn.2019.02.007

    LI Guihong and QIAO Fei. Continuous perception integrated circuits and systems for edge-computing smart devices[J]. Micro/Nano Electronics and Intelligent Manufacturing, 2019, 1(2): 47–61. doi: 10.19816/j.cnki.10-1594/tn.2019.02.007
    [4] CHOI J. Review of low power image sensors for always-on imaging[C]. 2016 International SoC Design Conference, Jeju, Korea (South), 2016.
    [5] PAUL S, HONKOTE V, KIM R G, et al. A sub-cm³ energy-harvesting stacked wireless sensor node featuring a near-threshold voltage IA-32 microcontroller in 14-nm tri-gate CMOS for always-on always-sensing applications[J]. IEEE Journal of Solid-State Circuits, 2017, 52(4): 961–971. doi: 10.1109/JSSC.2016.2638465
    [6] CHOI J, SHIN J, KANG Dongwu, et al. Always-on CMOS image sensor for mobile and wearable devices[J]. IEEE Journal of Solid-State Circuits, 2016, 51(1): 130–140. doi: 10.1109/JSSC.2015.2470526
    [7] LUO Yi and MIRABBASI S. Always-on CMOS image sensor pixel design for pixel-wise binary coded exposure[C]. 2017 IEEE International Symposium on Circuits and Systems, Baltimore, USA, 2017: 1–4.
    [8] YOUNG C, OMID-ZOHOOR A, LAJEVARDI P, et al. 5.3 a data-compressive 1.5b/2.75b log-gradient QVGA image sensor with multi-scale readout for always-on object detection[C]. 2019 IEEE International Solid-State Circuits Conference, San Francisco, USA, 2019: 98–100.
    [9] SHI Weisong, CAO Jie, ZHANG Quan, et al. Edge computing: Vision and challenges[J]. IEEE Internet of Things Journal, 2016, 3(5): 637–646. doi: 10.1109/JIOT.2016.2579198
    [10] CHIANG M and ZHANG Tao. Fog and IoT: An overview of research opportunities[J]. IEEE Internet of Things Journal, 2016, 3(6): 854–864. doi: 10.1109/JIOT.2016.2584538
    [11] ZHU Bowen, WANG Hong, LIU Yaqing, et al. Skin-inspired haptic memory arrays with an electrically reconfigurable architecture[J]. Advanced Materials, 2016, 28(8): 1559–1566. doi: 10.1002/adma.201504754
    [12] JIANG Chengming, LI Qikun, SUN Nan, et al. A high-performance bionic pressure memory device based on piezo-OLED and piezo-memristor as luminescence-fish neuromorphic tactile system[J]. Nano Energy, 2020, 77: 105120. doi: 10.1016/j.nanoen.2020.105120
    [13] SUN Yihui, ZHENG Xin, YAN Xiaoqin, et al. Bioinspired tribotronic resistive switching memory for self-powered memorizing mechanical stimuli[J]. ACS Applied Materials & Interfaces, 2017, 9(50): 43822–43829. doi: 10.1021/acsami.7b15269
    [14] WAN Changjin, CAI Pingqiang, GUO Xintong, et al. An artificial sensory neuron with visual-haptic fusion[J]. Nature Communications, 2020, 11(1): 4602. doi: 10.1038/s41467-020-18375-y
    [15] ZHOU Feichi, ZHOU Zheng, CHEN Jiewei, et al. Optoelectronic resistive random access memory for neuromorphic vision sensors[J]. Nature Nanotechnology, 2019, 14(8): 776–782. doi: 10.1038/s41565-019-0501-3
    [16] LORENZI P, SUCRE V, ROMANO G, et al. Memristor based neuromorphic circuit for visual pattern recognition[C]. 2015 International Conference on Memristive Systems, Paphos, Cyprus, 2015: 1–2.
    [17] HALAWANI Y, MOHAMMAD B, AL-QUTAYRI M, et al. Memristor-based hardware accelerator for image compression[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 2018, 26(12): 2749–2758. doi: 10.1109/TVLSI.2018.2835572
    [18] WANG Wei, PEDRETTI G, MILO V, et al. Learning of spatiotemporal patterns in a spiking neural network with resistive switching synapses[J]. Science Advances, 2018, 4(9): eaat4752. doi: 10.1126/sciadv.aat4752
    [19] LI Qin, YANG Yuze, LAN Tianxiang, et al. MSP-MFCC: Energy-efficient MFCC feature extraction method with mixed-signal processing architecture for wearable speech recognition applications[J]. IEEE Access, 2020, 8: 48720–48730. doi: 10.1109/ACCESS.2020.2979799
    [20] CHANG Mengfan, CHEN C F, CHANG Tinghao, et al. 17.3 A 28nm 256kb 6T-SRAM with 280mV improvement in VMIN using a dual-split-control assist scheme[C]. 2015 IEEE International Solid-State Circuits Conference–(ISSCC) Digest of Technical Papers, San Francisco, USA, 2015: 1–3.
    [21] KHWA W S, CHEN Jiajing, LI Jiafang, et al. A 65nm 4Kb algorithm-dependent computing-in-memory SRAM unit-macro with 2.3ns and 55.8TOPS/W fully parallel product-sum operation for binary DNN edge processors[C]. 2018 IEEE International Solid–State Circuits Conference, San Francisco, USA, 2018: 496–498.
    [22] SI Xin, KHWA W S, CHEN Jiajing, et al. A dual-split 6T SRAM-based computing-in-memory unit-macro with fully parallel product-sum operation for binarized DNN edge processors[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2019, 66(11): 4172–4185. doi: 10.1109/TCSI.2019.2928043
    [23] DONG Qing, JELOKA S, SALIGANE M, et al. A 0.3V VDDmin 4+2T SRAM for searching and in-memory computing using 55nm DDC technology[C]. 2017 Symposium on VLSI Circuits, Kyoto, Japan, 2017: C160–C161.
    [24] NAJAFI D and EBRAHIMI B. A low-leakage 6T SRAM cell for in-memory computing with high stability[C]. The 2021 29th Iranian Conference on Electrical Engineering, Tehran, Iran, 2021: 98–102.
    [25] YU Chengshuo, YOO T, CHAI K T C, et al. A 65-nm 8T SRAM compute-in-memory macro with column ADCs for processing neural networks[J]. IEEE Journal of Solid-State Circuits, 2022, 57(11): 3466–3476. doi: 10.1109/JSSC.2022.3162602
    [26] YU Chengshuo, CHAI K T C, KIM T T H, et al. A zero-skipping reconfigurable SRAM in-memory computing macro with binary-searching ADC[C]. The IEEE 47th European Solid State Circuits Conference, Grenoble, France, 2021: 131–134.
    [27] GUPTA A K and ACHARYA A. Exploration of 9T SRAM cell for in memory computing application[C]. 2021 Devices for Integrated Circuit, Kalyani, India, 2021: 461–465.
    [28] DONG Qing, SINANGIL M E, ERBAGCI B, et al. 15.3 A 351TOPS/W and 372.4GOPS compute-in-memory SRAM macro in 7nm FinFET CMOS for machine-learning applications[C]. 2020 IEEE International Solid- State Circuits Conference, San Francisco, USA, 2020: 242–244.
    [29] JIA Hongyang, OZATAY M, TANG Yinqi, et al. 15.1 A programmable neural-network inference accelerator based on scalable in-memory computing[C]. 2021 IEEE International Solid- State Circuits Conference, San Francisco, USA, 2021: 236–238.
    [30] KIM J and PARK J. A charge-domain 10T SRAM based in-memory-computing macro for low energy and highly accurate DNN inference[C]. The 2021 18th International SoC Design Conference, Jeju Island, Korea (South), 2021: 89–90.
    [31] OH H, KIM H, AHN D, et al. Energy-efficient in-memory binary neural network accelerator design based on 8T2C SRAM cell[J]. IEEE Solid-State Circuits Letters, 2022, 2,5: 70–73. doi: 10.1109/LSSC.2022.3161592
    [32] KIM H, CHEN Qian, YOO T, et al. A 1–16b precision reconfigurable digital in-memory computing macro featuring column-MAC architecture and bit-serial computation[C]. The IEEE 45th European Solid State Circuits Conference, Cracow, Poland, 2019: 345–348.
    [33] CHIH Y D, LEE P H, FUJIWARA H, et al. 16.4 An 89TOPS/W and 16.3TOPS/mm2 all-digital SRAM-based full-precision compute-in memory macro in 22nm for machine-learning edge applications[C]. 2021 IEEE International Solid- State Circuits Conference, San Francisco, USA, 2021: 252–254.
    [34] KIM H, YOO T, KIM T T H, et al. Colonnade: A reconfigurable SRAM-based digital bit-serial compute-in-memory macro for processing neural networks[J]. IEEE Journal of Solid-State Circuits, 2021, 56(7): 2221–2233. doi: 10.1109/JSSC.2021.3061508
    [35] LIN Zhiting, ZHU Zhiyong, ZHAN Honglan, et al. Two-direction in-memory computing based on 10T SRAM with horizontal and vertical decoupled read ports[J]. IEEE Journal of Solid-State Circuits, 2021, 56(9): 2832–2844. doi: 10.1109/JSSC.2021.3061260
    [36] FUJIWARA H, MORI H, ZHAO Weichang, et al. A 5-nm 254-TOPS/W 221-TOPS/mm2 fully-digital computing-in-memory macro supporting wide-range dynamic-voltage-frequency scaling and simultaneous MAC and write operations[C]. 2022 IEEE International Solid- State Circuits Conference, San Francisco, USA, 2022: 1–3.
    [37] YAN Bonan, HSU J L, YU Pangcheng, et al. A 1.041-Mb/mm2 27.38-TOPS/W signed-INT8 dynamic-logic-based ADC-less SRAM compute-in-memory macro in 28nm with reconfigurable bitwise operation for AI and embedded applications[C]. 2022 IEEE International Solid- State Circuits Conference, San Francisco, USA, 2022: 188–190.
    [38] 龚龙庆, 徐伟栋, 娄冕. SRAM存内计算技术综述[J]. 微电子学与计算机, 2021, 38(9): 1–7. doi: 10.19304/j.cnki.issn1000-7180.2021.09.001

    GONG Longqing, XU Weidong, and LOU Mian. An overview of SRAM in-memory computing[J]. Microelectronics &Computer, 2021, 38(9): 1–7. doi: 10.19304/j.cnki.issn1000-7180.2021.09.001
    [39] 周正, 丛瑛瑛. 存内计算技术发展趋势分析[J]. 信息通信技术与政策, 2019(9): 65–68. doi: 10.3969/j.issn.1008-9217.2019.09.016

    ZHOU Zheng and CONG Yingying. Analysis on the development trend of Computing in-memory[J]. Information and Communications Technology and Policy, 2019(9): 65–68. doi: 10.3969/j.issn.1008-9217.2019.09.016
    [40] 张章, 李超, 韩婷婷, 等. 基于忆阻器的感存算一体技术综述[J]. 电子与信息学报, 2021, 43(6): 1498–1509. doi: 10.11999/JEIT201102

    ZHANG Zhang, LI Chao, HAN Tingting, et al. Review of the fused technology of sensing, storage and computing based on memristor[J]. Journal of Electronics &Information Technology, 2021, 43(6): 1498–1509. doi: 10.11999/JEIT201102
  • 期刊类型引用(0)

    其他类型引用(4)

  • 加载中
图(12)
计量
  • 文章访问数:  2496
  • HTML全文浏览量:  1943
  • PDF下载量:  524
  • 被引次数: 4
出版历程
  • 收稿日期:  2022-06-21
  • 修回日期:  2022-12-10
  • 录用日期:  2022-12-20
  • 网络出版日期:  2022-12-23
  • 刊出日期:  2023-08-21

目录

/

返回文章
返回