高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于电压调控自旋轨道矩器件多数决定逻辑门的存内华莱士树乘法器设计

惠亚娟 李青朕 王雷敏 刘成

惠亚娟, 李青朕, 王雷敏, 刘成. 基于电压调控自旋轨道矩器件多数决定逻辑门的存内华莱士树乘法器设计[J]. 电子与信息学报, 2024, 46(6): 2673-2680. doi: 10.11999/JEIT230815
引用本文: 惠亚娟, 李青朕, 王雷敏, 刘成. 基于电压调控自旋轨道矩器件多数决定逻辑门的存内华莱士树乘法器设计[J]. 电子与信息学报, 2024, 46(6): 2673-2680. doi: 10.11999/JEIT230815
Li Zhen-Yu, Liang Yi, Xing Meng-Dao, Bao Zheng. A Frequency Phase Filtering Imaging Algorithm for Highly Squint Missile-borne Synthetic Aperture Radar with Subaperture[J]. Journal of Electronics & Information Technology, 2015, 37(4): 953-960. doi: 10.11999/JEIT140618
Citation: HUI Yajuan, LI Qingzhen, WANG Leimin, LIU Cheng. In-memory Wallace Tree Multipliers Based on Majority Gates with Voltage Gated Spin-Orbit Torque Magnetoresistive Random Access Memory Devices[J]. Journal of Electronics & Information Technology, 2024, 46(6): 2673-2680. doi: 10.11999/JEIT230815

基于电压调控自旋轨道矩器件多数决定逻辑门的存内华莱士树乘法器设计

doi: 10.11999/JEIT230815
基金项目: 国家自然科学基金 (62104217)
详细信息
    作者简介:

    惠亚娟:女,副教授,研究方向为自旋器件及存储计算融合电路设计

    李青朕:男,硕士生,研究方向为自旋器件及存储计算融合电路设计

    王雷敏:男,教授,研究方向为忆阻电路设计及忆阻神经网络应用

    刘成:男,副研究员,研究方向为计算机体系结构,容错计算

    通讯作者:

    惠亚娟 huiyj@cug.edu.cn

  • 中图分类号: TN43

In-memory Wallace Tree Multipliers Based on Majority Gates with Voltage Gated Spin-Orbit Torque Magnetoresistive Random Access Memory Devices

Funds: The National Natural Science Foundation of China (62104217)
  • 摘要: 在使用新型非易失性存储阵列进行存内计算的研究中,存内乘法器的延迟往往随着位宽的增加呈指数增长,严重影响计算性能。该文设计一种电压调控自旋轨道矩磁随机存储器(VGSOT-MRAM)单元交叉阵列,并提出一种存内华莱士树乘法器的电路设计方法。所提串联存储单元结构通过电阻求和的方式,有效解决磁存储器单元阻值较低的问题;其次提出基于电压调控自旋轨道矩磁存储器单元交叉阵列的存内计算架构,利用在“读”操作期间实现的5输入多数决定逻辑门,进一步降低华莱士树乘法器的逻辑深度。与现有乘法器设计方法相比,所提方法延迟开销从O(n2)降低为O(log2 n),在大位宽时延迟更低。
  • 作为乘法、除法、乘方和开方等算术运算的主要基本单元,乘法器是图像处理、信号处理和人工智能等领域数学运算的重要组成部分[13]。然而,在传统的冯·诺依曼架构中,数据在存储和计算单元之间频繁调用,极大地影响了计算速度、面积和功耗。另一方面,随着位宽增加,运算的复杂度呈指数增长,乘法器功耗和延迟逐级增加,严重影响其计算效率。近年来,基于新型非易失性存储器实现的存内计算架构可在存储单元内进行运算操作,能够有效解决冯·诺依曼瓶颈,在大数据处理、实时分析、高性能计算等方面具有广泛的应用前景[46]

    乘法器具有不同的结构类型,包括移位加法乘法器[7]、阵列乘法器、达达乘法器[8]、基于实质蕴涵逻辑的半串行乘法器[9]、进位保留加法移位实现的乘法器[10]和华莱士树乘法器[11]。其中,华莱士树乘法器将乘法操作拆解为不同部分进行并行计算,进而减少逻辑深度,优化运算延迟。华莱士树乘法器的整个运算过程包括部分积生成、部分积压缩,以及最终的求和3个阶段,其中后两个阶段都被转化为全加运算。此外,相较于 “与”门、“或”门和“异或”门等逻辑原语[12],多数决定逻辑门在算术密集型电路中更为高效[11,13]

    目前,基于非易失性存储器交叉阵列的存内计算吸引了研究者们的研究兴趣。基于自旋电子技术的磁存储器件具有非易失、低功耗、抗辐照、高速读写等优点,有望成为克服“后摩尔时代”功耗瓶颈的关键技术之一。然而尽管该技术具有诸多优点和大规模商业化的前景,但开发用于存内计算的磁随机存储器(Magnetoresistive Random-Acess Memory, MRAM)交叉阵列仍然具有挑战性[14,15],困难源于MRAM较低的阻值分布与电阻窗口。近年来, Jung等人[16]提出了一种用于存内计算的磁电阻存储器件交叉阵列结构,通过感测电阻和的方式,克服了电流求和方案功耗较高的问题,为基于MRAM的存内计算架构提供更多实现方案。同时,随着自旋电子学的发展,研究者们提出了一种电压调控自旋轨道矩(Spin-Orbit Torque, SOT)磁随机存储器(SOT-MRAM)[1721]。利用反铁磁/铁磁结构的自旋轨道矩和交换偏置场实现垂直磁矩的无磁场翻转,同时利用电压调控磁各向异性效应降低磁化翻转时的能量势垒,最终实现低功耗的电压调控SOT-MRAM。综上,本文将设计一种基于电压调控 SOT-MRAM的存内华莱士树乘法器。本文的主要贡献为:

    (1)本文提出一种基于电压调控SOT -MRAM的阵列结构。它由3个晶体管和1个电压调控SOT器件构成存储单元,同一列单元串联连接。此外,在60 nm CMOS工艺节点进行了电路仿真与布局。

    (2)基于(1)中的电压调控 SOT-MRAM交叉阵列结构,本文提出一种基于5输入多数决定逻辑门的存内华莱士树乘法器设计方案。与之前的研究工作相比,它显著降低了乘法器延迟,尤其是在大位宽的情况下。

    本文的余下部分按以下形式组织:第2节介绍基于电压调控SOT器件交叉阵列的读操作中实现多数决定逻辑门的方案,并提出基于该阵列的内存计算架构;第3节详细讨论所提出的存内华莱士树乘法器的实现过程,并将输入拓展到n位;第4节展示本文实验结果的对比分析;第5节总结。

    三端电压调控SOT器件结构如图1所示,它包含一个垂直型磁隧道结单元。磁隧道结单元由被一层超薄氧化薄膜阻挡层(如MgO)分隔的两层铁磁薄膜(如CoFeB)组成,并堆叠在金属反铁磁薄膜层(如IrMn)上。被称为固定层的铁磁薄膜层磁化方向固定(+Z方向),而被称为自由层的铁磁薄膜层磁化方向可逆。当写入电流(ISOT)沿着+X方向流经具有强自旋轨道耦合的反铁磁性(AntiFerroMagnetism, AFM) 金属薄膜层时,由于自旋霍尔效应的存在,将会产生沿着+Y方向的自旋积累和沿着+Z方向的自旋流。然后自由层的磁化方向将被这个自旋流翻转。由于AFM金属薄膜提供的交换偏置作用,零场作用下的SOT翻转能够实现。此外,通过在该垂直磁隧道结单元上施加适当方向的外加电场(Vg),结合电压调控磁各向异性(Voltage-Controlled Magnetic Anisotropy, VCMA)效应,可以有效降低界面磁各向异性的能量势垒,在施加较小的写电流时即可完成快速切换,有望被用于设计高速、低功耗MRAM。

    图 1  电压调控SOT 器件结构示意图

    近年来,通过综合静态隧穿磁阻模型、隧穿磁阻率模型、磁动力学模型等[18,19],研究者们采用verilog-A语言建立了基于三端电压调控SOT的垂直磁隧道结紧凑模型。利用表1中提供的器件及工艺参数,实现了零场条件SOT作用的磁化翻转。图2展示了ISOTVg共同作用下沿着Z方向磁化翻转(mz)随时间的演化趋势。自由层可以是平行态(1)或反平行态(–1)的,它取决于两个铁磁薄膜层的相对磁化方向。通过引入VCMA效应,可将引起自由层磁化方向翻转的临界ISOT降低至6 μA。电调控型SOT磁隧道结单元在自由层反平行时呈现出高电阻态(HRS, RAP = 662.08 kΩ ) ,在平行时为低电阻态(LRS, RP = 331.04 kΩ)。两种状态可以在3 ns内切换,功耗在fJ量级。

    表 1  电压调控SOT磁隧道结模型参数
    参数 名称 数值
    tf 自由层厚度(nm) 1.1
    to MgO层厚度(nm) 1.4
    TMR 在无偏置电压时TMR比(%) 100%
    d, l, w AFM的厚度、长度、宽度(nm) 3, 50, 60
    D MTJ的直径(nm) 50
    ρch 电阻率(μΩ·cm) 160
    θSHE 自旋霍尔角 0.25
    R·A 电阻与面积乘积(Ω·μm2) 650
    Hex 交换偏置(Oe) –180
    β VCMA参数(fJ/V·M) 60
    下载: 导出CSV 
    | 显示表格
    图 2  VG-SOT MTJ在ISOTVg共同作用下的切换情况

    图3展示了本文提出的基于电压调控SOT器件的交叉阵列结构。存储阵列中的每个子单元由3个晶体管和1个垂直磁隧道结组成。每一列中相邻的单元串联连接。通过激活相应的WLan,WLbn,以及在单元两端(BLn,SLan,SLbn)施加控制信号,可进行单个单元的读取或写入。当同时激活WLa1和WLbn时,多个电压调控SOT磁隧结单元串联连接,组成电阻累加支路,每条支路上的等效电阻等于该支路上所有被选中单元的电阻之和。

    图 3  基于电压调控SOT器件的交叉阵列

    在存内计算系统的研究中,研究者们采用了不同的布尔逻辑进行运算,如“与非”(NAND)、“或非”(NOR)和“异或”(XOR)等。多数决定门(MAJority, MAJ)逻辑运算指在输入信号1/2以上为“1”时,输出为“1”,反之输出为“0”,多数决定门逻辑可由与/或逻辑表示为M(a,b,c)=ab+ac+bc。最近的研究结果表明,多数决定逻辑门能以较少的逻辑深度实现1位加法器[11,13]。因此,选择多数决定逻辑门作为存内计算的逻辑基元,可以减少算术密集型电路中逻辑门的数量,并最大限度地减少延迟。

    本文在以上建立的电压调控SOT器件交叉阵列中通过读操作实现多数决定逻辑门,如图4所示。当WLa1和WLb5同时被激活时,5个电压调控SOT单元串联连接,由于晶体管的漏极到源极的电阻与电压调控SOT磁隧道结单元的电阻相比可忽略不计。因此串联支路的有效电阻(Reff)可表示为Reff=Ra+Rb+Rc+Rd+Re。当3个及以上单元处于HRS时,Reff2648.32 kΩ,当3个及以上单元在LRS时,Reff2317.28 kΩ。因此,多数决定逻辑门运算结果可通过精确地感测Reff来实现。由于感知放大器需要通过区分331.04 kΩ的电阻窗口来实现5输入多数决定逻辑门,因此一个关键组件是如何将Reff精确转换为与外围电路兼容的电压。在传统方案中,研究者们普遍研究了电压和电流感知模式。然而最近的研究中,研究者们提出了一种基于时间的感知放大器[13,22,23],它将BL电压转换为时间延迟,并在时域内进行区分。图4中 WLa1和WLb5被激活,同时SL接地。BL达到基于Reff的电压VBLVBL将导致VD分别在TLRSTHRS处上升到高电平。TDM(决策时刻)在THRSTLRS之间。对于R00111VDTHRS前变高,而对于R00011而言,VDTLRS之后变高。因此,对于高电阻R00111,SA输出为“1”,低电阻R00011,SA输出为“0”。该基于时间的阻值感测电路被设计用于区分3个高阻输入和2个高阻输入的情况,对应所有输入情况均可正确识别。

    图 4  基于电压调控SOT器件的5输入多数决定逻辑门电路示意图

    图5所示,基于以上电压调控SOT器件交叉阵列的存内计算系统由读电路、写电路、行选择电路、列选择电路和内存控制器组成。每一列配备单独的感知放大器(Sense Amplifier, SA),不同列可并行执行多数决定逻辑门,在执行高位乘法时更为有效。

    图 5  基于电压调控SOT器件交叉阵列的存内计算系统架构

    华莱士树乘法器可分为部分积生成(I)、部分积压缩(II)、求和阶段(III)3个部分,图6描述了4 × 4华莱士树乘法的运算过程。为了将两个4位输入值a3 a2 a1 a0b3 b2 b1 b0相乘,首先在阶段I中通过“与”门来生成每一位的部分积。随后将部分积分组并相加得到和值s01s04,以及进位值c01c04。在阶段II中,将阶段I中的未分组的部分积与和值、进位值相加。第I阶段和第II阶段分别有4个并行加法,每个阶段的并行加法由一个矩形黄色框表示,得到的进位值与和值分别由蓝色和红色值表示。在最后阶段III中,部分积a3 b3与阶段II的和s11s14和进位c11c14合为一组,使用4位并行前缀加法器(Ladner Fischer结构)来加速加法过程[11],并产生具有最低延迟的乘积结果。

    图 6  4 × 4华莱士树乘法器运算原理

    这3个阶段中所有的运算操作均由5输入多数决定门配置得到。部分积生成阶段可以配置为ab=M(a,b,0,0,1)。部分积压缩过程的第1阶段和第2阶段使用由多数决定逻辑门配置的全加器并行执行。在接下来的步骤中,使用产生的和值及进位值作为输入来执行加法,通过5输入多数逻辑门配置全加器运算,进位值、和值均可通过单一逻辑门实现。其中的进位值co=M(a,b,c,0,1),和值s=M(a,b,c,¯co,¯co),整个乘法器的执行过程均由5输入多数决定门实现,避免了中间值的产生以及存取。每个阶段的加法延迟相当于一个1位全加器的延迟,即4个读写周期的延迟。在最终阶段使用4位并行前缀加法器加速加法 [11,24,25]

    图7描述了对应图6中的华莱士树乘法器在基于电压调控SOT器件的存储阵列中的映射情况。每一列中的绿色部分表示在该阶段执行多数决定逻辑门的5个存储单元。由于每一列都配备了单独的感测单元,不同列可并行执行逻辑操作。红色值为该阶段写入的数据,蓝色值为多数决定逻辑门运算操作对应的输出值,暂存在SA的锁存器当中。每一个步骤中,相同行的写回操作也是并行执行的,因此至多需要4个周期来将输出值写回至指定位置。如图8所示,当输入为A = 1011和B = 1101时,运算结果在260 ns时特定列的SA处得到。相应的结果是y7 y6 y5 y4 y3 y2 y1 y0 = 10001111,这证明了4 × 4 华莱士树乘法器的可行性。

    图 7  4 × 4华莱士树乘法器运算到存储单元的映射规则

    电压调控SOT器件交叉阵列中4 × 4华莱士树乘法器的的映射如图8所示。由于在读操作时执行多数决定逻辑门运算,运行结果为感测电路的输出(电压),因此多数决定逻辑门运算操作后需紧跟一个写回操作转换器件状态作为下一级多数决定逻辑门的输入。特别地,为了便于生成部分积以及进位值,需要额外写入全“1”行。要相乘的两个数字(a3 a2 a1 a0b3 b2 b1 b0)按照图6中的规则排列在存储器阵列中。

    图 8  输入为A = 1011和B = 1101时,基于电压调控SOT器件多数决定逻辑门的存内华莱士树乘法器仿真结果

    本节将所提华莱士树乘法器扩展到n位。对应的n × n 华莱士树乘法器所需存储阵列的大小增长为7×[n2+6log2(n/4)]n位华莱士树乘法器的部分积压缩阶段数量为log2(n2/4),并且每一级中具有两个5输入多数决定逻辑门。部分积压缩阶段的多数逻辑门级数为2log2(n2/4)。计算的延迟可以公式化为:

    (1)部分积生成阶段中,需要额外写入全为“1”的行,用以执行3输入多数决定逻辑门以及与门。不同列可以同时进行多数决定逻辑门读操作,随后最多需要4个周期来写回4行。该阶段需要5个时钟周期。

    (2)每一个部分积压缩阶段的延迟与1次5输入多数决定逻辑门加法操作相同,因此需要5log2(n2/4)个时钟周期。

    (3)最后一级为2(nlog2n)位并行前缀加法器。由于内存中n位并行前缀加法器共需4log2n+6个周期 [13],所需的时钟周期数可计算为4log2[2(nlog2n)]+5

    存内n × n 华莱士树乘法所需的周期总数为5log2(n2/4)+4log2[2(nlog2 n)]+10

    图9所示,对所提出的华莱士树乘法器在60 nm CMOS工艺节点下进行了8 kbit 的电压调控SOT-MRAM版图布局。表2为所提出的基于电压调控SOT-MRAM多数决定逻辑门的4 × 4(n × n)存内乘法器与已发表研究工作的对比情况。通过多数决定逻辑门读操作实现存内华莱士树乘法器,证实了基于电压调控SOT-MRAM进行存内数学运算的可行性。

    图 9  电压调控SOT-MRAM的版图布局
    表 2  不同类型的乘法器计算延迟(cycles)和单元占用单元数量对比
    文献4 × 4 n × n
    机器周期占用单元机器周期占用单元
    [26]19520015n 2 – 11n – 115n 2 – 9n – 1
    [27]1587513n 2 – 14n + 620n – 5
    [10]13949n log2 n + 14n + 314n – 7
    [9]10238(log2 n) (10n + 2) + 4n + 22n 2 + n + 2
    [11]321286 log2 (n 2/4) + 4 [log2 2(n – log2 n)] + (n – 2) (log2 n – 2)+ 108n2 + 48 log2 (n/4)
    本文281125 log2 (n 2/4) + 4 log2 [2(n – log2 n)] + 107n2 + 42 log2 (n/4)
    下载: 导出CSV 
    | 显示表格

    表2展示了不同类型的乘法器计算延迟和单元占用单元数量。当执行n × n乘法运算时,本文所提出的华莱士树乘法器的延迟分别比文献[26]中的延迟小89.7%,比文献[27]中的延迟少37.5%,为存内乘法运算提供了最佳延迟,并且延迟随着位宽nO(log2 n)增长,如图10所示。与文献[11]相比,本文所提的华莱士树乘法器在部分积压缩和最终求和阶段中,全加操作的“进位”和“求和”均由一个5输入多数决定逻辑门得到,省去了中间值的写入和读取过程,阵列中的操作步骤减少了30%。此外由于每次选中的存储单元均分布在相同行,这也简化了每一个步骤的寻址操作,如图11所示。对于4 × 4乘法运算,单次EREAD约为1.394 pJ,EWRITE约为1.268 pJ,总能耗为312.900 pJ,所需的机器周期比文献[11]中的乘法器降低3倍。以上实验结果表明,当执行大位宽乘法运算时,本文提出的基于电压调控SOT器件多数决定逻辑门运算的华莱士树乘法器性能更优。

    图 10  不同类型的乘法器的延迟随乘数位宽增加的变化对比
    图 11  5输入与3输入多数决定逻辑门构成全加器的映射对比

    本文提出一种通过串联结构实现电阻求和的电压调控SOT-MRAM存内计算系统,并通过5输入多数决定逻辑门进行华莱士树乘法器的延迟优化。通过判断相同列中选定单元的电阻和,将多数决定逻辑门蕴含在阵列的读操作中。同时得益于电压调控SOT器件的快速切换特性,本文提出的华莱士树乘法器在进行大位宽乘法运算时,具有更优的延迟性能。

  • 图  1  电压调控SOT 器件结构示意图

    图  2  VG-SOT MTJ在ISOTVg共同作用下的切换情况

    图  3  基于电压调控SOT器件的交叉阵列

    图  4  基于电压调控SOT器件的5输入多数决定逻辑门电路示意图

    图  5  基于电压调控SOT器件交叉阵列的存内计算系统架构

    图  6  4 × 4华莱士树乘法器运算原理

    图  7  4 × 4华莱士树乘法器运算到存储单元的映射规则

    图  8  输入为A = 1011和B = 1101时,基于电压调控SOT器件多数决定逻辑门的存内华莱士树乘法器仿真结果

    图  9  电压调控SOT-MRAM的版图布局

    图  10  不同类型的乘法器的延迟随乘数位宽增加的变化对比

    图  11  5输入与3输入多数决定逻辑门构成全加器的映射对比

    表  1  电压调控SOT磁隧道结模型参数

    参数 名称 数值
    tf 自由层厚度(nm) 1.1
    to MgO层厚度(nm) 1.4
    TMR 在无偏置电压时TMR比(%) 100%
    d, l, w AFM的厚度、长度、宽度(nm) 3, 50, 60
    D MTJ的直径(nm) 50
    ρch 电阻率(μΩ·cm) 160
    θSHE 自旋霍尔角 0.25
    R·A 电阻与面积乘积(Ω·μm2) 650
    Hex 交换偏置(Oe) –180
    β VCMA参数(fJ/V·M) 60
    下载: 导出CSV

    表  2  不同类型的乘法器计算延迟(cycles)和单元占用单元数量对比

    文献4 × 4 n × n
    机器周期占用单元机器周期占用单元
    [26]19520015n 2 – 11n – 115n 2 – 9n – 1
    [27]1587513n 2 – 14n + 620n – 5
    [10]13949n log2 n + 14n + 314n – 7
    [9]10238(log2 n) (10n + 2) + 4n + 22n 2 + n + 2
    [11]321286 log2 (n 2/4) + 4 [log2 2(n – log2 n)] + (n – 2) (log2 n – 2)+ 108n2 + 48 log2 (n/4)
    本文281125 log2 (n 2/4) + 4 log2 [2(n – log2 n)] + 107n2 + 42 log2 (n/4)
    下载: 导出CSV
  • [1] PARHAMI B. Computer Arithmetic: Algorithms and Hardware Designs[M]. New York: Oxford University Press, 2000.
    [2] JIANG Honglan, ANGIZI S, FAN Deliang, et al. Non-volatile approximate arithmetic circuits using scalable hybrid spin-CMOS majority gates[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2021, 68(3): 1217–1230. doi: 10.1109/TCSI.2020.3044728.
    [3] CAI Hao, GUO Yanan, LIU Bo, et al. Proposal of analog in-memory computing with magnified tunnel magnetoresistance ratio and universal STT-MRAM cell[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2022, 69(4): 1519–1531. doi: 10.1109/TCSI.2022.3140769.
    [4] ZHOU Feichi and CHAI Yang. Near-sensor and in-sensor computing[J]. Nature Electronics, 2020, 3(11): 664–671. doi: 10.1038/s41928-020-00501-9.
    [5] YUE Zhiheng, WANG Yabing, QIN Yubin, et al. BR-CIM: An efficient binary representation computation-in-memory design[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2022, 69(10): 3940–3953. doi: 10.1109/TCSI.2022.3185135.
    [6] WANG Jinkai, BAI Yining, WANG Hongyu, et al. Reconfigurable bit-serial operation using toggle SOT-MRAM for high-performance computing in memory architecture[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2022, 69(11): 4535–4545. doi: 10.1109/TCSI.2022.3192165.
    [7] GUCKERT L and SWARTZLANDER E E. Optimized memristor-based multipliers[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2017, 64(2): 373–385. doi: 10.1109/TCSI.2016.2606433.
    [8] GUCKERT L and SWARTZLANDER E E. Dadda multiplier designs using memristors[C]. 2017 IEEE International Conference on IC Design and Technology (ICICDT), Austin, USA, 2017: 1–4. doi: 10.1109/ICICDT.2017.7993521.
    [9] RADAKOVITS D, TAHERINEJAD N, CAI Mengye, et al. A memristive multiplier using semi-serial IMPLY-based adder[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2020, 67(5): 1495–1506. doi: 10.1109/TCSI.2020.2965935.
    [10] LEITERSDORF O, RONEN R, and KVATINSKY S. MultPIM: Fast stateful multiplication for processing-in-memory[J]. IEEE Transactions on Circuits and Systems II:Express Briefs, 2022, 69(3): 1647–1651. doi: 10.1109/TCSII. 2021.3118215.
    [11] LAKSHMI V, REUBEN J, and PUDI V. A novel in-memory wallace tree multiplier architecture using majority logic[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2022, 69(3): 1148–1158. doi: 10.1109/TCSI.2021.3129827.
    [12] KIM Y S, SON M W, and KIM K M. Memristive stateful logic for edge Boolean computers[J]. Advanced Intelligent Systems, 2021, 3(7): 2000278. doi: 10.1002/aisy.202000278.
    [13] REUBEN J and PECHMANN S. Accelerated addition in resistive RAM array using parallel-friendly majority gates[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 2021, 29(6): 1108–1121. doi: 10.1109/TVLSI.2021.3068470.
    [14] SHREYA S, VERMA G, PIRAMANAYAGAM S N, et al. Energy-efficient all-spin BNN using voltage-controlled spin-orbit torque device for digit recognition[J]. IEEE Transactions on Electron Devices, 2021, 68(1): 385–392. doi: 10.1109/TED.2020.3038140.
    [15] SHREYA S, JAIN A, and KAUSHIK B K. Computing-in-memory architecture using energy-efficient multilevel voltage-controlled spin-orbit torque device[J]. IEEE Transactions on Electron Devices, 2020, 67(5): 1972–1979. doi: 10.1109/TED.2020.2978085.
    [16] JUNG S, LEE H, MYUNG S, et al. A crossbar array of magnetoresistive memory devices for in-memory computing[J]. Nature, 2022, 601(7892): 211–216. doi: 10.1038/s41586-021-04196-6.
    [17] WU Y C, GARELLO K, KIM W, et al. Voltage-gate-assisted spin-orbit-torque magnetic random-access memory for high-density and low-power embedded applications[J]. Physical Review Applied, 2021, 15(6): 064015. doi: 10.1103/PhysRevApplied.15.064015.
    [18] JIANG Linjun, DENG Erya, ZHANG He, et al. A spintronic in-memory computing network for efficient hamming codec implementation[J]. IEEE Transactions on Circuits and Systems II:Express Briefs, 2022, 69(4): 2086–2090. doi: 10.1109/TCSII.2022.3144678.
    [19] ZHANG Kaili, ZHANG Deming, WANG Chengzhi, et al. Compact modeling and analysis of voltage-gated spin-orbit torque magnetic tunnel junction[J]. IEEE Access, 2020, 8: 50792–50800. doi: 10.1109/ACCESS.2020.2980073.
    [20] WU Bi, ZHU Haonan, CHEN Ke, et al. MLiM: High-performance magnetic logic in-memory scheme with unipolar switching SOT-MRAM[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2023, 70(6): 2412–2424. doi: 10.1109/TCSI.2023.3254607.
    [21] WU Bi, WANG Chao, WANG Zhaohao, et al. Field-free 3T2SOT MRAM for non-volatile cache memories[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2020, 67(12): 4660–4669. doi: 10.1109/TCSI.2020.3020798.
    [22] ZHANG Xueyong, AN B K, and KIM T T H. A robust time-based multi-level sensing circuit for resistive memory[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2023, 70(1): 340–352. doi: 10.1109/TCSI.2022.3211989.
    [23] TRINH Q K, RUOCCO S, and ALIOTO M. Time-based sensing for reference-less and robust read in STT-MRAM memories[J]. IEEE Transactions on Circuits and Systems I:Regular Papers, 2018, 65(10): 3338–3348. doi: 10.1109/TCSI.2018.2828611.
    [24] LI Wei, YANG Yang, YAN Hao, et al. Three-input majority logic gate and multiple input logic circuit based on DNA strand displacement[J]. Nano Letters, 2013, 13(6): 2980–2988. doi: 10.1021/nl4016107.
    [25] AHMADPOUR S S, MOSLEH M, and RASOULI HEIKALABAD S. Robust QCA full-adders using an efficient fault-tolerant five-input majority gate[J]. International Journal of Circuit Theory and Applications, 2019, 47(7): 1037–1056. doi: 10.1002/cta.2634.
    [26] IMANI M, GUPTA S, and ROSING T. Ultra-efficient processing in-memory for data intensive applications[C]. The 54th Annual Design Automation Conference 2017, Austin, USA, 2017: 6. doi: 10.1145/3061639.3062337.
    [27] HAJ-ALI A, BEN-HUR R, WALD N, et al. Efficient algorithms for in-memory fixed point multiplication using magic[C]. 2018 IEEE International Symposium on Circuits and Systems (ISCAS), Florence, Italy, 2018: 1–5. doi: 10.1109/ISCAS.2018.8351561.
  • 加载中
图(11) / 表(2)
计量
  • 文章访问数:  600
  • HTML全文浏览量:  344
  • PDF下载量:  69
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-08-01
  • 修回日期:  2023-11-26
  • 网络出版日期:  2023-11-29
  • 刊出日期:  2024-06-30

目录

/

返回文章
返回