任意多层介质波导本征值问题的网络分析
NETWORK ANALYSIS OF EIGENVALUE PROBLEMS FOR MULTILAYER DIELECTRIC WAVEGUIDE CONSISTING OF ARBITRARY NUMBER OF LAYERS
-
摘要: 本文用微波网络的方法求解了任意多层介质波导的本征值问题;编制了一个分析N层介质波导色散特性和电磁场分布,并具有计算机图形功能的通用程序。通过对非对称多层介质波导场分布的实例分析,形象地说明了介质分支波导中模式转换和分裂的过程,并讨论了模式转换的一般规则。
-
关键词:
- 介质波导; 微波网络分析法; CAA
Abstract: In this paper, the eigenvalue problems of multilayer dielectric waveguide consisting of arbitrary number of layers are solved by microwave network method. A general program with the function of computer graphics has been made for analyzing the dispersion characteristics and the electromagnetic field distribution of N layer dielectic waveguide. As an example of practical applications, the procedure of mode conversion and separation in delectric branching waveguide is vividly demostrated through analyzing the field distribution of asymmetric dielectic structure and the general rules of mode conversion are discussed. -
1. 引言
作为乘法、除法、乘方和开方等算术运算的主要基本单元,乘法器是图像处理、信号处理和人工智能等领域数学运算的重要组成部分[1–3]。然而,在传统的冯·诺依曼架构中,数据在存储和计算单元之间频繁调用,极大地影响了计算速度、面积和功耗。另一方面,随着位宽增加,运算的复杂度呈指数增长,乘法器功耗和延迟逐级增加,严重影响其计算效率。近年来,基于新型非易失性存储器实现的存内计算架构可在存储单元内进行运算操作,能够有效解决冯·诺依曼瓶颈,在大数据处理、实时分析、高性能计算等方面具有广泛的应用前景[4–6]。
乘法器具有不同的结构类型,包括移位加法乘法器[7]、阵列乘法器、达达乘法器[8]、基于实质蕴涵逻辑的半串行乘法器[9]、进位保留加法移位实现的乘法器[10]和华莱士树乘法器[11]。其中,华莱士树乘法器将乘法操作拆解为不同部分进行并行计算,进而减少逻辑深度,优化运算延迟。华莱士树乘法器的整个运算过程包括部分积生成、部分积压缩,以及最终的求和3个阶段,其中后两个阶段都被转化为全加运算。此外,相较于 “与”门、“或”门和“异或”门等逻辑原语[12],多数决定逻辑门在算术密集型电路中更为高效[11,13]。
目前,基于非易失性存储器交叉阵列的存内计算吸引了研究者们的研究兴趣。基于自旋电子技术的磁存储器件具有非易失、低功耗、抗辐照、高速读写等优点,有望成为克服“后摩尔时代”功耗瓶颈的关键技术之一。然而尽管该技术具有诸多优点和大规模商业化的前景,但开发用于存内计算的磁随机存储器(Magnetoresistive Random-Acess Memory, MRAM)交叉阵列仍然具有挑战性[14,15],困难源于MRAM较低的阻值分布与电阻窗口。近年来, Jung等人[16]提出了一种用于存内计算的磁电阻存储器件交叉阵列结构,通过感测电阻和的方式,克服了电流求和方案功耗较高的问题,为基于MRAM的存内计算架构提供更多实现方案。同时,随着自旋电子学的发展,研究者们提出了一种电压调控自旋轨道矩(Spin-Orbit Torque, SOT)磁随机存储器(SOT-MRAM)[17–21]。利用反铁磁/铁磁结构的自旋轨道矩和交换偏置场实现垂直磁矩的无磁场翻转,同时利用电压调控磁各向异性效应降低磁化翻转时的能量势垒,最终实现低功耗的电压调控SOT-MRAM。综上,本文将设计一种基于电压调控 SOT-MRAM的存内华莱士树乘法器。本文的主要贡献为:
(1)本文提出一种基于电压调控SOT -MRAM的阵列结构。它由3个晶体管和1个电压调控SOT器件构成存储单元,同一列单元串联连接。此外,在60 nm CMOS工艺节点进行了电路仿真与布局。
(2)基于(1)中的电压调控 SOT-MRAM交叉阵列结构,本文提出一种基于5输入多数决定逻辑门的存内华莱士树乘法器设计方案。与之前的研究工作相比,它显著降低了乘法器延迟,尤其是在大位宽的情况下。
本文的余下部分按以下形式组织:第2节介绍基于电压调控SOT器件交叉阵列的读操作中实现多数决定逻辑门的方案,并提出基于该阵列的内存计算架构;第3节详细讨论所提出的存内华莱士树乘法器的实现过程,并将输入拓展到n位;第4节展示本文实验结果的对比分析;第5节总结。
2. 基于电压调控SOT器件交叉阵列多数决定逻辑门的读操作
2.1 电压调控 SOT器件交叉阵列
三端电压调控SOT器件结构如图1所示,它包含一个垂直型磁隧道结单元。磁隧道结单元由被一层超薄氧化薄膜阻挡层(如MgO)分隔的两层铁磁薄膜(如CoFeB)组成,并堆叠在金属反铁磁薄膜层(如IrMn)上。被称为固定层的铁磁薄膜层磁化方向固定(+Z方向),而被称为自由层的铁磁薄膜层磁化方向可逆。当写入电流(ISOT)沿着+X方向流经具有强自旋轨道耦合的反铁磁性(AntiFerroMagnetism, AFM) 金属薄膜层时,由于自旋霍尔效应的存在,将会产生沿着+Y方向的自旋积累和沿着+Z方向的自旋流。然后自由层的磁化方向将被这个自旋流翻转。由于AFM金属薄膜提供的交换偏置作用,零场作用下的SOT翻转能够实现。此外,通过在该垂直磁隧道结单元上施加适当方向的外加电场(Vg),结合电压调控磁各向异性(Voltage-Controlled Magnetic Anisotropy, VCMA)效应,可以有效降低界面磁各向异性的能量势垒,在施加较小的写电流时即可完成快速切换,有望被用于设计高速、低功耗MRAM。
近年来,通过综合静态隧穿磁阻模型、隧穿磁阻率模型、磁动力学模型等[18,19],研究者们采用verilog-A语言建立了基于三端电压调控SOT的垂直磁隧道结紧凑模型。利用表1中提供的器件及工艺参数,实现了零场条件SOT作用的磁化翻转。图2展示了ISOT和Vg共同作用下沿着Z方向磁化翻转(mz)随时间的演化趋势。自由层可以是平行态(1)或反平行态(–1)的,它取决于两个铁磁薄膜层的相对磁化方向。通过引入VCMA效应,可将引起自由层磁化方向翻转的临界ISOT降低至6 μA。电调控型SOT磁隧道结单元在自由层反平行时呈现出高电阻态(HRS, RAP = 662.08 kΩ ) ,在平行时为低电阻态(LRS, RP = 331.04 kΩ)。两种状态可以在3 ns内切换,功耗在fJ量级。
表 1 电压调控SOT磁隧道结模型参数参数 名称 数值 tf 自由层厚度(nm) 1.1 to MgO层厚度(nm) 1.4 TMR 在无偏置电压时TMR比(%) 100% d, l, w AFM的厚度、长度、宽度(nm) 3, 50, 60 D MTJ的直径(nm) 50 ρch 电阻率(μΩ·cm) 160 θSHE 自旋霍尔角 0.25 R·A 电阻与面积乘积(Ω·μm2) 650 Hex 交换偏置(Oe) –180 β VCMA参数(fJ/V·M) 60 图3展示了本文提出的基于电压调控SOT器件的交叉阵列结构。存储阵列中的每个子单元由3个晶体管和1个垂直磁隧道结组成。每一列中相邻的单元串联连接。通过激活相应的WLan,WLbn,以及在单元两端(BLn,SLan,SLbn)施加控制信号,可进行单个单元的读取或写入。当同时激活WLa1和WLbn时,多个电压调控SOT磁隧结单元串联连接,组成电阻累加支路,每条支路上的等效电阻等于该支路上所有被选中单元的电阻之和。
2.2 电压调控SOT器件交叉阵列的多数决定逻辑门电路
在存内计算系统的研究中,研究者们采用了不同的布尔逻辑进行运算,如“与非”(NAND)、“或非”(NOR)和“异或”(XOR)等。多数决定门(MAJority, MAJ)逻辑运算指在输入信号1/2以上为“1”时,输出为“1”,反之输出为“0”,多数决定门逻辑可由与/或逻辑表示为M(a,b,c)=ab+ac+bc。最近的研究结果表明,多数决定逻辑门能以较少的逻辑深度实现1位加法器[11,13]。因此,选择多数决定逻辑门作为存内计算的逻辑基元,可以减少算术密集型电路中逻辑门的数量,并最大限度地减少延迟。
本文在以上建立的电压调控SOT器件交叉阵列中通过读操作实现多数决定逻辑门,如图4所示。当WLa1和WLb5同时被激活时,5个电压调控SOT单元串联连接,由于晶体管的漏极到源极的电阻与电压调控SOT磁隧道结单元的电阻相比可忽略不计。因此串联支路的有效电阻(Reff)可表示为Reff=Ra+Rb+Rc+Rd+Re。当3个及以上单元处于HRS时,Reff≥2648.32 kΩ,当3个及以上单元在LRS时,Reff≤2317.28 kΩ。因此,多数决定逻辑门运算结果可通过精确地感测Reff来实现。由于感知放大器需要通过区分331.04 kΩ的电阻窗口来实现5输入多数决定逻辑门,因此一个关键组件是如何将Reff精确转换为与外围电路兼容的电压。在传统方案中,研究者们普遍研究了电压和电流感知模式。然而最近的研究中,研究者们提出了一种基于时间的感知放大器[13,22,23],它将BL电压转换为时间延迟,并在时域内进行区分。图4中 WLa1和WLb5被激活,同时SL接地。BL达到基于Reff的电压VBL。VBL将导致VD分别在TLRS和THRS处上升到高电平。TDM(决策时刻)在THRS和TLRS之间。对于R00111,VD在THRS前变高,而对于R00011而言,VD在TLRS之后变高。因此,对于高电阻R00111,SA输出为“1”,低电阻R00011,SA输出为“0”。该基于时间的阻值感测电路被设计用于区分3个高阻输入和2个高阻输入的情况,对应所有输入情况均可正确识别。
如图5所示,基于以上电压调控SOT器件交叉阵列的存内计算系统由读电路、写电路、行选择电路、列选择电路和内存控制器组成。每一列配备单独的感知放大器(Sense Amplifier, SA),不同列可并行执行多数决定逻辑门,在执行高位乘法时更为有效。
3. 基于电压调控SOT器件多数决定逻辑门的存内华莱士树乘法器设计
3.1 4 × 4 华莱士树乘法器
华莱士树乘法器可分为部分积生成(I)、部分积压缩(II)、求和阶段(III)3个部分,图6描述了4 × 4华莱士树乘法的运算过程。为了将两个4位输入值a3 a2 a1 a0和b3 b2 b1 b0相乘,首先在阶段I中通过“与”门来生成每一位的部分积。随后将部分积分组并相加得到和值s01~s04,以及进位值c01~c04。在阶段II中,将阶段I中的未分组的部分积与和值、进位值相加。第I阶段和第II阶段分别有4个并行加法,每个阶段的并行加法由一个矩形黄色框表示,得到的进位值与和值分别由蓝色和红色值表示。在最后阶段III中,部分积a3 b3与阶段II的和s11~s14和进位c11~c14合为一组,使用4位并行前缀加法器(Ladner Fischer结构)来加速加法过程[11],并产生具有最低延迟的乘积结果。
这3个阶段中所有的运算操作均由5输入多数决定门配置得到。部分积生成阶段可以配置为ab=M(a,b,0,0,1)。部分积压缩过程的第1阶段和第2阶段使用由多数决定逻辑门配置的全加器并行执行。在接下来的步骤中,使用产生的和值及进位值作为输入来执行加法,通过5输入多数逻辑门配置全加器运算,进位值、和值均可通过单一逻辑门实现。其中的进位值co=M(a,b,c,0,1),和值s=M(a,b,c,¯co,¯co),整个乘法器的执行过程均由5输入多数决定门实现,避免了中间值的产生以及存取。每个阶段的加法延迟相当于一个1位全加器的延迟,即4个读写周期的延迟。在最终阶段使用4位并行前缀加法器加速加法 [11,24,25]。
图7描述了对应图6中的华莱士树乘法器在基于电压调控SOT器件的存储阵列中的映射情况。每一列中的绿色部分表示在该阶段执行多数决定逻辑门的5个存储单元。由于每一列都配备了单独的感测单元,不同列可并行执行逻辑操作。红色值为该阶段写入的数据,蓝色值为多数决定逻辑门运算操作对应的输出值,暂存在SA的锁存器当中。每一个步骤中,相同行的写回操作也是并行执行的,因此至多需要4个周期来将输出值写回至指定位置。如图8所示,当输入为A = 1011和B = 1101时,运算结果在260 ns时特定列的SA处得到。相应的结果是y7 y6 y5 y4 y3 y2 y1 y0 = 10001111,这证明了4 × 4 华莱士树乘法器的可行性。
电压调控SOT器件交叉阵列中4 × 4华莱士树乘法器的的映射如图8所示。由于在读操作时执行多数决定逻辑门运算,运行结果为感测电路的输出(电压),因此多数决定逻辑门运算操作后需紧跟一个写回操作转换器件状态作为下一级多数决定逻辑门的输入。特别地,为了便于生成部分积以及进位值,需要额外写入全“1”行。要相乘的两个数字(a3 a2 a1 a0和b3 b2 b1 b0)按照图6中的规则排列在存储器阵列中。
3.2 n × n 华莱士树乘法器
本节将所提华莱士树乘法器扩展到n位。对应的n × n 华莱士树乘法器所需存储阵列的大小增长为7×[n2+6log2(n/4)]。n位华莱士树乘法器的部分积压缩阶段数量为log2(n2/4),并且每一级中具有两个5输入多数决定逻辑门。部分积压缩阶段的多数逻辑门级数为2log2(n2/4)。计算的延迟可以公式化为:
(1)部分积生成阶段中,需要额外写入全为“1”的行,用以执行3输入多数决定逻辑门以及与门。不同列可以同时进行多数决定逻辑门读操作,随后最多需要4个周期来写回4行。该阶段需要5个时钟周期。
(2)每一个部分积压缩阶段的延迟与1次5输入多数决定逻辑门加法操作相同,因此需要5log2(n2/4)个时钟周期。
(3)最后一级为2(n−log2n)位并行前缀加法器。由于内存中n位并行前缀加法器共需4log2n+6个周期 [13],所需的时钟周期数可计算为4log2[2(n−log2n)]+5。
存内n × n 华莱士树乘法所需的周期总数为5log2(n2/4)+4log2[2(n−log2 n)]+10。
4. 仿真结果
如图9所示,对所提出的华莱士树乘法器在60 nm CMOS工艺节点下进行了8 kbit 的电压调控SOT-MRAM版图布局。表2为所提出的基于电压调控SOT-MRAM多数决定逻辑门的4 × 4(n × n)存内乘法器与已发表研究工作的对比情况。通过多数决定逻辑门读操作实现存内华莱士树乘法器,证实了基于电压调控SOT-MRAM进行存内数学运算的可行性。
表 2 不同类型的乘法器计算延迟(cycles)和单元占用单元数量对比文献 4 × 4 n × n 机器周期 占用单元 机器周期 占用单元 [26] 195 200 15n 2 – 11n – 1 15n 2 – 9n – 1 [27] 158 75 13n 2 – 14n + 6 20n – 5 [10] 139 49 n log2 n + 14n + 3 14n – 7 [9] 102 38 (log2 n) (10n + 2) + 4n + 2 2n 2 + n + 2 [11] 32 128 6 log2 (n 2/4) + 4 [log2 2(n – log2 n)] + (n – 2) (log2 n – 2)+ 10 8n2 + 48 log2 (n/4) 本文 28 112 5 log2 (n 2/4) + 4 log2 [2(n – log2 n)] + 10 7n2 + 42 log2 (n/4) 表2展示了不同类型的乘法器计算延迟和单元占用单元数量。当执行n × n乘法运算时,本文所提出的华莱士树乘法器的延迟分别比文献[26]中的延迟小89.7%,比文献[27]中的延迟少37.5%,为存内乘法运算提供了最佳延迟,并且延迟随着位宽n呈O(log2 n)增长,如图10所示。与文献[11]相比,本文所提的华莱士树乘法器在部分积压缩和最终求和阶段中,全加操作的“进位”和“求和”均由一个5输入多数决定逻辑门得到,省去了中间值的写入和读取过程,阵列中的操作步骤减少了30%。此外由于每次选中的存储单元均分布在相同行,这也简化了每一个步骤的寻址操作,如图11所示。对于4 × 4乘法运算,单次EREAD约为1.394 pJ,EWRITE约为1.268 pJ,总能耗为312.900 pJ,所需的机器周期比文献[11]中的乘法器降低3倍。以上实验结果表明,当执行大位宽乘法运算时,本文提出的基于电压调控SOT器件多数决定逻辑门运算的华莱士树乘法器性能更优。
5. 结论
本文提出一种通过串联结构实现电阻求和的电压调控SOT-MRAM存内计算系统,并通过5输入多数决定逻辑门进行华莱士树乘法器的延迟优化。通过判断相同列中选定单元的电阻和,将多数决定逻辑门蕴含在阵列的读操作中。同时得益于电压调控SOT器件的快速切换特性,本文提出的华莱士树乘法器在进行大位宽乘法运算时,具有更优的延迟性能。
-
S. T. Peng and A. A. Oliner, IEEE Trans. on MTT, MTT-29(1981), 843.[2]S. T. Peng, S. J. Xu and F. K. Schwering, Scattering of Surface Wave by Non-uniform Dielectric Wave-guides, IEEE International Microwave Symposium, St, Louis, MO, U. S. A. June 1985, pp 627.[3]S. T. Xu, S. T. Peng and F. K. Schwering, Effest of Transition Waveguides on Dielectric Waveguide Directional Coupler, IEEE International Microwave Symposium, Baltimore, MO. U. S. A. June 1986. -
计量
- 文章访问数: 1958
- HTML全文浏览量: 98
- PDF下载量: 642
- 被引次数: 0