高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

面向自旋存内计算架构的图算法优化设计

王雪岩 陈序航 贾小涛 杨建磊 屈钢 赵巍胜

贺利芳, 吴雪霜, 张天骐. 正交多用户短参考差分混沌移位键控通信系统性能分析[J]. 电子与信息学报, 2020, 42(10): 2445-2453. doi: 10.11999/JEIT190778
引用本文: 王雪岩, 陈序航, 贾小涛, 杨建磊, 屈钢, 赵巍胜. 面向自旋存内计算架构的图算法优化设计[J]. 电子与信息学报, 2023, 45(9): 3193-3199. doi: 10.11999/JEIT230371
Lifang HE, Xueshuang WU, Tianqi ZHANG. Performance Analysis of Orthogonal Multiuser Short Reference Differential Chaos Shift Keying Communication System[J]. Journal of Electronics & Information Technology, 2020, 42(10): 2445-2453. doi: 10.11999/JEIT190778
Citation: WANG Xueyan, CHEN Xuhang, JIA Xiaotao, YANG Jianlei, QU Gang, ZHAO Weisheng. Graph Algorithm Optimization for Spintronics-based In-memory Computing Architecture[J]. Journal of Electronics & Information Technology, 2023, 45(9): 3193-3199. doi: 10.11999/JEIT230371

面向自旋存内计算架构的图算法优化设计

doi: 10.11999/JEIT230371
基金项目: 国家自然科学基金(62004011, 62006011, U20A20204, 62072019)
详细信息
    作者简介:

    王雪岩:女,助理教授,研究方向为存算一体架构、图计算、芯片安全

    陈序航:男,硕士,研究方向为存算一体架构、图计算

    贾小涛:男,副教授,研究方向为贝叶斯神经网络、EDA算法设计

    杨建磊:男,副教授,研究方向为智能计算系统与芯片设计

    屈钢:男,教授,研究方向为硬件安全、低功耗设计

    赵巍胜:男,教授,研究方向为自旋电子芯片

    通讯作者:

    赵巍胜 weisheng.zhao@buaa.edu.cn

  • 中图分类号: TN402

Graph Algorithm Optimization for Spintronics-based In-memory Computing Architecture

Funds: The National Natural Science Foundation of China (62004011, 62006011, U20A20204, 62072019)
  • 摘要: 图计算广泛应用于社交网络分析、推荐系统等诸多关键领域,然而,传统的大规模图计算系统面临冯诺依曼架构下访存带来的性能瓶颈。新型存内计算架构成为加速大规模图计算非常有前景的方案,尤其是非易失自旋磁存储器(MRAM)具备超高耐擦写性和超快写入等优点,可使图计算的存内实现更为高效。实现这种潜力的关键挑战之一是如何优化存内计算架构下的图算法设计。该文的前期工作表明,三角形计数算法和图连通分量计算算法可以通过按位运算实现,从而高效地部署在自旋存内处理核中加速。该文探索了更多图算法的优化实现,例如单源最短路径、K-core、链路预测,并提出了面向新型存内计算架构的图算法优化设计模型。该研究对于突破冯诺依曼架构下大规模图计算的内存访问瓶颈具有关键意义。
  • 20世纪90年代,混沌同步现象首次被发现存在于两个耦合的系统中,这一突破性的发现为混沌理论应用于通信领域奠定了基础。此后,国内外众多学者开始研究混沌理论在通信领域的应用,混沌通信技术成为非线性动力学系统中的一个重要应用分支。混沌信号产生方式简单,具有初始条件极度敏感性、优良的频谱特性、高度随机性、非周期性以及良好的自(互)相关性等特性[1,2],在保密通信中具有较大应用价值[3-6]

    Kolumban等人于1996年提出第1种非相干混沌数字解调技术—差分混沌移位键控(Differential Chaos Shift Keying, DCSK)技术;后又针对DCSK中发送信号比特能量不恒定的问题,提出调频DCSK(Frequency Modulated DCSK, FM-DCSK)技术。DCSK和FM-DCSK都采用传输参考(Transmitted-Reference, T-R)模式,分时隙发送参考信号和信息信号,因此具有较好的误码性能,但也造成了系统的传输速率极低[7,8]。针对传输速率低的缺点,文献[9-12]以DCSK和FM-DCSK为基础提出改进方案,虽提高了传输速率,但也增加了系统复杂度。文献[13]以高效差分混沌移位键控(High Efficiency Differential Chaos Shift Keying, HE-DCSK)系统为基础进行改进,提出VHE-DCSK(Very High Efficiency Differential Chaos Shift Keying)系统,将信息信号延迟不同时间从而实现多用户传输。文献[14]提出多载波差分混沌移位键控(MultiCarrier Differential Chaos Shift Keying, MC-DCSK)系统,通过使用多个不同中心频率的载波来实现信息比特的并行传输。文献[15]提出短参倍速差分混沌键控(Short Reference Multifold Rate Differential Chaos Shift Keying, SRMR-DCSK)系统,增加单个信息时隙内传输的比特数用于提升系统的传输速率。

    Walsh码具有良好的正交特性和产生方式简单等优点,且Walsh码的引入不会过多地增加系统复杂度。为有效提升传输速率和能量效率,本文结合Walsh码的优良特性,提出一种OMU-SR-DCSK系统,将参考时隙缩短为信息时隙的1/P,并在参考时隙后增加两路连续的信息时隙,使得系统发送一帧共可传输2Nbit用户信息,Walsh码保证用户间完全正交,完全消除了相关运算时产生的用户间干扰,改善了系统误码性能。

    Hadamard矩阵中只包含“+1”和“–1”两种元素,Walsh函数码是一组同步正交码,故可由2n阶Hadamard矩阵产生,码序列构造为[16]

    W2n=[W2(n1)W2(n1)W2(n1)W2(n1)]
    (1)

    式(1)中,n=0,1,···, W20=[1]。矩阵的每行代表一个长度P 的Walsh码序列,P=2n

    图1为DCSK和OMU-SR-DCSK系统第k帧结构对比图。相比于DCSK系统,OMU-SR-DCSK系统将参考信号长度缩短为R(R=β/P),有效节省了时间和能量,其中,将扩频因子β定义为比特周期Ts和码片周期Tc的比值,为便于后文理论公式的推导,取Tc=1;此外,还将信息时隙由1路扩展为2路,每个信息时隙内,用户之间乘以不同的Walsh码wi,j加以区分,使得系统发送1帧共可传输2Nbit用户信息,从而提高了传输速率和能量效率,Walsh码的引入消除了用户间干扰项,改善了系统误码性能。

    图 1  OMU-SR-DCSK和DCSK系统第k帧结构对比图

    图2为OMU-SR-DCSK系统的发送机结构。首先由混沌信号发生器产生一段R长度的混沌序列xi,k,经重复P次后,其长度变为β。然后将这段长度为β的混沌序列延迟R,用于传输前N个用户的信息比特,每个用户分别与wi,j(j=1,2,···,N)相乘,后由加法器将前N个用户信息加和在第1个信息时隙内传输;同理,将这段长度为β的混沌序列延迟(P+1)R,用于传输后N个用户的信息比特,为每个用户分配一段Walsh码序列wi,j,后将这N个用户信息加和在第2个信息时隙内传输。则第k帧的发送信号si,k表达式为

    图 2  OMU-SR-DCSK系统发送机结构
    si,k={xi,k,0<iRNj=1wi,jbjxiR,k,R<i(P+1)RNj=1wi,jbN+jxi(P+1)R,k,  (P+1)R<i(2P+1)RxiR,kx0,k,od(R)
    (2)

    式(2)中,wi,j为第j和第N+j个用户所乘的Walsh码序列,bjbN+j分别为第j和第N+j个用户的信息比特,由si,k表达式计算平均比特能量Eb,OMUSRDCSK

    Eb,OMUSRDCSK=(1+2NP)RTcE(x2i,k)/(2N)
    (3)

    图3为OMU-SR-DCSK的接收机结构。解调端将接收信号ri,k延迟R,用于分离出前N个用户信息的参考信号;同理,延迟(P+1)R用于分离出后N个用户信息的参考信号;若要解调出信息比特bu(bN+u),需将接收信号ri,k与对应的Walsh码wi,u相乘,再与参考信号进行P次相关运算,则第k帧第u(u=1,2,···,N)个用户和第N+u个用户的相关器输出值ZuZN+u表示为

    图 3  OMU-SR-DCSK系统接收机结构
    Zu=Pp=1Ri=1ri,kriR,kwi,u
    (4)
    ZN+u=Pp=1Ri=1ri,kri(P+1)R,kwi,u
    (5)

    相关运算值Zu(ZN+u)经相关器输出后,再送入门限判决器进行判决,根据式(6)的判决准则,最终可恢复出信息信号bu(bN+u)。

    bu={+1,Zu01,Zu<0,bN+u={+1,ZN+u01,ZN+u<0
    (6)

    2阶Chebyshev映射作为最常用的产生混沌序列的混沌映射方程之一,且利用该映射产生的混沌序列拥有良好的数学统计特性。因此,OMU-SR-DCSK系统采用2阶Chebyshev映射产生混沌序列xi,k,并将其归一化。归一化后的混沌序列其均值为0,方差为1。

    多径Rayleigh衰落信道更接近于实际应用中的传输信道,因此采用两径Rayleigh衰落信道模型作为OMU-SR-DCSK系统信道模型,两径Rayleigh衰落信道模型如图4所示。

    图 4  两径Rayleigh衰落信道模型

    其中,ni,k是均值为0,方差为N0/2的加性高斯白噪声,τ是两个独立信道之间的延迟,α1α2代表两个独立的、服从Rayleigh分布的信道随机变量,其概率密度函数表示为

    f(α|σ)=(α/σ2)eα2/(2σ2),α>0
    (7)

    图4中Rayleigh信道传输后,接收信号ri,k的表达式可表示为

    ri,k=α1si,k+α2siτ,k+ni,k
    (8)

    由于第k帧第u个和第N+u个用户的解调方式相同,故以解调第k帧第u个用户的信息比特为例,分析OMU-SR-DCSK系统理论BER公式的推导过程。则相关运算值Zu的表达式可进一步表示为

    Zu=Pp=1Ri=1(ri,kriR,kwi,u)=Pp=1Ri=1((α1Nj=1wi,jbjxiR,k+α2Nj=1wi,jbjxiRτ,k+ni,P,k)(α1xiR,k+α2xiRτ,k+niR,k)wi,u)=A+B+C
    (9)
    A=Pp=1Ri=1(α21bux2iR,k+α22bux2iRτ,k)
    (10)
    B=Pp=1Ri=1(ni,P,kniR,kwi,u)
    (11)
    C=Pp=1Ri=1(α1xiR,kni,P,k+α21Nj=1,juwi,jbjxiR,kxiR,kwi,u+α22Nj=1,juwi,jbjxiRτ,kxiRτ,kwi,u+α2xiRτ,kni,P,k+α1α2Nj=1,juwi,jbjxiR,kxiRτ,kwi,u+α1Nj=1wi,jbjxiR,kniR,kwi,u+α2Nj=1wi,jbjxiRτ,kniR,kwi,u+2α1α2buxiR,kxiRτ,k+α1α2Nj=1,juwi,jbjxiRτ,kxiR,kwi,u)
    (12)

    假设Rayleigh衰落信道的延迟τ远远小于符号间隔,忽略不计τ的影响,有Ri=1xi,kxiτ,k0; ni,kni,p,k具有相同的统计特性,都是均值为0、方差为N0/2的高斯白噪声,其瞬时值服从高斯分布;ni,kxi,k之间相互独立,且当ij时,ni,knj,k之间也相互独立;系统等概率发送二进制信息“+1”和“–1”。

    基于以上假设,当扩频因子足够大时,Zu近似服从高斯分布,故采用高斯近似法推导OMU-SR-DCSK在Rayleigh衰落信道和AWGN信道下的理论BER公式,对式(9)计算均值和方差得

    E[Zu]=E[A]+E[B]+E[C]=(α21+α22)PR
    (13)
    Var[Zu]=Var[A]+Var[B]+Var[C]=12(α21+α22)(NP+1)PRN0+14PRN20
    (14)
    BER[Zu]=12Pr(Zu<0|bu=+1)+12Pr(Zu0|bu=1)=12erfc(|E[Zu]|2Var[Zu])
    (15)

    其中,E[]表示数学期望运算,Var[]表示方差运算,erfc(x)=2xeμ2dμ/π为互补误差函数。将式(13)和式(14)代入式(15),计算第k帧第u个用户的BER公式为

    BER(Zu)=12erfc([|E[Zu]|2Var[Zu]])=12erfc([(NP+1)(2NP+1)2NP(α21+α22)(EbN0)1+(2NP+1)2R8PN2(α21+α22)2(EbN0)2]12)
    (16)

    从而可得到OMU-SR-DCSK系统的瞬时BER公式为

    BER(α1,α2)=12erfc([|E[Zj]|2Var[Zj]])=12erfc([(NP+1)(2NP+1)2NP(α21+α22)(EbN0)1+(2NP+1)2R8PN2(α21+α22)2(EbN0)2]12)
    (17)

    γ1=α21(Eb/N0),γ2=α22(Eb/N0),γb=γ1+γ2,则式(17)可进一步化简为

    BER(γb)=12erfc([(NP+1)(2NP+1)2NP(γb)1+(2NP+1)2R8PN2(γb)2]12)
    (18)

    ˉγ1=E[γ1]=(Eb/N0)E[α21],ˉγ2=E[γ2]=(Eb/N0)E[α22], ˉγ1ˉγ2服从式(19)的卡方分布

    f(γ)=eγ/ˉγ/ˉγ,γ0
    (19)

    因此γb=γ1+γ2服从式(20)的卡方分布

    f(γb)={(eγb/ˉγ1γb)/ˉγ21,E[α21]=E[α22](eγb/ˉγ1eγb/ˉγ2)/(ˉγ1γ2)E[α21]E[α22]
    (20)

    由于信道参数是持续变化的,因此采用式(21)得到OMU-SR-DCSK在Rayleigh衰落信道下的BER公式为

    BER=0BER(γb)f(γb)dγb=012erfc([(NP+1)(2NP+1)2NP(γb)1+(2NP+1)2R8PN2(γb)2]12)f(γb)dγb
    (21)

    令式(17)中α1=1,α2=0,得到AWGN信道下的BER公式为

    BER=12erfc([(NP+1)(2NP+1)2NP(EbN0)1+(2NP+1)2R8PN2(EbN0)2]12)
    (22)

    计算OMU-SR-DCSK和DCSK的传输速率ROMUSRDCSK=2N/((R+2β)Tc)RDCSK=1/(2βTc),平均比特能量Eb,OMUSRDCSK=(1+2NP)RTcE(x2i,k)/(2N)Eb,DCSK=2βTcE(x2i,k),并分别将其代入式(23)和式(24),得到OMU-SR-DCSK相比于DCSK的传输速率提升百分比Rd和节省比特能量的百分比EB

    Rd=ROMUSRDCSKRDCSKRDCSK×100%=4Nβ(2β+R)2β+R×100%
    (23)
    EB=Eb,DCSKEb,OMU-SR-DCSKEb,DCSK×100%=4Nβ(1+2NP)R4Nβ×100%
    (24)

    图5图6中分别分析了[P,N]=[4,2],[4,4]时,RdEB的曲线。曲线表明:OMU-SR-DCSK相比于DCSK,极大程度上提升了传输速率,节约了比特能量。从式(23)和式(24)可以看出:当R=β时,传输速率提高百分比Rd只与用户数2N有关,比特能量节约百分比EB只与用户数2N和重复次数P有关。

    图 5  传输速率提升百分比Rd
    图 6  比特能量节省百分比EB

    图7图8分别为DCSK和OMU-SR-DCSK的平方幅度谱。图7中,在归一化的比特频率为奇数时,DCSK的平方幅度为零,这是由于DCSK的信息信号只与参考信号同相或反相,从而导致了DCSK的安全性很低。而OMU-SR-DCSK的信息信号是N个信号的加和,且其参考时隙和信息时隙不等长,从图8中也可以发现,OMU-SR-DCSK的平方幅度谱具有类噪声性,证实了OMU-SR-DCSK的安全性很高。

    图 7  DCSK的平方幅度谱
    图 8  OMU-SR-DCSK的平方幅度谱

    本节将在AWGN信道和两径Rayleigh衰落信道下对OMU-SR-DCSK系统进行仿真,验证理论BER公式推导的正确性,为确保仿真结果的准确性,仿真值均是在106次仿真结果取平均值的前提下得到的。

    图9为各项参数取值[R,N,P]=[64,2,2],[128,2,2],[256,2,2] 时,系统BER随Eb/N0变化的曲线,理论值和仿真值的良好契合验证了理论BER公式推导的准确无误性。图中显示R=64时系统BER明显优于R=128时的BER,这是由于R的增加导致信号间干扰增多,从而导致系统误码性能恶化。

    图 9  R不同时BER随Eb/N0变化的曲线

    图10[R,N,P]=[128,1,4],[128,2,4],[128,4,4]时,系统BER随Eb/N0变化的曲线。RP一定,在Eb/N010dB的情况下,不同N值对应的BER值基本吻合,而当Eb/N0>12dB时,BER随着N的增加而增加。据此可见:Eb/N0较低的情况下,用户数变化不足以影响BER,此时扩频因子和重复次数为主要决定因素,而Eb/N0较高的情况下,用户数成为误码性能恶化的主要影响因素。

    图 10  N不同时BER随Eb/N0变化的曲线

    图11[R,N,P]=[128,4,1],[128,4,2],[128,4,4]时,系统BER随Eb/N0变化的曲线。RN一定,当Eb/N06dB时,不同P值对应的BER值基本吻合,而当Eb/N0>7dB时,BER随着P的增加而增加。与N变化对BER的影响类似,在Eb/N0较低的情况下,P值变化对误码性能的影响微乎其微,扩频因子和用户数为主要决定因素,而在Eb/N0大于某个定值时,误码性能随着P值的增加呈现恶化的趋势。区别于N值变化对系统误码性能影响的是:重复次数的变化对系统误码性能的影响更为显著。

    图 11  P不同时BER随Eb/N0变化的曲线

    图12图13Eb/N0=10dB,14dB, NP取不同数值时,系统BER随R变化的曲线。根据图中曲线可以发现:Eb/N0越大误码性能越佳,且当Eb/N0一定时,系统误码性能随着R的增加呈现恶化的趋势,最后趋于一个定值,而P值变化会影响这一定值,N值变化却不会影响这一定值。

    图 12  Eb/N0,P不同时BER随R变化的曲线
    图 13  Eb/N0,N不同时BER随R变化的曲线

    表1中对比了OMU-SR-DCSK, SRMR-DCSK, VHE-DCSK和MC-DCSK系统的传输速率和能量效率,假设这几种系统的β都相等。与长参考系统VHE-DCSK和短参考系统SRMR-DCSK相比,OMU-SR-DCSK的能量效率和传输速率都较优,而与多用户并行传输系统MC-DCSK相比,OMU-SR-DCSK采用多用户串行传输的方法,其能量效率虽优于MC-DCSK,但传输速率却远低于MC-DCSK。

    表 1  OMU-SR-DCSK, SRMR-DCSK, VHE-DCSK和MC-DCSK系统的能量效率及传输速率
    系统名称传输速率(RB)能量效率(Eη)
    OMU-SR-DCSK2N/(R+2β)2Nβ/(R+2Nβ)
    SRMR-DCSKN/(R+β)Nβ/(R+Nβ)
    VHE-DCSKN/(2β)N/(1+N)
    MC-DCSKN/βN/(1+N)
    下载: 导出CSV 
    | 显示表格

    为进一步分析表1中对比的几种系统的误码性能,图14中对比了AWGN信道下这几种系统的BER曲线。假设所有系统传输的信息比特数都相等,且β也相等。观察图中BER曲线,当Eb/N011dB时,OMU-SR-DCSK, MC-DCSK和SRMR-DCSK的误码率基本相等,且都优于VHE-DCSK的误码率。但当Eb/N0>11dB时,MC-DCSK的误码性能最优,其次是OMU-SR-DCSK。虽然OMU-SR-DCSK的误码性能差于多用户并行传输系统,但是相比于其他两种多用户串行传输系统,其误码性能较优。

    图 14  AWNG信道下不同系统间误码性能对比

    本小节将在两径Rayleigh衰落信道下分析了OMU-SR-DCSK的误码性能。图15R不同时,两种不同增益情况下的OMU-SR-DCSK系统BER曲线,其中,情况1为等增益情况,平均信道增益取值为:E[|α1|2]=E[|α2|2]=1/2,情况2为非等增益的情况,平均信道增益取值为:E[|α1|2]=1/5,E[|α2|2]=4/5。与AWGN信道下仿真类似,BER随着R增大而增大,且等增益情况下系统误码性能总是优于非等增益情况下的误码性能。

    图 15  OMU-SR-DCSK系统在两种增益下的性能比较

    图16中对比了表1中几种系统的误码性能。当Eb/N0较小时,OMU-SR-DCSK和SRMR-DCSK的误码率基本相等,都略优于MC-DCSK。但随着信噪比的增加,MC-DCSK的误码率逐渐降低,最后都优于其他几种系统,与AWGN信道下的对比结果一致,相比于其他两种多用户串行传输系统,OMU-SR-DCSK的误码性能最优。

    图 16  不同系统在等增益情况下的性能比较

    本文提出的OMU-SR-DCSK缩短了参考信号的长度,虽然会造成信噪比降低,从而影响系统的误码性能,但同时也提升了系统的传输速率、能量效率和安全性。此外,通过引入构造简单的Walsh码消除了用户间干扰,改善了OMU-SR-DCSK的误码性能,弥补了信噪比降低对系统误码性能造成的影响。通过仿真验证了OMU-SR-DCSK在传输速率和能量效率方面的优势,从而为其应用于多用户串行传输系统提供了理论依据。本文只分析了两路延迟线的情况,后续可扩展为M条延迟线,更大程度上提升系统的传输速率和能量效率;此外,将OMU-SR-DCSK与多载波技术结合,实现多用户并行传输也是后续需要研究的内容。

  • 图  1  基于MRAM的图计算存内加速架构

    图  2  基于位逻辑运算优化实现单源最短路径

    图  3  基于位逻辑运算优化实现链路预测算法

    图  4  图计算存内加速架构实现与CPU实现的能耗标准化结果对比

    表  1  图算法存内计算优化模型

    图计算步骤边计算社区发现结构预测
    连通分量计算[15]单源最短路径三角形计数[12]K-core链路预测
    目标定位逻辑操作(AND)逻辑操作(AND)Scan(A[i][j]=1)Scan(每行)行选择
    属性汇聚逻辑操作(OR)加法逻辑操作(AND)位计数(Bitcount)逻辑操作(AND/OR)
    计算更新Bitcount比较比较Bitcount比较删除顶点Bitcount除法
    下载: 导出CSV

    表  2  MTJ关键参数

    参数参数
    磁性隧道结表面长度40 nm隧道磁电阻100%
    磁性隧道结表面宽度40 nm饱和场106 A/m
    自旋霍尔角0.3吉尔伯特阻尼常数0.03
    磁性隧道结电阻面积乘积10–12 Ω·m2垂直磁各向异性4.5×105 A/m
    氧化物阻挡层厚度0.82 nm温度300 K
    下载: 导出CSV

    表  3  图计算存内加速架构实现与CPU实现速度对比(s)

    图数据集单源最短路径K-core链路预测
    CPUPIMCPUPIMCPUPIM
    p2p-Gnutella060.0630.00140.1870.0060.0010.00012
    p2p-Gnutella311.1870.0211.0840.0310.0020.00016
    email-Enron2.9720.0711.3830.0560.0010.00010
    email-EuAll2.8260.0813.8320.1930.0030.00041
    soc-Slashdot092210.9890.20310.1370.2410.0020.00017
    web-NotreDame12.5670.18443.9750.7540.0050.00037
    amazon030217.8370.32914.3920.3810.0020.00013
    amazon050538.6080.56550.6321.6490.0030.00043
    下载: 导出CSV
  • [1] CHI Ping, LI Shuangchen, XU Cong, et al. PRIME: A novel processing-in-memory architecture for neural network computation in ReRAM-based main memory[J]. ACM SIGARCH Computer Architecture News, 2016, 44(3): 27–39. doi: 10.1145/3007787.3001140
    [2] OZDAL M M, YESIL S, KIM T, et al. Energy efficient architecture for graph analytics accelerators[J]. ACM SIGARCH Computer Architecture News, 2016, 44(3): 166–177. doi: 10.1145/3007787.3001155
    [3] HAM T J, WU Lisa, SUNDARAM N, et al. Graphicionado: A high-performance and energy-efficient accelerator for graph analytics[C]. 2016 49th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO), Taipei, China, 2016: 1–13.
    [4] KYROLA A, BLELLOCH G, and GUESTRIN C. GraphChi: Large-scale graph computation on just a PC[C]. Proceedings of the 10th USENIX conference on Operating Systems Design and Implementation, Hollywood, USA, 2012: 31–46.
    [5] LIANG Shengwen, WANG Ying, LIU Cheng, et al. EnGN: A high-throughput and energy-efficient accelerator for large graph neural networks[J]. IEEE Transactions on Computers, 2021, 70(9): 1511–1525. doi: 10.1109/TC.2020.3014632
    [6] DAI Guohao, HUANG Tianhao, CHI Yuze, et al. GraphH: A processing-in-memory architecture for large-scale graph processing[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2018, 38(4): 640–653. doi: 10.1109/TCAD.2018.2821565
    [7] BEAMER S, ASANOVIC K, and PATTERSON D. Locality exists in graph processing: Workload characterization on an ivy bridge server[C]. 2015 IEEE International Symposium on Workload Characterization, Atlanta, USA, 2015: 56–65.
    [8] WANG Mengxing, CAI Wenlong, ZHU Daoqian, et al. Field-free switching of a perpendicular magnetic tunnel junction through the interplay of spin-orbit and spin-transfer torques[J]. Nature Electronics, 2018, 1(11): 582–588. doi: 10.1038/s41928-018-0160-7
    [9] GUO Zongxia, YIN Jialiang, BAI Yue, et al. Spintronics for energy-efficient computing: An overview and outlook[J]. Proceedings of the IEEE, 2021, 109(8): 1398–1417. doi: 10.1109/JPROC.2021.3084997
    [10] JAIN S, RANJAN A, ROY K, et al. Computing in memory with spin-transfer torque magnetic RAM[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 2018, 26(3): 470–483. doi: 10.1109/TVLSI.2017.2776954
    [11] ANGIZI S, SUN Jiao, ZHANG Wei, et al. GraphS: A graph processing accelerator leveraging SOT-MRAM[C]. 2019 Design, Automation & Test in Europe Conference & Exhibition (DATE), Florence, Italy, 2019: 378–383.
    [12] WANG Xueyan, YANG Jianlei, ZHAO Yinglin, et al. Triangle counting accelerations: From algorithm to in-memory computing architecture[J]. IEEE Transactions on Computers, 2022, 71(10): 2462–2472. doi: 10.1109/TC.2021.3131049
    [13] LI Shuangchen, XU Cong, ZOU Qiaosha, et al. Pinatubo: A processing-in-memory architecture for bulk bitwise operations in emerging non-volatile memories[C]. The 53rd ACM/EDAC/IEEE Design Automation Conference, Austin, USA, 2016: 1–6.
    [14] HAN Lei, SHEN Zhaoyan, LIU Duo, et al. A novel ReRAM-based processing-in-memory architecture for graph traversal[J]. ACM Transactions on Storage, 2018, 14(1): 9. doi: 10.1145/3177916
    [15] CHEN Xuhang, WANG Xueyan, JIA Xiaotao, et al. Accelerating graph-connected component computation with emerging processing-in-memory architecture[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2022, 41(12): 5333–5342. doi: 10.1109/TCAD.2022.3163628
    [16] PEROZZI B, AL-RFOU R, and SKIENA S. DeepWalk: Online learning of social representations[C]. The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, USA, 2014: 701–710.
    [17] LESKOVEC J and KREVL A. SNAP Datasets: Stanford large network dataset collection[EB/OL]. http://snap.stanford.edu/data, 2014.
  • 加载中
图(4) / 表(3)
计量
  • 文章访问数:  505
  • HTML全文浏览量:  235
  • PDF下载量:  95
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-05-04
  • 修回日期:  2023-07-19
  • 网络出版日期:  2023-07-25
  • 刊出日期:  2023-09-27

目录

/

返回文章
返回