Graph Algorithm Optimization for Spintronics-based In-memory Computing Architecture
-
摘要: 图计算广泛应用于社交网络分析、推荐系统等诸多关键领域,然而,传统的大规模图计算系统面临冯诺依曼架构下访存带来的性能瓶颈。新型存内计算架构成为加速大规模图计算非常有前景的方案,尤其是非易失自旋磁存储器(MRAM)具备超高耐擦写性和超快写入等优点,可使图计算的存内实现更为高效。实现这种潜力的关键挑战之一是如何优化存内计算架构下的图算法设计。该文的前期工作表明,三角形计数算法和图连通分量计算算法可以通过按位运算实现,从而高效地部署在自旋存内处理核中加速。该文探索了更多图算法的优化实现,例如单源最短路径、K-core、链路预测,并提出了面向新型存内计算架构的图算法优化设计模型。该研究对于突破冯诺依曼架构下大规模图计算的内存访问瓶颈具有关键意义。Abstract: Graph computing has been widely applied to emerging fields such as social network analysis and recommendation systems. However, large-scale graph computing under the traditional Von-Neumann architecture faces the memory access bottleneck. The newly developed in-memory computing architecture becomes a promising alternative for accelerating graph computing. Due to its ultra-high endurance and ultra-fast writing speed, non-volatile Magnetoresistive Random Access Memory (MRAM) has the potential in building efficient in-memory accelerators. One of the key challenges to achieve such potential is how to optimize the graph algorithm design under the in-memory computing architecture. Our previous work shows that the triangle counting algorithms and graph connected component computing algorithms can be implemented with bitwise operations, which enables efficient spintronics in-memory computations. In this paper, the optimized implementation of more graph algorithms is explored such as single-source shortest path, K-core and link prediction, and an optimized design model of graph algorithms for the new in-memory computing architecture based is proposed. This research is of key significance for the breakthrough of solving the memory access bottleneck in large-scale graph computing under the Von Neumann architecture.
-
1. 引言
20世纪90年代,混沌同步现象首次被发现存在于两个耦合的系统中,这一突破性的发现为混沌理论应用于通信领域奠定了基础。此后,国内外众多学者开始研究混沌理论在通信领域的应用,混沌通信技术成为非线性动力学系统中的一个重要应用分支。混沌信号产生方式简单,具有初始条件极度敏感性、优良的频谱特性、高度随机性、非周期性以及良好的自(互)相关性等特性[1,2],在保密通信中具有较大应用价值[3-6]。
Kolumban等人于1996年提出第1种非相干混沌数字解调技术—差分混沌移位键控(Differential Chaos Shift Keying, DCSK)技术;后又针对DCSK中发送信号比特能量不恒定的问题,提出调频DCSK(Frequency Modulated DCSK, FM-DCSK)技术。DCSK和FM-DCSK都采用传输参考(Transmitted-Reference, T-R)模式,分时隙发送参考信号和信息信号,因此具有较好的误码性能,但也造成了系统的传输速率极低[7,8]。针对传输速率低的缺点,文献[9-12]以DCSK和FM-DCSK为基础提出改进方案,虽提高了传输速率,但也增加了系统复杂度。文献[13]以高效差分混沌移位键控(High Efficiency Differential Chaos Shift Keying, HE-DCSK)系统为基础进行改进,提出VHE-DCSK(Very High Efficiency Differential Chaos Shift Keying)系统,将信息信号延迟不同时间从而实现多用户传输。文献[14]提出多载波差分混沌移位键控(MultiCarrier Differential Chaos Shift Keying, MC-DCSK)系统,通过使用多个不同中心频率的载波来实现信息比特的并行传输。文献[15]提出短参倍速差分混沌键控(Short Reference Multifold Rate Differential Chaos Shift Keying, SRMR-DCSK)系统,增加单个信息时隙内传输的比特数用于提升系统的传输速率。
Walsh码具有良好的正交特性和产生方式简单等优点,且Walsh码的引入不会过多地增加系统复杂度。为有效提升传输速率和能量效率,本文结合Walsh码的优良特性,提出一种OMU-SR-DCSK系统,将参考时隙缩短为信息时隙的
1/P ,并在参考时隙后增加两路连续的信息时隙,使得系统发送一帧共可传输2Nbit 用户信息,Walsh码保证用户间完全正交,完全消除了相关运算时产生的用户间干扰,改善了系统误码性能。2. OMU-SR-DCSK系统原理
Hadamard矩阵中只包含“+1”和“–1”两种元素,Walsh函数码是一组同步正交码,故可由
2n 阶Hadamard矩阵产生,码序列构造为[16]W2n=[W2(n−1)W2(n−1)W2(n−1)−W2(n−1)] (1) 式(1)中,
n=0,1,··· ,W20=[1] 。矩阵的每行代表一个长度P 的Walsh码序列,P=2n 。图1为DCSK和OMU-SR-DCSK系统第k帧结构对比图。相比于DCSK系统,OMU-SR-DCSK系统将参考信号长度缩短为
R(R=β/P) ,有效节省了时间和能量,其中,将扩频因子β 定义为比特周期Ts 和码片周期Tc 的比值,为便于后文理论公式的推导,取Tc=1 ;此外,还将信息时隙由1路扩展为2路,每个信息时隙内,用户之间乘以不同的Walsh码wi,j 加以区分,使得系统发送1帧共可传输2Nbit 用户信息,从而提高了传输速率和能量效率,Walsh码的引入消除了用户间干扰项,改善了系统误码性能。图2为OMU-SR-DCSK系统的发送机结构。首先由混沌信号发生器产生一段R长度的混沌序列
xi,k ,经重复P 次后,其长度变为β 。然后将这段长度为β 的混沌序列延迟R,用于传输前N个用户的信息比特,每个用户分别与wi,j(j=1,2,···,N) 相乘,后由加法器将前N个用户信息加和在第1个信息时隙内传输;同理,将这段长度为β 的混沌序列延迟(P+1)R ,用于传输后N个用户的信息比特,为每个用户分配一段Walsh码序列wi,j ,后将这N个用户信息加和在第2个信息时隙内传输。则第k帧的发送信号si,k 表达式为si,k={xi,k,0<i≤RN∑j=1wi,jbjxi−R,k,R<i≤(P+1)RN∑j=1wi,jbN+jxi−(P+1)R,k, (P+1)R<i≤(2P+1)Rxi−R,k≡x0,k,od(R) (2) 式(2)中,
wi,j 为第j和第N+j个用户所乘的Walsh码序列,bj 和bN+j 分别为第j和第N+j个用户的信息比特,由si,k 表达式计算平均比特能量Eb,OMU−SR−DCSK 为Eb,OMU−SR−DCSK=(1+2NP)RTcE(x2i,k)/(2N) (3) 图3为OMU-SR-DCSK的接收机结构。解调端将接收信号
ri,k 延迟R,用于分离出前N个用户信息的参考信号;同理,延迟(P+1)R 用于分离出后N个用户信息的参考信号;若要解调出信息比特bu (bN+u ),需将接收信号ri,k 与对应的Walsh码wi,u 相乘,再与参考信号进行P次相关运算,则第k帧第u(u=1,2,···,N) 个用户和第N+u个用户的相关器输出值Zu 和ZN+u 表示为Zu=P∑p=1R∑i=1ri,kri−R,kwi,u (4) ZN+u=P∑p=1R∑i=1ri,kri−(P+1)R,kwi,u (5) 相关运算值
Zu (ZN+u )经相关器输出后,再送入门限判决器进行判决,根据式(6)的判决准则,最终可恢复出信息信号bu (bN+u )。bu={+1,Zu≥0−1,Zu<0,bN+u={+1,ZN+u≥0−1,ZN+u<0 (6) 3. OMU-SR-DCSK系统性能分析
2阶Chebyshev映射作为最常用的产生混沌序列的混沌映射方程之一,且利用该映射产生的混沌序列拥有良好的数学统计特性。因此,OMU-SR-DCSK系统采用2阶Chebyshev映射产生混沌序列
xi,k ,并将其归一化。归一化后的混沌序列其均值为0,方差为1。多径Rayleigh衰落信道更接近于实际应用中的传输信道,因此采用两径Rayleigh衰落信道模型作为OMU-SR-DCSK系统信道模型,两径Rayleigh衰落信道模型如图4所示。
其中,
ni,k 是均值为0,方差为N0/2 的加性高斯白噪声,τ 是两个独立信道之间的延迟,α1 和α2 代表两个独立的、服从Rayleigh分布的信道随机变量,其概率密度函数表示为f(α|σ)=(α/σ2)e−α2/(2σ2),α>0 (7) 经图4中Rayleigh信道传输后,接收信号
ri,k 的表达式可表示为ri,k=α1si,k+α2si−τ,k+ni,k (8) 由于第k帧第
u 个和第N+u 个用户的解调方式相同,故以解调第k帧第u 个用户的信息比特为例,分析OMU-SR-DCSK系统理论BER公式的推导过程。则相关运算值Zu 的表达式可进一步表示为Zu=P∑p=1R∑i=1(ri,kri−R,kwi,u)=P∑p=1R∑i=1((α1N∑j=1wi,jbjxi−R,k+α2N∑j=1wi,jbjxi−R−τ,k+ni,P,k)⋅(α1xi−R,k+α2xi−R−τ,k+ni−R,k)wi,u)=A+B+C (9) A=P∑p=1R∑i=1(α21bux2i−R,k+α22bux2i−R−τ,k) (10) B=P∑p=1R∑i=1(ni,P,kni−R,kwi,u) (11) C=P∑p=1R∑i=1(α1xi−R,kni,P,k+α21N∑j=1,j≠uwi,jbjxi−R,kxi−R,kwi,u+α22N∑j=1,j≠uwi,jbjxi−R−τ,kxi−R−τ,kwi,u+α2xi−R−τ,kni,P,k+α1α2⋅N∑j=1,j≠uwi,jbjxi−R,kxi−R−τ,kwi,u+α1N∑j=1wi,jbjxi−R,kni−R,kwi,u+α2N∑j=1wi,jbjxi−R−τ,kni−R,kwi,u+2α1α2buxi−R,kxi−R−τ,k+α1α2N∑j=1,j≠uwi,jbjxi−R−τ,kxi−R,kwi,u) (12) 假设Rayleigh衰落信道的延迟
τ 远远小于符号间隔,忽略不计τ 的影响,有∑Ri=1xi,kxi−τ,k≈0 ;ni,k 和ni,p,k 具有相同的统计特性,都是均值为0、方差为N0/2 的高斯白噪声,其瞬时值服从高斯分布;ni,k 和xi,k 之间相互独立,且当i≠j 时,ni,k 和nj,k 之间也相互独立;系统等概率发送二进制信息“+1”和“–1”。基于以上假设,当扩频因子足够大时,
Zu 近似服从高斯分布,故采用高斯近似法推导OMU-SR-DCSK在Rayleigh衰落信道和AWGN信道下的理论BER公式,对式(9)计算均值和方差得E[Zu]=E[A]+E[B]+E[C]=(α21+α22)PR (13) Var[Zu]=Var[A]+Var[B]+Var[C]=12(α21+α22)(NP+1)PRN0+14PRN20 (14) BER[Zu]=12Pr(Zu<0|bu=+1)+12Pr(Zu≥0|bu=−1)=12erfc(|E[Zu]|√2Var[Zu]) (15) 其中,
E[⋅] 表示数学期望运算,Var[⋅] 表示方差运算,erfc(x)=2∫∞xe−μ2dμ/√π 为互补误差函数。将式(13)和式(14)代入式(15),计算第k帧第u个用户的BER公式为BER(Zu)=12erfc([|E[Zu]|√2Var[Zu]])=12erfc([(NP+1)(2NP+1)2NP(α21+α22)(EbN0)−1+(2NP+1)2R8PN2(α21+α22)2(EbN0)−2]−12) (16) 从而可得到OMU-SR-DCSK系统的瞬时BER公式为
BER(α1,α2)=12erfc([|E[Zj]|√2Var[Zj]])=12erfc([(NP+1)(2NP+1)2NP(α21+α22)(EbN0)−1+(2NP+1)2R8PN2(α21+α22)2(EbN0)−2]−12) (17) 令
γ1=α21(Eb/N0),γ2=α22(Eb/N0),γb=γ1+γ2 ,则式(17)可进一步化简为BER(γb)=12erfc([(NP+1)(2NP+1)2NP(γb)−1+(2NP+1)2R8PN2(γb)−2]−12) (18) 令
ˉγ1=E[γ1]=(Eb/N0)E[α21],ˉγ2=E[γ2]=(Eb/N0)E[α22] ,ˉγ1 和ˉγ2 服从式(19)的卡方分布f(γ)=e−γ/ˉγ/ˉγ,γ≥0 (19) 因此
γb=γ1+γ2 服从式(20)的卡方分布f(γb)={(e−γb/ˉγ1γb)/ˉγ21,E[α21]=E[α22](e−γb/ˉγ1−e−γb/ˉγ2)/(ˉγ1−γ2)E[α21]≠E[α22] (20) 由于信道参数是持续变化的,因此采用式(21)得到OMU-SR-DCSK在Rayleigh衰落信道下的BER公式为
BER=∫∞0BER(γb)f(γb)dγb=∫∞012erfc([(NP+1)(2NP+1)2NP(γb)−1+(2NP+1)2R8PN2(γb)−2]−12)f(γb)dγb (21) 令式(17)中
α1=1,α2=0 ,得到AWGN信道下的BER公式为BER=12erfc([(NP+1)(2NP+1)2NP(EbN0)−1+(2NP+1)2R8PN2(EbN0)−2]−12) (22) 4. OMU-SR-DCSK系统传输速率、能量效率和安全性分析
计算OMU-SR-DCSK和DCSK的传输速率
ROMU−SR−DCSK=2N/((R+2β)Tc) 和RDCSK=1/(2βTc) ,平均比特能量Eb,OMU−SR−DCSK=(1+2NP)RTcE(x2i,k)/(2N) 和Eb,DCSK=2βTcE(x2i,k) ,并分别将其代入式(23)和式(24),得到OMU-SR-DCSK相比于DCSK的传输速率提升百分比Rd 和节省比特能量的百分比EB 。Rd=ROMU−SR−DCSK−RDCSKRDCSK×100%=4Nβ−(2β+R)2β+R×100% (23) EB=Eb,DCSK−Eb,OMU-SR-DCSKEb,DCSK×100%=4Nβ−(1+2NP)R4Nβ×100% (24) 图5和图6中分别分析了
[P,N]=[4,2],[4,4] 时,Rd 和EB 的曲线。曲线表明:OMU-SR-DCSK相比于DCSK,极大程度上提升了传输速率,节约了比特能量。从式(23)和式(24)可以看出:当R=β 时,传输速率提高百分比Rd 只与用户数2N有关,比特能量节约百分比EB 只与用户数2N和重复次数P有关。图7和图8分别为DCSK和OMU-SR-DCSK的平方幅度谱。图7中,在归一化的比特频率为奇数时,DCSK的平方幅度为零,这是由于DCSK的信息信号只与参考信号同相或反相,从而导致了DCSK的安全性很低。而OMU-SR-DCSK的信息信号是N个信号的加和,且其参考时隙和信息时隙不等长,从图8中也可以发现,OMU-SR-DCSK的平方幅度谱具有类噪声性,证实了OMU-SR-DCSK的安全性很高。
5. 系统仿真结果及分析
本节将在AWGN信道和两径Rayleigh衰落信道下对OMU-SR-DCSK系统进行仿真,验证理论BER公式推导的正确性,为确保仿真结果的准确性,仿真值均是在
106 次仿真结果取平均值的前提下得到的。5.1 AWGN信道下的误码性能分析
图9为各项参数取值
[R,N,P]=[64,2,2],[128,2,2],[256,2,2] 时,系统BER随Eb/N0 变化的曲线,理论值和仿真值的良好契合验证了理论BER公式推导的准确无误性。图中显示R=64 时系统BER明显优于R=128 时的BER,这是由于R的增加导致信号间干扰增多,从而导致系统误码性能恶化。图10为
[R,N,P]=[128,1,4],[128,2,4],[128,4,4] 时,系统BER随Eb/N0 变化的曲线。R和P 一定,在Eb/N0≤10dB 的情况下,不同N值对应的BER值基本吻合,而当Eb/N0>12dB 时,BER随着N的增加而增加。据此可见:Eb/N0 较低的情况下,用户数变化不足以影响BER,此时扩频因子和重复次数为主要决定因素,而Eb/N0 较高的情况下,用户数成为误码性能恶化的主要影响因素。图11为
[R,N,P]=[128,4,1],[128,4,2],[128,4,4] 时,系统BER随Eb/N0 变化的曲线。R和N一定,当Eb/N0≤6dB 时,不同P 值对应的BER值基本吻合,而当Eb/N0>7dB 时,BER随着P 的增加而增加。与N变化对BER的影响类似,在Eb/N0 较低的情况下,P 值变化对误码性能的影响微乎其微,扩频因子和用户数为主要决定因素,而在Eb/N0 大于某个定值时,误码性能随着P 值的增加呈现恶化的趋势。区别于N值变化对系统误码性能影响的是:重复次数的变化对系统误码性能的影响更为显著。图12和图13为
Eb/N0=10dB,14dB , N和P 取不同数值时,系统BER随R变化的曲线。根据图中曲线可以发现:Eb/N0 越大误码性能越佳,且当Eb/N0 一定时,系统误码性能随着R的增加呈现恶化的趋势,最后趋于一个定值,而P值变化会影响这一定值,N值变化却不会影响这一定值。表1中对比了OMU-SR-DCSK, SRMR-DCSK, VHE-DCSK和MC-DCSK系统的传输速率和能量效率,假设这几种系统的
β 都相等。与长参考系统VHE-DCSK和短参考系统SRMR-DCSK相比,OMU-SR-DCSK的能量效率和传输速率都较优,而与多用户并行传输系统MC-DCSK相比,OMU-SR-DCSK采用多用户串行传输的方法,其能量效率虽优于MC-DCSK,但传输速率却远低于MC-DCSK。表 1 OMU-SR-DCSK, SRMR-DCSK, VHE-DCSK和MC-DCSK系统的能量效率及传输速率系统名称 传输速率(RB) 能量效率(Eη) OMU-SR-DCSK 2N/(R+2β) 2Nβ/(R+2Nβ) SRMR-DCSK N/(R+β) Nβ/(R+Nβ) VHE-DCSK N/(2β) N/(1+N) MC-DCSK N/β N/(1+N) 为进一步分析表1中对比的几种系统的误码性能,图14中对比了AWGN信道下这几种系统的BER曲线。假设所有系统传输的信息比特数都相等,且
β 也相等。观察图中BER曲线,当Eb/N0≤11dB 时,OMU-SR-DCSK, MC-DCSK和SRMR-DCSK的误码率基本相等,且都优于VHE-DCSK的误码率。但当Eb/N0>11dB 时,MC-DCSK的误码性能最优,其次是OMU-SR-DCSK。虽然OMU-SR-DCSK的误码性能差于多用户并行传输系统,但是相比于其他两种多用户串行传输系统,其误码性能较优。5.2 两径Rayleigh衰落信道下的误码性能分析
本小节将在两径Rayleigh衰落信道下分析了OMU-SR-DCSK的误码性能。图15为R不同时,两种不同增益情况下的OMU-SR-DCSK系统BER曲线,其中,情况1为等增益情况,平均信道增益取值为:
E[|α1|2]=E[|α2|2]=1/2 ,情况2为非等增益的情况,平均信道增益取值为:E[|α1|2]=1/5,E[|α2|2]=4/5 。与AWGN信道下仿真类似,BER随着R增大而增大,且等增益情况下系统误码性能总是优于非等增益情况下的误码性能。图16中对比了表1中几种系统的误码性能。当
Eb/N0 较小时,OMU-SR-DCSK和SRMR-DCSK的误码率基本相等,都略优于MC-DCSK。但随着信噪比的增加,MC-DCSK的误码率逐渐降低,最后都优于其他几种系统,与AWGN信道下的对比结果一致,相比于其他两种多用户串行传输系统,OMU-SR-DCSK的误码性能最优。6. 结束语
本文提出的OMU-SR-DCSK缩短了参考信号的长度,虽然会造成信噪比降低,从而影响系统的误码性能,但同时也提升了系统的传输速率、能量效率和安全性。此外,通过引入构造简单的Walsh码消除了用户间干扰,改善了OMU-SR-DCSK的误码性能,弥补了信噪比降低对系统误码性能造成的影响。通过仿真验证了OMU-SR-DCSK在传输速率和能量效率方面的优势,从而为其应用于多用户串行传输系统提供了理论依据。本文只分析了两路延迟线的情况,后续可扩展为M条延迟线,更大程度上提升系统的传输速率和能量效率;此外,将OMU-SR-DCSK与多载波技术结合,实现多用户并行传输也是后续需要研究的内容。
-
表 1 图算法存内计算优化模型
表 2 MTJ关键参数
参数 值 参数 值 磁性隧道结表面长度 40 nm 隧道磁电阻 100% 磁性隧道结表面宽度 40 nm 饱和场 106 A/m 自旋霍尔角 0.3 吉尔伯特阻尼常数 0.03 磁性隧道结电阻面积乘积 10–12 Ω·m2 垂直磁各向异性 4.5×105 A/m 氧化物阻挡层厚度 0.82 nm 温度 300 K 表 3 图计算存内加速架构实现与CPU实现速度对比(s)
图数据集 单源最短路径 K-core 链路预测 CPU PIM CPU PIM CPU PIM p2p-Gnutella06 0.063 0.0014 0.187 0.006 0.001 0.00012 p2p-Gnutella31 1.187 0.021 1.084 0.031 0.002 0.00016 email-Enron 2.972 0.071 1.383 0.056 0.001 0.00010 email-EuAll 2.826 0.081 3.832 0.193 0.003 0.00041 soc-Slashdot0922 10.989 0.203 10.137 0.241 0.002 0.00017 web-NotreDame 12.567 0.184 43.975 0.754 0.005 0.00037 amazon0302 17.837 0.329 14.392 0.381 0.002 0.00013 amazon0505 38.608 0.565 50.632 1.649 0.003 0.00043 -
[1] CHI Ping, LI Shuangchen, XU Cong, et al. PRIME: A novel processing-in-memory architecture for neural network computation in ReRAM-based main memory[J]. ACM SIGARCH Computer Architecture News, 2016, 44(3): 27–39. doi: 10.1145/3007787.3001140 [2] OZDAL M M, YESIL S, KIM T, et al. Energy efficient architecture for graph analytics accelerators[J]. ACM SIGARCH Computer Architecture News, 2016, 44(3): 166–177. doi: 10.1145/3007787.3001155 [3] HAM T J, WU Lisa, SUNDARAM N, et al. Graphicionado: A high-performance and energy-efficient accelerator for graph analytics[C]. 2016 49th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO), Taipei, China, 2016: 1–13. [4] KYROLA A, BLELLOCH G, and GUESTRIN C. GraphChi: Large-scale graph computation on just a PC[C]. Proceedings of the 10th USENIX conference on Operating Systems Design and Implementation, Hollywood, USA, 2012: 31–46. [5] LIANG Shengwen, WANG Ying, LIU Cheng, et al. EnGN: A high-throughput and energy-efficient accelerator for large graph neural networks[J]. IEEE Transactions on Computers, 2021, 70(9): 1511–1525. doi: 10.1109/TC.2020.3014632 [6] DAI Guohao, HUANG Tianhao, CHI Yuze, et al. GraphH: A processing-in-memory architecture for large-scale graph processing[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2018, 38(4): 640–653. doi: 10.1109/TCAD.2018.2821565 [7] BEAMER S, ASANOVIC K, and PATTERSON D. Locality exists in graph processing: Workload characterization on an ivy bridge server[C]. 2015 IEEE International Symposium on Workload Characterization, Atlanta, USA, 2015: 56–65. [8] WANG Mengxing, CAI Wenlong, ZHU Daoqian, et al. Field-free switching of a perpendicular magnetic tunnel junction through the interplay of spin-orbit and spin-transfer torques[J]. Nature Electronics, 2018, 1(11): 582–588. doi: 10.1038/s41928-018-0160-7 [9] GUO Zongxia, YIN Jialiang, BAI Yue, et al. Spintronics for energy-efficient computing: An overview and outlook[J]. Proceedings of the IEEE, 2021, 109(8): 1398–1417. doi: 10.1109/JPROC.2021.3084997 [10] JAIN S, RANJAN A, ROY K, et al. Computing in memory with spin-transfer torque magnetic RAM[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 2018, 26(3): 470–483. doi: 10.1109/TVLSI.2017.2776954 [11] ANGIZI S, SUN Jiao, ZHANG Wei, et al. GraphS: A graph processing accelerator leveraging SOT-MRAM[C]. 2019 Design, Automation & Test in Europe Conference & Exhibition (DATE), Florence, Italy, 2019: 378–383. [12] WANG Xueyan, YANG Jianlei, ZHAO Yinglin, et al. Triangle counting accelerations: From algorithm to in-memory computing architecture[J]. IEEE Transactions on Computers, 2022, 71(10): 2462–2472. doi: 10.1109/TC.2021.3131049 [13] LI Shuangchen, XU Cong, ZOU Qiaosha, et al. Pinatubo: A processing-in-memory architecture for bulk bitwise operations in emerging non-volatile memories[C]. The 53rd ACM/EDAC/IEEE Design Automation Conference, Austin, USA, 2016: 1–6. [14] HAN Lei, SHEN Zhaoyan, LIU Duo, et al. A novel ReRAM-based processing-in-memory architecture for graph traversal[J]. ACM Transactions on Storage, 2018, 14(1): 9. doi: 10.1145/3177916 [15] CHEN Xuhang, WANG Xueyan, JIA Xiaotao, et al. Accelerating graph-connected component computation with emerging processing-in-memory architecture[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2022, 41(12): 5333–5342. doi: 10.1109/TCAD.2022.3163628 [16] PEROZZI B, AL-RFOU R, and SKIENA S. DeepWalk: Online learning of social representations[C]. The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, USA, 2014: 701–710. [17] LESKOVEC J and KREVL A. SNAP Datasets: Stanford large network dataset collection[EB/OL]. http://snap.stanford.edu/data, 2014. -