Graph Algorithm Optimization for Spintronics-based In-memory Computing Architecture
-
摘要: 图计算广泛应用于社交网络分析、推荐系统等诸多关键领域,然而,传统的大规模图计算系统面临冯诺依曼架构下访存带来的性能瓶颈。新型存内计算架构成为加速大规模图计算非常有前景的方案,尤其是非易失自旋磁存储器(MRAM)具备超高耐擦写性和超快写入等优点,可使图计算的存内实现更为高效。实现这种潜力的关键挑战之一是如何优化存内计算架构下的图算法设计。该文的前期工作表明,三角形计数算法和图连通分量计算算法可以通过按位运算实现,从而高效地部署在自旋存内处理核中加速。该文探索了更多图算法的优化实现,例如单源最短路径、K-core、链路预测,并提出了面向新型存内计算架构的图算法优化设计模型。该研究对于突破冯诺依曼架构下大规模图计算的内存访问瓶颈具有关键意义。Abstract: Graph computing has been widely applied to emerging fields such as social network analysis and recommendation systems. However, large-scale graph computing under the traditional Von-Neumann architecture faces the memory access bottleneck. The newly developed in-memory computing architecture becomes a promising alternative for accelerating graph computing. Due to its ultra-high endurance and ultra-fast writing speed, non-volatile Magnetoresistive Random Access Memory (MRAM) has the potential in building efficient in-memory accelerators. One of the key challenges to achieve such potential is how to optimize the graph algorithm design under the in-memory computing architecture. Our previous work shows that the triangle counting algorithms and graph connected component computing algorithms can be implemented with bitwise operations, which enables efficient spintronics in-memory computations. In this paper, the optimized implementation of more graph algorithms is explored such as single-source shortest path, K-core and link prediction, and an optimized design model of graph algorithms for the new in-memory computing architecture based is proposed. This research is of key significance for the breakthrough of solving the memory access bottleneck in large-scale graph computing under the Von Neumann architecture.
-
1. 引言
滚动轴承是机械设备中易受损部件之一,其健康状况直接影响到整个设备的运转状态。因此,对轴承的剩余使用寿命进行有效预测将有利于避免严重威胁生命和财产安全的事故发生[1-3]。
基于深度学习的轴承剩余使用寿命预测方法在近几年取得快速发展。如:Wang等人[4]结合卷积神经网络和长短期记忆神经网络,提取轴承的时序特征和空间特征,对滚动轴承进行寿命预测;Yang等人[5]将振动信号分解为固有尺度分量,并选择有效的分量重构信号并建立特征集,然后利用灰色回归模型修复通过融合改进的独立分量和马氏距离计算的退化指标得到健康指标并训练模型实现轴承的剩余使用寿命预测;Ding等人[6]利用C均值聚类将轴承的全寿命数据分为正常运行、轻微退化、严重退化3阶段,并用粒子群算法优化网络,实现剩余使用寿命预测。上述方法能够对同一种工况下轴承的剩余使用寿命进行有效的预测,然而在实际应用中,大多数轴承在不同的工况下运行,跨工况条件下数据分布的差异导致剩余使用寿命(Remain Useful Life, RUL)预测模型的预测性能急剧下降[7]。
在跨工况条件下,可通过挖掘源域特征和目标域特征之间的相似性关系,将源域的知识应用于目标域,提高目标域轴承RUL预测精度[8, 9]。如:Hu等人[10]通过多个自编码器提取源域和目标域轴承的私有特征和公共特征,并将公共特征进行领域适应实现RUL预测;Cheng等人[11]通过可转移特征注意力和可转移实体注意力对目标域特征进行加权,提高了目标域轴承RUL预测精度;Zou等人[12]通过重建的退化指标提取具有显著特征的退化样本,并输入到多域对抗网络以实现特征转移,最后通过双向长短期记忆网络(Bi-directional Long Short-Term Memory, Bi-LSTM)实现RUL预测。上述方法在跨工况条件下的轴承剩余使用寿命预测取得了一定的结果,但是上述方法在对齐源域和目标域数据时,只是通过距离度量拉近两个域的数据分布,未考虑决策边界模糊的问题,导致边界周围的样本依然难以实现有效预测;并且目标域轴承样本没有对应的标签,目标域样本的特征不能实现与真实RUL之间的映射,不同样本可能会被提取出相同或相近的特征,从而导致不同样本预测出相同的RUL。
为解决上述问题,本文提出一种正交约束的最大分类器差异方法 (Maximum Classifier Discrepancy network with Orthogonal Constraints, MCD_OC)。针对现有域适应方法的模型决策边界模糊的问题,使用最大分类器差异方法对源域和目标域特征进行领域适应。针对目标域轴承无标签导致难以提取反映轴承退化趋势的特征,在训练时对每个mini-batch的目标域特征正交约束,以增强不同剩余寿命状态下样本特征的可辨识性。最后,基于PHM2012数据集构建多个跨工况轴承剩余使用寿命预测实验,论证所提模型的有效性与稳定性。
2. 域适应描述
迁移学习是一种能够将现有知识应用于相关领域的方法。在迁移学习中被迁移的领域称为源域(Source domain),待学习的领域称为目标域(Target domain)。源域获取的数据集{xsi,ysi}Ns1中,共有Ns个样本,ysi是样本xsi对应的标签。源域中的样本来自样本空间χs,标签来自空间ys,即xsi∈χs, ysi∈ys,数据分布服从P(χs)。目标域获取的数据{xti}Nti=1中,包含Nt个样本,样本来自于样本空间χt,数据分布服从Q(χy),并且Q≠P。
域适应是迁移学习的分支,能够充分利用源域和目标域与数据,从而解决两个域特征分布不一致的问题。通过源域的带标签数据训练模型,建立样本空间χs到源域样本标签ys的非线性映射关系f:χs→ys,在源域上学习知识。为减小源域和目标域的数据分布存在的差异,适配源域与目标域的数据分布,使模型在源域学习到的知识应用于目标域。
3. MCD_OC的轴承剩余寿命预测方法
目前大部分领域适应方法都是通过不同的度量方法度量两个分布的距离,或通过混淆域判别器将两域的特征对齐。然而对齐的结果只是拉近两个域的特征分布,没有考虑模糊的决策边界对预测造成的影响,处于边界周围的样本依然难以预测。此外,轴承不同退化程度的样本的特征存在差异,而目标域上存在的某些相似的样本特征可辨识性低,模型难以识别。
为解决上述问题,本文提出MCD_OC方法,通过最大分类器差异将源域和目标域的特征进行领域适应,同时为保证提取出能够反映目标域轴承退化的特征,求取点积作为损失优化网络参数,使目标域轴承特征保持正交。
3.1 最大分类器差异
如图1所示,普通域适应方法为减小源域和目标域的差异,只是将两个域的特征拉到相同的分布下,但是两个域的分布可能不能够准确对齐,会出现决策边界模糊的问题。由于模型已充分学习源域上的知识,因此能够准确预测源域上的样本,然而对目标域的样本预测时,模糊的决策边界导致分类器难以准确预测其RUL。为减小模糊的决策边界对RUL预测造成的影响,本文引入最大分类器差异[13]。通过两个不同的分类器预测的目标域样本RUL,得到分类器差异损失Lossdisc,再使用Lossdisc交替训练特征提取器和分类器,不断优化模型的特征提取能力和决策边界,拉近源域和目标域之间的距离。优化方法分为以下3步:
首先在源域数据上对轴承剩余寿命预测模型训练,构建对轴承剩余寿命的预测能力,以向目标域提供可迁移的预测知识
Lossreg1=1NsNs∑i=1(C1(F(xsi))−ysi)2 (1) Lossreg2=1NsNs∑i=1(C2(F(xsi))−ysi)2 (2) 其中,Ns是源域样本的个数,xsi为源域上第i个样本,F(⋅)为模型的特征提取器,C1(⋅)和C2(⋅)为模型的两个分类器,通过特征提取器和分类器得出两个RUL预测结果C1(F(xsi))和C2(F(xsi)),并与真实RUL标签ysi计算损失Lossreg1和Lossreg2,优化整个网络。
然后,在保证模型的预测精度的同时,引入分类器差异损失Lossdisc增大两个分类器的差异,即最大化Lossdisc优化分类器。分类器差异损失Lossdisc表示为
Lossdisc=−12Ns∑k1=1Ns∑k2=1[|sigmoid(C1(F(xtk1)))−sigmoid(C2(F(xtk2)))|] (3) 其中,sigmoid(x)=11+e−x, xti为目标域上第i个样本。
最后,为提高特征提取器的特征提取能力,最小化Lossdisc并优化特征提取器。通过Lossdisc优化特征提取器,使特征提取器能够提取出表达能力更强的特征,以减小两个不同分类器对难预测样本预测的分歧。
3.2 正交约束
使用源域有标签数据训练模型,模型学习到源域数据的特征,然后分类器通过建立特征和标签之间的映射关系,能够准确预测源域上轴承的RUL。然而目标域轴承的样本没有剩余寿命标签,模型不能直接构建特征与RUL之间的映射,因此经过无监督训练后模型的特征提取器依然可能难以提取能够反映目标域轴承的退化特征。轴承的寿命预测中,不同的样本对应不同的剩余使用寿命,因此将不同的样本表示为不同的类。如图2所示,对目标域特征施加正交约束,在一定程度上强制特征之间保持正交,能够增大类间的距离[14],从而增大样本之间的差异,确保不同样本的可辨识性。分类器根据存在差异的不同样本的特征,能够避免混淆不同样本。
通过特征提取器能够提取轴承的深层特征,并沿batch维度将每个mini-batch中目标域深层特征z等分为两组样本特征集(z′和z″),进而基于划分的两组样本特征集,进行样本特征间的点积运算求得正交约束损失Lossoc
Lossoc=1nz′+nz″nz′∑i=1n″z∑j=1<z′i,z″j> (4) 其中,nz′和nz″为z′和z″中各自的样本特征数量。z′i是z′中第i个样本特征,z″j是z″中第j个样本特征。将z′和z″的所有样本间的点积均值作为Lossoc。通过最小化Lossoc,优化特征提取器参数,对提取的特征正交约束,增大特征之间的差异。
3.3 寿命预测模型
网络结构如图3所示,主要由特征提取器F(⋅)、分类器C1(⋅)和分类器C2(⋅)组成。其中,特征提取器F(⋅)由卷积神经网络 (Convolutional Neural Networks, CNN)和门控循环单元(Gate Recurrent Unit, GRU)构成,通过CNN提取输入轴承的空间特征,连续的空间特征堆叠成时间序列,将提取的源域和目标域特征领域适应,同时在训练时对目标域特征正交约束,增大不同样本特征间的可辨识性。
用θF, θC1, θC2表示特征提取器、分类器C1、分类器C2的参数,ε, δ, η为学习率。
首先用大量源域数据训练模型,提高模型在源域上的RUL预测精度,此时,模型的总损失Lossall1为
Lossall1=Lossreg1+Lossreg2 (5) 此时的优化目标
Loss(θ∗F,θ∗C1,θ∗C2)=minθF,θC1,θC2Lossreg1(θF,θC1,θC2)+Lossreg2(θF,θC1,θC2) (6) 然后最大化分类器之间的差异,α为Lossdisc的系数。模型的总损失Lossall2为
Lossall2=Lossreg1+Lossreg2−αLossdisc (7) 此时优化目标为
Loss(θ∗C1,θ∗C2)=minθC1,θC2Lossreg1(θC1,θC2)+Lossreg2(θC1,θC2)−αLossdisc(θC1,θC2) (8) 最后,为保证特征提取器能够提取出表达能力更强的特征,减小分类器预测结果的差异,最小化Lossdisc。同时,为了增大目标域特征的差异,最小化Lossoc,优化特征提取器。其中β为Lossdisc的系数,γ为Lossoc的系数。模型总损失Lossall3为
Lossall3=βLossdisc+γLossoc (9) 优化目标为
Loss(θ∗F)=minθFβLossdisc(θF)+γLossoc(θF) (10) 4. MCD_OC跨工况轴承RUL预测流程
MCD_OC方法预测流程如图4所示,分为3个步骤:振动信号采集与数据预处理;模型的建立与训练;轴承RUL预测性能验证。
(1) 振动信号采集与数据预处理:采集振动信号,对源域上采集的轴承振动信号标记剩余使用寿命标签,提取源域和目标域轴承振动信号的频域特征。
(2) 模型的建立与训练:建立模型,用带标签的源域样本和无标签的目标域样本训练模型。将源域和目标域轴承的特征领域适应,使模型具有目标域样本寿命预测能力。
(3) 轴承RUL预测性能验证:用经训练的模型测试目标域测试集,将两个分类器得出的预测结果求取平均值,作为模型预测结果,分析所提方法的性能并与对比方法进行对比,证明模型的有效性和稳定性。
5. 实验验证
5.1 实验数据集介绍
本文采用PHM2012挑战数据集[15]验证所提模型的性能,该数据集由PRONOSTIA实验台提供,包含加速度传感器采集的17组轴承的全寿命周期振动信号。信号的采样频率为25.6 kHz,采样间隔10 s,每次采样时间0.1 s,当振动信号的幅值超过20 g时设定轴承失效,停止采样。用轴承剩余寿命占全寿命的比值作为样本的标签,如式(11)所示
yi=T−tiT (11) 其中,yi为第i时刻的剩余使用寿命,T为轴承从开始运行到直到失效所用时间。
实验数据集包括3种不同的工况,各轴承的运行情况如表1所示。数据集划分如表2所示,通过6个预测任务评估模型性能,分别为工况1分别域适应学习工况2 、工况3;工况 2分别域适应学习工况1、工况3;工况3分别域适应学习工况1、工况2。6个预测任务的训练集包含源域的有标签数据和目标域的无标签数据,测试数据集包含目标域未标记数据。
表 1 轴承运行的3种不同工况变量 工况1 工况2 工况3 压力(N) 4000 4200 5000 转速(r/min) 1800 1650 1500 表 2 MCD_OC试验数据集任务 源域训练集 目标域训练集 测试集 工况1→工况2(C12) 轴承1-1~1-7 轴承2-1,2-2 轴承2-6 工况1→工况3(C13) 轴承1-1~1-7 轴承3-1,3-2 轴承3-3 工况2→工况1(C21) 轴承2-1~2-7 轴承1-1,1-2 轴承1-7 工况2→工况3(C23) 轴承2-1~2-7 轴承3-1,3-2 轴承3-3 工况3→工况1(C31) 轴承3-1~3-3 轴承1-1,1-2 轴承1-7 工况3→工况2(C32) 轴承3-1~3-3 轴承2-1,2-2 轴承2-6 5.2 数据预处理
采集轴承原始振动信号后,利用快速傅里叶变换将时域信号转换为频域信号作为模型的输入,此时每个时刻的频域信号包含128 0维特征。轴承时域信号和归一化后的频域信号如图5所示。为充分利用数据之间潜在的时序信息,将连续n个时刻振动信号的频域特征作为模型的输入,xi表示第i时刻信号的频域特征,此时模型每个样本Xi=(xi,xi+1,⋯,xi+n),表示第i时刻到第i+n时刻信号的频域特征。数据集经重新排列后为
[X1X2⋮Xi]=[x1x2⋯xnx2x3⋯xn+1⋮⋮⋱⋮xixi+1⋯xi+n] (12) 5.3 模型参数设置
本文所提模型参数如表3所示。特征提取器F(⋅)由3层1维卷积层、3层池化层和1层GRU组成,分类器C1(⋅),C2(⋅)都由3层全连接层组成,并且结构相同。由Adam优化器对网络的参数更新,学习率为0.000 2,训练批次大小为50,重复训练网络次数40次。为了减小随机性对实验结果的影响,本节中所有实验均独立重复3次。
表 3 模型参数网络层 参数 激活函数 卷积层1, BN 卷积核大小7×1,数量 80,步长1 ReLU 最大池化层1 大小 8×1,步长8 \ 卷积层2, BN 卷积核大小5×1,数量160,步长1 ReLU 最大池化层2 大小8×1,步长1 \ 卷积层3, BN 卷积核大小3×1,数量 320,步长1 ReLU 最大池化层3 大小4×1,步长1 \ GRU 输出维度 1440 \ 全连接层1 神经元个数128,Dropout 0.5 \ 全连接层2 神经元个数32,Dropout 0.5 \ 全连接层3 神经元个数1 \ 5.4 实验结果与对比分析
为验证本文所提方法对于轴承寿命预测的有效性和稳定性,将模型与深度域混淆网络(Deep Domain Confusion, DDC)[16]、域对抗迁移网络(Domain Adaptive Neural Network, DANN)[17]、最大分类器差异网络(Maximum Classifier Discrepancy for Unsupervised Domain Adaptation, MCD_DA)[13]、相关对齐网络(Correlation Alignment for Deep Domain Adaptation, CORAL)[18]、正交约束深度域混淆网络(Deep Domain Confusion with Orthogonal Constraint, DDC_OC)方法进行对比,DDC_OC通过最大均值差异将源域和目标域的特征对齐的同时,对目标域特征正交约束。每个模型涉及相同模块的参数结构相同,6组实验结果如图6所示,图中横坐标为时间,纵坐标为剩余寿命量化指标。
为了定量分析本文提出MCD_OC方法的有效性和稳定性,本文采用平均绝对误差(Mean Absolute Error, MAE)、均方根误差(Root Mean Squared Error, RMSE)衡量3组实验的RUL预测结果。MAE和RMSE的计算公式如式(13)、式(14)所示
MAE=1NN∑i=1|ˆyi−yi| (13) RMSE=√1NN∑i=1(ˆyi−yi)2 (14) 其中,yi表示RUL标签,ˆyi表示模型的RUL预测结果,N为测试集样本数量。
不同方法在不同任务中的MAE和RMSE的结果统计如表4所示。在部分任务中,DDC和DANN取得了一定的预测效果,但是在某些工况下的预测误差大,预测精度仍然需要进一步提高。CORAL通过将2阶统计量对齐,对比DDC和DANN,在C13任务中取得了最优结果,然而在C32任务中,预测误差在所有的方法中最大。通过对目标域特征进行正交约束,对比DDC, DDC_OC在5组实验中取得更优的MAE和RMSE结果,在C13, C21, C23实验中,MAE分别降低了0.038, 0.04, 0.017,RMSE分别降低了0.02, 0.035, 0.027,模型的预测能力明显上升。DDC,DANN,CORAL方法由于没有考虑到决策边界模糊的问题,因此平均MAE和RMSE均劣于MCD_DA。本文结合正交约束和最大分类器差异方法,在对目标域特征正交约束的条件下,增大了不同样本特征之间的可辨识度,同时解决了决策边界模糊的问题,在多组任务下取得了较优的结果。在不同的任务中,源域和目标域的数据分布存在差异,导致域适应任务存在差异性和不确定性,难以确保所有的任务都能取得最优的结果。虽然本文所提方法在C13中未取得最优结果,综合所有任务的MAE和RMSE,能够反映出本文方法具有更强的稳定性和有效性,对跨工况轴承剩余使用寿命具有一定预测能力。
表 4 MCD_OC和对比模型的预测结果方法 评价指标 C12 C13 C21 C23 C31 C32 平均值 DDC MAE 0.179 0.118 0.224 0.212 0.160 0.307 0.200 RMSE 0.218 0.136 0.258 0.246 0.208 0.354 0.237 DANN MAE 0.120 0.070 0.271 0.227 0.166 0.413 0.211 RMSE 0.149 0.092 0.311 0.257 0.213 0.442 0.244 CORAL MAE 0.146 0.065 0.230 0.198 0.162 0.414 0.202 RMSE 0.167 0.080 0.269 0.238 0.234 0.435 0.237 DDC_OC MAE 0.174 0.080 0.184 0.195 0.160 0.323 0.186 RMSE 0.209 0.116 0.223 0.219 0.210 0.363 0.223 MCD_DA MAE 0.125 0.068 0.229 0.217 0.165 0.385 0.198 RMSE 0.150 0.086 0.274 0.253 0.219 0.426 0.235 MCD_OC MAE 0.117 0.084 0.163 0.178 0.160 0.202 0.151 RMSE 0.144 0.106 0.220 0.216 0.208 0.234 0.188 6. 结束语
针对跨工况条件下分类器决策边界模糊、目标域特征难以区分,导致跨工况条件下轴承剩余使用寿命预测精度低的问题,本文提出了一种正交约束域适应的跨工况滚动轴承剩余使用寿命预测方法。利用最大分类器差异将源域和目标域的特征分布对齐,解决了分类器决策边界模糊的问题,同时,通过正交约束增大特征之间的差异,加强特征的可辨识度,提高了目标域轴承的预测精度。最后,基于轴承寿命数据集开展了跨工况轴承寿命预测对比实验,本文所提正交约束域适应方法取得了最佳的平均MAE和RMSE结果,论证了本文所提方法在综合性能上具有更强的泛化性和稳定性。
本文所讨论的各跨工况滚动轴承剩余使用寿命预测方法均假设目标域轴承数据集为全寿命数据集,在实际应用场景,获取某些工况下轴承的全寿命数据集十分困难,因此,在后续的工作中拟开展在不具备全寿命数据集条件下的跨工况滚动轴承剩余使用寿命预测方法研究。
-
表 1 图算法存内计算优化模型
表 2 MTJ关键参数
参数 值 参数 值 磁性隧道结表面长度 40 nm 隧道磁电阻 100% 磁性隧道结表面宽度 40 nm 饱和场 106 A/m 自旋霍尔角 0.3 吉尔伯特阻尼常数 0.03 磁性隧道结电阻面积乘积 10–12 Ω·m2 垂直磁各向异性 4.5×105 A/m 氧化物阻挡层厚度 0.82 nm 温度 300 K 表 3 图计算存内加速架构实现与CPU实现速度对比(s)
图数据集 单源最短路径 K-core 链路预测 CPU PIM CPU PIM CPU PIM p2p-Gnutella06 0.063 0.0014 0.187 0.006 0.001 0.00012 p2p-Gnutella31 1.187 0.021 1.084 0.031 0.002 0.00016 email-Enron 2.972 0.071 1.383 0.056 0.001 0.00010 email-EuAll 2.826 0.081 3.832 0.193 0.003 0.00041 soc-Slashdot0922 10.989 0.203 10.137 0.241 0.002 0.00017 web-NotreDame 12.567 0.184 43.975 0.754 0.005 0.00037 amazon0302 17.837 0.329 14.392 0.381 0.002 0.00013 amazon0505 38.608 0.565 50.632 1.649 0.003 0.00043 -
[1] CHI Ping, LI Shuangchen, XU Cong, et al. PRIME: A novel processing-in-memory architecture for neural network computation in ReRAM-based main memory[J]. ACM SIGARCH Computer Architecture News, 2016, 44(3): 27–39. doi: 10.1145/3007787.3001140 [2] OZDAL M M, YESIL S, KIM T, et al. Energy efficient architecture for graph analytics accelerators[J]. ACM SIGARCH Computer Architecture News, 2016, 44(3): 166–177. doi: 10.1145/3007787.3001155 [3] HAM T J, WU Lisa, SUNDARAM N, et al. Graphicionado: A high-performance and energy-efficient accelerator for graph analytics[C]. 2016 49th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO), Taipei, China, 2016: 1–13. [4] KYROLA A, BLELLOCH G, and GUESTRIN C. GraphChi: Large-scale graph computation on just a PC[C]. Proceedings of the 10th USENIX conference on Operating Systems Design and Implementation, Hollywood, USA, 2012: 31–46. [5] LIANG Shengwen, WANG Ying, LIU Cheng, et al. EnGN: A high-throughput and energy-efficient accelerator for large graph neural networks[J]. IEEE Transactions on Computers, 2021, 70(9): 1511–1525. doi: 10.1109/TC.2020.3014632 [6] DAI Guohao, HUANG Tianhao, CHI Yuze, et al. GraphH: A processing-in-memory architecture for large-scale graph processing[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2018, 38(4): 640–653. doi: 10.1109/TCAD.2018.2821565 [7] BEAMER S, ASANOVIC K, and PATTERSON D. Locality exists in graph processing: Workload characterization on an ivy bridge server[C]. 2015 IEEE International Symposium on Workload Characterization, Atlanta, USA, 2015: 56–65. [8] WANG Mengxing, CAI Wenlong, ZHU Daoqian, et al. Field-free switching of a perpendicular magnetic tunnel junction through the interplay of spin-orbit and spin-transfer torques[J]. Nature Electronics, 2018, 1(11): 582–588. doi: 10.1038/s41928-018-0160-7 [9] GUO Zongxia, YIN Jialiang, BAI Yue, et al. Spintronics for energy-efficient computing: An overview and outlook[J]. Proceedings of the IEEE, 2021, 109(8): 1398–1417. doi: 10.1109/JPROC.2021.3084997 [10] JAIN S, RANJAN A, ROY K, et al. Computing in memory with spin-transfer torque magnetic RAM[J]. IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 2018, 26(3): 470–483. doi: 10.1109/TVLSI.2017.2776954 [11] ANGIZI S, SUN Jiao, ZHANG Wei, et al. GraphS: A graph processing accelerator leveraging SOT-MRAM[C]. 2019 Design, Automation & Test in Europe Conference & Exhibition (DATE), Florence, Italy, 2019: 378–383. [12] WANG Xueyan, YANG Jianlei, ZHAO Yinglin, et al. Triangle counting accelerations: From algorithm to in-memory computing architecture[J]. IEEE Transactions on Computers, 2022, 71(10): 2462–2472. doi: 10.1109/TC.2021.3131049 [13] LI Shuangchen, XU Cong, ZOU Qiaosha, et al. Pinatubo: A processing-in-memory architecture for bulk bitwise operations in emerging non-volatile memories[C]. The 53rd ACM/EDAC/IEEE Design Automation Conference, Austin, USA, 2016: 1–6. [14] HAN Lei, SHEN Zhaoyan, LIU Duo, et al. A novel ReRAM-based processing-in-memory architecture for graph traversal[J]. ACM Transactions on Storage, 2018, 14(1): 9. doi: 10.1145/3177916 [15] CHEN Xuhang, WANG Xueyan, JIA Xiaotao, et al. Accelerating graph-connected component computation with emerging processing-in-memory architecture[J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 2022, 41(12): 5333–5342. doi: 10.1109/TCAD.2022.3163628 [16] PEROZZI B, AL-RFOU R, and SKIENA S. DeepWalk: Online learning of social representations[C]. The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York, USA, 2014: 701–710. [17] LESKOVEC J and KREVL A. SNAP Datasets: Stanford large network dataset collection[EB/OL]. http://snap.stanford.edu/data, 2014. -