Loading [MathJax]/jax/element/mml/optable/BasicLatin.js
高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

物联网中带有隐私保护的鲁棒联邦学习研究

杨志刚 王卓彤 吴大鹏 王汝言 吴渝 吕翊

陈鸿昶, 徐乾, 黄瑞阳, 程晓涛, 吴铮. 一种基于用户轨迹的跨社交网络用户身份识别算法[J]. 电子与信息学报, 2018, 40(11): 2758-2764. doi: 10.11999/JEIT180130
引用本文: 杨志刚, 王卓彤, 吴大鹏, 王汝言, 吴渝, 吕翊. 物联网中带有隐私保护的鲁棒联邦学习研究[J]. 电子与信息学报, 2023, 45(12): 4235-4244. doi: 10.11999/JEIT221193
Hongchang CHEN, Qian XU, Ruiyang HUANG, Xiaotao CHENG, Zheng WU. User Identification Across Social Networks Based on User Trajectory[J]. Journal of Electronics & Information Technology, 2018, 40(11): 2758-2764. doi: 10.11999/JEIT180130
Citation: YANG Zhigang, WANG Zhuotong, WU Dapeng, WANG Ruyan, WU Yu, LÜ Yi. Research on Data Heterogeneous Robust Federated Learning with Privacy Protection in Internet of Things[J]. Journal of Electronics & Information Technology, 2023, 45(12): 4235-4244. doi: 10.11999/JEIT221193

物联网中带有隐私保护的鲁棒联邦学习研究

doi: 10.11999/JEIT221193
基金项目: 国家自然科学基金(61901071, 61871062, 61771082, 62271096, U20A20157),重庆市自然科学基金(cstc2020jcyj-zdxmX0024),重庆市高校创新研究群体(CXQT20017),重庆高校创新团队建设计划(CXTDX201601020),重邮信通青创团队支持计划(SCIE-QN-2022-04)
详细信息
    作者简介:

    杨志刚:男,副教授,研究方向为隐私计算等

    王卓彤:女,硕士生,研究方向为联邦学习

    吴大鹏:男,教授,研究方向为泛在无线网络、社会计算等

    王汝言:男,教授,研究方向为泛在网络、多媒体信息处理等

    吴渝:女,教授,研究方向为网络智能、数字媒体、数据挖掘

    吕翊:男,教授,研究方向为下一代光网络理论与技术

    通讯作者:

    吴大鹏 wudp@cqupt.edu.cn

  • 中图分类号: TN915; TP399

Research on Data Heterogeneous Robust Federated Learning with Privacy Protection in Internet of Things

Funds: The National Natural Science Foundation of China (61901071, 61871062, 61771082, 62271096, U20A20157), The Natural Science Foundation of Chongqing (cstc2020jcyj-zdxmX0024), The University Innovation Research Group of Chongqing Foundation (CXQT20017), The Program for Innovation Team Building at Institutions of Higher Education in Chongqing (CXTDX201601020), The Youth Innovation Group Support Program of ICE Discipline of Chongqing University of Posts and Telecommunications (SCIE-QN-2022-04)
  • 摘要: 联邦学习允许数据不出本地的情况下实现数据价值的有效流动,被认为是物联网(IoT)场景下兼顾数据共享与隐私保护的有效方法。然而,联邦学习系统易受拜占庭攻击和推理攻击的影响,导致系统的鲁棒性和数据的隐私性受损。物联网设备的数据异构性和资源瓶颈,也为带有隐私保护的鲁棒聚合算法设计带来巨大挑战。该文提出面向异构物联网的带有数据重采样的鲁棒聚合方法Re-Sim,通过测量方向相似性和标准化更新幅度实现模型的鲁棒聚合,并采用数据重采样技术增强数据异构环境下模型的鲁棒性。同时构建轻量安全聚合协议(LSA),在保证数据隐私性的同时兼顾模型鲁棒性、准确性和计算开销,并从理论上对协议的隐私性进行了分析。仿真结果表明,该方案能在数据异构情况下有效抵抗拜占庭攻击和推理攻击,与基线方法相比,该文所提方案精度提高1%~3%,同时减轻客户端侧计算开销79%。
  • 在互联网时代,社交网络已成为人们生活中不可分割的一部分。社交网站Aboutme表明,一个用户通常在多个社交网站上注册账号来与不同的社交网络中的朋友进行交互,产生了丰富的社交用户信息。然而,各个社交网络账号间是孤立的没有联系的,因此用户的社交行为分散在多个社交网络中。跨网络用户身份识别,指的是将不同社交网络中属于同一个真实用户的账号关联起来,这一技术的解决能够为跨网络推荐、跨网络用户建模以及跨网络用户行为分析等应用提供全面的用户数据,实现对多源社交网络大数据的充分挖掘[1]

    近年来逐渐发展的地理位置采集和无线通信技术使得社交网络用户可以轻易地使用移动设备在发布的内容中加入地理位置标签。因为用户轨迹具有不容易模仿伪造的特点,文献[2]已经证明了用户移动轨迹的独特性,因此用户轨迹数据为跨社交网络用户身份的准确识别带来了全新技术途径。文献[3]基于两条用户轨迹中位置的共现频率,提出了一种处理多源位置数据的身份识别方法,缺点是参数过多,调整参数的过程非常繁琐。文献[4]将整个地图分成许多个网格,然后将每个用户的轨迹表示成若干小网格组成的序列,使用TF-IDF模型将每个用户的轨迹转化成向量,通过计算向量间余弦相似性得到用户轨迹间的相似性。文献[5]使用将每一个地理位置表示为该位置的语义位置对应的词,每条用户轨迹组成一篇由语义位置组成的文章,然后用LDA模型表示出每个用户的主题分布,最后计算分布间的KL散度得到轨迹相似性。文献[6]假设用户在一段时间内访问某个地点的次数服从泊松分布,进而得到两个账号属于同一个真实用户的概率形式的函数表示,最终通过优化目标函数得到最佳的匹配结果。文献[7]综合考虑轨迹的空间信息和时间信息,将原始的用户轨迹转化为三部图的来表示,最后通过求取三部图的最优划分,来得到最优的匹配方案。

    纵观现有方法,在计算用户轨迹间的相似性时,主要是将轨迹看作地理位置的集合或者时空域中点的集合,然后使用基于频率或者基于共现次数的方法来计算位置集合之间的相似度,如果这个相似度超过一定阈值则认为这两个用户对应现实世界中同一个人。这些方法虽然取得了一定的效果,但是仍然存在以下问题:将用户访问的各个地理位置看作坐标点的集合进行处理,忽略了各个地理位置之间的相关性。例如用户在访问位置 l 之后,很有可能会访问另一个附近的位置 l 。现有方法缺乏对这种轨迹序列信息的建模,没有充分挖掘用户访问地理位置顺序的潜在规律,导致算法精度下降。

    针对上述问题,本文提出一种考虑位置访问顺序特征的跨社交网络用户轨迹匹配方法CDTraj2vec(Cross Domain Trajectory to vector algorithm)。考虑到基于深度学习的段落向量算法Paragraph2vec[8]在对段落进行向量化时考虑词序特征的良好表现,尝试使用Paragraph2vec方法抽取用户轨迹中的位置访问顺序特征;通过对用户轨迹按照一定的时间粒度、距离尺度的划分,构建出适用于训练PV-DM模型的轨迹序列,然后通过训练PV-DM模型得到用户轨迹在多个类型的训练样本上的向量化表示,进而得到蕴含用户位置访问顺序信息的轨迹向量。最终通过向量之间的相似性度量得到不同社交网络中用户轨迹间的相似性,从而进行用户身份识别。本文在真实社交网络中的时空数据上进行实验,验证了所提算法的有效性。

    定义 1 用户轨迹:用户轨迹定义为随时间变化的GPS坐标点序列组成的集合,用 T=[p1,p2,···,p|T|] 表示,每一个坐标点 pi 都包含3个属性 x,y,t , (x,y) 是坐标点 pi 的GPS坐标, t (x,y) 被记录下来的时间。一个用户的在一个社交网络中产生的所有位置信息都记录在一条轨迹中。

    定义 2 用户轨迹匹配: TADA TBDB 是来自两个不同的时空数据集( DA DB )的两条轨迹。如果 TA TB 是同一个真实用户产生的,则称 TA TB 互相匹配。本文的最终目的是尽可能多且准确地识别出匹配的轨迹对。

    2.2.1   原始数据的网格表示

    原始的时空数据集中存储的是2维地理空间上的GPS坐标点,直接处理这些数据点会遇到样本稀疏的问题,一种简单的解决方法是将原始GPS坐标点转化为网格表示。首先根据时空数据集中GPS坐标点的地理位置在地图上定义一个矩形的经纬度边界,这个矩形包含了所有时空数据集中的GPS坐标点。矩形边界对应的纬度范围是 (lat1,lat2) ,经度范围是 (lon1,lon2) 。然后根据需要的精度定义小网格的行数 r 和列数 c (行数和列数越大对应的精度越高)。任意一个GPS坐标点 (lat,lon) 都可以按照式(1)~式(3)转化为小网格编号 ci 来表示。

    cx=(latlat1)rlat2lat1 (1)
    cy=(lonlon1)clon2lon1 (2)
    ci=((c(cx1))+cy) (3)

    其中, 是向下取整函数, cx 是小网格所在的行号, cy 是小网格所在的列号。

    2.2.2   训练样本构建方法

    真实社交网络中用户产生的轨迹通常是相对稀疏的,一些用户轨迹中前后相邻的小网格之间并不存在很强的关联,例如某些用户轨迹片段中前后相邻的小网格相距很远或者相隔时间很长,这使得位置访问顺序特征难以显现,直接对这种前后位置相关性较弱的轨迹序列进行建模会导致用户轨迹向量表示精度的下降。因此需要对用户轨迹进行进一步处理,筛选出能够体现用户访问顺序特征的轨迹片段,选取相邻小网格之间相关性较强的轨迹序列作为下一步模型的训练样本。本文采用3种不同的训练样本构建方法:第1种构建方法是按时间划分轨迹,这种划分方法假设用户在 Δt 时间内访问的位置之间具有一定的关联。一段有效的位置序列定义如下:用户轨迹为 T=[ct1,ct2,···,ctm] ,称 T 的子序列 Ts=[cti,cti+1,···,cti+l] 为有效序列如果 Ts 满足:(1) ti+ltiΔt 。(2)不存在 T 的一个子序列,它真包含 Ts 且满足条件(1)。图1描述了一个按时间划分轨迹从而得到有效的位置序列的例子,用户轨迹 T=[ct1,ct2,ct3,ct4,ct5] , Δt=5 h,从中可以得到1段有效的位置序列 ET=[TS1,TS2,TS3]

    图 1  按时间划分轨迹

    第2种构建方法是按照距离进行轨迹划分。一段轨迹序列中任意两个前后相邻的位置的距离小于 Δd 时,则认为这个位置序列是有效的。图2描述了一个按距离划分轨迹从而得到有效的轨迹序列的例子,用户轨迹为 T=[ct1,ct2,ct3,ct4,ct5] , Δd=7 km,从中可以得到2段有效的轨迹序列 ET=[TS1,TS2]

    图 2  按距离划分轨迹

    第3种构建方法是在时空域构建训练样本。时空域的结构如图3所示,纵轴表示网格id,横轴表示一天的4个时间段, Δt1,Δt2,Δt3,Δt4 分别代表:0~6点,6~12点,12~18点,18~24点。图3举例描述了在时空域上构建训练样本的过程,用户轨迹为 T=[cid1t1,cid2t2,cid3t3,cid4t4] ,上标 id1,id2,id3,id4 为小网格id,下标 t1,t2,t3,t4 为它们被记录的时间。与之前两种方法一样,每次选取尽可能长的时空域序列作为训练样本。在时空域上构建的轨迹序列描述了用户访问各个位置的时间偏好,是一种将时间和空间信息结合起来的模型,最大限度地降低了原始轨迹信息的损耗。

    图 3  在时空域上构建位置序列

    通过上述3种方法可以得到3种不同类型的训练样本,训练样本包含的轨迹序列中前后相邻的小网格具有一定的相关性,这使得用户轨迹中的位置访问顺序特征能够很容易地被抽取出来,为下一步轨迹建模打下基础。

    Paragraph2vec是Le等人[8]提出的段落向量模型,其目标是得到段落的向量表示。Paragraph2vec算法中提出了一个重要的模型PV-DM(Distributed Memory model of Paragraph Vectors),PV-DM模型通过段落 pgi 以及词 wd 的上下文 ct(wd) 来预测词 wd 出现的概率,具体地,给定一个段落 pgi ,以及其中的部分单词序列 Wn1=(wd0,wd1,···,wdn) ,其中 wiV ( V 是词典),将 pgi 以及所有单词都采用向量表示,然后通过段落向量以及词向量构造目标函数 P(wdn|wd0,wd1,···,wdn1,pgi) ,最后通过训练样本训练模型并求解得到使得目标函数最大化的段落向量。

    用户运动轨迹与文本句式具有高度的结构相似性,均为由离散状态的基本元构成的连续序列[9]。利用Paragraph2vec中对一段文本进行向量化的类似过程,可将每一个小网格视作“单词”,将每一条用户轨迹对应的小网格序列视作“一个段落”,从而将Paragraph2vec算法中的PV-DM模型应用到用户轨迹特征的抽取(图4)。用于轨迹特征抽取PV-DM模型的结构由输入层、投影层和输出层组成,下面以一个滑动窗口内的轨迹序列 ([ctiw+1,ctiw+2,···, cti1],ct1) 作为输入进行说明,窗口大小为 w ,轨迹序列产生于用户轨迹 T

    图 4  用于轨迹特征抽取的PV-DM模型结构图

    输入层:出现在小网格 cti 之前的 w1 个小网格 ctiw+1,ctiw+2,···,cti1 对应的向量序列 vc(ctiw+1), vc(ctiw+2),···,vc(cti1)Rd ,以及用户轨迹 T 对应的向量 vc(id(T))Rd , id(T) 为产生轨迹 T 的用户id,向量的初始值通过随机初始化得到。

    投影层:将输入层的 w 个小网格对应的向量以及1个用户轨迹向量进行求和操作,生成一个 d 维向量,即 S=vc(id(T))+i1l=iw+1vc(ctl)Rd

    输出层:采用与Paragraph2vec输出层相同的hierarchical softmax方法[10],其结构为一颗二叉Huffman树,将所有用户轨迹中出现过的小网格作为叶子节点,以各个小网格在训练集中出现的次数作为权值构造Huffman树,在每个非叶节点上设置一个参数待定的二分类器,从根节点到叶子节点可看作多个二分类拟合多分类的过程。通过Huffman树可实现概率 p(cti|S) 的构造,即已知某一用户及其产生的小网格序列,预测下一个小网格为 cti 的概率。

    上述结构中,每一条用户轨迹被映射为唯一的一个向量 vc(id(T))Rd ,每一个小网格同样也被映射为唯一的一个向量。模型的输入通过在用户轨迹上构建长度为 w 的滑动窗口得到,同一用户轨迹生成的多组模型输入共享着同一轨迹向量,不同用户轨迹之间采用不同用户轨迹向量。小网格向量与之不同,它在不同的用户轨迹之间是共享的,例如,最终得到的小网格 c 对应的向量 vc(c) 对于所有的用户轨迹都是相同的。

    基于上述模型,可假设一段轨迹序列 T 包含 n 个小网格 ct1,ct2,···,ctn ,则构建式(4)所示的概率函数:

    f=nj=wp(ctj|ctjw+1,ctjw+2,···,ctj1,id(T)) (4)

    假设某种训练样本中有 m 条用户轨迹,每条用户轨迹中包含 ni 个小网格,则构建模型的目标函数为

    ft=mi=1(nij=wlgp(ctj|ctjw+1,ctjw+2,···,ctj1,id(Ti)))

    (5)

    其对数似然为

    F=lgft=mi=1(nij=wlgp(ctj|ctjw+1,ctjw+2,···,ctj1,id(Ti))) (6)

    模型求解与优化采用随机梯度法迭代求取目标函数最优解[11]

    得到的用户轨迹向量可以用来预测用户下一个要访问的小网格,例如:对于用户轨迹 T ,通过训练得到其轨迹向量 vc(id(T)) ,已知当前该用户已经访问了 i 个小网格 [ct1,ct2,···,cti] ,则该用户下一步访问小网格 cti+1 的概率为 p(cti+1|ctiw+2,ctiw+3,···, cti,id(T)) 。用户轨迹向量可以用来准确地求取用户访问各个位置的转移概率,而位置转移概率是对用户访问小网格顺序的合理刻画,因此得到的用户轨迹向量中蕴含了表示用户访问小网格顺序的位置访问顺序特征。

    基于上述分析,基于Paragraph2vec的用户轨迹匹配算法CDTraj2vec的伪代码如表1的算法1所示。第3行中的 Φt , Φd Φst 分别对应3种训练样本训练模型得到的用户轨迹表示;第1行—第4行主要包含的步骤有未知变量的初始化,以及将原始数据转化为小网格,并且按照3种训练样本构建方法得到训练数据。第5行—第9行是利用训练样本训练PV-DM模型来更新用户轨迹向量。第10行—第12行是将3种不同的用户轨迹向量进行拼接,得到多维时空数据下信息更加完整的用户轨迹向量表示。

    表 1  CDTranj2vec伪代码
     算法1 基于Paragraph2vec的用户轨迹匹配算法
    CDTraj2vec (DA,DB,w,d)
     输入:时空数据集 DA,DB,窗口大小 w,用户轨迹向量的维数 d
     输出:匹配结果
     (1)将原始时空数据集 DA,DB转化为小网格表示,转化后的用户轨 迹为 DcA,DcB
     (2) DcAB=DcA+DcB
     (3)随机初始化 Φt,Φd,ΦstR(|DA|+|DB|)×d
     (4)按照2.2.2节中的3种训练样本构建方法,由 DcAB构建出3种训 练样本集合 Spt, Spd, Spst
     (5) for each i in [‘t’, ‘d’, ‘st’] do:
     (6)   for j = 0 to |Spij| do: // Spij={ts:[ct1,ct2,···,ct|Spij|],ui:id(T)}
     (7)    PV-DM (Φi,Spij,w)
     (8)   end for
     (9)  end for
     (10) for i = 0 to |DA|+|DB| do:
     (11)    Φ(i,:)=concatenate(Φt(i,:),Φd(i,:),Φst(i,:))
     (12) end for
     (13)  rs=matching_strategy(Φ)
     (14) return rs
    下载: 导出CSV 
    | 显示表格

    第13行是在得到用户轨迹向量表示之后,利用文献[12]中的匹配策略,得到最终的匹配结果。文献[12]中的匹配策略包括3个步骤:账号选择、账号匹配以及剪枝过滤。在账号选择阶段需要设置筛选条件,本文将条件 C 设置为:与待匹配轨迹 TA 至少在2个不同的小网格中产生共现。在账号匹配阶段,将账号间的相似性度量修改为轨迹向量之间加权的余弦相似度。剪枝过滤部分与文献[12]相同。

    PV-DM模型对应的算法如表2的算法2所示,其中 Spij 表示按照方法 i 生成的训练样本中的第 j 个样本, Spij.ts 表示一段有效的轨迹序列, Spij.ui 为产生该轨迹序列的用户id, α 为学习率。第2行为PV-DM模型的输入,第3行的 J 为待优化的目标函数,第4行—第7行为用户轨迹向量以及小网格向量的更新过程。

    表 2  PV-DM ( Φi,Spij,w )算法
     算法2  PV-DM (Φi,Spij,w)
     输入:按照方法 i生成的训练样本在训练模型的过程中待更新的 用户轨迹向量 Φi,按照方法 i生成的训练样本中的第 j个样 本 Spij,窗口大小 w
     输出:无
     (1)for k=w to |Spij| do:
     (2)   S=Φi(Spij.ui)+w1l=kw+1vc(ctl)
     (3)   J=lg(ctk|S)
     (4) for l=kw+1 to w1 do:
     (5)    vc(ctl)=vc(ctl)α×JS
     (6)  end for
     (7)   Φi(Spij.ui)=Φi(Spij.ui)α×JS
     (8)end for
    下载: 导出CSV 
    | 显示表格

    本文在两个数据集上对所提算法进行验证,第1个数据集来自微软亚洲研究院的GeoLife项目[13]。数据集信息如表3所示。由于真实的多源用户轨迹数据难以获取,本文将单个时空数据集划分为两个部分,然后将这两个部分看作两个社交网络来进行身份识别。在将原始GPS数据转化为停留点之后,将每一条用户轨迹按照停留点的个数平均划分为两个部分 DA DB ,例如一条用户轨迹中包含100个按时间顺序排列的停留点,那么就将前50个划分到 DA 中,后50个划分到 DB 中。这个数据集由于采样频率较高(每1~5 s或5~10 m记录一次GPS坐标),因此在其上进行身份识别较为容易。第2个数据集来自基于位置服务的社交网络BrightKite[14],数据集信息同样包含在表3中。实验过程中排除了坐标点少于5的用户轨迹。与Geolife数据集一样,采用同样的方法将该时空数据划分为两部分 DC DE 。此数据集采样频率没有Geolife高,在其上进行身份识别相对困难。

    表 3  数据集信息
    数据来源 Geolife BrightKite
    划分后的数据集 DA DB DC DE
    用户轨迹数 182 182 2971 2974
    坐标点个数 16128 16802 332326 328031
    不同的小网格个数 3140 3517 73255 72098
    网格范围 纬度:39°~41°
    经度:115°~117°
    纬度:39°~41°
    经度:115°~117°
    纬度:25°~49°
    经度:–130°~–70°
    纬度:25°~49°
    经度:–130°~–70°
    时间范围 2007-04~2012-08 2007-04~2012-08 2008-03~2010-10 2008-03~2010-10
    下载: 导出CSV 
    | 显示表格

    本文采用准确率(pc)、召回率(rc)以及综合评价指标F1作为衡量算法性能的评价标准。具体定义如式(7)~式(9)所示:

    pc=tp/(tp+fp) (7)
    rc=tp/(tp+fn) (8)
    F=2×pc×rc/(pc+rc) (9)

    式中, tp 是指被算法判定为匹配且判断正确的轨迹对数, fp 是指被算法判定为匹配但判断错误的轨迹对数, fn 是指被算法判定为不匹配但实际上匹配的轨迹对数。F值是准确率和召回率的调和平均数,是算法性能的综合评价指标。

    本文所提参数的默认值如表4所示。利用单个训练本进行实验,选取最佳结果对应的 Δt Δd 。小网格的行数 r 和列数 c 的选取,是通过预先设定小网格的边长 sl ,结合网格经纬度范围计算得到的。

    表 4  文中所提参数的默认值
    变量 说明
    sl 100 m 小网格的边长
    lat1,lat2 29°N, 49°N 小网格的纬度范围
    lon1,lon2 70°W, 30°W 小网格的经度范围
    r 53374 小网格行数
    c 120932, 87541 最低纬度(29°N)和最高纬度(49°N)
    上的小网格列数
    Δt 4 h(Geolife),
    3 h(BrightKite)
    按时间划分轨迹时设定的时间阈值
    Δd 1 km 按距离划分轨迹时设定的距离阈值
    下载: 导出CSV 
    | 显示表格

    实验中采用4种基准算法来与CDTraj2vec算法进行对比,具体如下:

    (1)k-BCT: k-BCT (k Best Connected Trajectories)[15]是一种有效的不考虑位置访问顺序的轨迹相似性度量方法,对于两条用户轨迹 TA TB , k-BCT相似度如式(10)所示,其中 ca , cb 表示转化后的小网格,Dis (ca,cb) 表示小网格 ca cb 的中心在地图上的直线距离。

    kBCT(TA,TB)=caTAexp(min

    (10)

    (2)TF-IDF:文献[4]提出了一种基于TF-IDF(Term Frequency-Inverse Document Frequency)的跨域轨迹相似性计算方法:将原始用户轨迹转化为小网格表示,把小网格看作单词,把每条用户轨迹看作一篇文章,采用TF-IDF方法将每条用户轨迹转化为向量表示,从而得到轨迹相似性。TF-IDF方法综合考虑了用户轨迹中小网格的独特性以及各个小网格出现的次数,但是并未考虑轨迹中小网格之间的顺序特征。

    (3)小网格顺序打乱数据集上的CDTraj2vec-sf算法:为了进一步验证本文算法能够抽取出轨迹中的位置访问顺序特征,以及用户位置访问顺序特征被用来进行用户轨迹匹配的合理性,本文将用户轨迹中的小网格打乱:将用户轨迹中的各个小网格的时间固定,将小网格打乱之后在对应到产生的时间上。

    (4)不划分训练样本的CDTraj2vec-wcet算法:为了验证本文中样本构建算法的有效性,设置一种不划分训练本的CDTraj2vec算法,称之为CDTraj2vec-wcet(CDTraj2vec Without constructing effective training set)算法,CDTraj2vec-wcet不对用户轨迹进行划分,直接使用用户轨迹对应的小网格序列来训练PV-DM模型。算法的参数与CDTraj2vec保持一致。

    实验结果如表5表6所示,CDTraj2vec相比其他算法在不同数据集上均拥有较好性能。具体原因在于,相比于CDTraj2vec, k-BCT与TF-IDF方法均没有考虑用户访问位置的顺序以及时间信息;CDTraj2vec-sf打乱了轨迹点的顺序,使得轨迹位置访问顺序特征变得不明显甚至不存在,用户潜在的行为模式难以被识别,所以其实验结果并不理想;CDTraj2vec-wcet由于没有对用户轨迹进行有效划分,模型难以从样本中抽取出位置访问顺序特征,导致算法效果不理想。

    表 5  Geolife上的实验结果(Δt = 4 h, Δd = 1 km)
    算法 准确率(pc) 召回率(rc) F
    k-BCT 0.9080 0.9530 0.9299
    TF-IDF 0.9651 0.9185 0.9412
    CDTraj2vec-sf 0.9241 0.8462 0.8834
    CDTraj2vec-wcet 0.9151 0.8694 0.8917
    CDTraj2vec
    (使用训练样本A, B, C)
    0.9888 0.9899 0.9893
    下载: 导出CSV 
    | 显示表格
    表 6  BrightKite上的实验结果(Δt = 3 h, Δd = 1 km)
    算法 准确率(pc) 召回率(rc) F
    k-BCT 0.8802 0.9238 0.9015
    TF-IDF 0.8741 0.9164 0.8947
    CDTraj2vec-sf 0.8841 0.8457 0.8647
    CDTraj2vec-wcet 0.8645 0.8108 0.8367
    CDTraj2vec
    (使用训练样本A, B, C)
    0.9465 0.9245 0.9354
    CDTraj2vec
    (只使用训练样本A, B)
    0.9440 0.9281 0.9360
    下载: 导出CSV 
    | 显示表格

    本文的CDTraj2vec算法从用户潜在的移动模式出发,对用户位置访问顺序特征进行建模,在原始用户轨迹的基础上构建体现空间信息以及时间信息的训练样本,使得模型更加容易地从中抽取出位置访问顺序特征,从而实验结果更加精确。实验结果显示,在两个数据集上,单一的训练样本的F值均高于CDTraj2vec-wcet,验证了3种样本构建方法的有效性。此外,在Geolife数据集上,同时使用3种训练样本时,准确率、召回率和F值达到最大的0.9888,0.9899和0.9893,比使用单独一种或两种类型的训练样本效果更好,验证了本文算法的有效性。在BrightKite数据集上,只使用训练样本A,B时(分别将按时间划分轨迹得到的训练样本、按距离划分轨迹得到的训练样本以及在时空域上构建的训练样本称为训练样本A, B, C), F值达到最大的0.9360,在此基础上加入训练样本C时,F值从0.9360降到了0.9354,其原因是在时空域上构建的训练样本具有稀疏性,最终导致F值的降低,但与此同时,F值的略微降低换来的是准确率达到最大,这使得本文算法适用于对准确率要求较高的应用场景。

    针对现有轨迹匹配算法未考虑用户轨迹中的位置访问顺序特征的缺点,本文提出了基于Paragraph2vec的轨迹匹配算法CDTraj2vec。利用Paragraph2vec算法中的PV-DM模型抽取用户轨迹中的位置访问顺序特征。通过对原始轨迹按照不同的时间粒度以及距离尺度进行划分,得到3种适用于训练PV-DM模型的训练样本。将各个训练样本训练模型得到的轨迹向量进行拼接作为最终的轨迹向量表示。最终通过向量相似性计算用户轨迹相似性。实验结果表明所提算法在准确率上具有较为明显的优势。由于本文算法在划分小网格时没有考虑其在地图上的语义位置,有时表达同一个语义位置的两个坐标点,对应的可能是不同的小网格,所以后续研究可以集中在:如何在数据预处理部分对原始的时空数据进行准确地网格化,使其网格化过后信息量损失最小。

  • 图  1  系统模型

    图  2  鲁棒聚合算法

    图  3  轻量安全聚合协议

    图  4  MNIST数据集上 \sigma = 0.5 时各鲁棒算法准确度

    图  5  MNIST数据集上 \sigma = 0.8 时各鲁棒算法准确度

    图  6  Fashion MNIST数据集上 \sigma = 0.5 时各鲁棒算法准确度

    图  7  Fashion MNIST数据集上 \sigma = 0.8 时各鲁棒算法准确度

    图  8  不同算法在设备端和服务器端计算开销对比

    表  1  MNIST和Fashion MNIST在IID设置下的算法准确度(%)

    数据集模型攻击方式FedSGDKrumMedianTrimeanRSANRe-Sim
    MNISTLeNet-5无攻击97.1494.4996.7896.7996.9497.16
    SF11.3594.4095.1094.7395.3296.21
    GA12.4195.0795.7396.2896.6896.76
    NA81.7494.4696.4996.8796.5897.03
    Fashion MNISTLeNet-5无攻击85.1782.8085.6885.7385.7685.89
    SF9.9881.7682.8883.3982.5783.43
    GA16.1782.7785.2784.9785.1685.44
    NA62.9282.1585.4685.4185.3385.64
    下载: 导出CSV
  • [1] 黄新林, 郑人华. 基于强化学习的802.11ax上行链路调度算法[J]. 电子与信息学报, 2022, 44(5): 1800–1808. doi: 10.11999/JEIT210590

    HUANG Xinlin and ZHENG Renhua. 802.11ax uplink scheduling algorithm based on reinforcement learning[J]. Journal of Electronics &Information Technology, 2022, 44(5): 1800–1808. doi: 10.11999/JEIT210590
    [2] MCMAHAN B, MOORE E, RAMAGE D, et al. Communication-efficient learning of deep networks from decentralized data[C]. The 20th International Conference on Artificial Intelligence and Statistics, Fort Lauderdale, USA, 2017: 1273–1282.
    [3] BLANCHARD P, EL MHAMDI E M, GUERRAOUI R, et al. Machine learning with adversaries: Byzantine tolerant gradient descent[C]. The 31st International Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 118–128.
    [4] YIN Dong, CHEN Yudong, RAMCHANDRAN K, et al. Byzantine-robust distributed learning: Towards optimal statistical rates[C]. The 35th International Conference on Machine Learning, Stockholm, Sweden, 2018: 5636–5645.
    [5] MELIS L, SONG Congzheng, DE CRISTOFARO E, et al. Exploiting unintended feature leakage in collaborative learning[C]. 2019 IEEE Symposium on Security and Privacy (SP), San Francisco, USA, 2019: 691–706.
    [6] XIONG Jinbo, BI Renwan, TIAN Youliang, et al. Toward lightweight, privacy-preserving cooperative object classification for connected autonomous vehicles[J]. IEEE Internet of Things Journal, 2022, 9(4): 2787–2801. doi: 10.1109/JIOT.2021.3093573
    [7] BI Renwan, XIONG Jinbo, TIAN Youliang, et al. Achieving lightweight and privacy-preserving object detection for connected autonomous vehicles[J]. IEEE Internet of Things Journal, 2023, 10(3): 2314–2329. doi: 10.1109/JIOT.2022.3212464
    [8] ZAWAD S, ALI A, CHEN Pinyu, et al. Curse or redemption? How data heterogeneity affects the robustness of federated learning[C]. The 35th AAAI Conference on Artificial Intelligence, Vancouver, Canada, 2021: 10807–10814.
    [9] ZHAI Kun, REN Qiang, WANG Junli, et al. Byzantine-robust federated learning via credibility assessment on non-IID data[J]. arXiv: 2109.02396, 2021.
    [10] LI Liping, XU Wei, CHEN Tianyi, et al. RSA: Byzantine-robust stochastic aggregation methods for distributed learning from heterogeneous datasets[C]. The 33rd AAAI Conference on Artificial Intelligence, Hawaii, USA, 2019: 1544–1551.
    [11] ZHANG Chengliang, LI Suyi, XIA Junzhe, et al. BatchCrypt: Efficient homomorphic encryption for cross-silo federated learning[C]. The 2020 USENIX Conference on Usenix Annual Technical Conference, Boston, USA, 2020: 33.
    [12] FU Anmin, ZHANG Xianglong, XIONG Naixue, et al. VFL: A verifiable federated learning with privacy-preserving for big data in industrial IoT[J]. IEEE Transactions on Industrial Informatics, 2022, 18(5): 3316–3326. doi: 10.1109/TII.2020.3036166
    [13] SO J, GÜLER B, and AVESTIMEHR A S. Byzantine-resilient secure federated learning[J]. IEEE Journal on Selected Areas in Communications, 2021, 39(7): 2168–2181. doi: 10.1109/JSAC.2020.3041404
    [14] LIU Xiaoyuan, LI Hongwei, XU Guowen, et al. Privacy-enhanced federated learning against poisoning adversaries[J]. IEEE Transactions on Information Forensics and Security, 2021, 16: 4574–4588. doi: 10.1109/TIFS.2021.3108434
    [15] HSIEH K, HARLAP A, VIJAYKUMAR N, et al. Gaia: Geo-distributed machine learning approaching LAN speeds[C]. The 14th USENIX Conference on Networked Systems Design and Implementation, Boston, USA, 2017: 629–647.
    [16] LI Yiran, LI Hongwei, XU Guowen, et al. Efficient privacy-preserving federated learning with unreliable users[J]. IEEE Internet of Things Journal, 2021, 9(13): 11590–11603. doi: 10.1109/JIOT.2021.3130115
    [17] ZHU Wanchuang, ZHAO B Z H, LUO S, et al. MANDERA: Malicious node detection in federated learning via ranking[J]. arXiv: 2110.11736, 2021.
    [18] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2324. doi: 10.1109/5.726791
    [19] XIAO Han, RASUL K, and VOLLGRAF R. Fashion-MNIST: A novel image dataset for benchmarking machine learning algorithms[J]. arXiv: 1708.07747, 2017.
    [20] WANG Hao, KAPLAN Z, NIU Di, et al. Optimizing federated learning on non-IID data with reinforcement learning[C]. IEEE INFOCOM 2020 - IEEE Conference on Computer Communications, Toronto, Canada, 2020: 1698–1707.
  • 期刊类型引用(17)

    1. 王庚润. 网络空间用户身份对齐技术研究及应用综述. 计算机科学. 2024(05): 12-20 . 百度学术
    2. 周小涵,贾鹏,杨频,寇蒋恒,刘鑫哲. 基于合并子图的双通道跨网络用户身份识别. 四川大学学报(自然科学版). 2024(04): 9-19 . 百度学术
    3. 刘政. 基于轨迹数据的用户身份匹配方法研究综述. 山东交通科技. 2024(05): 126-128+136 . 百度学术
    4. 雷天亮,吉立新,王庚润,刘树新,巫岚. 基于可拓展自注意力时空图卷积神经网络的用户轨迹识别模型. 电子学报. 2024(11): 3741-3750 . 百度学术
    5. 张洋,马强. 基于时空Transformer-encoder的跨社交网络用户匹配方法. 计算机应用研究. 2024(12): 3742-3748 . 百度学术
    6. 戴军,马强. 基于用户签到的跨社交网络用户匹配. 计算机工程与应用. 2023(02): 76-84 . 百度学术
    7. 马强,戴军. 基于深度学习的跨社交网络用户匹配方法. 电子与信息学报. 2023(07): 2650-2658 . 本站查看
    8. 栾孟孟,赵涛,卞怡倩. 基于深度学习的跨社交网络用户身份识别研究. 衡水学院学报. 2022(01): 5-9 . 百度学术
    9. 苏俊杰,兰培真. 基于层次注意力孪生网络的船舶身份甄别. 大连海事大学学报. 2022(02): 31-39 . 百度学术
    10. 蔡柔丹. 一种基于用户异步轨迹的身份识别智能方法. 测绘通报. 2022(07): 158-162+167 . 百度学术
    11. 胡三宁,李玉祥. 基于多源数据整合的跨社交网络用户匹配方法. 计算机仿真. 2021(04): 352-355+466 . 百度学术
    12. 胡军,杨冬梅,刘立,钟福金. 融合节点状态信息的跨社交网络用户对齐. 山东大学学报(工学版). 2021(06): 49-58 . 百度学术
    13. 黄容生,刘增才,袁小凯,李果. 国密算法下网络用户身份识别的系统研究. 电子设计工程. 2020(07): 147-150+155 . 百度学术
    14. 程晓涛,吉立新,尹赢,黄瑞阳. 基于D-S证据理论的网络表示融合方法. 电子学报. 2020(05): 854-860 . 百度学术
    15. 王前东. 经典轨迹的鲁棒相似度量算法. 电子与信息学报. 2020(08): 1999-2005 . 本站查看
    16. 栾孟孟,赵涛,杨星华,李晓宇,张杰. 国内外跨社交网络用户身份识别综述. 齐鲁工业大学学报. 2020(04): 55-60 . 百度学术
    17. 李万林,王超,许国良,雒江涛,张轩. 基于信令数据的轨迹驻留点识别算法研究. 电子与信息学报. 2020(12): 3013-3020 . 本站查看

    其他类型引用(18)

  • 加载中
图(8) / 表(1)
计量
  • 文章访问数:  869
  • HTML全文浏览量:  461
  • PDF下载量:  248
  • 被引次数: 35
出版历程
  • 收稿日期:  2022-09-14
  • 修回日期:  2023-01-15
  • 网络出版日期:  2023-02-08
  • 刊出日期:  2023-12-26

目录

/

返回文章
返回