高莹 谢雨欣 邓煌昊 朱祖坤 张一余

高莹, 谢雨欣, 邓煌昊, 朱祖坤, 张一余. 面向纵向联邦学习的隐私保护数据对齐框架[J]. 电子与信息学报, 2024, 46(8): 3419-3427. doi: 10.11999/JEIT231234
GAO Ying, XIE Yuxin, DENG Huanghao, ZHU Zukun, ZHANG Yiyu. A Privacy-preserving Data Alignment Framework for Vertical Federated Learning[J]. Journal of Electronics & Information Technology, 2024, 46(8): 3419-3427. doi: 10.11999/JEIT231234
doi: 10.11999/JEIT231234 cstr: 32379.14.JEIT231234
基金项目: 北京市自然科学基金 (M21033),腾讯微信犀牛鸟基金(本基金无项目编号)







    高莹 gaoying@buaa.edu.cn

  • 中图分类号: TN918;TP309

A Privacy-preserving Data Alignment Framework for Vertical Federated Learning

Funds: The Natural Science Foundation of Beijing Municipality (M21033), The Tencent Rhino-Bird Joint Research Program
  • 摘要: 纵向联邦学习中,各个客户端持有的数据集中包含有重叠的样本ID和不同维度的样本特征,需要进行数据对齐以适应模型训练。现有数据对齐技术一般将各方样本ID交集作为公开信息,如何在不泄露样本ID交集的前提下实现数据对齐成为亟需解决的问题。基于可交换加密和同态加密技术,该文构造了隐私保护的数据对齐框架ALIGN,包括数据加密、密文盲化、密文求交和特征拼接等步骤,使得相同的原始样本ID经过双重可交换加密可变换为相同的密文,并且对样本特征经同态加密后又进行了盲化处理。ALIGN框架能够对参与方样本ID的密文求交,将交集内样本ID对应的全部特征数据进行拼接并以秘密分享形式分配给参与方。相比现有数据对齐技术,该框架不仅能够保护样本ID交集的隐私性,同时能安全地删除样本ID交集外的样本信息。对ALIGN框架的安全性证明表明,除数据规模外,各客户端不能通过数据对齐获得关于对方数据的任何信息,保证了隐私保护策略的有效性。与现有工作相比,每增加10%的冗余数据,ALIGN框架利用所得数据对齐结果可将模型训练时间缩短约1.3秒,将模型训练准确度稳定在85%以上。仿真实验结果表明,通过ALIGN框架进行纵向联邦学习数据对齐,有利于提升后续模型训练的效率和模型准确度。
  • 图  1  纵向联邦学习数据对齐及训练阶段示意图

    图  2  ALIGN框架流程图

    图  3  ALIGN和Ciruit-PSI对齐数据的模型训练对比

    表  1  本文符号汇总

    符号 含义
    $ {P_{\rm A}},{P_{\rm B}} $ 纵向联邦学习参与方
    $ {n_{\rm A}} $ 参与方$ {P_{\rm A}} $的原始数据集包含的样本数量
    $ {n_{\rm B}} $ 参与方$ {P_{\rm B}} $的原始数据集包含的样本数量
    $ [n](n \in \mathbb{Z}) $ 集合$ \{ 1,2, \cdots ,n\} $
    m 参与方$ {P_{\rm A}} $和$ {P_{\rm B}} $的样本ID交集大小
    $\left\langle {\cdot } \right\rangle_{\rm A} $ 参与方$ {P_{\rm A}} $的秘密分享份额
    $\left\langle {\cdot } \right\rangle_{\rm B} $ 参与方$ {P_{\rm B}} $的秘密分享份额
    $ {[x]_k} $ 以密钥k加密明文x得到的密文
    1  ALIGN框架任意参与方数据对齐算法

     输入:数据集$ ({\text{ID}},X) $,可交换加密算法$ E( \cdot ) $及密钥k,同态加密算法$ H( \cdot ) $及公私钥对$ ({\text{pk,sk}}) $
     输出:数据对齐结果$ {\text{res}} $
      # ID加密和特征加密
      $ P\;{\text{sends}}\;{\text{pk}}\;{\text{to}}\;P'\;{\text{and receives}}\;{\text{pk}}'\;{\text{from}}\;P' $
      $ ({\text{ID}},X) $$ \leftarrow $$ ({E_k}({\text{ID}}),{H_{{\text{pk}}}}(X)) $
      $ P\;{\text{sends}}\;({\text{ID}},X)\;{\text{to}}\;P'\;{\text{and receives}}\;({\text{I}}{{\text{D}}_1},{X_1})\;{\text{from}}\;P' $
      # ID重加密和特征密文盲化
      $ {\text{I}}{{\text{D}}_1} \leftarrow {E_k}({\text{I}}{{\text{D}}_1}) $
      $ R = [] $
      for i in $ {\text{range(|}}{X_1}{\text{|)}} $
       $ {r_i} \leftarrow {\text{RandomGenerator}}(\cdot) $ # RandomGenerator(·)表示随机数生成器
       $ R.{\text{append}}({r_i}) $
       $ {X_1}[i] \leftarrow {X_1}[i] - {H_{{\text{pk}}}}({r_i}) $;
       end for
      $ {\text{dict}} \leftarrow \{ {\text{I}}{{\text{D}}_1}[i]:R[i] $for i in $ {\text{range(|I}}{{\text{D}}_{\text{1}}}{\text{|)\} }} $
      $ \pi \leftarrow {\text{PermutationGenerator}}(\cdot) $ #PermutationGenerator(·)表示随机置换函数生成器,用于随机置换列表中元素的顺序
      $ ({\text{I}}{{\text{D}}_1},{X_1}) \leftarrow \pi ({\text{I}}{{\text{D}}_1}),\pi ({X_1}) $
      $ P\;{\text{sends}}\;({\text{I}}{{\text{D}}_1},{X_1})\;{\text{to}}\;P'\;{\text{and receives}}\;({\text{I}}{{\text{D}}_2},{X_2})\;{\text{from}}\;P' $
      # ID密文求交和特征拼接
      $ {\text{re}}{{\text{s}}_{\text{1}}}{\text{, re}}{{\text{s}}_2} = [],[] $;
      for i in $ {\text{range(|I}}{{\text{D}}_2}{\text{|)}} $
       for $ {\text{id}} $ in $ {\text{I}}{{\text{D}}_1} $:
        if $ {\text{I}}{{\text{D}}_2}[i] = = {\text{id}} $:
         $ {\text{re}}{{\text{s}}_{\text{1}}}{\text{.append}}({X_2}[i]) $
         $ {\text{re}}{{\text{s}}_2}{\text{.append}}({\text{dict[id}}]) $
        end if
       end for
      end for
      # 解密生成秘密份额
      $ {\text{result}} \leftarrow ({H^{{{ - 1}}}}_{{\text{sk}}}({\text{re}}{{\text{s}}_{\text{1}}}{\text{),re}}{{\text{s}}_{\text{2}}}) $
    表  2  ALIGN框架运行时间

    ID交集大小 运行时间(s)
    50 2.30
    100 4.49
    150 6.69
    200 8.82
    250 11.07
图(3) / 表(3)
  • 收稿日期:  2023-11-07
  • 修回日期:  2024-04-02
  • 网络出版日期:  2024-04-17
  刊出日期:  2024-08-10



