边松 毛苒 朱永清 傅云濠 张舟 丁林 张吉良 张博 陈弈 董进 关振宇

边松, 毛苒, 朱永清, 傅云濠, 张舟, 丁林, 张吉良, 张博, 陈弈, 董进, 关振宇. 全同态加密软硬件加速研究进展[J]. 电子与信息学报, 2024, 46(5): 1790-1805. doi: 10.11999/JEIT230448
BIAN Song, MAO Ran, ZHU Yongqing, FU Yunhao, ZHANG Zhou, DING Lin, ZHANG Jiliang, ZHANG Bo, CHEN Yi, DONG Jin, GUAN Zhenyu. A Survey on Software-hardware Acceleration for Fully Homomorphic Encryption[J]. Journal of Electronics & Information Technology, 2024, 46(5): 1790-1805. doi: 10.11999/JEIT230448
doi: 10.11999/JEIT230448
基金项目: 国家重点研发计划(2023YFB3106200),国家自然科学基金(62002006, 62172025, U21B2021, 61932011, 61932014, 61972018, 61972019, 62202028, U2241213),国防基础科研项目(JCKY2021211B017)













    董进 dongjin@baec.org.cn

    关振宇 guanzhenyu@buaa.edu.cn

  • 中图分类号: TN918.4; TP309.2

A Survey on Software-hardware Acceleration for Fully Homomorphic Encryption

Funds: The National Key R&D Program of China (2023YFB3106200), The National Natural Science Foundation of China (62002006, 62172025, U21B2021, 61932011, 61932014, 61972018, 61972019, 62202028, U2241213), The Defense Industrial Technology Development Program (JCKY2021211B017)
  • 摘要: 全同态加密(FHE)是一种重计算、轻交互的多方安全计算协议。在基于全同态加密的计算协议中,尽管计算参与方之间无需多轮交互与大量通信,加密状态下的密态数据处理时间通常是明文计算的$ {10}^{3}\mathrm{~}{10}^{6} $倍,极大地阻碍了这类计算协议的实际落地;而密态数据上的主要处理负担是大规模的并行密码运算和运算所必须的密文及密钥数据搬运需求。该文聚焦软、硬件两个层面上的全同态加密加速这一研究热点,通过系统性地归类及整理当前领域中的文献,讨论全同态加密计算加速的研究现状与展望。
  • 图  1  全同态加密研究进展概述

    图  2  BGV自举流程

    图  3  CKKS自举流程

    图  4  TFHE自举流程算法1 同态累加

    图  5  同态矩阵-向量乘法

    图  6  可编程自举中的盲旋转

    图  7  F1加速器硬件架构

    图  8  MATCHA架构

    表  1  符号定义

    符号 描述 符号 描述­
    $ \lambda $ 安全参数 $ \chi $ 噪声分布
    $ p $ 明文模数 $ \mathbb{Z}_q^n $ $ \mathbb{Z}_q^n $上的$ n $维向量
    $ q $ LWE密文模数 $ R $ $ \mathbb{Z}[X]/\left( {{X^N} + 1} \right) $上的分圆多项式环
    $ Q $ RLWE密文模数 $ {R_Q} $ $ {\mathbb{Z}_Q}[X]/\left( {{X^N} + 1} \right) $上的分圆多项式环
    $ Q' $ GSW密文模数 $ {\boldsymbol{a}} $ 向量域上的元素
    $ n $ LWE密文维数 $ {a_i} $ $ a $的第$ i $个元素
    $ N $ RLWE密文维数 $ \tilde a $ 多项式环上的元素
    $ N^{\prime} $ GSW密文维数 $ {\tilde {\boldsymbol{a}}_i} $ 多项式环$ \tilde {\boldsymbol{a}} $的第$ i $元素
    $ l $ GSW中包含RLWE个数 $ {{\mathrm{LWE}}}_{\boldsymbol{s}}^{n,q}({\boldsymbol{m}}) $ 参数$ \left( {n,q} \right) $和密钥$ {\boldsymbol{s}} $加密消息$ {\boldsymbol{m}} $的LWE密文
    $ \Delta $ 缩放因子 $ {\text{RLWE}}_{{\boldsymbol{\tilde s}}}^{N,Q}({\boldsymbol{\tilde m}}) $ 参数$ \left( {N,Q} \right) $和密钥$ {\boldsymbol{\tilde s}} $加密消息$ {\boldsymbol{\tilde m}} $的RLWE密文
    $ \varkappa $ 自举中未被刷新的位数 $ {\text{RGSW}}_{{\boldsymbol{\tilde s}}}^{N',Q'}({\boldsymbol{m}}) $ 参数$ \left( {N',Q'} \right) $和密钥$ {\boldsymbol{\tilde s}} $加密消息$ {\boldsymbol{m}} $的RGSW密文
    $ \vartheta $ 自举置零的位数 $ d \leftarrow \mathcal{D} $ 从分布$ \mathcal{D} $中随机选择一个元素$ d $
    下载: 导出CSV
    算法1 同态累加
     ACC$ \leftarrow b $
     For $ i = 1 $ to $ n $ do
      $ {\text{ACC}} \leftarrow {\text{ACC}} - {\text{B}}{{\text{K}}_i} \cdot {a_i}{\rm{mod}} q $
    下载: 导出CSV

    表  2  全同态加密体系对比

    加密体系 线性计算 非线性计算 批处理 特点及应用
    BFV/BGV加密体系 × 整数运算,标量乘法,高效层级同态设计
    CKKS加密体系 实数运算,多项式近似,离散傅里叶变换
    AP/GINX加密体系 × 比特运算,快速自举,布尔电路
    下载: 导出CSV

    表  3  近期全同态加密算法的硬件加速方案

    年份 加速方案 实验平台 面向算法 实验效果
    2020 HEAX[60] FPGA CKKS 与单线程Intel Xeon(R) Silver 4108处理器相比较,HEAX可以实现164~268倍的性能提升
    2021 Cheetah[61] 40 nm ASIC BFV 相较于当时最好的面向神经网络的同态加密接口解决方案Gazelle[23],综合电路可提供约79倍的加速效果
    2021 F1[62] 14 nm/12 nm
    BGV, BFV,
    性能相较于4核心8线程的3.5 GHz Xeon E3-1240v5 CPU软件实现方案速度平均提高了5400倍,其中最高的可达17000倍,并且比当时最快的硬件加速方案HEAX[60]快了172到1866倍不等
    2022 CraterLake[63] 14 nm/12 nm
    BGV, GSW,
    性能比CPU(32核64线程3.5 GHz AMD Ryzen Threadripper PRO 3975WX)平均高出4600倍,比之前的最佳全同态加密加速器F1[62]高出11.2倍
    2022 ARK[64] 7 nm ASIC CKKS 相较于CPU(2.6 GHz Xeon Platinum 8358)单线程软件实现速度提升了最高18 214倍,相较于GPU实现方案100x[65]在一些算子上提升了104~563倍,相较于CraterLake[63]速度提升了1.23~2.58倍
    2023 Poseidon[66] FPGA CKKS 对于全同态加密基本运算,Poseidon相较于现有的单线程CPU(3.3 GHz Intel Xeon Gold 6 234)的加速比高达370倍;对于关键算子,Poseidon相较于CPU和FPGA解决方案HEAX[60]的加速比分别高达1300倍和52倍;对于全同态加密基准测试,Poseidon相较于GPU解决方案100x[65]和ASIC解决方案F1[62]的加速比分别高达10.6倍和8.7倍
    2023 FxHENN[67] FPGA CKKS 与最先进的基于CPU的HE-CNN推理解决方案LoLa[68]相比,FxHENN实现了高达13.49倍的推理延迟加速效果和1 187.12倍的能量效率
    2023 TensorFHE[69] GPU BFV, BGV 比GPGPU上最先进的全同态加密实现100x[4]快 2.61 倍;在特定的工作负载下,TensorFHE可以比 F1+[62]快 2.9 倍
    2022 MATCHA[70] 16 nm ASIC TFHE 与实现的GPU同态运行库cuFHE[71]相比,将TFHE门处理吞吐量提高了2.3倍;与FPGA方案TVE[72]改造的ASIC加速器相比,在能效上将每瓦特吞吐量提高了6.3倍
    2022 FPT[73] FPGA TFHE FPT的自举吞吐量比现有基于CPU(2.1 GHz Intel Xeon Silver 4208 CPU)的单核实现高近937倍,比FPGA方案[74]高出7.1倍,并且比最近的ASIC方案MATCHA[8]高出2.5倍。
    下载: 导出CSV
