杨睿哲, 谢欣儒, 滕颖蕾, 李萌, 孙艳华, 张大君. 工业物联网中基于信息熵的联邦增量学习算法与优化[J]. 电子与信息学报, 2024, 46(8): 3146-3154. doi: 10.11999/JEIT231240
YANG Ruizhe, XIE Xinru, TENG Yinglei, LI Meng, SUN Yanhua, ZHANG Dajun. Entropy-based Federated Incremental Learning and Optimization in Industrial Internet of Things[J]. Journal of Electronics & Information Technology, 2024, 46(8): 3146-3154. doi: 10.11999/JEIT231240
Entropy-based Federated Incremental Learning and Optimization in Industrial Internet of Things

Funds: The National Natural Science Foundation of China (62171062, 62371012)
  • 摘要: 面对工业生产过程中大规模、多样且随时间增长的数据和机器学习任务,该文提出一种基于信息熵的联邦增量学习(FIL)与优化方法。基于联邦框架,各本地计算节点可利用本地数据进行模型训练,并计算信息平均熵上传至服务器,以此辅助识别类增任务;全局服务器则根据本地反馈的平均熵选择参与当前轮次训练的本地节点,并判决任务是否产生增量后,进行全局模型下发与聚合更新。所提方法结合平均熵和阈值进行不同情况下的节点选择,实现低平均熵下的模型稳定学习和高平均熵下的模型增量式扩展。在此基础上,采用凸优化,在资源有限的情况下自适应地调整聚合频率和资源分配,最终实现模型的有效收敛。仿真结果表明,在不同的情景下,该文所提方法都可以加速模型收敛并提升训练精度。
  • 图  1  工业场景中的系统模型图

    图  2  联邦式增量学习系统流程

    图  3  不同情况下4种算法的平均精度

    图  4  资源充足时,阈值对模型训练的影响

    图  5  资源充足时,数据量与节点类对模型训练的影响

    图  6  不同资源下,不同模型的训练情况

    表  1  符号描述

    符号 描述
    $ {\boldsymbol{\theta}} ^{r,t},{\boldsymbol{\theta}} _m^{\tau ,t} $ 全局模型及本地节点$m$处的局部模型
    $ f_{\rm c}^{}( \cdot ),f_{{\mathrm{d}}}^{}( \cdot ) $ 模型训练损失与蒸馏损失
    $ \mathcal{S}^r $ 第$ r $次迭代选择的节点集合
    $M,N$ 节点总数与每轮选中节点数
    $ \mathcal{H}_m^{r,t} $ 本地数据与模型间的信息熵
    $ \mathcal{I}( \cdot ) $ 熵函数
    $ {\varLambda _{{\mathrm{low}}}},{\varLambda _{{\mathrm{high}}}} $ 贪婪算法下节点选择的阈值
    $\eta $ 学习率
    $c^{\rm{loc}},c^{\rm{ent}}$ 本地节点训练任务负载
    $c^{\rm{glo}}$ 全局聚合复杂度
    $ t^*,E^* $ 模型迭代中的时延及能耗
    $R^{\rm{glo}},R^{\rm{loc}}$ 全局及本地训练迭代次数
    $f_m^{\rm{cmp}}$ 计算能力
    $ \varphi ,\beta ,\delta $ 凸优化过程中理论存在的中间值
    $ {\hat \varphi ^{r,t}} $,$ {\hat \beta ^{r,t}} $,${\hat \delta ^{r,t}}$ 凸优化过程中实测的中间值
    1  基于信息熵的节点选择

     (2)初始化选择系数${\varLambda _{\rm{low}}}$和${\varLambda _{\rm{high}}}$,开始轮次$\mathcal{E}$
     (3)for $ r = 1,\; 2,\;\cdots ,\;{{\mathrm{epoch}}} $
     (4)  for $\forall m \in M$then利用式(6)计算$ \mathcal{H}_m^{r,t} $上传给CPU
     (5)  $ \mathcal{H}^{r,t} = \{ \mathcal{H}_m^{r,t}\} $,随机获取${r_{\rm{and}}} \in (0,1)$
     (6)  if $r < \mathcal{E}$ and $ {r_{\rm{and}}} < {\varLambda _{\rm{low}}} $
     (7)   then 随机选择$ N $个节点为$\mathcal{S}$, go to (10)
     (8)  if $ {\varLambda _{\rm{low}}} \le {r_{\rm{and}}} < {\varLambda _{\rm{high}}} $ then选$ \mathcal{H}_m^{r,t} $最小的$ N $个节点为${\mathcal{S}^r}$
     (9)   else:排序$ \mathcal{H}^{r,t} $,选$ \mathcal{H}_m^{r,t} $最大的$ N $个节点为${\mathcal{S}^r}$
     (10) 被选节点$ s_{m*}^t = 1 $, $ q_{m*}^r = 1 $
    2  优化模型求解

     (1)初始化:$ {{\boldsymbol{\zeta}} ^{(0)}} $, $ v = 0 $
     (2)if $ {{\boldsymbol{\zeta}} ^{(v)}} $为稳态解, then返回$ {{\boldsymbol{\zeta}} ^{(v)}} $
     (3)$ \widehat{\boldsymbol{\zeta}}({\boldsymbol{\zeta}}^{(v)})\triangleq \mathrm{arg}\mathrm{min}\tilde{U}({\boldsymbol{\zeta}} ,{{\boldsymbol{\zeta}} }^{(v)}) $
     (4)$ {\boldsymbol{\zeta}}^{(v+1)}={\boldsymbol{\zeta}}^{(v)}+{k}^{(v)}{(}\widehat{\boldsymbol{\zeta}}({\boldsymbol{\zeta}}^{(v)})-{\boldsymbol{\zeta}}^{(v)}) $
     (5)$v \leftarrow v + 1$,转到(2)
    表  2  参数说明

    参数 定义
    $ M $ 节点数量 [10, 200]
    $ E $ 总能量 [500, 1 000] J
    $t$ 总时间 [2 000, 20 000] s
    $ \left| {{\mathcal{D}_m}} \right| $ 节点$m$数据集大小 [120, 200]
    $ {c^{\rm{loc}}} $ 本地计算负荷 15 cycles
    $ {c^{\rm{glo}}} $ 全局计算负荷 25 cycles
    $ f_m^{\rm{cmp}} $ 节点$m$计算能力 [1, 10] GHz
    $ \psi /2 $ 节点计算芯片组的有效电容系数 $ {10^{ - 28}} $
    $p_m^{\min },p_m^{\max }$ 设备节点功率约束 [0.2, 1] W
