谢涛 张春炯 徐永健

Tao XIE, Chunjiong ZHANG, Yongjian XU. Collaborative Parameter Update Based on Average Variance Reduction of Historical Gradients[J]. Journal of Electronics & Information Technology, 2021, 43(4): 956-964. doi: 10.11999/JEIT200061
基金项目: 国家自然科学基金(61807027)





    谢涛 xietao@swu.edu.cn

  • 中图分类号: TP391

Collaborative Parameter Update Based on Average Variance Reduction of Historical Gradients

Funds: The National Natural Science Foundation of China (61807027)
  • 摘要: 随机梯度下降算法(SGD)随机使用一个样本估计梯度,造成较大的方差,使机器学习模型收敛减慢且训练不稳定。该文提出一种基于方差缩减的分布式SGD,命名为DisSAGD。该方法采用历史梯度平均方差缩减来更新机器学习模型中的参数,不需要完全梯度计算或额外存储,而是通过使用异步通信协议来共享跨节点的参数。为了解决全局参数分发存在的“更新滞后”问题,该文采用具有加速因子的学习速率和自适应采样策略:一方面当参数偏离最优值时,增大加速因子,加快收敛速度;另一方面,当一个工作节点比其他工作节点快时,为下一次迭代采样更多样本,使工作节点有更多时间来计算局部梯度。实验表明:DisSAGD显著减少了循环迭代的等待时间,加速了算法的收敛,其收敛速度比对照方法更快,在分布式集群中可以获得近似线性的加速。
    表  1  基于历史梯度平均方差缩减算法

     输入:learning rate $\lambda $.
     输出:$\omega $ and $g$ for next epoch.
     (1) Initialize $\omega $ using plain SGD for 1 epoch;
     (2) while not converged do
     (3) $\overline \omega \leftarrow 0$;
     (4) $\overline g \leftarrow 0$;
     (5) for $t$= 0, 1, ···, T do
     (6)  Randomly sample ${i_t} = \{ 1,2,··· ,m\}$ without replacement;
     (7)  $\overline \omega \leftarrow \frac{1}{m}\displaystyle\sum\limits_{i = 1}^m { {\omega _i} }$;
     (8)  $\overline g \leftarrow \frac{1}{m}\displaystyle\sum\limits_{i = 1}^m {\nabla {f_i}({\omega _i})}$;
     (9)  Update $g$ and $\omega $ using equation(1) and equation(3),
     (10) end
     (11) end
    表  2  DisSAGD算法的伪代码

     输入:${D_1},{D_2}, ··· ,{D_p}$.
     输出:${\omega _1},{\omega _2}, ··· ,{\omega _p}$.
     (1) Initialize ${\omega _p}$;
     (2) for s = 1, 2, ···, N do
     (3) for each node $k \in \{ 1,2, ··· ,p\} $do
     (4) Call subroutine avr_hg($\lambda $);
     (5) end
     (6) Return all ${\omega _{k,t}}$ and ${f_{k,t}}(\omega )$ from node k to server;
     (7) Compute ${\omega ^{s - 1} } = \dfrac{1}{k}\displaystyle\sum\limits_{i = 1}^k { {\omega _i} }$ and $f(\omega )$ using equation(4)
        on the server side;
     (8)  ${\omega ^s} = {\omega ^{s - 1} } - {\lambda _{s - 1} }\dfrac{1}{k}\displaystyle\sum\limits_{i = 1}^k {\nabla {f_i}(\omega )}$;
     (9) end
     (10) ${\omega _p} \leftarrow {\omega ^s}$;
    表  3  模型的F1

图(7) / 表(3)
