李大湘 南艺璇 刘颖

李大湘, 南艺璇, 刘颖. 面向遥感图像场景分类的双知识蒸馏模型[J]. 电子与信息学报, 2023, 45(10): 3558-3567. doi: 10.11999/JEIT221017
LI Daxiang, NAN Yixuan, LIU Ying. A Double Knowledge Distillation Model for Remote Sensing Image Scene Classification[J]. Journal of Electronics & Information Technology, 2023, 45(10): 3558-3567. doi: 10.11999/JEIT221017
基金项目: 国家自然科学基金(62071379),陕西省自然科学基金(2017KW-013), 西安邮电大学创新基金(CXJJYL2021055, YJGJ201902)





    南艺璇 1010367243@qq.com

  • 中图分类号: TN911.73; TP751

A Double Knowledge Distillation Model for Remote Sensing Image Scene Classification

Funds: The National Natural Science Foundation of China (62071379), The Natural Science Foundation of Shaanxi Province (2017KW-013), The Innovation Foundation of Xi’an University of Posts and Telecommunications (CXJJYL2021055, YJGJ201902)
  • 摘要: 为了提高轻型卷积神经网络(CNN)在遥感图像(RSI)场景分类任务中的精度,该文设计一个双注意力(DA)与空间结构(SS)相融合的双知识蒸馏(DKD)模型。首先,构造新的DA模块,将其嵌入到ResNet101与设计的轻型CNN,分别作为教师与学生网络;然后,构造DA蒸馏损失函数,将教师网络中的DA知识迁移到学生网络之中,从而增强其对RSI的局部特征提取能力;最后,构造SS蒸馏损失函数,将教师网络中的语义提取能力以空间结构的形式迁移到学生网络,以增强其对RSI的高层语义表示能力。基于两个标准数据集AID和NWPU-45的对比实验结果表明,在训练比例为20%的情况下,经知识蒸馏之后的学生网络性能分别提高了7.69%和7.39%,且在参量更少的情况下性能也优于其他方法。
  • 图  1  设计的DKD模型框架结构示意图

    图  2  双注意力(DA)模块架构示意图

    图  3  教师网络训练3元孪生框架示意图

    图  4  SS知识蒸馏

    图  5  AID数据集训练比例为20%时的混淆矩阵

    图  6  NWPU-45数据集训练比例为20%时的混淆矩阵

    图  7  使用Grad-CAM进行可视化对比

    表  1  学生网络具体参数设计

    Conv2_x56×563×3 max pool, stride=2
    [3×3, 64; 3×3,64]
    Conv3_x28×28[3×3, 128; 3×3,64]
    Conv4_x14×14[3×3, 256; 3×3,64]
    Conv5_x7×7[3×3, 512; 3×3,64]
    1×1average pool,45-d fc, softmax
    算法1 双知识蒸馏(DKD)学生网络训练及测试
     输入:训练图像$ D = \{ ({\text{IM}}{{\text{G}}_n},{y_n}):n = 1,2, \cdots ,N\} $,网络超参
        (Epoches, BS与lr),测试图像
        $ {\text{Tst}} = \{ ({\text{IM}}{{\text{G}}_m},{y_m}):m = 1,2, \cdots ,M\} $
     输出:学生网络参数${\varOmega _{\text{S} } }$及测试图像分类精度
        教师网络${\varOmega ^{ {\text{TE} } } }$;
     For epoch in Epoches:
       (1) 根据批大小BS,对D中的训练图像进行分批;
       (2) 每批图像送入教师网络${\varOmega ^{ {\text{TE} } } }$,得到的高层语义特征
         ${\text{Tb}} = \{ {t_i}|i = 1,2, \cdots ,{\text{BS}}\} $;
       (3) 每批图像送入学生网络${\varOmega _{\text{S} } }$,得到的高层语义特征
         ${\text{Sb}} = \{ {s_i}|i = 1,2, \cdots ,{\text{BS}}\} $及预测标签$\{ {\tilde y_i}\} _{i = 1}^{{\text{BS}}}$;
       (4) 用式(15)计算${L_{{\text{HTL}}}}$,优化器通过反向传播更新学生网络
         参数${\varOmega _{\text{S} } }$;
       (5) 采用余弦衰减策略更新学习率lr。
     End for
       (6) 对 $ \forall {\text{IM}}{{\text{G}}_m} \in {\text{Tst}} $,将${\text{IM}}{{\text{G}}_m}$输入学生网络${\varOmega _{\text{S} } }$,得到其
         类别预测结果${ { {\tilde y} }_{{m} } }$;
       (7) 根据$ \{ ({\bar y_m},{y_m}):m = 1,2, \cdots ,M\} $,统计分类精度且输出。
    表  2  不同训练比例下消融实验的OA值(%)

    表  3  教师与学生网络性能比较(以AID数据集(50%)为例)

    ModelParameters (MB)AvgTime (ms)Accuracy (%)
    表  4  基于AID与NWPU-45数据集的综合对比实验结果(%)

    XU et al.[27]94.1796.1990.2393.25
    DKD (本文)95.2197.0493.8895.87
