高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

多级注意力特征网络的小样本学习

汪荣贵 韩梦雅 杨娟 薛丽霞 胡敏

汪荣贵, 韩梦雅, 杨娟, 薛丽霞, 胡敏. 多级注意力特征网络的小样本学习[J]. 电子与信息学报, 2020, 42(3): 772-778. doi: 10.11999/JEIT190242
引用本文: 汪荣贵, 韩梦雅, 杨娟, 薛丽霞, 胡敏. 多级注意力特征网络的小样本学习[J]. 电子与信息学报, 2020, 42(3): 772-778. doi: 10.11999/JEIT190242
Ronggui WANG, Mengya HAN, Juan YANG, Lixia XUE, Min HU. Multi-level Attention Feature Network for Few-shot Learning[J]. Journal of Electronics & Information Technology, 2020, 42(3): 772-778. doi: 10.11999/JEIT190242
Citation: Ronggui WANG, Mengya HAN, Juan YANG, Lixia XUE, Min HU. Multi-level Attention Feature Network for Few-shot Learning[J]. Journal of Electronics & Information Technology, 2020, 42(3): 772-778. doi: 10.11999/JEIT190242

多级注意力特征网络的小样本学习

doi: 10.11999/JEIT190242
基金项目: 国家自然科学基金(61672202),国家自然科学基金-深圳联合基金(U1613217)
详细信息
    作者简介:

    汪荣贵:男,1966年生,教授,研究方向为智能视频处理与分析、视频大数据与云计算等

    韩梦雅:女,1996年生,硕士生,研究方向为深度学习、计算机视觉等

    杨娟:女,1983年生,讲师,研究方向为视频信息处理、视频大数据处理技术等

    薛丽霞:女,1976年生,副教授,研究方向为视频大数据检索与分析

    胡敏:女,1967年生,教授,研究方向为计算机视觉、数字图像处理等

    通讯作者:

    杨娟 yangjuan@hfut.edu.cn

  • 中图分类号: TN911.73; TP391.41

Multi-level Attention Feature Network for Few-shot Learning

Funds: The National Natural Science Foundation of China (61672202), The State Key Program of National Natural Science Foundation of China-Shenzhen Joint Foundation (U1613217)
  • 摘要:

    针对目前基于度量学习的小样本方法存在特征提取尺度单一,类特征学习不准确,相似性计算依赖标准度量等问题,该文提出多级注意力特征网络。首先对图像进行尺度处理获得多个尺度图像;其次通过图像级注意力机制融合所提取的多个尺度图像特征获取图像级注意力特征;在此基础上使用类级注意机制学习每个类的类级注意力特征。最后通过网络计算样本特征与每个类的类级注意力特征的相似性分数来预测分类。该文在Omniglot和MiniImageNet两个数据集上验证多级注意力特征网络的有效性。实验结果表明,相比于单一尺度图像特征和均值类原型,多级注意力特征网络进一步提高了小样本条件下的分类准确率。

  • 图  1  5-shot 分类网络结构图

    图  2  特征模块

    图  3  类别不平衡条件下的小样本分类网络结构图

    图  4  one-shot 分类网络结构图

    表  1  不同尺度图像的特征提取网络分支结构

    网络名分支1分支2分支3
    结构$\left[ \begin{array}{l} {\rm C}:3 \times 3,64 \\ {\rm MP}:2 \times 2 \\ \end{array} \right]$$\left[ \begin{array}{l} {\rm C}:3 \times 3,64 \\ {\rm MP}:2 \times 2 \\ \end{array} \right]$$\left[ {{\rm C}:3 \times 3,64} \right]$
    $\left[ \begin{array}{l} {\rm C}:3 \times 3,64 \\ {\rm MP}:2 \times 2 \\ \end{array} \right]$$\left[ {{\rm C}:3 \times 3,64} \right]$$\left[ {{\rm C}:3 \times 3,64} \right]$
    $\left[ {{\rm C}:3 \times 3,64} \right]$$\left[ {{\rm C}:3 \times 3,64} \right]$$\left[ {{\rm C}:3 \times 3,64} \right]$
    $\left[ {{\rm C}:3 \times 3,64} \right]$$\left[ {{\rm C}:3 \times 3,64} \right]$$\left[ {{\rm C}:3 \times 3,64} \right]$
    下载: 导出CSV

    表  2  Omniglot数据集上的小样本分类准确率(%)

    方法微调5-way 分类准确率20-way 分类准确率
    1-shot5-shot1-shot5-shot
    MANN82.894.9
    MATCHING NETS97.998.793.598.7
    PROTOTYPICAL NETS98.899.796.098.9
    MAML98.7±0.499.9±0.195.8±0.398.9±0.2
    RELATION NET99.6±0.299.8±0.197.6±0.299.1±0.1
    本文方法99.699.797.899.2
    下载: 导出CSV

    表  3  MiniIamgenet数据集上的小样本分类准确率(%)

    方法微调5-way分类准确率
    1-shot5-shot
    MATCHING NETS43.56±0.8453.11±0.73
    META-LEARN LSTM43.44±0.7760.60±0.71
    MAML48.70±1.8463.11±0.92
    PROTOTYPICAL NETS49.42±0.7868.20±0.66
    RELATION NETS50.44±0.8265.32±0.70
    本文方法53.18±0.8066.72±0.71
    本文方法(L2正则化)54.56±0.8167.39±0.68
    下载: 导出CSV

    表  4  MiniImageNet数据集上类特征方法的对比(%)

    类特征5-way 5-shot 分类准确率
    本文方法(均值类原型)65.80±0.65
    本文方法(求和)65.56±0.66
    本文方法(类级注意力特征)66.43±0.68
    下载: 导出CSV

    表  5  MiniImageNet数据集上图像特征方法的对比(%)

    图像特征5-way 分类准确率
    1-shot5-shot
    本文方法(单尺度特征)52.20±0.8266.43±0.68
    本文方法(两尺度特征)53.93±0.7966.89±0.71
    本文方法(图像级注意力特征)54.56±0.8167.39±0.68
    下载: 导出CSV

    表  6  MiniImageNet数据集上多尺度方式对比(%)

    多尺度方法5-way 分类准确率
    1-shot5-shot
    特征金字塔网络53.42±0.7666.50±0.69
    不同卷积核53.27±0.8366.29±0.66
    本文方法54.56±0.8167.39±0.68
    下载: 导出CSV

    表  7  MiniImageNet数据集上相似性度量方法的对比(%)

    度量方式5-way 分类准确率
    1-shot5-shot
    本文方法(欧氏距离)48.43±0.7863.52±0.71
    本文方法(余弦相似度)46.54±0.8260.50±0.70
    本文方法(网络计算)54.56±0.8167.39±0.68
    下载: 导出CSV
  • GIRSHICK R. Fast R-CNN[C]. 2015 IEEE International Conference on Computer Vision, Santiago, Chile, 2015: 1440–1448. doi: 10.1109/ICCV.2015.169.
    HUANG Gao, LIU Zhuang, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 2261–2269. doi: 10.1109/CVPR.2017.243.
    HE Di, XIA Yingce, QIN Tao, et al. Dual learning for machine translation[C]. The 30th Conference on Neural Information Processing Systems, Barcelona, Spain, 2016: 820–828.
    LI Feifei, FERGUS R, and PERONA P. One-shot learning of object categories[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(4): 594–611. doi: 10.1109/TPAMI.2006.79
    MEHROTRA A and DUKKIPATI A. Generative adversarial residual pairwise networks for one shot learning[EB/OL]. https://arxiv.org/abs/1703.08033, 2017.
    DIXIT M, KWITT R, NIETHAMMER M, et al. AGA: Attribute-guided augmentation[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 7455–7463. doi: 10.1109/CVPR.2017.355.
    HARIHARAN B and GIRSHICK R. Low-shot visual recognition by shrinking and hallucinating features[C]. 2017 IEEE International Conference on Computer Vision, Venice, Italy, 2017: 3037–3046. doi: 10.1109/iccv.2017.328.
    FINN C, ABBEEL P, and LEVINE S. Model-agnostic meta-learning for fast adaptation of deep networks[C]. The 34th International Conference on Machine Learning, Sydney, Australia, 2017: 1126–1135.
    RAVI S and LAROCHELLE H. Optimization as a model for few-shot learning[EB/OL]. https://openreview.net/forum?id=rJY0-Kcll, 2017.
    SANTORO A, BARTUNOV S, BOTVINICK M, et al. Meta-learning with memory-augmented neural networks[C]. The 33rd International Conference on Machine Learning, New York, USA, 2016: 1842–1850.
    KOCH G. Siamese neural networks for one-shot image recognition[EB/OL]. http://www.cs.utoronto.ca/~gkoch/files/msc-thesis.pdf, 2015.
    VINYALS O, BLUNDELL C, LILLICRAP T, et al. Matching networks for one shot learning[C]. The 30th Conference on Neural Information Processing Systems, Barcelona, Spain, 2016: 3630–3638.
    SNELL J, SWERSKY K, and ZEMEL R. Prototypical networks for few-shot learning[C]. The 31st Conference on Neural Information Processing Systems, Long Beach, USA, 2017: 4080–4090.
    SUNG F, YANG Yongxin, ZHANG Li, et al. Learning to compare: Relation network for few-shot learning[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 1199–1208. doi: 10.1109/cvpr.2018.00131.
    WANG Peng, LIU Lingqiao, and SHEN Chunhua. Multi-attention network for one shot learning[C]. 2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu, USA, 2017: 6212–6220. doi: 10.1109/CVPR.2017.658.
    HILLIARD N, HODAS N O, and CORLEY C D. Dynamic input structure and network assembly for few-shot learning[EB/OL]. https://arxiv.org/abs/1708.06819v1, 2017.
  • 加载中
图(4) / 表(7)
计量
  • 文章访问数:  6529
  • HTML全文浏览量:  2343
  • PDF下载量:  307
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-04-11
  • 修回日期:  2019-09-05
  • 网络出版日期:  2019-09-17
  • 刊出日期:  2020-03-19

目录

    /

    返回文章
    返回