高级搜索

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于动作注意策略的树形DDQN目标候选区域提取方法

左国玉 杜婷婷 马蕾 卢佳豪 龚道雄

左国玉, 杜婷婷, 马蕾, 卢佳豪, 龚道雄. 基于动作注意策略的树形DDQN目标候选区域提取方法[J]. 电子与信息学报, 2019, 41(3): 666-673. doi: 10.11999/JEIT180358
引用本文: 左国玉, 杜婷婷, 马蕾, 卢佳豪, 龚道雄. 基于动作注意策略的树形DDQN目标候选区域提取方法[J]. 电子与信息学报, 2019, 41(3): 666-673. doi: 10.11999/JEIT180358
Guoyu ZUO, Tingting DU, Lei MA, Jiahao LU, Daoxiong Gong. Region Proposal Generation for Object Detection Using Tree-DDQN by Action Attention[J]. Journal of Electronics & Information Technology, 2019, 41(3): 666-673. doi: 10.11999/JEIT180358
Citation: Guoyu ZUO, Tingting DU, Lei MA, Jiahao LU, Daoxiong Gong. Region Proposal Generation for Object Detection Using Tree-DDQN by Action Attention[J]. Journal of Electronics & Information Technology, 2019, 41(3): 666-673. doi: 10.11999/JEIT180358

基于动作注意策略的树形DDQN目标候选区域提取方法

doi: 10.11999/JEIT180358
基金项目: 国家自然科学基金(61873008),北京市自然科学基金(4182008),北京工业大学智能制造领域大科研推进计划
详细信息
    作者简介:

    左国玉:男,1971年生,副教授,研究方向为机器人学习与控制、人机交互

    杜婷婷:女,1991年生,硕士生,研究方向为强化学习、目标检测

    马蕾:女,1992年生,硕士生,研究方向为深度学习、目标检测

    卢佳豪:男,1994年生,硕士生,研究方向为机器人学习、强化学习

    龚道雄:男,1968年生,副教授,研究方向为模式识别、计算智能

    通讯作者:

    左国玉 zuoguoyu@bjut.edu.cn

  • 中图分类号: TP242

Region Proposal Generation for Object Detection Using Tree-DDQN by Action Attention

Funds: The National Natural Science Foundation of China (61873008), The Beijing Natural Science Foundation (4182008), The BJUT United Grand Scientific Research Program on Intelligent Manufacturing
  • 摘要:

    针对机器人在家庭环境下的目标检测问题,该文提出一种基于动作注意策略的树形双深度Q网络(TDDQN)目标候选区域提取的方法,该方法将双深度Q网络(DDQN)的方法与树结构的方法相结合,通过执行改变检测框的动作以使目标逐渐集中在检测框内。首先采用DDQN方法在执行较少的动作后选择出当前状态的最佳动作,获取符合条件的候选区域。然后根据执行所选择动作之后所得到的状态重复执行上述过程,以此构成树结构的多条“最佳”路径。最后采用非极大值抑制的方法从多个符合条件的候选区域选择出最佳候选区域。在Pascal VOC2007以及Pascal VOC2012上的实验结果表明,在不同数量的候选区域、不同阈值的IoU和不同大小以及不同种类对象的实验条件下,所提方法较其他方法都有着更好的检测性能,可以较好地实现目标检测。

  • 图  1  动作类型

    图  2  树状结构示意图

    图  3  可能出现的检测结果

    图  4  树结构生成示意图

    图  5  网络结构图

    图  6  不同数量候选区域在不同IoU下的召回率

    图  7  检测物大小不同时不同检测方法的召回率

    图  8  不同算法的均方误差曲线

    图  9  可视化过程

    表  1  基于TDDQN的候选区域提取方法

     输入 当前状态(候选区域,树的根节点)
     输出 下一状态(新候选区域,树的子节点)
     步骤1 初始化IoU的阈值$\tau $和树的最大层次数n的值,并设树的
    初始层次数为1;
     步骤2 根据当前状态,分别在粗调动作组和细调动作组中选择
    出经过DDQN方法得到的预测值最高的两个动作;
     步骤3 执行粗调动作后得到的状态作为左节点,执行细调动作
    后得到的状态作为右节点;
     步骤4 树的层次数加1;
     步骤5 如果当前树的层次数小于n,并且仍有分支没有被截止,
    则执行步骤6,否则执行步骤7;
     步骤6 如果左节点IoU大于$\tau $,则予以截止,否则将左节点作为
    其所在路径的当前状态并执行步骤2;相应地,如果右节
    点IoU大于$\tau $,则予以截止,否则将右节点作为其所在路
    径的当前状态并执行步骤2;
     步骤7 对所有叶节点用非极大值抑制方法选取最优的候选区域。
    下载: 导出CSV

    表  2  不同方法下Pascal VOC2007数据集中各检测对象的平均检测精度(%)

    方法瓶子椅子桌子沙发电视机平均检测精度均值
    RPN (vgg16)+Fast R-CNN (ResNet-101)54.360.270.884.176.278.773.071.0
    Faster R-CNN (ResNet-101)55.656.469.188.077.879.571.771.2
    DQN (vgg16)+Fast R-CNN (ResNet-101)50.454.361.880.271.173.568.965.7
    DDQN (vgg16)+Fast R-CNN (ResNet-101)52.655.261.380.571.374.069.166.3
    TRL (vgg16)+Fast R-CNN (ResNet-101)55.060.173.384.576.379.673.471.7
    TDDQN (vgg16)+Fast R-CNN (ResNet-101)55.760.274.285.377.479.673.772.3
    下载: 导出CSV

    表  3  不同方法下Pascal VOC2012数据集中各检测对象的平均检测精度(%)

    方法瓶子椅子桌子沙发电视机平均检测精度均值
    RPN (vgg16)+Fast R-CNN (ResNet-101)50.548.657.190.079.066.165.965.3
    Faster R-CNN (ResNet-101)50.848.559.091.980.566.365.466.1
    DQN (vgg16)+Fast R-CNN (ResNet-101)49.345.750.882.873.959.963.660.9
    DDQN (vgg16)+Fast R-CNN (ResNet-101)51.547.652.382.975.261.163.862.1
    TRL (vgg16)+Fast R-CNN (ResNet-101)53.151.755.687.880.766.667.666.2
    TDDQN (vgg16)+Fast R-CNN (ResNet-101)53.451.958.788.080.966.867.966.8
    下载: 导出CSV

    表  4  不同数据集上检测单张图片消耗的平均时间(s)

    数据集TDDQN (vgg16)+Fast R-CNN (ResNet-101)TRL (vgg16)+Fast R-CNN (ResNet-101)Faster R-CNN (ResNet-101)
    VOC20070.91.60.4
    VOC20121.01.80.5
    下载: 导出CSV
  • TANG K, JOULIN A, LI L J, et al. Co-localization in real-world images[C]. Computer Vision and Pattern Recognition, Columbus, USA, 2014: 1464–1471.
    伍锡如, 黄国明, 孙立宁. 基于深度学习的工业分拣机器人快速视觉识别与定位算法[J]. 机器人, 2016, 38(6): 711–719. doi: 10.13973/j.cnki.robot.2016.0711

    WU Xiru, HUANG Guoming, and SUN Lining. Fast visual identification and location algorithm for industrial sorting robots based on deep learning[J]. Robot, 2016, 38(6): 711–719. doi: 10.13973/j.cnki.robot.2016.0711
    DALAL N and TRIGGS B. Histograms of oriented gradients for human detection[C]. Computer Vision and Pattern Recognition, San Diego, USA, 2005: 886–893.
    SANDE K E A V D, UIJLINGS J R R, GEVERS T, et al. Segmentation as selective search for object recognition[C]. International Conference on Computer Vision, Barcelona, Spain, 2011, 1879–1886.
    ZITNICK C L and DOLLAR P. Edge boxes: Locating object proposals from edges[C]. European Conference on Computer Vision, Zurich, Switzerland, 2014, 391–405.
    GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Computer Vision and Pattern Recognition, Columbus, USA, 2014, 580–587.
    GONZALEZ-GARCIA A, Vezhnevets A, and FERRARI V. An active search strategy for efficient object class detection[C]. Computer Vision and Pattern Recognition, Boston, USA, 2015, 3022–3031.
    CAICEDO J C and LAZEBNIK S. Active object localization with deep reinforcement learning[C]. International Conference on Computer Vision, Santiago, Chile, 2015, 2488–2496.
    BELLVER M, GIROINIETO X, MARQUES F, et al. Hierarchical object detection with deep reinforcement learning[OL]. http://arxiv.org/abs/1611.03718v2, 2016. doi: 10.3233/978-1-61499-822-8-164.
    JIE Zequn, LIANG Xiaodan, FENG Jiashi, et al. Tree-structured reinforcement learning for sequential object localization[C]. International Conference on Neural Information Processing Systems, Barcelona, Spain, 2016, 127–135.
    HASSELT H V. Double Q-learning[C]. International Conference on Neural Information Processing Systems, Whistler, Canada, 2010, 2613–2621.
    HASSELT H V, GUEZ A, and SILVER D. Deep reinforcement learning with double Q-learning[C]. Association for the Advancement of Artificial Intelligence, Phoenix, USA, 2016, 2094–2100.
    REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137–1149. doi: 10.1109/TPAMI.2016.2577031
    NAJEMNIK J and GEISLER W S. Optimal eye movement strategies in visual search[J]. American Journal of Ophthalmology, 2005, 139(6): 1152–1153. doi: 10.1038/nature03390
  • 加载中
图(9) / 表(4)
计量
  • 文章访问数:  1635
  • HTML全文浏览量:  826
  • PDF下载量:  60
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-04-18
  • 修回日期:  2018-11-16
  • 网络出版日期:  2018-12-04
  • 刊出日期:  2019-03-01

目录

    /

    返回文章
    返回