目标检测近5年发展历程概述,从R-CNN到RFBNet(2013--2018)(转)
【时间】2018.09.24
【题目】目标检测近5年发展历程概述,从R-CNN到RFBNet(2013--2018)
目录
概述
今天,看到了《Deep Learning for Generic Object Detection: A Survey》这一篇论文, 对用于一般目标检测的深度学习技术进行了全面系统的总结。本文是对论文的相关内容的梗概,希望以此作为自己在目标识别方面的学习历程和方向的指引。本文主要作为各种相关知识的索引,如若想要了解相关细节,请阅读原文,或者通过此索引获得关键词,再进行相关内容的搜索。
论文链接:
此外,来自首尔国立大学的 Lee hoseong 在近期开源了「deep learning object detection」GitHub 项目,正是参考该论文开发的。项目链接是:
一、目标检测相关背景
1.1 目标检测的类别
一般目标检测(即一般目标类别检测)也被称为目标类别检测 [240] 或目标分类检测,其定义如下。给定一张图像,确定其中是否存在多个预定义类别的任何目标实例;如果存在,就返回每个实例的空间位置和覆盖范围。
图3、与通用目标检测相关的识别问题(A)图像级对象分类,(B)包围框级通用对象检测,(C)像素级语义分割,(D)实例级语义分割。
1 .2 目标检测遇到的主要难题
图5。同一类图像的外观随成像条件的变化而变化(a-g)。一个对象类(H)的含义有一个惊人的变化。相反,(I)中的四幅图像看起来非常相似,但实际上是来自四种不同的对象类别。来自ImageNet[179]和Coco女士[129]的图像。
1.3 过去二十年的进展
图2、目标检测和识别的里程碑,包括特征表示 [37, 42, 79, 109, 114, 139, 140, 166, 191, 194, 200, 213, 215]、检测框架 [56, 65, 183, 209, 213] 和数据集 [53, 129, 179]。在 2012 年之前,主导方法都还是人工设计的特征。我们看到,随着 Krizhevsky et al. [109] 为图像分类开发出了 DCNN,2012 年迎来了转折。这里列出的大多数方法都得到了大量引用并至少赢得了一个 ICCV 或 CVPR 的主要奖项。详见 2.3 节。
二、 框架
2.1框架发展历程
在这一节,我们会回顾一般目标检测领域在深度学习进入这一领域后出现的里程碑检测框架,如图 6 所示, 详细情况总结在表 10 中(请看原论文最后一页)。整体而言,这些检测器可以分为两大主要类别:
1. 两级式检测框架,包含一个用于区域提议的预处理步骤,使得整体流程是两级式的。
2. 单级式检测框架,即无区域提议的框架,这是一种单独提出的方法,不会将检测提议分开,使得整个流程是单级式的。
图 6:一般目标检测的里程碑,基于第一个 arXiv 版本的时间点
2.2一些里程碑式的框架
图 7:里程碑检测框架 RCNN [65, 67] 的细节图示
图 8:用于一般目标检测的领先框架的高层面示意图。表 10 总结了这些方法的特性。
三、基础性子问题
3.1 基于 DCNN 的目标表示
作为任何测器的主要组件之一,优良的特征表示在目标检测中至关重要。
表 2:常用于一般目标检测的 DCNN 架构。对于 #Paras 和 #Layers 的统计数据,我们没有考虑最后的 FC 预测层。「Test Error」一列给出了在 ImageNet1000 上的 Top 5 分类测试误差。解释:OverFeat(准确的模型)、DenseNet201(Growth Rate 32, DenseNet-BC)以及 ResNeXt50(32*4d)。
表 3:在改进用于一般目标检测的 DCNN 特征表示中的表征方法的特性总结。详细讨论参见 4.1.2 节。缩写:Selective Search(SS)、EdgeBoxes(EB)、InceptionResNet(IRN)。mAP@IoU=0.5 时,在 VOC07、VOC12 和 COCO 上报告的检测结果;另一列在 COCO 上的结果是在一个新指标 mAP@IoU=[0.5 : 0.05 : 0.95] 上报告的,这是在从 0.5 到 0.95(写成 [0.5:0.95])的不同 IoU 阈值上平均求取 mAP。训练数据:07 表示 VOC2007 trainval,12 表示 VOC2012 trainval,07+12 表示 VOC07 和 VOC12 trainval 的并集,07++12 表示 VOC07 trainval、VOC07 test 和 VOC12 trainval 的并集,07++12+CO 表示 VOC07 trainval、VOC07 test、VOC12 trainval 和 COCO trainval 的并集。COCO 检测结果是在 COCO2015 Test-Dev 上报告的,只有 MPN [233] 除外,其结果基于 COCO2015 Test-Standard。
3.2 形境建模
在物理世界中,视觉目标通常会出现在特定的环境中,并且通常与其它相关目标共同存在,而且有强大的心理学证据 [13, 9] 表明形境在人类目标识别中发挥着关键性的作用。形境大致可分为这三大类 [13, 59]:
1. 形义形境:目标出现在某些场景而非其它场景中的可能性;
2. 空间形境:在场景中目标与其它物体存在某些位置关系而非其它位置关系的可能性;
3. 尺寸形境:在场景中目标相对其它物体所存在的尺寸限制。
表 4:使用了形境信息的检测器汇总,类似表 3
图 13:能探索局部周围形境特征的代表性方法:MRCNN [62]、GBDNet [235, 236]、ACCNN [123] 和 CoupleNet [251],参见表 4
3.3 检测提议 (detection proposal)方法
检测提议(detection proposal)通常被用作一个预处理步骤,以通过限制需要检测器评估的区域的数量来降低计算的复杂性。一个优良的检测提议应当具备以下特点:
1. 高召回率,只使用少量提议就可以实现;
2. 提议尽可能准确地匹配目标;
3. 高效率。
表 5:使用 DCNN 的目标提议方法汇总。蓝色数字表示目标提议的数量。除非另有说明,在 COCO 上的检测结果都使用了 mAP@IoU[0.5, 0.95]。
图 14:[175] 中提出的区域提议网络(RPN)图示
3.4 训练策略和处理类别不平衡问题
四、数据集和表现评估
4.1用于目标识别的常用数据库
表 7:用于目标识别的常用数据库
图15、常用数据库的一些例子
4.2常用指标汇总
表 9:用于评估目标检测器的常用指标汇总
五、总结
一般目标检测是计算机视觉领域内一个重要且有挑战性的问题,并且已经得到了相当大的关注。尽管过去几年取得了巨大的成功(比如检测准确度从 ILSVRC2013 的 23% 显著提升至了 ILSVRC2017 的 73%),但当前最佳方法的表现与人类水平仍有巨大差距,尤其是在开放世界学习任务上。还有很多研究工作有待完成,我们可以看到研究者的关注重点主要集中在以下八个领域:
1. 开放世界学习( Open World Learning)
2. 更好更高效的检测框架(Better and More Efficient Detection Frameworks)
3. 紧凑高效的深度 CNN 特征(CompactandEfficientDeepCNNFeatures)
4. 稳健的目标表征(RobustObjectRepresentations)
5. 形境推理( Context Reasoning)
6. 目标实例分割( Object Instance Segmentation)
7. 弱监督或无监督学习() Weakly Supervised or Unsupervised Learning)
8. 三维目标检测(3D Object Detection)