目标检测论文笔记

本文主要用于介绍各路大神（包括rbg, kaiming he等）于2017年提出的适用于目标领域的一种新的损失函数。本笔记主要为方便初学者快速入门，以及自我回顾。

论文链接： github主页： rbg大神个人主页：

基本目录如下：

------------------第一菇 - 摘要------------------

目前最准确的目标检测模型就是以两阶段的R-CNN系列为代表的。相比之下，单阶段的目标检测模型虽然在准确率上依然落后于两阶段的模型，但是其简易和速度快的特性毫无疑问具有巨大的潜力。在这篇文章中，我们就深入调研为什么单阶段的模型其准确率会不甚理想。在调研过程中，我们发现最主要的一个问题就是在训练过程中的正负样本（背景和真实目标）不均匀。因此，我们设计了一个新的损失函数，来减少那些易于分类的样本带来的损失。我们新的Focal Loss损失函数重点关注那些难于被训练的（hard examples），并且尽量避免被那些负样本所带偏。为了验证我们模型的有效性，我们还重新设计了一个新的检测器，命名为RetinaNet，我们的实验表明，运用了新的损失函数以后，我们的RetinaNet在速度上已经能够媲美那些单阶段模型，同时在准确率上能够压制现存所有的两阶段模型（存疑）。

------------------第二菇 - 核心思想------------------

既然本文把单阶段的模型不如多阶段的主要归因于正负样本不均衡这件事情，那我们就直接列出原文的观点。作者认为，正负样本不均衡将会导致，

1）training is inefficient as most locations are easy negatives that contribute no useful learning signal

2）en masse, the easy negatives can overwhelm training and lead to degenerate models

还是拿目标检测的场景来理解，单阶段的目标检测器通常会在第一阶段产生高达100k的候选目标，其中只有极少数是正样本，因此该场景就是一个典型的正负样本不平衡的问题（如下图所示），然后，正样本和负样本又都各自有难易之分，即有些正样本很容易区分，有些又很难区分，因此，正负样本又可以分为如下四类，

（注：如果有不明白的，结合具体的网上盗的一张示意图明白了【1】）

弄清楚了数据分布以后，我们再来看损失函数。我们最常用的在计算分类的时候常用的损失就是交叉熵损失（以二分类为例），

其中就是模型输出的概率（y=1），为了方便表述，通常定义，

此时，

然后，为了解决正负样本不平衡的问题，很自然的我们都会添加一个，该参数通常取决于正负样本的比例，

当然，只是平衡了正负样本对于最终损失的贡献度，但对难易不平衡的事情完全没有帮助。事实上，如上述第二条理由所述，在目标检测的任务中，存在着大量的易分样本，虽然单个来看每一个易分样本（置信度很高的样本）带来的损失很低，但是如果总的易分样本数量过多的话，积少成多，也会引领总的损失走向错误的方向。因此，本文作者也认为，模型应该重点关注那些难分的样本（hard examples），于是据此理论就提出了一个新的损失计算方法，

大家仔细研究一下这个公式就会发现， 1）当样本被错分的时候，通常是会比较小的，因此我们新加的权值项也是接近于1的，意思就是该项损失应该都有贡献； 2）而当样本是正确分类的时候，就会相对比较大，权值项也就对应变小了，意思就是该项损失的贡献是很少的；

因此，最终的Facal Loss就是结合了上述的2个点提出的，

这里也贴一张原论文中的图，作者发现的时候效果最佳～

其实整一套网络架构，跟RPN网络是比较像的，这里直接贴一张原论文中的网络架构图，

这里简单提几个关键的变化点， 1）其基础提取图片特征的模型采用的是ResNet，并且结合了FPN网络，用以构建不同层级对应的特征图，因此其基本的架构（backbone）就是ResNet + FPN的组合。

2）对应每一层级提出的特征，都会输入到2个结构一摸一样的子网络中（subnetworks），分别用于分类和回归！俩个子网络的架构是一样的，但是参数是不一样的（sharing a common structure, use separate parameters）。

3）Anchors的设计机制跟RPN中的是相似的，只不过对应到FPN中，每一层级特征图对应的Anchor大小是不一样的。每一个层级对应设置的Anchor比例为，每一种比例对应3种大小尺度，因此总的anchors数为9。

这里贴一张具体的实验结果图，方便以后查看（具体实验过程不再阐述），

当然作者本文的结论肯定就是，证明了这种Focal Loss设计的有效性了～

------------------第三菇 - 总结------------------

到这里，整篇论文的核心思想已经说清楚了。本论文主要是提出了一个新的对于样本不均衡问题的损失函数的设计方法，并实验证明其可行性，为后续发展奠定了基础。

简单总结一下本文就是先罗列了一下该论文的摘要，再具体介绍了一下本文作者的思路，也简单表述了一下，自己对Focal Loss的理解。希望大家读完本文后能进一步加深对该论文的理解。有说的不对的地方也请大家指出，多多交流，大家一起进步～?

参考文献：【1】

RFBnet 论文笔记

论文地址：官方源码（pytorch）：

主要说了目前表现好的目标检测主要基于较深的网络（例如Resnet，Inception），其缺点就是大量的计算成本，速度慢。而一些轻量级的网络速度较快，但检测的精度相对不高。作者提出了RFB模块，并将它添加到SSD的顶部，构建了RFBnet。

为了构建快速而强大的探测器，合理的替代方案是通过引入某些手工制作的机制来增强轻量级网络的特征表示，而不是一味地加深模型。

RFBnet 结构说明

过

RFB其实就是多分枝卷积块，其内部结构由两部分组成： 1.前一部分与inception一致，负责模拟多尺寸的pRF 2.后一部分再现了人类视觉中pRF与离心率的关系下图给出了RFB及其对应的空间池区域图

具体来说，首先，我们在每个分支中采用瓶颈结构，由1×1转换层组成，以减少特征映射中的通道数量加上n×n转换层。其次，我们用两个堆叠的3×3转换层替换5×5转换层，以减少参数和更深的非线性层。出于同样的原因，我们使用1×n加n×1转换层来代替原始的n×n转换层。最后，我们应用ResNet 和Inception-ResNet V2 的快捷方式设计。

也叫做astrous卷积层，该结构的基本意图是生成更高分辨率的特征图，在具有更多上下文的更大区域捕获信息，同时保持相同数量的参数。

下图示出了多分支卷积层和扩张合并或卷积层的两种组合

所提出的RFB网络探测器重用了SSD的多尺度和单级框架，其中RFB模块被嵌入以改善从轻量级主干提取的特征，使得探测器更准确且仍然足够快。由于RFB的特性可以轻松集成到CNN中，我们可以尽可能地保留SSD架构。主要的修改在于用RFB代替顶部卷积层

使用与SSD中完全相同的骨干网络。简而言之，它是在ILSVRC CLS-LOC数据集上预先训练的VGG16 ，其中fc6和fc7层被转换为具有子采样参数的卷积层，并且其pool5层从2×2-s2变至3×3-s1。空洞卷积层用来填充空缺和所有dropout层，并移除fc8层。

保持相同的SSD级联结构，但具有相对较大分辨率的特征映射的卷积层被RFB模块取代。在RFB的主要版本中，我们使用单一结构设置来模仿离心率的影响。随着视觉图之间pRF大小和离心率的差异，我们相应地调整RFB的参数以形成RFB-s模块，其模拟浅人类视网膜图中较小的pRF，并将其置于conv4 3特征之后，如由于其特征映射的分辨率太小而无法应用具有大型内核（如5×5）的滤波器，因此保留了最后几个卷积层。

train主要遵循SSD，包括数据增强，硬负挖掘，默认框的比例和宽高比，以及损失函数（例如，用于定位的平滑L1损失和用于分类的softmax损失），同时我们稍微改变了我们的学习速率调度更好地适应RFB。更多细节在以下实验部分中给出。使用MSRA方法初始化所有新的conv层。

后面主要是描述研究的成果，与其他网络的对比，就不多描述了，以后补充更多关于RFBnet的细节

检测论文综述（一） : 从RCNN到Mask-RCNN

对于目标检测方向并不是特别熟悉，本文记录一下RCNN, fast-RCNN, faster-RCNN, mask-RCNN这4篇有关目标检测的论文笔记和学习心得。

R-CNN的意思就是Region based，主要思路就是根据一张图像，提取多个region，再将每个Region输入CNN来进行特征的提取。因此RCNN就可以分为 Region proposals , Feature extraction 两个主要部分，提取的特征就可以输入任意一个分类器来进行分类。模型的流程图如下：

在训练的时候，首先使用的是已经训练好的CNN网络作为特征提取器，但是由于预训练是在分类数据集上，因此在应用到检测之前要做finetune。也就是说，为了将用ImageNet数据集训练的网络应用到新的任务（检测），新的数据集（region）上，作者将原来的CNN最后的1000类的fc层，更改为了层，代表待检测的物体的类别数。然后，对于所有的region，如果它和ground truth的重叠率大于0.5，就认为是正类。对于分类器的训练，作者发现选择多大的IoU来区分正类和负类非常关键。并且，对于每一类，都会训练一个分类器。

框的回归非常重要，在对每一个region proposal使用分类器进行打分评价之后，作者使用一个回归器来预测一个新的框作为结果。这个回归器使用的特征是从CNN中提取的特征。回归器的训练中，输入是 region proposal 的和ground truth的，目标是学习一种变换，使得region proposal通过该变换能够接近ground truth。同时，希望这种变换拥有尺度不变性，也就是说尺度变化的话，变换不会改变。如下图所示，每一个regressor会学习一组参数，特征输入是pool 5的特征输出，拟合的目标是。

Fast-RCNN 主要解决的问题是在RCNN中对于每一个region proposal都进行特征提取，会产生非常多的冗余计算，因此可以先对一张图像进行特征提取，再根据region proposal在相应的特征上进行划分得到对应region的特征（映射关系）。这样便可以实现共享计算提高速度，但是与SPPnets不同，SPPnets在一副图像得到对应的特征后，从这张图像的特征上proposal对应的部分，采用空间金字塔池化，如下图：

RoI pooling的方法很简单，类似于空间金字塔pooling，它将proposal部分对应卷积层输出的特征（称之为RoI，因为用于做pooling的特征是 region of interest，也就是我们感兴趣的区域）划分成块，然后对每一块求最大值，最终得到了一个的特征图。可以看出，它只是空间金字塔pooling的一部分。但是SPP-nets的空间金字塔也是可以求导的，那么它到底不好在哪里呢？因为当每一个RoI都可能来源于不同的图像的时候（R-CNN和SPPnets的训练策略是从一个batch的不同图像中，分别挑选一个proposal region），SPPNets的训练非常地低效，这种低效来源于在SPPnets的训练中，每个RoI的感受野都非常地大，很可能对应了原图的整个图像，因此，得到的特征也几乎对应了整张图像，所以输入的图像也就很大。为了提高效率，Fast-RCNN首先选取个图像，再从每个图像上选择个RoI，这样的效率就比从每个图像提取一个RoI提高了倍。

为了将分类和框回归结合起来，作者采用了多任务的loss，来进行联合的训练。具体来说就是将分类的loss和框回归的loss结合起来。网络的设计上非常直接，就是将RoI得到的特征接几个FC层后，分别接不同的输出层。对应于分类部分，特征会接一个softmax输出，用于分类，对于框回归部分，会接一个输出4维特征的输出层，然后分别计算loss，用于反向传播。loss的公式如下：

回归的target可以参考前面的R-CNN部分。

notes

为什么比fast还fast呢？主要原因是在这篇论文中提出了一个新的层：RPN（region proposal networks）用于替代之前的selective search。这个层还可以在GPU上运算来提高速度。 RPN的目的：

为了能够进行region proposal，作者使用了一个小的网络，在基础的卷积层输出的特征上进行滑动，这个网络输入大小为，输入后会映射（用的卷积）为一个固定长度的特征向量，然后接两个并联的fc层（用的卷积层代替），这两个fc层，一个为box-regressoin，一个为box-classification。如下图：

在每一个滑动窗口（可以参考），为了考虑到尽可能多的框的情况，作者设计了anchors来作为region proposal。anchors就是对于每一个滑动窗口的中心位置，在该位置对应的原图位置的基础上，按照不同的尺度，长宽比例框出个不同的区域。然后根据这些anchors对应的原始图像位置以及区域，和ground truth，就可以给每一个滑动窗口的每一个anchor进行标记，也就是赋予label，满足一定条件标记为正类（比如和ground truth重叠大于一个值），一定条件为负类。对于正类，就可以根据ground truth和该anchor对应的原图的区域之间的变换关系（参考前面的R-CNN的框回归），得到回归器中的目标，用于训练。也就是论文中的loss function部分：

自然地，也就要求RPN的两个并联的FC层一个输出2k个值用于表示这k个anchor对应的区域的正类，负类的概率，另一个输出4k个值，用于表示框回归的变换的预测值。

对于整个网络的训练，作者采用了一种叫做 4-step Alternating Training 的方法。具体可以参考论文。

与之前的检测任务稍有不同，mask r-cnn的任务是做instance segmentation。因此，它需要对每一个像素点进行分类。与Faster R-CNN不同，Faster R-CNN对每一个候选框产生两个输出，一个是类别，一个是bounding box的offset。Mask R-CNN新增加了一个输出，作为物体的mask。这个mask类似于ps中的蒙版。

与Faster R-CNN类似的是，Mask R-CNN同样采用RPN来进行Region Proposal。但是在之后，对于每一个RoI，mask r-cnn还输出了一个二值化的mask。

不像类别，框回归，输出都可以是一个向量，mask必须保持一定的空间信息。因此，作者采用FCN来从每个RoI中预测一个的mask。

由于属于像素级别的预测问题，就需要RoI能够在进行特征提取的时候保持住空间信息，至少在像素级别上能够对应起来。因此，传统的取最大值的方法就显得不合适。 RoI Pooling，经历了两个量化的过程：第一个：从roi proposal到feature map的映射过程。第二个：从feature map划分成7*7的bin，每个bin使用max pooling。

为此，作者使用了RoIAlign。如下图

为了避免上面提到的量化过程

可以参考

作者使用ResNet作为基础的特征提取的网络。对于预测类别，回归框，mask的网络使用如下图结构：

整体看完这几篇大佬的论文，虽说没有弄清楚每一个实现细节，但是大体上了解了算法的思路。可以看出，出发点都源于深度神经网络在特征提取上的卓越能力，因此一众大神试图将这种能力应用在检测问题中。从R-CNN中简单地用于特征提取，到为了提高速度减少计算的Fast R-CNN，再到为了将region proposal集成进入整个模型中，并且利用GPU加速的RPN，也就是Faster R-CNN。再到为了应用于instance segmentation任务中，设计的RoIAlign和mask。包括bounding box regression，pooling层的设计，训练方法的选择，loss的设计等等细节，无一不体现了大师们的思考和创造力。可能在我们这些“拿来”者的眼中，这些方法都显得“理所应当”和巧妙，好用，但是，它们背后隐藏的选择和这些选择的思考却更值得我们学习。以及，对待每一个问题，如何设计出合理的解决方案，以及方案的效率，通用性，更是应该我们努力的方向。

Halcon deep learning之目标检测笔记（二）

在上一步，完成了网络的创建和数据的预处理。接下来准备对这个网络进行训练，通过训练得到一个可以用于目标检测的深度学习网络模型。这里首先要确定上一步输出的模型和数据集的存放路径是可用的，否则训练环节会因为缺少输入而报错。
Halcon的参考样例detect_pills_deep_learning_2_train.hdev详述了这一过程，这里做一些学习记录。

设置输入路径，主要是两个，一是上一步的预训练的以.hdl结尾的模型，另一个是数据集和样本数据字典的存放路径。
输出路径也是两个，一是存放最佳评估模型的路径，一个是最终训练完成的模型路径。

首先用check_files_availability验证预处理模型和数据集路径是否正确。没有问题的话可以开始读取。
使用read_dl_model读取前一步初始化后的网络模型，得到模型的句柄DLModelHandle。
接着用read_dict读取预处理后的数据集，得到数据字典句柄DLDataset。

设置模型参数主要通过set_dl_model_param算子，以修改属性值的方式改变关键参数的值。该算子原型如下：
set_dl_model_param( : : DLModelHandle, GenParamName, GenParamValue : )
输入三个参数：

注意，如果将'runtime'的值改为了’gpu’，则要确定cuDNN和cuBLAS已经成功安装了。

通过set_dl_model_param算子，可以将本文开头提到的设置的模型的基本参数传递给模型句柄DLModelHandle。如将'batch_size'设为之前的batch_size的值等等。

1）创建训练参数。
这里使用create_dl_train_param算子创建一个训练参数的字典，用于存放训练参数和训练效果可视化的参数。这些参数可以做个说明：

2）训练网络
接下来是最耗时的部分，即使用train_dl_model算子进行深度学习网络模型的训练。算子如下：
train_dl_model( : : DLDataset, DLModelHandle, TrainParam, StartEpoch : TrainResults, TrainInfos,EvaluationInfos)
前四个参数是输入参数，后三个是输出参数。

接着到了第三步，即验证模型的部分。