这篇Multi-Branch Hierarchical Segmentation 文章来自上海交通大学仿脑计算与机器智能研究中心(简称BCMI),来自CVPR 2015,是一篇用 segmentation 来做 proposal 的论文,该文是在selective search原型的基础上进行了进一步区域聚合方法的探索。 Segment based object proposal的方法的主要思想是,将分割好的图像区域进行组合来得到目标区域。这存在一个问题:上一步区域组合出错会导致下一步错误,这种single-way merge segmentation region的方法是有缺陷的。所以此篇文章采用muti-branch分支的方法来扩大搜索范围,以达到改进精度的目的。 通过对分割区域空间搜索来得到目标区域的方式,单纯使用贪心策略是不可取的。此篇文章对分割区域的组合采用了一个原则:包含了多种颜色和纹理区域的复杂目标需要使用不同的组合策略来完成分割区域组合。这篇文章的主要思路就是将多种组合策略进行组合搜索,来改善selective search方法的精度。 此篇文章研究的内容主要由多种分割区域组合策略和分割区域搜索两部分组成。 (1)Learning complementary merging strategies 论文将区域组合的过程抽象为线性分类器,并通过改变每次训练样本的权值来训练分类器(类似Boosting过程)。但与Boosting不同的是,论文提出的区域组合分类器不是将多个弱分类器组合成强分类器,而是通过分类器之间的错误修改来形成新的分类器。 (2) Multi-staged branching 通过上面的区域组合分类器,可以对图像分割区域进行搜索,将一个贪心聚合的步骤分成了多个。 论文主要通过树形组织来增加分割区域的组合搜索空间,并用区域组合结果来训练SVM分类器。 文章采用树型分支的方式来组织不同的区域组合策略,同一个分支下的分割区域组合策略方法相同。 假设区域聚合树的高度为T,树的每个非叶子节点的度为K,则最底层可以得到KT个区域聚合结果,总共可以得到 个proposal窗口,其中λ表示每次区域聚合增加的零散区域数量,N为最开始图像拥有的分割区域数量。则可以使用λ和N来控制最后的proposal数量。 其中生成每个分支的过程实际上还是贪心聚合的方法,但对这个过程进行了分层操作。 上一点描述了如何进行分支操作,接下来是如何使用图像分割区域聚合树来生成proposal的过程,主要是如何设计分割区域分类器。 为使得图像分割区域聚合树不同分支上的proposal分类模型相同,文中使用了binary linear classifier(二元线性分类器)来对分割区域进行分类。 即将属于同一物体的不同区域作为正例,将属于不同的物体的不同的区域作为反例作为训练。进而得到相应的SVM分类器。 实验的原始图像数据来自PASCAL VOC2007,初始的图像分割图像算法和图像区域特征完全与selective search相同,这篇文章主要在区域聚合算法上面进行了改进。 进行对比的算法有selective search (SS), geodesic object proposals (GOP), global and local search (GLS), edge boxes (EB) 和 binarized normed gradients(BING)。 实验结果对比如下所示: 在对比中,文章提出的方法(Ours)与Selective Search (SS)差别并不太大。在低proposal数量情况下Edge Box和Selective Search的结果要好于文章提出的方法;在高proposal数量情况下,文章提出的方法结果稍微好一点。 上表是几种方法加R-CNN在PASCAL VOC2007识别结果对比,文章中并没有注明对比情况下的IoU参数。从表中看出,就检索精度上,文章提出的算法与Selective Search并没有太大的区别,文章提出的算法改进很有限。 这篇文章的主要思想是对Selective Search方法就分割区域聚合过程进行改进,文章使用了多层树形聚合方法,将之前的单贪心聚合分为多个贪心聚合流程,并使用SVM进行区域分类。文章使用的树形区域聚合方法确实增大了分割区域聚合的搜索空间,但从单个过程来看还是贪心聚合的方式,所以文章对Selective Search的改进程度很小,主要提供了一种新的分割区域聚合的思路。 从实验对比结果来看,文章提出的方法只在低proposal数量情况下稍微优于Selective Search,但文章提出的方法使用的空间复杂度远大于Selective Search,而且文章提出的方法增加了计算proposal的时间。 Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer vision (2013): 154-171.