SiamFC跟踪方法取得了很大的成功,同时也促进了深度学习在跟踪领域的发展。我们知道SiamFC采用的骨干网络是AlexNet,使用该网络来提取图像特征。AlexNet最早实在图像识别任务中被提出,第一次证实了卷积网络在CV领域的有效性,取得了2012年ImageNet竞赛的第一名。自此以后,许多的深度卷积网络被提出,如VGG,GoogLeNet以及ResNet等,可以看出从AlexNet到ResNet,网络的层数越来越多,也即网络的深度越来越深,这也使得网络的性能越来越强大,取得的成绩也越来越好。由此我们自然的可以想到,使用更加强大的backbone是不是也能改进Siamese跟踪方法的性能呢?本文主要讨论SiamRPN++中的骨干网络ResNet。可以看到残差块中包含2种映射,一种是identity mapping,指的就是上图中的曲线,另一种residual mapping,指的就是除曲线外那部分,所以最后的输出是y = F(x) + x。identity mapping顾名思义,就是指本身,也就是公式中的x,而residual mapping指的是“差”,也就是y − x,所以残差指的就是F(x)部分。因此网络需要学习的F(x)为输入与目标的差值,故称为残差网络。原始的ResNet主要应用于图像分类和识别任务,对于空间信息不敏感,而在跟踪任务中,空间信息对于目标的准确定位至关重要,所以要在跟踪任务中使用,需要对ResNet进行改进。 上图为SiamRPN++的网络结构图,其采用的backbone为修改的ResNet-50。原始ResNet-50的stride为32,对跟踪不适合。作者对最后两个block的stride进行了修改,将总stride降低到8,并通过空洞卷积来增加感受野。从上图可以看到,采用了ResNet不同深度卷积层的特征,在每个block输出上添加额外的1×1卷积层来将特征通道降低为256。文章将所有层的padding保留了。