目前来说,提高网络的性能,要不就是增加网络的深度,要不就是增加网络的宽度,但这样做无疑会增加网络设计的难度与计算的开销,所以,能否设计一种网络结构,在不增加网络复杂度的基础上还能提高网络的性能,这就是ResNeXt网络所要解决的问题。 1、VGG跟ResNet都采用了一种堆叠的思想,即相同拓扑结构的块都堆在一起,其设计原则主要有两个:1)如果生成的spatial maps尺寸相同,则blocks的超参数相同(即具有相同的滤波器数目和大小)2)如果spatial maps下采样一半,则blocks宽度增加一倍,以保证相同的计算复杂度。 个人理解其实第一个原则就是将相同卷积核大小跟数目的卷积层堆在一起,第二个原则则是如果上一步操作将空间图尺寸减半,则这一步应该将卷积核的数目加倍。 2、Inception网络使用了一种split-transform-merge思想,即先将输入切分到不同的低维度中,然后做一个特征映射,最后将结果融合到一起。但模型的泛化性不好,针对不同的任务需要设计的东西太多。 1、split-transform-merge思想如下所示: 即先将x进行降维,然后做一个映射聚合,即 ,论文中加了残差结构,变为 ,这也是论文所设计的模块,如图示所示: 这里作者提出了一个基数的维度,是独立于深度、宽度的另一个影响网络性能的参数,指的是除了short -cut之外支路的数量,作者实验证明,增加基数可以比增加深度与宽度的效果要好。 2、下面是上图的等价模式: 考虑性能,作者选择了第三种模块,使用了分组卷积的操作,1中的C指的就是分组卷积的组数。 总结:个人认为,resnext其实就是结合resnet与inception的优点。