姓名:郄心怡 学号: 学院:电子工程学院 【原文链接】 【嵌牛导读】本文对特征金字塔网络FPN做了一个简单介绍 【嵌牛鼻子】特征金字塔网络FPN 【嵌牛提问】什么是特征金字塔网络FPN? 【嵌牛正文】 这里介绍的文章是来自Facebook的特征金字塔网络Feature Pyramid Networks(FPN)。FPN主要解决的是物体检测中的多尺度问题,通过简单的网络连接改变,在基本不增加原有模型计算量情况下,大幅度提升了小物体检测的性能。我们将从论文背景,论文思想,结果与结论几方面探讨此论文。 在物体检测里面,有限计算量情况下,网络的深度(对应到感受野)与stride通常是一对矛盾的东西,常用的网络结构对应的stride一般会比较大(如32),而图像中的小物体甚至会小于stride的大小,造成的结果就是小物体的检测性能急剧下降。传统解决这个问题的思路包括: (1)多尺度训练和测试,又称图像金字塔,如图1(a)所示。目前几乎所有在ImageNet和COCO检测任务上取得好成绩的方法都使用了图像金字塔方法。然而这样的方法由于很高的时间及计算量消耗,难以在实际中应用。 (2)特征分层,即每层分别预测对应的scale分辨率的检测结果。如图1(c)所示。SSD检测框架采用了类似的思想。这样的方法问题在于直接强行让不同层学习同样的语义信息。而对于卷积神经网络而言,不同深度对应着不同层次的语义特征,浅层网络分辨率高,学的更多是细节特征,深层网络分辨率低,学的更多是语义特征。因而,目前多尺度的物体检测主要面临的挑战为: 1. 如何学习具有强语义信息的多尺度特征表示? 2. 如何设计通用的特征表示来解决物体检测中的多个子问题?如object proposal, box localization, instance segmentation. 3. 如何高效计算多尺度的特征表示? 本文针对这些问题,提出了特征金字塔网络FPN,如图1(d)所示,网络直接在原来的单网络上做修改,每个分辨率的feature map引入后一分辨率缩放两倍的feature map做element-wise相加的操作。通过这样的连接,每一层预测所用的feature map都融合了不同分辨率、不同语义强度的特征,融合的不同分辨率的feature map分别做对应分辨率大小的物体检测。这样保证了每一层都有合适的分辨率以及强语义特征。同时,由于此方法只是在原网络基础上加上了额外的跨层连接,在实际应用中几乎不增加额外的时间和计算量。作者接下来实验了将FPN应用在Faster RCNN上的性能,在COCO上达到了state-of-the-art的单模型精度。 具体而言,FPN分别在RPN和Fast RCNN两步中起到作用。其中RPN和Fast RCNN分别关注的是召回率和正检率,在这里对比的指标分别为Average Recall(AR)和Average Precision(AP)。分别对比了不同尺度物体检测情况,小中大物体分别用s,m,l表示。 在RPN中,区别于原论文直接在最后的feature map上设置不同尺度和比例的anchor,本文的尺度信息对应于相应的feature map(分别设置面积为32^2, 64^2, 128^2, 256^2, 512^2),比例用类似于原来的方式设置{1:2, 1:1,, 2:1}三种。 与RPN一样,FPN每层feature map加入3*3的卷积及两个相邻的1*1卷积分别做分类和回归的预测。在RPN中,实验对比了FPN不同层feature map卷积参数共享与否,发现共享仍然能达到很好性能,说明特征金字塔使得不同层学到了相同层次的语义特征。RPN网络的实验结果为:这里FPN对比原来取自conv4和conv5的RPN网络(a)(b),召回率得到了大幅度提升,尤其在中物体和小物体上(c)。另外,作者做了变量对比实验,比如只保留横向连接(d),即特征分层网络,性能仅与原RPN差不多,原因就在于不同层之间的语义特征差距较大。另外,试验了砍掉横向连接,只保留自上而下放大feature map做预测结果(e),以及只用最终得到的feature map层(f),均比完整的FPN网络小物体检测AR低10个点左右。说明金字塔特征表示与横向连接都起了很大作用。 实验Fast RCNN时,需要固定FPN+RPN提取的proposal结果。在Fast RCNN里,FPN主要应用于选择提取哪一层的feature map来做ROI pooling。假设特征金字塔结果对应到图像金字塔结果。定义不同feature map集合为{P2, P3, P4, P5},对于输入网络的原图上w*h的ROI,选择的feature map为Pk,其中(224为ImageNet输入图像大小):类似于RPN的实验,对比了原有网络,以及不同改变FPN结构的Fast RCNN实验,实验结果为:实验发现FPN筛选ROI区域,同样对于Fast RCNN的小物体检测精度有大幅提升。同时,FPN的每一步都必不可少。 最后,FPN对比整个Faster RCNN的实验结果如下:对比其他单模型方法结果为:最后是在FPN基础上,将RPN和Fast RCNN的特征共享,与原Faster CNN一样,精度得到了小幅提升。FPN+Faster RCNN的方法在COCO数据集上最终达到了最高的单模型精度。 总结起来,本文提出了一种巧妙的特征金字塔连接方法,实验验证对于物体检测非常有效,极大提高了小物体检测性能,同时由于相比于原来的图像金字塔多尺度检测算法速度也得到了很大提升。 Q1:不同深度的feature map为什么可以经过upsample后直接相加? 答:作者解释说这个原因在于我们做了end-to-end的training,因为不同层的参数不是固定的,不同层同时给监督做end-to-end training,所以相加训练出来的东西能够更有效地融合浅层和深层的信息。 Q2:为什么FPN相比去掉深层特征upsample(bottom-up pyramid)对于小物体检测提升明显?(RPN步骤AR从到,Fast RCNN步骤AP从到) 答:作者在poster里给出了这个问题的答案对于小物体,一方面我们需要高分辨率的feature map更多关注小区域信息,另一方面,如图中的挎包一样,需要更全局的信息更准确判断挎包的存在及位置。 Q3:如果不考虑时间情况下,image pyramid是否可能会比feature pyramid的性能更高? 答:作者觉得经过精细调整训练是可能的,但是image pyramid主要的问题在于时间和空间占用太大,而feature pyramid可以在几乎不增加额外计算量情况下解决多尺度检测问题。
2021年了,竟然还有人写关于Faster R-CNN的文章?我的原因主要有两点: 我们先从全局上了解Faster R-CNN-FPN,然后再关注其中涉及的细节。下面是Faster R-CNN-FPN的网络框架图(或称为tensor流动图)。 众所周知,Faster R-CNN-FPN(主要是Faster R-CNN)是个两阶段的对象检测方法,主要由两部分网络组成,RPN和Fast R-CNN。 RPN的作用是以bouding box(后简称为box)的方式预测出图片中对象可能的位置,并过滤掉图片中绝大部分的背景区域,目标是达到尽量召回图像中感兴趣的对象,预测box尽量能够与实际对象的box贴合,并且保证一定的预测精度(Precision)。另外,RPN并不需要指出预测的box中对象具体的类别,RPN预测的box称为RoI(Region of Interest),由于是以box的方式输出,所以后面我们统一将其称为proposal box。 Fast R-CNN则是在FPN预测的proposal box基础上进一步预测box中对象具体的类别,并对proposal box进行微调,使得最终预测的box尽量贴合目标对象。大致的做法是根据RPN预测的proposal box,从原图backbone的feature map上通过RoIPooling或RoIAlign(Faster R-CNN-FPN使用RoIAlign)提取每个proposal box对应区域的feature map,在这些区域feature map上进一步预测box的类别和相对proposal box的偏移量(微调)。另外,RPN和Fast R-CNN共用同一个backbone网络提取图像的feature map,大大减少了推理耗时。 从上面的介绍可以看出,RPN和Fast R-CNN的配合作用其实可以理解为一种注意力机制,先大致确定目标在视野中的位置,然后再锁定目标仔细观察,确定目标的类别和更加精确的位置,简单来说就是look twice,相比单阶段的look once,当然是比较耗时的,但也换来了更好的效果(虽然很多单阶段方法号称已经获得相当或好于两阶段的效果)。 下面以Faster R-CNN-FPN发展顺序的汇总介绍每个改进的核心思想。 在R-CNN中,CNN只被用来作为特征抽取,后接SVM和线性回归模型分别用于分类和box修正回归。在此基础上,Fast R-CNN直接对原输入图进行特征抽取,然后在整张图片的特征图上分别对每个RoI使用RoIPooling提取(后面会介绍RoIPooling的原理)特定长度的特征向量(论文中空降尺寸为7*7),去掉SVM和线性回归模型,在特征向量上直接使用若干FC层进行回归,然后分别使用两个FC分支预测RoI相关的类别和box,从而显著提升速度和预测效果。 整体框架图如下: 在Fast RCNN的基础上进一步优化,用CNN网络代替Fast R-CNN中的region proposal模块(使用传统Selective Search方法),从而实现了全神经网络的检测方法,在召回和速度上都超过了传统的Selective Search。作者将提供proposal region的网络称为RPN(Region Proposal Network),与检测网络Fast RCNN共享同一backbone,大大缩减了推理速度。 RPN在backbone产生的feature map(图中的conv feature map)之上执行 的滑窗操作,每个滑窗范围内的feature map会被映射为多个proposal box(图中的reg layer分支)以及每个box对应是否存在对象的类别信息(图中的cls layer分支)。由于CNN天然就是滑窗操作,所以RPN使用CNN作为窗口内特征的提取器(对应图中的intermediate layer,后面简称为“新增CNN层”),窗口大小 ,将feature map映射为较低维的feature map以节省计算量(论文中为256)。虽然只使用了 的卷积,但是在原图上的有效的感受野还是很大的,感受野大小不等于网络的降采样率,对于VGG网络,降采样率为16,但是感受野为228像素。类似于Fast-RCNN,为了分别得到box和box对应的类别(此处类别只是表示有没有目标,不识别具体类别),CNN操作之后会分为两个子网络,它们的输入都是新增CNN层输出的feature map,一个子网络负责box回归,一个负责类别回归。由于新增CNN层产生的feature map的每个空间位置的特征(包括通道方向,shape为 )都被用来预测映射前窗口对应位置是否存在对象(类别)和对象的box,那么使用 的CNN进行计算正合适(等效于FC层),这便是RPN的做法。综上所述,所有滑窗位置共享一个新增CNN层和后续的分类和box回归分支网络。下图是RPN在一个窗口位置上执行计算的原理示意。 由于滑窗操作是通过正方形的CNN卷积实现的,为了训练网络适应不同长宽比和尺寸的对象,RPN引入了anchor box的概念。每个滑窗位置会预置k个anchor box,每个anchor box的位置便是滑窗的中心点,k个anchor box的长宽比和尺寸不同,作者使用了9种,分别是长宽比为 、 和 ,尺寸为 , 和 的9种不同组合。分类分支和box回归分支会将新增CNN层输出的feature map的每个空间位置的tensor(shape为 )映射为k个box和与之对应的类别,假设每个位置的anchor box数量为k(如前所述, ),则分类分支输出的特征向量为2k(两个类别),box回归分支输出为4k(4为box信息,box中心点x坐标、box中心点y坐标、box宽w和box高h)。box分支预测的位置(x,y,w,h)都是相对anchor box的偏移量。从功能上来看,anchor box的作用有点类似于提供给Fast RCNN的propsal box的作用,也表示目标可能出现的位置box,但是anchor box是均匀采样的,而proposal box是通过特征抽取(或包含训练)回归得到的。由此可以看出,anchor box与预测的box是一一对应的。从后文将会了解到,通过anchor box与gt box的IoU的关系,可以确定每个预测box的正负样本类别。通过监督的方式让特定的box负责特定位置、特定尺寸和特定长宽比的对象,模型就学会了拟合不同尺寸和大小的对象。另外,由于预测的box是相对anchor box的偏移量,而anchor box是均匀分布在feature map上的,只有距离和尺寸与gt box接近(IoU较大)的anchor box对应的预测box才会与gt box计算损失,这大大简化了训练,不然会有大量的预测box与gt box计算损失,尤其是在训练初始阶段,当一切都是瞎猜的时候。 在Faster RCNN基础上,将backbone替换为ResNet50或ResNet101,涉及部分细节的改动,我们放在本文的细节部分进行描述。 在Faster RCNN-ResNet基础上,引入FPN(特征金字塔网络)模块,利用CNN网络天然的特征金字塔特点,模拟图像金字塔功能,使得RPN和Fast RCNN可以在多个尺度级别(scale level)的feature map上分别预测不同尺寸的对象,大大提高了Faster RCNN的检测能力。相比图像金字塔大大节省了推理时间。原理如下图所示: 从上图中可以看出,FPN并不是简单地使用backbone的多个CNN层输出的feature map进行box回归和分类,而是将不同层的feature map进行了top-down和lateral connection形式的融合后使用。这样便将CNN网络前向传播(bottom-up)产生的深层语义低分辨率特征与浅层的浅语义高分辨率的特征进行融合,从而弥补低层特征语义抽象不足的问题,类似增加上下文信息。其中,top-down过程只是简单地使用最近邻插值将低分辨率的feature map上采样到即将与之融合的下层feature map相同的尺寸(尺寸上采样到2倍),lateral connection则是先将低层的feature map使用 的卷积缩放为即将与之融合的上层feature map相同的通道数(减少计算量),然后执行像素级相加。融合后的feature map不仅会用于预测,还会继续沿着top-down方向向下传播用于下层的特征融合,直到最后一层。 mask R-CNN提出的RoI Align缓解了RoIPooling的缺陷,能够显著提升小目标物体的检测能力。网上介绍RoIPooling和RoIAlign的文章很多,此处不再赘述,推荐阅读个人觉得比较好的两篇博客: RoIPooling 和 RoIAlign 。 此处稍微啰嗦下个人对RoIPooling的思考: 为什么RoIPooling不使用自适应的池化操作,即根据输入的feature map的尺寸和希望输出的feature map尺寸,自动调整池化窗口的大小和步长以计算想要尺寸的feature map,类似于自适应池化操作,而不是将输入的feature map划分成均匀的小区域(bins,论文中划分为 个bins),然后每个小区域中分别计算MaxPooling。不管计算上是否高效,至少这种做法在输入的feature map尺寸(比如 )小于期望的输出feature map尺寸(比如 )时会失效,因为在3*3的feature map上如果不使用padding的话是无法得到 的特征的,而使用padding又是很低效的操作,因为要扩展局部feature map的尺寸,而使用划分bins的方法,即使输出的feature map尺寸远小于要输出的feature map尺寸,也仅仅是在同一位置采样多次而已。 本人之前介绍YOLOv3的 文章 也介绍过anchor box的作用,再加上本文节中的介绍应该比较全面了,不再赘述。 此处的绝大部分细节来自论文,论文中未提及的部分,主要参考了mmdetection中的 实现 。 整个模型的网络结构可以划分为四个部分,分别为backbone、FPN、RPN head和Fast RCNN head。 : 原图短边被resize到800像素,这里值得注意的是,如此resize后一个batch内的每张图片的大小很有可能并不一致,所以还无法合并为一个输入矩阵,普遍的做法是将batch内的每张图片的左上角对齐,然后计算resize后batch内所有图片的最大宽和高,最后按照最大宽或高分别对每张图片的宽或高进行0值padding;输出为4个不同尺寸的feature map(C2、C3、C4、C5)。 : ResNet backbone产生的4个不同尺寸的feature map(C2、C3、C4、C5)作为输入,输出5个不同尺寸的feature map(P2、P3、P4、P5、P6),P6是对P5进行2倍降采样得到,每个feature map的通道数为固定的256;使用P6的原因是为了预测更大尺寸的对象。 :输入为FPN产生的feature map(P2、P3、P4、P5、P6);由于RPN是在5个输入feature map上进行独立的预测,则每个feature map都会输出 proposal box,因此不可能将所有的proposal box都提供给Fast R-CNN,这里的做法是对每个feature map上产生的proposal box按类别概率进行排序(每个feature map上的proposal box独立进行),然后选择前k个proposal box, 5个feature map一共会 产生 个proposal box,训练时 ,推理时 。最后,将所有的 个proposal box合并后统一进行NMS(IoU threshold=)去掉冗余的box,最后选择前m个输出给Fast R-CNN,训练和测试时m都取1000。 训练时将gt box通过下面的公式转换为相对anchor box的偏移值,与网络的预测计算loss,至于将每个gt与具体的哪个anchor box计算偏移,则需要根据节中的正负样本方法来确定。测试时将预测的box通过该公式中的逆运算计算出当前box相对原图的位置和大小, , , , 指相对全图的box中心点坐标以及宽和高, , , , 指每个anchor相对全图的box中心点坐标以及宽和高。由此可以看出,box回归分支直接预测的便是相对anchor的偏移值,即公式中的 、 、 和 。 以上提到的2000和1000是作为Fast R-CNN的输入proposal box,在训练时参与RPN loss计算的anchor boxs数量为256个,正负样本数量为 ,正样本不足128的用负样本补足。这里的256是从所有feature map中的anchor box中选择的,并非每个feature map都独立取得256个正负样本。这也是合理的,因为每个gt box由于尺寸的原因,几乎不可能与所有feature map上的anchor box的IoU都大于一定的阈值(原因参考节)。注意选择前并未进行NMS处理,而是直接根据节中确定正负样本的方式确定每个预测box正负类别,然后分别在正样本中随机选择128个正样本,在负样本中随机选择128个负样本。 R-CNN:输入为FPN产生的前4个feature map和RPN输出的proposal box,4个feature map为P2、P3、P4、P5,与backbone对应,不使用P6。那么,如何确定在哪个feature map上执行每个proposal box对应的RoIAlign操作并得到 大大小的feature map呢?论文中的做法是通过下面的公式将特定尺寸的proposal box与FPN产生的4个feature map中尺寸最适合的对应起来,即让感受野更接近对象尺寸的feature map预测该对象 ,其中224为backbone在ImageNet上预训练的尺寸,w和h为proposal box的长和宽,k表示适合尺寸为w和h的propsal box的feature map的位置,即4个feature map为P2、P3、P4、P5的下标,k_0为proposal box大致为224*224时对应feature map位置值( ),表示proposal box大致为 时在P4上执行RoIAlign,小于 时,在P2或P3上执行,大于则在P5上。 网络都会针对每个RoI会输出一个类别概率分布(包括背景类别)和一个相对RoI box的长度为4的box偏移向量。概率分支由softmax激活函数得到。与RPN的类似,训练时,如节loss计算中所述,会将gt box通过下面的公式转换为相对proposal box(前提是该RoI是正样本)的偏移量,然后使用loss计算公式直接与预测的相对偏移量进行loss计算;测试时,会通过下列公式的逆运算将偏移值换算回相对原图的位置box,然后使用NMS去掉冗余的box,最终输出。 训练时,通过中的方式确定每个proposal box属于正样本或负样本后,随机选择512个样本,其中正负比例为1:3进行loss计算,正样本不足的由负样本补足。 在RPN中,由于每个feature map的每个滑窗位置上的张量( 维张量,C为feature map的通道数)会被用来预测k个box和每个box对应的类别概率,那么具体哪个box才能参与gt box的损失计算(包括类别和box回归损失)?这便需要在所有预测的box中确定正负样本,因为一个anchor对应一个预测的box和类别,那么确定预测的box是正例还是负例等价于确定anchor box的是正例还是反例。为了便于训练,RPN中使用双IoU阈值的方式确定正负样本,与gt box的IoU为最大或者大于的anchor box被设置为正样本,这会导致一个gt box与多个预测box计算损失,即允许多个box预测同一对象,与gt box的IoU小于的anchor box被设置为负样本,其余的忽略掉,即不参与loss计算。在此基础上,如节中所述,会对正负样本进行随机采样,总数为256,其他不参与损失函数计算。 与gt box的IoU大于的proposal box作为正样本,注意,是将proposal box与gt box计算IoU,Fast-RCNN中的proposal box的作用与anchor box有些类似,即确定正负样本和预测的box 都是针对它们的偏移值 ,其余IoU在 之间的作为负样本,低于的作为难例挖掘时的启发式样本(mmdetection中的做法是单阈值方式,与gt box的IoU大于的proposal box作为正样本,小于的都是负样本)。 Faster R-CNN中是以分步的方式联合训练RPN和Fast R-CNN,大致的过程为: 但在mmdetection中,已经将RPN和Fast R-CNN的loss进行权重加和,从而进行联合训练,训练流程简化很多,且能够达到相同的效果。 确定了每个预测box或anchor box的正负类别后,便可以计算损失函数了,类似于Fast RCNN的做法,只有正样本的box才会参与box损失计算,损失函数如下: 为类别损失为类别损失函数,使用交叉熵损失, 为box回归损失,使用smooth L1损失,论文中平衡因子lambda为10。 表示第i个anchor box对应的gt 类别(背景为0,对象为1), 为gt box相对anchor box的偏移量(如果该anchor box被确定为正样本),通过下面的公式计算得到, 即表示只有 ,即为正样本时才会计算box的损失。 Fast R-CNN的loss类似于RPN,只有proposal box为非背景类别(正样本)时才计算box损失, 为类别损失, 为box损失, 表示proposal box的 , 时表示背景(通过的方式确定proposal box的类别)。 为平衡因子,作者所有实验中 。为了防止box回归的L2 loss放大噪声(异常loss)从而影响训练,作者将L2 loss修改为 loss,当box尺寸的差异较大时使用L1 loss,抑制异常值对梯度的贡献。 其中v是通过下面的公式将gt box( , , , )转换得到,其中,( , , , )为proposal box的在原图中的中心点坐标和宽与高。 在Faster R-CNN和Faster R-CNN-ResNet中,由于RPN只是在单尺寸的feature map上进行滑窗,为了缓解多尺寸的问题,每个滑窗位置会设计多个尺寸的anchor,但是在Faster R-CNN-FPN中使用了FPN,则天然就具有了适应对象多尺寸的问题,因此不用再为每个滑窗设计多个尺寸的anchor。即在Faster RCNN-FPN中,为每种尺寸feature map上的滑窗只设计了单一尺寸多种长宽比的anchor,长宽比有 、 和 ,不同feature map上anchor的尺寸为: , , , 和 ,依次对应P2、P3、P4、P5和P6。 COCO上的训练细节:RPN的weight decay为,SGD的 ,初始学习率为,学习率调整使用step decay方式。
论文里的目标值就是你要围绕什么目标写论文啊,要达到什么水平
2021年了,竟然还有人写关于Faster R-CNN的文章?我的原因主要有两点: 我们先从全局上了解Faster R-CNN-FPN,然后再关注其中涉及的细节。下面是Faster R-CNN-FPN的网络框架图(或称为tensor流动图)。 众所周知,Faster R-CNN-FPN(主要是Faster R-CNN)是个两阶段的对象检测方法,主要由两部分网络组成,RPN和Fast R-CNN。 RPN的作用是以bouding box(后简称为box)的方式预测出图片中对象可能的位置,并过滤掉图片中绝大部分的背景区域,目标是达到尽量召回图像中感兴趣的对象,预测box尽量能够与实际对象的box贴合,并且保证一定的预测精度(Precision)。另外,RPN并不需要指出预测的box中对象具体的类别,RPN预测的box称为RoI(Region of Interest),由于是以box的方式输出,所以后面我们统一将其称为proposal box。 Fast R-CNN则是在FPN预测的proposal box基础上进一步预测box中对象具体的类别,并对proposal box进行微调,使得最终预测的box尽量贴合目标对象。大致的做法是根据RPN预测的proposal box,从原图backbone的feature map上通过RoIPooling或RoIAlign(Faster R-CNN-FPN使用RoIAlign)提取每个proposal box对应区域的feature map,在这些区域feature map上进一步预测box的类别和相对proposal box的偏移量(微调)。另外,RPN和Fast R-CNN共用同一个backbone网络提取图像的feature map,大大减少了推理耗时。 从上面的介绍可以看出,RPN和Fast R-CNN的配合作用其实可以理解为一种注意力机制,先大致确定目标在视野中的位置,然后再锁定目标仔细观察,确定目标的类别和更加精确的位置,简单来说就是look twice,相比单阶段的look once,当然是比较耗时的,但也换来了更好的效果(虽然很多单阶段方法号称已经获得相当或好于两阶段的效果)。 下面以Faster R-CNN-FPN发展顺序的汇总介绍每个改进的核心思想。 在R-CNN中,CNN只被用来作为特征抽取,后接SVM和线性回归模型分别用于分类和box修正回归。在此基础上,Fast R-CNN直接对原输入图进行特征抽取,然后在整张图片的特征图上分别对每个RoI使用RoIPooling提取(后面会介绍RoIPooling的原理)特定长度的特征向量(论文中空降尺寸为7*7),去掉SVM和线性回归模型,在特征向量上直接使用若干FC层进行回归,然后分别使用两个FC分支预测RoI相关的类别和box,从而显著提升速度和预测效果。 整体框架图如下: 在Fast RCNN的基础上进一步优化,用CNN网络代替Fast R-CNN中的region proposal模块(使用传统Selective Search方法),从而实现了全神经网络的检测方法,在召回和速度上都超过了传统的Selective Search。作者将提供proposal region的网络称为RPN(Region Proposal Network),与检测网络Fast RCNN共享同一backbone,大大缩减了推理速度。 RPN在backbone产生的feature map(图中的conv feature map)之上执行 的滑窗操作,每个滑窗范围内的feature map会被映射为多个proposal box(图中的reg layer分支)以及每个box对应是否存在对象的类别信息(图中的cls layer分支)。由于CNN天然就是滑窗操作,所以RPN使用CNN作为窗口内特征的提取器(对应图中的intermediate layer,后面简称为“新增CNN层”),窗口大小 ,将feature map映射为较低维的feature map以节省计算量(论文中为256)。虽然只使用了 的卷积,但是在原图上的有效的感受野还是很大的,感受野大小不等于网络的降采样率,对于VGG网络,降采样率为16,但是感受野为228像素。类似于Fast-RCNN,为了分别得到box和box对应的类别(此处类别只是表示有没有目标,不识别具体类别),CNN操作之后会分为两个子网络,它们的输入都是新增CNN层输出的feature map,一个子网络负责box回归,一个负责类别回归。由于新增CNN层产生的feature map的每个空间位置的特征(包括通道方向,shape为 )都被用来预测映射前窗口对应位置是否存在对象(类别)和对象的box,那么使用 的CNN进行计算正合适(等效于FC层),这便是RPN的做法。综上所述,所有滑窗位置共享一个新增CNN层和后续的分类和box回归分支网络。下图是RPN在一个窗口位置上执行计算的原理示意。 由于滑窗操作是通过正方形的CNN卷积实现的,为了训练网络适应不同长宽比和尺寸的对象,RPN引入了anchor box的概念。每个滑窗位置会预置k个anchor box,每个anchor box的位置便是滑窗的中心点,k个anchor box的长宽比和尺寸不同,作者使用了9种,分别是长宽比为 、 和 ,尺寸为 , 和 的9种不同组合。分类分支和box回归分支会将新增CNN层输出的feature map的每个空间位置的tensor(shape为 )映射为k个box和与之对应的类别,假设每个位置的anchor box数量为k(如前所述, ),则分类分支输出的特征向量为2k(两个类别),box回归分支输出为4k(4为box信息,box中心点x坐标、box中心点y坐标、box宽w和box高h)。box分支预测的位置(x,y,w,h)都是相对anchor box的偏移量。从功能上来看,anchor box的作用有点类似于提供给Fast RCNN的propsal box的作用,也表示目标可能出现的位置box,但是anchor box是均匀采样的,而proposal box是通过特征抽取(或包含训练)回归得到的。由此可以看出,anchor box与预测的box是一一对应的。从后文将会了解到,通过anchor box与gt box的IoU的关系,可以确定每个预测box的正负样本类别。通过监督的方式让特定的box负责特定位置、特定尺寸和特定长宽比的对象,模型就学会了拟合不同尺寸和大小的对象。另外,由于预测的box是相对anchor box的偏移量,而anchor box是均匀分布在feature map上的,只有距离和尺寸与gt box接近(IoU较大)的anchor box对应的预测box才会与gt box计算损失,这大大简化了训练,不然会有大量的预测box与gt box计算损失,尤其是在训练初始阶段,当一切都是瞎猜的时候。 在Faster RCNN基础上,将backbone替换为ResNet50或ResNet101,涉及部分细节的改动,我们放在本文的细节部分进行描述。 在Faster RCNN-ResNet基础上,引入FPN(特征金字塔网络)模块,利用CNN网络天然的特征金字塔特点,模拟图像金字塔功能,使得RPN和Fast RCNN可以在多个尺度级别(scale level)的feature map上分别预测不同尺寸的对象,大大提高了Faster RCNN的检测能力。相比图像金字塔大大节省了推理时间。原理如下图所示: 从上图中可以看出,FPN并不是简单地使用backbone的多个CNN层输出的feature map进行box回归和分类,而是将不同层的feature map进行了top-down和lateral connection形式的融合后使用。这样便将CNN网络前向传播(bottom-up)产生的深层语义低分辨率特征与浅层的浅语义高分辨率的特征进行融合,从而弥补低层特征语义抽象不足的问题,类似增加上下文信息。其中,top-down过程只是简单地使用最近邻插值将低分辨率的feature map上采样到即将与之融合的下层feature map相同的尺寸(尺寸上采样到2倍),lateral connection则是先将低层的feature map使用 的卷积缩放为即将与之融合的上层feature map相同的通道数(减少计算量),然后执行像素级相加。融合后的feature map不仅会用于预测,还会继续沿着top-down方向向下传播用于下层的特征融合,直到最后一层。 mask R-CNN提出的RoI Align缓解了RoIPooling的缺陷,能够显著提升小目标物体的检测能力。网上介绍RoIPooling和RoIAlign的文章很多,此处不再赘述,推荐阅读个人觉得比较好的两篇博客: RoIPooling 和 RoIAlign 。 此处稍微啰嗦下个人对RoIPooling的思考: 为什么RoIPooling不使用自适应的池化操作,即根据输入的feature map的尺寸和希望输出的feature map尺寸,自动调整池化窗口的大小和步长以计算想要尺寸的feature map,类似于自适应池化操作,而不是将输入的feature map划分成均匀的小区域(bins,论文中划分为 个bins),然后每个小区域中分别计算MaxPooling。不管计算上是否高效,至少这种做法在输入的feature map尺寸(比如 )小于期望的输出feature map尺寸(比如 )时会失效,因为在3*3的feature map上如果不使用padding的话是无法得到 的特征的,而使用padding又是很低效的操作,因为要扩展局部feature map的尺寸,而使用划分bins的方法,即使输出的feature map尺寸远小于要输出的feature map尺寸,也仅仅是在同一位置采样多次而已。 本人之前介绍YOLOv3的 文章 也介绍过anchor box的作用,再加上本文节中的介绍应该比较全面了,不再赘述。 此处的绝大部分细节来自论文,论文中未提及的部分,主要参考了mmdetection中的 实现 。 整个模型的网络结构可以划分为四个部分,分别为backbone、FPN、RPN head和Fast RCNN head。 : 原图短边被resize到800像素,这里值得注意的是,如此resize后一个batch内的每张图片的大小很有可能并不一致,所以还无法合并为一个输入矩阵,普遍的做法是将batch内的每张图片的左上角对齐,然后计算resize后batch内所有图片的最大宽和高,最后按照最大宽或高分别对每张图片的宽或高进行0值padding;输出为4个不同尺寸的feature map(C2、C3、C4、C5)。 : ResNet backbone产生的4个不同尺寸的feature map(C2、C3、C4、C5)作为输入,输出5个不同尺寸的feature map(P2、P3、P4、P5、P6),P6是对P5进行2倍降采样得到,每个feature map的通道数为固定的256;使用P6的原因是为了预测更大尺寸的对象。 :输入为FPN产生的feature map(P2、P3、P4、P5、P6);由于RPN是在5个输入feature map上进行独立的预测,则每个feature map都会输出 proposal box,因此不可能将所有的proposal box都提供给Fast R-CNN,这里的做法是对每个feature map上产生的proposal box按类别概率进行排序(每个feature map上的proposal box独立进行),然后选择前k个proposal box, 5个feature map一共会 产生 个proposal box,训练时 ,推理时 。最后,将所有的 个proposal box合并后统一进行NMS(IoU threshold=)去掉冗余的box,最后选择前m个输出给Fast R-CNN,训练和测试时m都取1000。 训练时将gt box通过下面的公式转换为相对anchor box的偏移值,与网络的预测计算loss,至于将每个gt与具体的哪个anchor box计算偏移,则需要根据节中的正负样本方法来确定。测试时将预测的box通过该公式中的逆运算计算出当前box相对原图的位置和大小, , , , 指相对全图的box中心点坐标以及宽和高, , , , 指每个anchor相对全图的box中心点坐标以及宽和高。由此可以看出,box回归分支直接预测的便是相对anchor的偏移值,即公式中的 、 、 和 。 以上提到的2000和1000是作为Fast R-CNN的输入proposal box,在训练时参与RPN loss计算的anchor boxs数量为256个,正负样本数量为 ,正样本不足128的用负样本补足。这里的256是从所有feature map中的anchor box中选择的,并非每个feature map都独立取得256个正负样本。这也是合理的,因为每个gt box由于尺寸的原因,几乎不可能与所有feature map上的anchor box的IoU都大于一定的阈值(原因参考节)。注意选择前并未进行NMS处理,而是直接根据节中确定正负样本的方式确定每个预测box正负类别,然后分别在正样本中随机选择128个正样本,在负样本中随机选择128个负样本。 R-CNN:输入为FPN产生的前4个feature map和RPN输出的proposal box,4个feature map为P2、P3、P4、P5,与backbone对应,不使用P6。那么,如何确定在哪个feature map上执行每个proposal box对应的RoIAlign操作并得到 大大小的feature map呢?论文中的做法是通过下面的公式将特定尺寸的proposal box与FPN产生的4个feature map中尺寸最适合的对应起来,即让感受野更接近对象尺寸的feature map预测该对象 ,其中224为backbone在ImageNet上预训练的尺寸,w和h为proposal box的长和宽,k表示适合尺寸为w和h的propsal box的feature map的位置,即4个feature map为P2、P3、P4、P5的下标,k_0为proposal box大致为224*224时对应feature map位置值( ),表示proposal box大致为 时在P4上执行RoIAlign,小于 时,在P2或P3上执行,大于则在P5上。 网络都会针对每个RoI会输出一个类别概率分布(包括背景类别)和一个相对RoI box的长度为4的box偏移向量。概率分支由softmax激活函数得到。与RPN的类似,训练时,如节loss计算中所述,会将gt box通过下面的公式转换为相对proposal box(前提是该RoI是正样本)的偏移量,然后使用loss计算公式直接与预测的相对偏移量进行loss计算;测试时,会通过下列公式的逆运算将偏移值换算回相对原图的位置box,然后使用NMS去掉冗余的box,最终输出。 训练时,通过中的方式确定每个proposal box属于正样本或负样本后,随机选择512个样本,其中正负比例为1:3进行loss计算,正样本不足的由负样本补足。 在RPN中,由于每个feature map的每个滑窗位置上的张量( 维张量,C为feature map的通道数)会被用来预测k个box和每个box对应的类别概率,那么具体哪个box才能参与gt box的损失计算(包括类别和box回归损失)?这便需要在所有预测的box中确定正负样本,因为一个anchor对应一个预测的box和类别,那么确定预测的box是正例还是负例等价于确定anchor box的是正例还是反例。为了便于训练,RPN中使用双IoU阈值的方式确定正负样本,与gt box的IoU为最大或者大于的anchor box被设置为正样本,这会导致一个gt box与多个预测box计算损失,即允许多个box预测同一对象,与gt box的IoU小于的anchor box被设置为负样本,其余的忽略掉,即不参与loss计算。在此基础上,如节中所述,会对正负样本进行随机采样,总数为256,其他不参与损失函数计算。 与gt box的IoU大于的proposal box作为正样本,注意,是将proposal box与gt box计算IoU,Fast-RCNN中的proposal box的作用与anchor box有些类似,即确定正负样本和预测的box 都是针对它们的偏移值 ,其余IoU在 之间的作为负样本,低于的作为难例挖掘时的启发式样本(mmdetection中的做法是单阈值方式,与gt box的IoU大于的proposal box作为正样本,小于的都是负样本)。 Faster R-CNN中是以分步的方式联合训练RPN和Fast R-CNN,大致的过程为: 但在mmdetection中,已经将RPN和Fast R-CNN的loss进行权重加和,从而进行联合训练,训练流程简化很多,且能够达到相同的效果。 确定了每个预测box或anchor box的正负类别后,便可以计算损失函数了,类似于Fast RCNN的做法,只有正样本的box才会参与box损失计算,损失函数如下: 为类别损失为类别损失函数,使用交叉熵损失, 为box回归损失,使用smooth L1损失,论文中平衡因子lambda为10。 表示第i个anchor box对应的gt 类别(背景为0,对象为1), 为gt box相对anchor box的偏移量(如果该anchor box被确定为正样本),通过下面的公式计算得到, 即表示只有 ,即为正样本时才会计算box的损失。 Fast R-CNN的loss类似于RPN,只有proposal box为非背景类别(正样本)时才计算box损失, 为类别损失, 为box损失, 表示proposal box的 , 时表示背景(通过的方式确定proposal box的类别)。 为平衡因子,作者所有实验中 。为了防止box回归的L2 loss放大噪声(异常loss)从而影响训练,作者将L2 loss修改为 loss,当box尺寸的差异较大时使用L1 loss,抑制异常值对梯度的贡献。 其中v是通过下面的公式将gt box( , , , )转换得到,其中,( , , , )为proposal box的在原图中的中心点坐标和宽与高。 在Faster R-CNN和Faster R-CNN-ResNet中,由于RPN只是在单尺寸的feature map上进行滑窗,为了缓解多尺寸的问题,每个滑窗位置会设计多个尺寸的anchor,但是在Faster R-CNN-FPN中使用了FPN,则天然就具有了适应对象多尺寸的问题,因此不用再为每个滑窗设计多个尺寸的anchor。即在Faster RCNN-FPN中,为每种尺寸feature map上的滑窗只设计了单一尺寸多种长宽比的anchor,长宽比有 、 和 ,不同feature map上anchor的尺寸为: , , , 和 ,依次对应P2、P3、P4、P5和P6。 COCO上的训练细节:RPN的weight decay为,SGD的 ,初始学习率为,学习率调整使用step decay方式。
目标检测论文整理最近开始看一些object detection的文章,顺便整理一下思路。排版比较乱,而且几乎所有图片都是应用的博客或论文,如有侵权请联系我。文章阅读路线参考目前已完成的文章如下,后续还会继续补充(其中加粗的为精读文章):RCNNOverfeatMR-CNNSPPNetFast RCNNA Fast RCNNFaster RCNNFPNR-FCNMask RCNNYOLOYOLO 9000YOLO v3SSDDSSDR-SSDRetinaNet(focal loss)DSODCascade R-CNN(待续)吐槽一下,博客园的markdown竟然没有补齐功能,我还是先在本地补全再传上来吧。。。RCNN之前的故事Histogram of Gradient (HOG) 特征在深度学习应用之前,图像的特征是人工定义的具有鲁棒性的特征,如SIFT,HOG等,下面简要介绍一下HOG。8x8像素框内计算方向梯度直方图:HOG Pyramid特征金字塔,对于不同大小的物体进行适应,设计尺度不变性特征HOG特征 -> SVM分类DPM模型 Deformable Part Model加组件组合的HOG特征, 组件间计算弹性得分,优化可变形参数如果没有弹性距离,就是BoW (Bag of Word)模型, 问题很大, 位置全部丢失:n个组件的DPM计算流程:Selective Search 思想过分割后基于颜色纹理等相似度合并,然后,过分割、分层合并、建议区域排序基于Selective Search + DPM/HoG + SVM的物体识别此时的框架就是RCNN的雏形,因为DPM就是基本由RBG和他导师主导,所以大神就是大神。AlexNet的图像分类(深度学习登场)2012年AlexNet赢得LSVRC的ImageNet分类竞赛。深度CNN结构用来图像特征提取。bounding-box regression 框回归BBR 在DPM时代就和SVM分类结合,一般直接使用线性回归,或者和SVR结合RCNN: Rich feature hierarchies for accurate object detection and semantic segmentationRCNN作为深度学习用于目标检测的开山之作,可以看出是基于Selective Search + DPM/HoG + SVM框架,只不过将是将手工特征转变为CNN提取特征,本文主要贡献如下:CNN用于object detection解决数据集不足的问题主要流程如下:regional preposals(selective research)CNN feature extractionSVM ClassificationNMSbounding-box regression(BBR)为啥能work?优秀的目标检测框架,region proposal 和 regression offset降低了目标检测的难度,强大的CNN特征提取器,代替传统的已经到瓶颈的手工特征迁移训练降低了对数据集的要求MR-CNN:Object detection via a multi-region & semantic segmentation-aware CNN modelMulti-Region的提出, 开始对Box进一步做文章, 相当于对Box进一步做增强,希望改进增强后的效果,主要改善了部分重叠交叉的情况。特征拼接后使得空间变大,再使用SVM处理, 效果和R-CNN基本类似.OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks不得不说虽然OverFeat在但是比赛成绩不是太好,但是它的思想还是很有启发性的。OverFeat直接抛弃了Selective Search,采用CNN上slide windows来进行框推荐,并且把Bounding box Regression整合一起使用全连接层搞定, 解决了后面一端的问题(取代了SVM分类器和BBR线性回归器),这个思想影响了后来的Fast RCNN。是第一个End to End 的目标检测模型,模型虽然简陋,但是可以验证网络强大的拟合能力注意整合目标检测的各项功能(分类,回归)。亮点:先用CNN得到feature map再做slide windows推荐区域,避免了特征重复计算。设计了End to End模型,方便优化和加快检测速度设计全卷积网络,并进行多尺度图像训练maxpool offset(没有Fast RCNN的ROI Pooling自然)为啥能work?可以看出OverFeat将不同的两个问题物体分类和位置回归采用了两个分支网络,共用前面的CNN特征表述,而CNN提取的特征正如OverFeat所言,是一种类似于SIFT,HOG等人工描述子的一种稳定的描述子(底层抽象),可以用于构建不同的任务(高层表述),也就是模型为什么能work的原因。SPPNetR-CNN和Overfeat都存在部分多尺度,重叠效果的问题。 某种意义上, 应对了HoG特征, 这样对于物体来说类似BoW模型, 我们知道DPM里面,是带有组件空间分布的弹性得分的, 另外也有HoG Pyramid的思想。 如何把Pyramid思想和空间限制得分加入改善多尺度和重叠的效果呢? MR-CNN里面尝试了区域增强, Overfeat里面尝试了多尺度输入。 但是效果都一般。 这里我们介绍另外一个技术Spatial Pyramid Matching, SPM,是采用了空间尺度金字塔的特点。和R-CNN相比做到了先特征后区域, 和Overfeat相比自带Multi-Scale。SPP pooling layer 的优势:解决了卷积层到全连接层需要固定图片大小的问题,方便多尺度训练。能够对于任意大小的输入产生固定的输出,这样使得一幅图片的多个region proposal提取一次特征成为可能。进一步强调了CNN特征计算前移, 区域处理后移的思想, 极大节省计算量也能看出文章还是强调用CNN做特征的提取,还是用的BBR和SVM完成回归和分类的问题Fast RCNN可以看出Fast RCNN结合了OverFeat和Sppnet的实现,打通了高层表述和底层特征之间的联系主要流程:任意size图片输入CNN网络,经过若干卷积层与池化层,得到特征图;在任意size图片上采用selective search算法提取约2k个建议框;根据原图中建议框到特征图映射关系,在特征图中找到每个建议框对应的特征框【深度和特征图一致】,并在RoI池化层中将每个特征框池化到H×W【VGG-16网络是7×7】的size;固定H×W【VGG-16网络是7×7】大小的特征框经过全连接层得到固定大小的特征向量;将上一步所得特征向量经由各自的全连接层【由SVD分解实现(全连接层加速)】,分别得到两个输出向量:一个是softmax的分类得分,一个是Bounding-box窗口回归;利用窗口得分分别对每一类物体进行非极大值抑制剔除重叠建议框其中ROI POOL层是将每一个候选框映射到feature map上得到的特征框经池化到固定的大小,其次用了SVD近似求解实现全连接层加速。这里需要注意的一点,作者在文中说道即使进行多尺度训练,map只有微小的提升,scale对Fast RCNN的影响并不是很大,反而在测试时需要构建图像金字塔使得检测效率降低。这也为下一步的多尺度改进埋下了伏笔。为啥能更好的work?也是结合了OverFeat的和SPPnet的work,同时规范了正负样本的判定(之前由于SVM和CNN对区域样本的阈值划分不同而无法统一网络,当然这只是其中的一个原因。更多的估计是作者当时没想到),将网络的特征抽取和分类回归统一到了一个网络中。A Fast RCNN: Hard Positive Generation via Adversary for Object Detection这篇论文是对,CMU与rbg的online hard example mining(OHEM)改进,hard example mining是一个针对目标检测的难例挖掘的过程,这是一个更充分利用数据集的过程。实际上在RCNN训练SVM时就已经用到,但是OHEM强调的是online,即如何在训练过程中选择样本。同期还有S-OHEM的改进。而随着但是GAN的火热,A-Fast-RCNN尝试生成hard example(使用对抗网络生成有遮挡和有形变的两种特征,分别对应网络ASDN和ASTN)结论如下:ASTN 和 随机抖动(random jittering)做了对比,发现使用AlexNet,mAP分别是和,使用VGG16,mAP分别是和,ASTN 的表现都比比随机抖动效果好。作者又和OHEM对比,在VOC 2007数据集上,本文方法略好( vs. ),而在VOC 2012数据集上,OHEM更好( vs. )。gan用于目标检测还没有很好的idea,这篇论文相当于抛砖引玉了。同时需要注意的一个问题,网络对于比较多的遮挡和形变情况识别情况更好;但是对于正常目标的特征抽象能力下降,所以有时候创造难例也要注意样本的数量。下面是一些由于遮挡原因造成的误判。Faster RCNN:Towards Real-Time Object Detection with Region Proposal Networks这篇文章标志着two-stage目标检测的相对成熟,其主要改进是对候选区域的改进,将候选区域推荐整合进了网络中。结合后面的一系列文章,可以马后炮一下它的缺点:虽然Faster RCNN已经共享了绝大部分卷积层运算,但是RoI之后还有部分ConvNet的计算,有没有可能把ROI之上的计算进一步前移? 请看R-FCNFaster RCNN还是没有很好的解决多尺度问题,如何解决,请看FPNYOLO:You Only Look Once作者的论文简直是一股论文界的泥石流,作者本身是一个喜欢粉红小马的大叔,萌萌哒。实际上YOLO一直发展到v3都是简单粗暴的目标检测方法,虽然学术界模型繁杂多样,但是在实际应用工业应用上YOLO绝对是一个首选的推荐。YOLO v1版本现在看来真是简单粗暴,也印证了网络抽象的强大之处。可以看出作者没有受到太多前辈的影响,将对象检测重新定义为单个回归问题,直接从图像像素到边界框坐标和类概率(当然这也是一个缺少坐标约束也是一个缺点)。YOLO的明显缺点,如多尺度问题,密集物体,检测框耦合,直接回归坐标等在yolo 9000中也做了比较好的改进。SSD:Single Shot MultiBox DetectorSSD作为one stage的代表模型之一,省去了判断推荐候选区域的步骤(实际上可以认为one-stage就是以feature map cell来抽象代替ROI Pooling功能) ,虽然SSD和Faster RCNN在Anchor box上一脉相承,但是Faster RCNN却还是有一个推荐候选区域(含有物体的区域)的监督部分(注意后面其实也是整合到了最终Loss中),因此one-stage优势是更快,而含有区域推荐的two-stage目前是更加准确一些。(更看好one-stage,其实区域推荐不太符合视觉系统,但是可以简化目标检测问题),主要贡献:用多尺度feature map来预测,也生成了更多的default box检测框对每一类对象产生分数(低耦合,对比yolo)缺点:底层feature map高级语义不足 (FPN)正负样本影响 (focal loss)feature map抽象分类和回归任务只用了两个卷积核抽象性不足(DSSD)为啥能更好的工作?SSD的出现对多尺度目标检测有了突破性进展,利用卷积层的天然金字塔形状,设定roi scale让底层学习小物体识别,顶层学习大物体识别FPN:feature pyramid networksSSD网络引入了多尺度feature map,效果显著。那Faster RCNN自然也不能落后,如何在Faster RCNN中引入多尺度呢?自然有FPN结构同时FPN也指出了SSD因为底层语义不足导致无法作为目标检测的feature map注意原图的候选框在Faster RCNN中只固定映射到同一个ROI Pooling中,而现在如果某个anchor和一个给定的ground truth有最高的IOU或者和任意一个Ground truth的IOU都大于,则是正样本。如果一个anchor和任意一个ground truth的IOU都小于,则为负样本。本文算法在小物体检测上的提升是比较明显的,另外作者强调这些实验并没有采用其他的提升方法(比如增加数据集,迭代回归,hard negative mining),因此能达到这样的结果实属不易。DSSD:Deconvolutional Single Shot Detector一个SSD上移植FPN的典型例子,作者主要有一下改动:将FPN的Upsampling变成deconv复杂了高层表述分支(分类,回归)网络的复杂度R-SSD:Enhancement of SSD by concatenating feature maps for object detection本文着重讨论了不同特征图之间的融合对SSD的影响(水论文三大法宝),这篇论文创新点不是太多,就不说了DSOD: Learning Deeply Supervised Object Detectors from Scratch这篇文章的亮点:提出来了不需要预训练的网络模型DSOD实际上是densenet思想+SSD,只不过并不是在base model中采用densenet,而是密集连接提取default dox的层,这样有一个好处:通过更少的连接路径,loss能够更直接的监督前面基础层的优化,这实际上是DSOD能够直接训练也能取得很好效果的最主要原因,另外,SSD和Faster RCNN直接训练无法取得很好的效果果然还是因为网络太深(Loss监督不到)或者网络太复杂。Dense Prediction Structure 也是参考的densenetstem能保留更多的信息,好吧,这也行,但是对效果还是有提升的。YOLO 9000:Better, Faster, Stronger很喜欢这个作者的论文风格,要是大家都这么写也会少一点套路,多一点真诚。。。。文章针对yolo做了较多的实验和改进,简单粗暴的列出每项改进提升的map。这个建议详细的看论文。下面列举几个亮点:如何用结合分类的数据集训练检测的网络来获得更好的鲁棒性将全连接层改为卷积层并结合了细粒度信息(passthrough layer)Multi-Scale TraningDimension Clustersdarknet-19更少的参数Direct locaion prediction对offset进行约束R-FCN:Object Detection via Region-based Fully Convolutional Networks本文提出了一个问题,base CNN网络是为分类而设计的(pooling 实际上是反应了位置的不变性,我一张人脸图片只要存在鼻子,两只眼睛,分类网络就认为它是人脸,这也就是Geoffrey Hinton 在Capsule中吐槽卷积的缺陷),而目标检测则要求对目标的平移做出准确响应。Faster RCNN是通过ROI pooling让其网络学习位置可变得能力的,再次之前的base CNN还是分类的结构,之前讲过R-FCN将Faster RCNN ROI提取出来的部分的卷积计算共享了,那共享的分类和回归功能的卷积一定在划分ROI之前,那么问题来了,如何设计让卷积对位置敏感?主要贡献:将用来回归位置和类别的卷积前置共享计算,提高了速度。巧妙设计score map(feature map)的意义(感觉设计思想和yolo v1最后的全连接层一样),让其何以获得位置信息,之后在经过ROI pooling和vote得到结果为啥能work?实际上rfcn的feature map设计表达目标检测问题的方式更加抽象(ROI pool前的feature map中每一个cell的channel代表定义都很明确),loss在监督该层时更能通过论文中关于ROI pool和vote设计,在不同的channel上获得高的响应,这种设计方式可能更好优化(这个是需要大量的实验得出的结论),至于前面的resnet-base 自然是抽象监督,我们本身是无法理解的,只是作为fintuning。实际上fpn的loss监督也是非常浅和明确的,感觉这种可以理解的优化模块设计比较能work。Focal Loss: Focal Loss for Dense Object Detection这篇文章实际上提供了另外一个角度,之前一直认为Single stage detector结果不够好的原因是使用的feature不够准确(使用一个位置上的feature),所以需要Roi Pooling这样的feature aggregation办法得到更准确的表示。但是这篇文章基本否认了这个观点,提出Single stage detector不好的原因完全在于:极度不平衡的正负样本比例: anchor近似于sliding window的方式会使正负样本接近1000:1,而且绝大部分负样本都是easy example,这就导致下面一个问题:gradient被easy example dominant的问题:往往这些easy example虽然loss很低,但由于数 量众多,对于loss依旧有很大贡献,从而导致收敛到不够好的一个结果。所以作者的解决方案也很直接:直接按照loss decay掉那些easy example的权重,这样使训练更加bias到更有意义的样本中去。很直接地,如下图所示:实验中作者比较了已有的各种样本选择方式:按照class比例加权重:最常用处理类别不平衡问题的方式OHEM:只保留loss最高的那些样本,完全忽略掉简单样本OHEM+按class比例sample:在前者基础上,再保证正负样本的比例(1:3)Focal loss各种吊打这三种方式,coco上AP的提升都在3个点左右,非常显著。值得注意的是,3的结果比2要更差,其实这也表明,其实正负样本不平衡不是最核心的因素,而是由这个因素导出的easy example dominant的问题。RetinaNet 结构如下实际上就是SSD+FPN的改进版
论文里的目标值就是你要围绕什么目标写论文啊,要达到什么水平
关于期刊论文表格标准格式
现如今,大家都跟论文打过交道吧,论文是讨论某种问题或研究某种问题的文章。你所见过的'论文是什么样的呢?以下是我整理的关于期刊论文表格标准格式,供大家参考借鉴,希望可以帮助到有需要的朋友。
一、标题(不超过20个字):三号黑体居中,可以分成1或2行;段后空一行
二、作者姓名(两人以上,以逗号分隔):4号仿宋体居中,段后空行
三、作者单位、邮编:小4号宋体居中,段后空一行
四、摘要、关键词:“摘要”二字(小四号黑体),摘要内容要小四号宋体,段后空一行;“关键词”三字(小四号黑体),摘要内容要小四号宋体,段后空一行,关键词数量为3~5个,每一关键词之间用分号分开,最后一个关键词后不打标点符号。
五、中图分类号、文献标志码、文章编号(小四号黑体)
六、正文(小四号宋体。行距20磅,字符间距为标准)
1(顶格)一级标题,4号黑体,段前段后1行
(顶格)二级标题,5号黑体,段前段后行
(顶格)三级标题,5号楷体,段前段后行
七、图(图题配英文翻译,距正文段后行)(图题位于图下方;中文用6号宋体,加粗,英文用6号Times New Roman,加粗;英文采用段后行)
九、表(表题配英文翻译,距正文段前行。表中量与单位之间用“/”分隔)(三线表)(表题位于表上方;中文用6号宋体,加粗,英文用6号Times New Roman,加粗;中文采用段前行)
十、参考文献(配英文翻译)(标题:小5号黑体,内容:6号宋体)
参考文献格式:
l专著:
[序号]主要责任者.文献题名[M].出版地:出版者,出版年:起止页码.
l学位论文:
[序号]主要责任者.文献题名[D].出版地:出版者,出版年:起止页码.
l研究报告:
[序号]主要责任者.文献题名[R].出版地:出版者,出版年:起止页码.
l期刊文章:
[序号]主要责任者.文献题名[J].刊名,年,卷(期):起止页码.
l论文集:
[序号]主要责任者.论文集题名[C]. 出版地:出版者,出版年:起止页码.
l论文集中的析出文献:
[序号]析出文献主要责任者.析出文献题名[C]//论文集主要责任者.论文集题名.出版地:出版者,出版年:析出文献起止页码.
l报纸文章:
[序号]主要责任者.文献题名[N].报纸名,出版日期(版次).
l国际、国家标准:
[序号]标准编号标准名称[S].出版地:出版者,出版年.
l专利:
[序号]专利申请者或所有者.专利题名:专利国别:专利号[P].公告日期或公开日期[引用日期].获取和访问路径.
l电子文献:
[序号]主要责任者.电子文献题名[电子文献类型标志/电子文献载体标志].
电子文献出版地:出版者,出版年(更新或修改日期)[引用日期].获取和访问路径.
l各种未定义类型的文献:
[序号]主要责任者.文献题名[Z].出版地:出版者,出版年.
论文格式与论文参考文献格式科学技术报告、学位论文、学术论文以及其它类似文件是主要的科技信息源,是记录科学技术进步的历史性文件.为了统一这些文件的撰写、编辑、印刷、出版、发行,便于处理、储存、检索、利用、交流、传播.现将中华人民共和国国家标准GB 7713-87中有关论文格式、参考文献著录格式摘录如下:论文格式1.论文格式——题目:题目应当简明、具体、确切地反映出本文的特定内容,一般不宜超过20字,如果题目语意未尽,用副题补充说明。2.论文格式——作者:署名的作者只限于那些选定研究课题和制订研究方案、直接参加全部或主要研究工作、做出主要贡献,并了解论文报告的全部内容,能对全部内容负责解答的人。其他参加工作的人员,可列入附注或致谢部分。3.论文格式——摘要:摘要应具有独立性和自含性,有数据结论,是一篇完整的短文。摘要一般200-300字.摘要中不用图、表、化学结构式、非公知公用的符号和术语。4.论文格式——正文:论文中的图、表、附注、参考文献、公式等一律采用阿拉伯数字编码,其标注形式应便于互相区别,如图1,图2-1;表2,表3-2;附注:1);文献[4];式(5),式(3-5)等.具体要求如下;论文格式——图:曲线图的纵.横坐标必须标注量、标准规定符号、单位(无量纲可以省略),坐标上采用的缩略词或符号必须与正文中一致。论文格式——表:表应有表题,表内附注序号标注于右上角,如“XXX1)”(读者注意:前面“”引号中的实际排版表示方式应该是“1)”在“XXX”的右上角),不用“*”号作附注序码,表内数据,空白代表未测,“一”代表无此项或未发现,"0"代表实测结果确为零。
具体的范文模板链接:
在学习和工作中,大家都经常看到论文的身影吧,论文是对某些学术问题进行研究的手段。一篇什么样的论文才能称为优秀论文呢?下面是我收集整理的论文中图表标题的格式要求及字体大小,希望能够帮助到大家。
中文题名
(二号宋体)
(中文题名一般不超过20个汉字;题名不得使用非公知公用、同行不熟悉的外来语、缩写词、符号、代号和商品名称。为便于数据库收录,尽可能不出现数学式和化学式。)
作者姓名
(小四号仿宋体)
作者单位 (包括英文摘要中)
(小五号宋体)
(如果作者为两位以上,之间用","隔开;如果多个作者为不同单位时,应在作者姓名上打上角标以区别,作者通讯地址应为详细的工作单位、所在城市及邮编和e—mail地址,必须用全称标注,不得简称。
在英文摘要中的作者姓名用汉语拼音,姓前名后,姓全大写,名首字母大写;作者单位,城市,邮政编码。如作者为两位以上,应指定联系人。)
中图分类号
(图书分类法是按照一定的思想观点,以科学分类为基础,结合图书资料的内容和特点,分门别类组成的分类表。采用《中国图书馆分类法》对论文进行中图分类的。)
中、英文摘要
(五号楷体)
(摘要的目的是向读者介绍论文的主要内容,传达重要的可检索信息,其主要内容包括被报导的研究项目的目的,研究方法、结果和结论。篇幅以300字左右为宜。英文摘要要用英语清楚、简明地写作,内容限制在150~180个英文单词以内。)
关键词 (5号楷体)
(关键词是便于读者从浩如烟海的书刊、论文中寻找文献,特别适应计算机自动检索的需要。论文应提供关键词3~8个,关键词之间用分号隔开。在审读文献题名、前言、结论、图表,特别是在审读文摘的基础上,选定能反映文献特征内容,通用性比较强的关键词。
首先要选项取列入《汉语主题词表》、《MeSH》等词表中的规范性词(称叙词或主题词)。对于那些反映新技术、新学科而尚未被主题词表录入的新名词术语,可用非规范的自由词标出,但不能把关键词写成是一句内容"全面"的短语。)
正文 (5号宋体)
文稿正文(含图、表)中的物理量和计量单位应符合国家标准或国际标准(GB3100—3102)。对外文字母、单位、符号的大小写、正斜体、上下角标及易混淆的字母应书写清楚。
文稿章节编号采用三级标题。一级标题(小4号黑体)形如1,2,3……;二级标题(5号黑体)形如:1,,……;,,,……;三级标题(5号宋体)形如:,,,……,,,……引言或前言不排序。若论文为基金项目,请在文章首页下角注明基金项目名称和编号。
图表要求
文中的图题、表题应有中英文对照(小5号黑体),并随文出现,图要精选,一般不超过6幅,请看具体要求。若图中有坐标,要求用符号注明坐标所表示的量(斜体),单位(正体)。若有图注,靠近放在图下部。照片应选用反差较大、层次分明、无折痕、无污迹的黑白照片,或提供*。tif格式的电子文档(分辨率不低于600线)。作者应自留底图。
文中表格一律使用三线表(祥见示例)(不划竖线)。表中参数应标明量和单位(用符号),若单位相同可统一写在表头或表顶线上右侧。若有表注,写在表底线下左侧。表中重复出现的文字,不可用"同前"、"同左"等表示,必须全部重复写出。
参考文献 (小5号宋体)
为了反映文稿的科学依据,尊重他人研究成果以及向读者提供有关信息的出处,正文之后一般应列出参考文献。列出的应确实是作者阅读过的、最主要的且发表在正式出版物上的文献;未公开发表的资料或协作成果,应征得有关方面同意,以脚注方式顺序表明。参考文献选用顺序编码制,按在文章中出现的先后顺序编号。
每条文献著录项目应齐全。文献的作者、编者、译者不超过3人时全部写出,超过者只写前3人,后加“等”或“etal”,作者之间用“,”隔开。外文作者或编者书写时,一律姓前名后,名用缩写,且省略“。”。由于Ei信息部进行收录论文中的参考文献(仅指英文)的录入工作,所以在稿件中参考文献中文期刊论文按中、英两种文字给出(英文参考文献不必给出中文)。
稿件处理
1、文稿要求打印作者也可提供Word文档,用A4幅面纸打印。稿件在书写格式上必须按照前述各项要求定稿,才可刊用。
2、审稿:来稿要经过有关专家2~3人(初、终)审定后才能录用。
3、版面费:对拟刊用的稿件将收取版面费。
4、录用通知:超过90天还未接到编辑部对稿件的处理通知,作者可以改投他刊。
5、稿酬:来稿一经发表,将支付作者稿酬,并赠送期刊2本。
6、版权:作者向学报投稿,编辑部视为得到了作者对该论文印刷版和电子版(包括网络、光盘)专有出版权的授权。对此有异议者,请投稿时向编辑部书面说明。
写论文,格式与样式可能用的不精到,但我想大部分人都是会用的。所以对于大多数人而言,写论文过程中,最痛苦的事情就是图表标题、公式以及参考文献的自动编号。
现在我的论文虽然还没写完,但今天上午也没什么事情,自己总结总结,都是菜鸟知识,精英人士就不用看了。
先说第一个,图表标题的自动编号。
1)插入图片之后,选中该图片,插入——引用——题注,蹦出对话框“题注”。
2)在“题注”对话框,从“标签”下拉菜单中选择合适的标签。写论文的时候,可能会用到诸如“图3—X”这样的情况,在标签下拉菜单中是没有的,那么就新建一个标签。
3)选择“新建标签”,在弹出的对话框中,写“图3—”,就完成了。这样,就可以回到第2步选择标签了。
4)选择完毕标签,要注意一下“标签位置”,图的话一般会在“所选项目下方”,表的话则会在“所选项目上方”,注意一下就OK。
5)单击确定。那么在插入图片的下方就会出现“图3—X”,在其后写入图名就行了。
6)那引用该图咋整呢?选中“图3—X”,插入—书签,在“书签名”中填写图的标题,单击“添加”。
7)需要引用的时候,插入—引用—交叉引用,“引用类型”为“书签”,“引用内容”为“书签文字”,单击“插入”,就可以在引用图表的位置见到诸如“图3—X”的文字了。
8)这就Over了!如果是插入的图片,右键就可以选择“题注”,如果在word中间自己绘制的',就只能选择插入—引用—题注了!
再说第二个,公式的自动编号
1)装一个一个大家都在用的软件“MathType”!先装上它!
2)装上之后,不仅在标题栏多了“MathType”,在工具栏里面,也多了一行工具,把鼠标放在那里,会有“Insert Inline Equation”"Insert Dispaly Equation", "Insert Dispaly Equation,Number on Right"," Inser Equation Reference","Insert Chapter/section Break",最常用的就是这几个了!
3)开始用。设置公式编号的格式。Mathtype—Formate Equation Numbers,到底是“章—节—序号”的格式还是“章—序号”的格式,看您自己了!因为默认的是“3。1。2”的格式,我们常用的是“3—1—2”,在Separator中将“。”修改为“—”,需要章序号呢,就选中“Chapter Number”,不需要呢就不选!设置完毕,OK!
4)插入公式,一般涉及编号的都是,公式居中,编号右对齐,那就在工具栏选择“Insert Display Equation, Number on right”的小图标(是一个连加的符号,上下有横线,右边有个“1”),写公式就可以了!
5)咋引用呢?在引用位置选择“Insert Equation Reference”小图标(一个带小括号的1,左下角有个小箭头)。引用位置会出现“Equation Reference goes Here”,然后选择要引用的公式编号,双击,搞定!
6)要在新的一章或一节写公式,就是要将“3—1—X”变成“3—2—X”或者“4—1—X”的形式,先“Insert Chaper/Secton Break”(它的小图标上边一个,下边一个,中间有个红线),接下来就一样了!
再说第三个问题,参考文献的自动编号
1)要是装了Endnote或者Noteexpress,而且会用,就不用看下面的东西了!
2)要是不会用,那就在引用文献的位置,插入—引用—脚注和尾注,选择“尾注”,选择“文档结尾”(如果一章一参考,那就改为“节的结尾”)。
编号格式改为“1,2,3”的形式,将更改应用于“整篇文档”,单击“插入”,就行了,接下来的工作,写参考文献,就不说了!格式先别管,人家咋样就先咋样!
3)遇到第2次引用该文献,咋整呢!第1遍引用,按照第2步来。第2次引用,插入—引用—交叉引用,引用类型“尾注”,引用内容“尾注编号”。
其缺点在于,一篇文献引用两次,第一次是尾注,第二次是交叉引用,要是把第一次引用文献的那段文字删除了,文献就没了,第二次引用就作废了。所以删除文字之前,要看清楚!我写大论文的原则是,文字可以删除,参考文献绝对不动,移到别处!haha!
4)改格式了!咱们通常用的以用都是[1],[2],怎么加这个中括号呢!查找—替换啊!查找和替换对话框,点开“高级”,查找内容:面板下面“特殊字符”,选择“尾注标记(E)”,在查找内容框中会出现“^e”。
替换为:面板下面“特殊字符”,选择“查找内容(F)”,框内会出现“^&”,在“^&”加个中括号,就成了“[^&]”。欧了,替换!交叉引用的,自己加个中括号!别太懒了!
5)继续修改格式!加了中括号,正文中是上标,这符合要求,尾注中可不行,咋办呢?选中,格式—字体,将“上标”勾掉,齐了!要是文献其他地方没有上标文字,全选尾注进行操作就OK,要是其他地方有,记着点,再改过来!文献中出现上下标的情况应该不多见!
6)还要修改格式。要是一处文字引用好几篇文献,就出现了“[1][2][3][4][5][6][7]”的情况,我们可是需要写成“[1—7]”的啊!咋整?将光标放在"[1"右边,按住shift,移动“—>”,就是将不希望看到的文字选中,格式—字体—隐藏文字!再加个“—”,妥了!
7)煞尾工作!文章写完了,不希望参考文献老在文档结尾呆着,咋整呢?复制到写字板,再复制到word中需要的位置,注意在此过程中调整一下空格啊之类的,把中括号也用替换的方法删除!自动编号,调整好格式!把尾注选中,隐藏掉!如果打算做这一步工作,第5步就可以省略了!
最后一个问题
不管咋修改,别忘了最后“更新域”!标题是中英文对照的,把英文标题记得修改好!
一、封面
题目:小二号黑体加粗居中。
各项内容:四号宋体居中。
二、目录
目录:二号黑体加粗居中。
章节条目:五号宋体。
行距:单倍行距。
三、论文题目:
小一号黑体加粗居中。
四、中文摘要
1、摘要:小二号黑体加粗居中。
2、摘要内容字体:小四号宋体。
3、字数:300字左右。
4、行距:20磅
5、关键词:四号宋体,加粗。词3—5个,每个词间空一格。
五、英文摘要
1、ABSTRACT:小二号 Times New Roman。
2、内容字体:小四号 Times New Roman。
3、单倍行距。
4、Keywords:四号加粗。词3—5个,小四号Times New Roman。词间空一格。
六、绪论
小二号黑体加粗居中。内容500字左右,小四号宋体,行距:20磅
七、正文
(一)正文用小四号宋体
(二)安保、管理类毕业论文各章节按照一、二、三、四、五级标题序号字体格式
章:标题小二号黑体,加粗,居中。
节:标题小三号黑体,加粗,居中。
一级标题序号如:一、二、三、标题四号黑体,加粗,顶格。
二级标题序号如:(一)(二)(三)标题小四号宋体,不加粗,顶格。
三级标题序号如:.标题小四号宋体,不加粗,缩进二个字。
四级标题序号如:(1)(2)(3)标题小四号宋体,不加粗,缩进二个字。
五级标题序号如:①②③标题小四号宋体,不加粗,缩进二个字。
医学、体育类毕业论文各章序号用阿拉伯数字编码,层次格式为:1×××(小2号黑体,居中)×××(内容用4号宋体)。×××(3号黑体,居左)×××(内容用4号宋体)。×××(小3号黑体,居左)×××(内容用4号宋体)。①×××(用与内容同样大小的宋体)a.×××(用与内容同样大小的宋体)
(三)表格
每个表格应有自己的表序和表题,表序和表题应写在表格上方正中。表序后空一格书写表题。表格允许下页接续写,表题可省略,表头应重复写,并在右上方写“续表××”。
(四)插图
每幅图应有图序和图题,图序和图题应放在图位下方居中处。图应在描图纸或在洁白纸上用墨线绘成,也可以用计算机绘图。
(五)论文中的图、表、公式、算式等,一律用阿拉伯数字分别依序连编编排序号。序号分章依序编码,其标注形式应便于互相区别,可分别为:图、表、公式等。
文中的阿拉伯数字一律用半角标示。
八、结束语
小二号黑体加粗居中。内容300字左右,小四号宋体,行距:20磅。
九、致谢
小二号黑体加粗居中。内容小四号宋体,行距:20磅
十、参考文献
(一)小二号黑体加粗居中。内容8—10篇,五号宋体,行距:20磅。参考文献以文献在整个论文中出现的次序用[1]、[2]、[3]……形式统一排序、依次列出。
(二)参考文献的格式:
著作:[序号]作者.译者.书名.版本.出版地.出版社.出版时间.引用部分起止页
期刊:[序号]作者.译者.文章题目.期刊名.年份.卷号(期数).引用部分起止页
会议论文集:[序号]作者.译者.文章名.文集名.会址.开会年.出版地.出版者.出版时间.引用部分起止页
十一、附录(可略去)
小二号黑体加粗居中 英文内容小四号Times New Roman。单倍行距。翻译成中文字数不少于500字,内容五号宋体,行距:20磅。
十二、提示
论文用A4纸纵向单面打印。页边距设置:上,下,左,右。
论文格式由学术堂整理提供一.封面题目:小二号黑体加粗居中.各项内容:四号宋体居中.二.目录目录:二号黑体加粗居中.章节条目:五号宋体.行距:单倍行距.三.论文题目小一号黑体加粗居中.四.中文摘要1、摘要:小二号黑体加粗居中.2、摘要内容字体:小四号宋体.3、字数:300字左右.4、行距:20磅5、关键词:四号宋体,加粗.词3-5个,每个词间空一格.五.英文摘要1、ABSTRACT:小二号、内容字体:小四号、单倍行距.4、Keywords:四号加粗.词3-5个,小四号TimesNewRoman.词间空一格.六.绪论小二号黑体加粗居中.内容500字左右,小四号宋体,行距:20磅七.正文(一)正文用小四号宋体(二)安保、管理类毕业论文各章节按照一、二、三、四、五级标题序号字体格式章:标题小二号黑体,加粗,居中.节:标题小三号黑体,加粗,居中.一级标题序号如:一、二、三、标题四号黑体,加粗,顶格.二级标题序号如:(一)(二)(三)标题小四号宋体,不加粗,顶格.三级标题序号如:.标题小四号宋体,不加粗,缩进二个字.四级标题序号如:(1)(2)(3)标题小四号宋体,不加粗,缩进二个字.五级标题序号如:①②③标题小四号宋体,不加粗,缩进二个字.医学、体育类毕业论文各章序号用阿拉伯数字编码,层次格式为:1××××(小2号黑体,居中)××××××××××××××(内容用4号宋体).××××(3号黑体,居左)×××××××××××××(内容用4号宋体).××××(小3号黑体,居左)××××××××××××××××××××(内容用4号宋体).①××××(用与内容同样大小的宋体)a.××××(用与内容同样大小的宋体)(三)表格每个表格应有自己的表序和表题,表序和表题应写在表格上方正中.表序后空一格书写表题.表格允许下页接续写,表题可省略,表头应重复写,并在右上方写"续表××".(四)插图每幅图应有图序和图题,图序和图题应放在图位下方居中处.图应在描图纸或在洁白纸上用墨线绘成,也可以用计算机绘图.(五)论文中的图、表、公式、算式等,一律用阿拉伯数字分别依序连编编排序号.序号分章依序编码,其标注形式应便于互相区别,可分别为:图、表、公式()等.文中的阿拉伯数字一律用半角标示.八.结束语小二号黑体加粗居中.内容300字左右,小四号宋体,行距:20磅.九.致谢小二号黑体加粗居中.内容小四号宋体,行距:20磅十.参考文献(一)小二号黑体加粗居中.内容8-10篇,五号宋体,行距:20磅.参考文献以文献在整个论文中出现的次序用[1]、[2]、[3]……形式统一排序、依次列出.(二)参考文献的格式:着作:[序号]作者.译者.书名.版本.出版地.出版社.出版时间.引用部分起止页期刊:[序号]作者.译者.文章题目.期刊名.年份.卷号(期数).引用部分起止页会议论文集:[序号]作者.译者.文章名.文集名.会址.开会年.出版地.出版者.出版时间.引用部分起止页十一.附录(可略去)小二号黑体加粗居中.英文内容小四号TimesNewRoman.单倍行距.翻译成中文字数不少于500字内容五号宋体,行距:20磅.
有需药请=联洗俺吧
可以一、复制文字格式 1.选中要引用格式的文本。 2.单击“格式”工具栏上的“格式刷”按钮,此时鼠标指针显示为“I”形旁一个刷子图案。 3.按住左键刷(即拖选)要应用新格式的文字。 二、复制段落格式 1.选中要引用格式的整个段落(可以不包括最后的段落标记),或将插入点定位到此段落内,也可以仅选中此段落末尾的段落标记。 2.单击“格式”工具栏上的“格式刷”按钮。 3.在应用该段落格式的段落中单击,如果同时要复制段落格式和文本格式,则需拖选整个段落(可以不包括最后的段落标记)。
因为刷的格式不对。论文中突然出现一大段空格的原因有两种,一种原因是你的论文格式设置错误,导致中间出现了很多换行符或者分页符,从而出现了一大段空格。格式刷是快速复制单元格格式的工具,相当于复制,选择性粘贴,格式功能,用格式刷复制,只改变单元格格式,不会改变单元格的数值和公式。
毕业论文格式修改技巧指导
说到毕业论文格式的修改,经历过的亲们一定深有感触!确实,毕业论文格式的修改困恼过很多人,而且对电脑办公软件软件的操作要求很高,尤其还有目录、页码等的设置。其实,我们在修改毕业论文格式的时候还是有技巧的,掌握了这些技巧可以为我们节省不少时间!下面是我整理的毕业论文格式修改技巧指导,欢迎大家阅览。
技巧一
一般来说,在毕业论文指导老师宣布毕业论文的相关格式的时候,最终会将毕业论文格式改好的模板放在群共享文件里面。这时,我们可不要傻傻的对照范文一个一个来修改,有一个最简单的办法就是把模板下载在自己的电脑中 ,然后将模板另存一份为自己的!这时,只要在把自己的内容直接复制过去即可,像一些公用的'内容就可以不用管!
当然不是所有的都得复制,要知道Word复制的不仅是内容,还有内容的格式
技巧二
此外,还可以利用我们Word的格式刷来处理。
我们可以先用格式刷把模板的格式复制下来!
技巧三
除了以上两种方法,还可以用查找,替换功能来处理。尤其是需要修改大量的格式,包括标点符号,空格问题都可以,这样可以免去我们一个一个查找的困恼!
技巧四
还得注意的就是,在修改论文格式的时候一定得小心,仔细,因为一点小问题没有注意到最终还是得返工的!
论文标准格式
在各领域中,大家最不陌生的就是论文了吧,论文可以推广经验,交流认识。你所见过的论文是什么样的呢?以下是我收集整理的论文标准格式,仅供参考,欢迎大家阅读。
论文标准格式
一、总论
1、题目。应能概括整个论文最重要的内容,言简意赅,引人注目,一般不宜超过20个字。
论文摘要和关键词。
2、论文摘要应阐述学位论文的主要观点。说明本论文的目的、研究方法、成果和结论。尽可能保留原论文的基本信息,突出论文的创造性成果和新见解。而不应是各章节标题的简单罗列。摘要以500字左右为宜。
关键词是能反映论文主旨最关键的词句,一般3-5个。
3、目录。既是论文的提纲,也是论文组成部分的小标题,应标注相应页码。
4、引言(或序言)。内容应包括本研究领域的国内外现状,本论文所要解决的问题及这项研究工作在经济建设、科技进步和社会发展等方面的理论意义与实用价值。
5、正文。是毕业论文的主体。
6、结论。论文结论要求明确、精炼、完整,应阐明自己的创造性成果或新见解,以及在本领域的意义。
7、参考文献和注释。按论文中所引用文献或注释编号的.顺序列在论文正文之后,参考文献之前。图表或数据必须注明来源和出处。
(参考文献是期刊时,书写格式为:
[编号]、作者、文章题目、期刊名(外文可缩写)、年份、卷号、期数、页码。
参考文献是图书时,书写格式为:
[编号]、作者、书名、出版单位、年份、版次、页码。)
8、附录。包括放在正文内过份冗长的公式推导,以备他人阅读方便所需的辅助性数学工具、重复性数据图表、论文使用的符号意义、单位缩写、程序全文及有关说明等。
二、详述
1、装订顺序:目录--内容提要--正文--参考文献--写作过程情况表--指导教师评议表
参考文献应另起一页。
纸张型号:A4纸。A4 210×297毫米
论文份数:一式三份。
其他(调查报告、学习心得):一律要求打印。
2、论文的封面由学校统一提供。(或听老师的安排)
3、论文格式的字体:各类标题(包括“参考文献”标题)用粗宋体;作者姓名、指导教师姓名、摘要、关键词、图表名、参考文献内容用楷体;正文、图表、页眉、页脚中的文字用宋体;英文用Times New Roman字体。
4、字体要求:
(1)论文标题2号黑体加粗、居中。
(2)论文副标题小2号字,紧挨正标题下居中,文字前加破折号。
(3)填写姓名、专业、学号等项目时用3号楷体。
(4)内容提要3号黑体,居中上下各空一行,内容为小4号楷体。
(5)关键词4号黑体,内容为小4号黑体。
(6)目录另起页,3号黑体,内容为小4号仿宋,并列出页码。
(7)正文文字另起页,论文标题用3号黑体,正文文字一般用小4 号宋体,每段首起空两个格,单倍行距。
(8)正文文中标题
一级标题:标题序号为“一、”, 4号黑体,独占行,末尾不加标点符号。
二级标题:标题序号为“(一)”与正文字号相同,独占行,末尾不加标点符号。
三级标题:标题序号为“ 1. ”与正文字号、字体相同。
四级标题:标题序号为“(1)”与正文字号、字体相同。
五级标题:标题序号为“ ① ”与正文字号、字体相同。
(9)注释:4号黑体,内容为5号宋体。
(10)附录: 4号黑体,内容为5号宋体。
(11)参考文献:另起页,4号黑体,内容为5号宋体。
(12)页眉用小五号字体打印“上海复旦大学XX学院2007级XX专业学年论文”字样,并左对齐。
5、 纸型及页边距:A4纸(297mm×210mm)。
6、页边距:天头(上)20mm,地角(下)15mm,订口(左)25mm,翻口(右)20mm。
7、装订要求:先将目录、内容摘要、正文、参考文献、写作过程情况表、指导教师评议表等装订好,然后套装在学校统一印制的论文封面之内(用胶水粘贴,订书钉不能露在封面外)。
1.纸张与页面设置
(1)A4,纵向;
(2)页边距:上,下2cm,左侧,右侧2cm
2.页眉
(1)设置:
(2)字体:统一使用汉语:小五号宋体。
(3)分割线:3磅双线;
(4)内容:××学院本科期末论文,居中。
3.页脚
内容:页码,居中。
4.论文基本内容与要求
(1)论文题目:单独成行,居中,日语:小2号黑体;英语:Times New Roman 18号;
(2)作者姓名:另起一行,居中,日语:小4号宋体;英语:Times New Roman 12号;
(3)内容提要:另起一行,日语:4号黑体,内容为小4号黑体,长度要求150字以上;英语:Times New Roman 12号,长度要求在100字左右;
(4)关键词:另起一行,日语:4号黑体,3-5个关键词,每个关键词之间用“;”分割,内容为小4号黑体;英语Times New Roman 12号;
(5)正文
正文部分的要求如下:①正文部分与“关键词”行间空两行;②日语正文文字采用小四号宋体;英语正文文字采用Times New Roman 12号,标题日语采用四号黑体,英语采用Times New Roman 14号,每段首起空两格,倍行距;③段落间层次要分明,题号使用要规范。理工类专业毕业设计,可以结合实际情况确定具体的序号与层次要求;④文字要求:文字通顺,语言流畅,无错别字,无违反政治上的原则问题与言论,要采用计算机打印文稿;⑤图表要求:所有图表、线路图、流程图、程序框图、示意图等不准用徒手图,必须按国家规定的工作要求采用计算机或手工绘图,图表中的文字日语用小五号宋体;英语采用Times New Roman 号;图表编号要连续,如图1、图2等,表1、表2等;图的编号放在图的下方,表的编号放在表的上方,表的左右两边不能有边;⑥字数要求:一般不少于1500(按老师要求);⑦学年论文引用的观点、数据等要注明出处,一律采用尾注。
论文字体格式要求
在平平淡淡的日常中,大家都有写论文的经历,对论文很是熟悉吧,论文是进行各个学术领域研究和描述学术研究成果的一种说理文章。你知道论文怎样写才规范吗?以下是我帮大家整理的论文字体格式要求,仅供参考,欢迎大家阅读。
一、封面
题目:小二号黑体加粗居中。
各项内容:四号宋体居中。
二、目录
目录:二号黑体加粗居中。
章节条目:五号宋体。
行距:单倍行距。
三、论文题目: 小一号黑体加粗居中。
四、中文摘要
1、摘要:小二号黑体加粗居中。
2、摘要内容字体:小四号宋体。
3、字数:300字左右。
4、行距:20磅
5、关键词: 四号宋体,加粗。 词3-5个,每个词间空一格。
五、英文摘要
1、ABSTRACT:小二号 Times New Roman.
2、内容字体:小四号 Times New Roman.
3、单倍行距。
4、Keywords: 四号 加粗。 词3-5个,小四号 Times New Roman. 词间空一格。
六、绪论 小二号黑体加粗居中。内容500字左右,小四号宋体,行距:20磅
七、正文
(一)正文用小四号宋体
(二)安保、管理类毕业论文各章节按照一、二、三、四、五级标题序号字体格式
章:标题 小二号黑体,加粗,居中。
节:标题 小三号黑体,加粗,居中。
一级标题序号 如:一、二、三、 标题四号黑体,加粗,顶格。
二级标题序号 如:(一)(二)(三) 标题小四号宋体,不加粗,顶格。
三级标题序号 如:. 标题小四号宋体,不加粗,缩进二个字。
四级标题序号 如:(1)(2)(3) 标题小四号宋体,不加粗,缩进二个字。
五级标题序号 如:①②③ 标题小四号宋体,不加粗,缩进二个字。
医学、体育类毕业论文各章序号用阿拉伯数字编码,层次格式为:1××××(小2号黑体,居中)××××××××××××××(内容用4号宋体)。××××(3号黑体,居左)×××××××××××××(内容用4号宋体)。××××(小3号黑体,居左)××××××××××××××××××××(内容用4号宋体)。①××××(用与内容同样大小的宋体)a.××××(用与内容同样大小的宋体)
(三)表格
每个表格应有自己的表序和表题,表序和表题应写在表格上方正中。表序后空一格书写表题。表格允许下页接续写,表题可省略,表头应重复写,并在右上方写续表××。
(四)插图
每幅图应有图序和图题,图序和图题应放在图位下方居中处。图应在描图纸或在洁白纸上用墨线绘成,也可以用计算机绘图。
(五)论文中的图、表、公式、算式等,一律用阿拉伯数字分别依序连编编排序号。 序号分章依序编码,其标注形式应便于互相区别,可分别为:图、表、公式()等。
文中的阿拉伯数字一律用半角标示。
八、结束语 小二号黑体加粗居中。内容300字左右,小四号宋体,行距:20磅。
九、致谢 小二号黑体加粗居中。内容小四号宋体,行距:20磅
十、参考文献
(一)小二号黑体加粗居中。内容810篇, 五号宋体, 行距:20磅。参考文献以文献在整个论文中出现的次序用[1]、[2]、[3]……形式统一排序、依次列出。
(二)参考文献的格式:
著作:[序号]作者.译者.书名.版本.出版地.出版社.出版时间.引用部分起止页
期刊:[序号]作者.译者.文章题目.期刊名.年份.卷号(期数). 引用部分起止页
会议论文集:[序号]作者.译者.文章名.文集名 .会址.开会年.出版地.出版者.出版时间.引用部分起止页
十一、附录(可略去)
小二号黑体加粗居中。 英文内容小四号 Times New Roman. 单倍行距。翻译成中文字数不少于500字 内容五号宋体,行距:20磅。
十二、提示
论文用A4纸纵向单面打印。页边距设置:上,下,左,右。
「就学高端版」APP:随身顾问,立即就学!
期刊投稿----核心期刊编辑帮您了解投稿、审稿规则,提高投稿命中率!
考研咨询----国内经管名校研究生,为您解答疑惑、分享经验!
高考择校----高校老师为您介绍学校、专业情况,助您成功选择理想大学!
扫描下方二维码下载并注册APP
一、基本格式
论文只能打印在每页纸的一面上,不得打印在正反面上。论文纸的大小尺寸为a4纸打印。侧面装订。
二、题名页
论文题名页上打印格式基本相近,中、英文对照,中文题目页在第一页,英文题目页在第二页。一般由顶部往下三分之一页处打印论文题目,论文题目都用大写字母,下隔八行打印论文调查者姓名、所属电大,再下隔八行视实际情况打上提交日期xx年xx月xx日以及课程名称:论文项目设计
上述各项内容都应打印在论文题名页的中间部位。
三、摘要及关键词页
摘要及关键词页上打印格式同论文题名页,中、英文对照,中文题目页在上,英文题目页在下。一般根据提要的内容多少安排打印。中文题目摘要采用宋体一号,加粗,摘要正文部分采用宋体,小四号。关键字题目部分采用宋体三号,加粗,关键字短语部分采用宋体,小四号。英文题目摘要采用times new roman字体,字号为一号,加粗,摘要正文部分采用times new roman字体,字号为小四。
四、致谢页
学员可以自选致谢页,一般不要求写中文。英文大标题采用times new roman字体,字号为一号,加粗,正文部分采用times new roman字体,字号为小四。
五、目录页
英文大标题采用times new roman字体,字号为一号,加粗,小标题部分统一采用times new roman字体,字号为三号,加粗。注意在右方注明对应的页号,中间虚线连接。
六、正文页
论文的正文需隔行打印,正文采用times new roman字体,字号为小四。大标题为times new roman字体,字号为三号、加粗字。副标题为times new roman字体,字号为三号、加粗。
七、尾注、参考文献页与附录页
尾注、参考文献页与附录页(大标题采用times new roman字体,字号为一号,加粗)正文部分如尾注、参考文献目录与附录可不必隔行打印,字体为times new roman小四。
一、纸型、页面设置、版式和用字.
毕业论文一律用国际标准A4型纸(297mmX210mm)打印.页面分图文区与白边区两部分,所有的文字、图形、其他符号只能出现在图文区内.白边区的尺寸(页边距)为:天头(上)25mm,地脚(下)20mm,订口(左)25mm,翻口(右)20mm.文字图形一律从左至右横写横排.文字一律通栏编辑.使用规范的简化汉字.除非必要,不使用繁体字.忌用异体字、复合字及其他不规范的汉字.
二、论文封面.
封面由文头、论文标题、作者、学校、年级、学号、指导教师、答辩组成员、答辩日期、申请学位等项目组成.文头:封面顶部居中,占两行.上一行内容为“河南广播电视大学”用小三号宋体;下一行内容为“汉语言文学专业(本科)毕业论文”,3号宋体加粗.文头上下各空一行.论文标题:2号黑体加粗,文头下居中,上下各空两行.论文副题:小2号黑体加粗,紧挨正标题下居中,文字前加破折号.
作者、学校(市级电大)、年级、学号、指导教师、答辩组成员、答辩日期、申请学位等项目名称用3号黑体,内容用3号楷体,在正副标题下适当居中左对齐依次排列.占行格式为:作者:XXX;学校:XXX;年级:XXX;学号:XXX;指导教师:XXX;职称:XXX;XXX(主持人)职称:XXX;XXX职称:XXX;答辩日期:X年X月X日;申请学位:学士(不申请可省略此项).由于论文副题可有可无,学位可申请可不申请,答辩组成员可以是3、5、7人,封面内容占行具有不确定性,为保持封面的整体美观,可对行距做适当调整.
三、论文
论文由论文目录(提纲)和题目、作者姓名、完成日期、摘要、关键词、正文、注释、参考文献、附录等项目组成.需要列目录的论文,目录要独占一页.“目录”二字用3号黑体,顶部居中;以下列出论文正文的一、二级标题及参考文献、附录等项及其对应页码.用小4号宋体.
论文题目用3号黑体,顶部居中排列,上下各空一行;作者姓名:题目下方居中,用四号楷体;完成时间:作者姓名下方居中,字样为“X年X月”,用四号楷体;摘要:作者姓名下空一行,左起顶头,写明“摘要”字样加粗,点冒号,接排摘要内容.一般用五号字,字体用楷体;关键词:摘要下方,左起顶头,写明“关键词”字样加粗,点冒号,接排关键词.词间空一字.字型字体同摘要;正文:关键词下空一行开始.正文文字一般用5号宋体,每段起首空两格,回行顶格,单倍行距;正文文中标题:一级标题.标题序号为“一、”,4号黑体,独占行,末尾不加标点.如果居中,上下各空一行;二级标题,标题序号为“(一)”,与正文字体字号相同,独占行,末尾不加标点;三、四、五级序号分别为“1.”、“(1)”和“①”,与正文字体字号相同,一般不独占行,末尾加句号.如果独占行,则不使用标点.每级标题的下一级标题应各自连续编号.
注释:注释采用脚注形式.加注符号以页为单位排序,标在须加注之处最后一个字的右上角后,用带圈或括弧的阿拉伯数字依次标示.同时在本页留出适当行数,用横线与正文分开,左起空两字后写出相应的注号,再写注文.每个注文各占一段,用小5号宋体.建议使用电脑脚注功能;参考文献:在正文项目后空两行左起顶头用四号黑体写明“参考文献”,另起行空两格用5号宋体编排参考文献内容,每个参考文献都另起行.参考文献的项目见“实施方案”正文;附录:在参考文献后空两行左起顶头用四号黑体写明“附录”字样,另起行编排附录内容,格式参考正文.
知识扩展:毕业论文格式
1、论文题目,有的含副标题.题目之下是作者署名,署名之前或下边一行写作者的校、院、系、年级.
2、“摘要”与“关键词”,或称“内容提要”,一般为300字左右.位于作者署名之后,正文之前.关键词,结合标题和正文内容一般选取3至5个.
3、引论.用“O”标示,常写作“引言”、“引论”、“绪论”,引言较短时可不标出“O.引言”类小标题.引论的内容一般是交代选题背景,主要有:课题来源,本课题在国内外的研究进展状况.已有的研究成果,存在的问题.选题的意义,讨论的问题.本文分几部分,从哪些方面进行讨论,以及指导思想、论证方法等,均可根据内容的需要写在引论中.
4、正论.正论常分几部分写,分别标示“一”“二”“三”“四”等,有的加小标题,或以分论点的形式出现,以凸现论述的观点或主要内容.这部分是对研究过程及分析、归纳、概括的表达,体现出分析方法与思路,充分有力的论证.正论还要体现出明确的'指导思想.
5、结论.一般用“结语”“小结”“余论”等标示.也可不标示“结语”之类的词儿,在正论之后空一行直接写结论或总结.在毕业论文格式中,结论是对整个研究工作的归纳、综合或概括,也可以提出进一步研究的建议.若是在正论之后,对相关联的问题还想简短论述一下,或是对较为重要的问题再说一些想法,可写成“余论”.
6、毕业论文致谢.接上文另起一段.简述自己撰写毕业论文的体会,并对指导老师以及有关人员表示感谢.“毕业论文致谢”并非形式,也不是走过场,是一个大学生修养的表现.
7、注释与参考资料.注释专指“本文注”,即作者对论文有关内容所作的解释,一般用脚注,放在本页末,属毕业论文格式的非必备项.参考文献专指“引文注”,即作者对引用他人作品的有关内容所作的说明,在引文结束处右上角用[1][2]等标示,序号与文末参考文献列表一致.同一著作或文章被多次引用时只著录一次,文后参考文献的著录格式见《参考文献格式》.
8、附录.收录和论文有直接关系的文字材料、图表、数据、试验结果等.中文方面的毕业论文格式中作附录的情况似乎不多见,属毕业论文格式的非必备项.
免责声明:本文仅代表作者个人观点,与本网无关。