2021年了,竟然还有人写关于Faster R-CNN的文章?我的原因主要有两点: 我们先从全局上了解Faster R-CNN-FPN,然后再关注其中涉及的细节。下面是Faster R-CNN-FPN的网络框架图(或称为tensor流动图)。 众所周知,Faster R-CNN-FPN(主要是Faster R-CNN)是个两阶段的对象检测方法,主要由两部分网络组成,RPN和Fast R-CNN。 RPN的作用是以bouding box(后简称为box)的方式预测出图片中对象可能的位置,并过滤掉图片中绝大部分的背景区域,目标是达到尽量召回图像中感兴趣的对象,预测box尽量能够与实际对象的box贴合,并且保证一定的预测精度(Precision)。另外,RPN并不需要指出预测的box中对象具体的类别,RPN预测的box称为RoI(Region of Interest),由于是以box的方式输出,所以后面我们统一将其称为proposal box。 Fast R-CNN则是在FPN预测的proposal box基础上进一步预测box中对象具体的类别,并对proposal box进行微调,使得最终预测的box尽量贴合目标对象。大致的做法是根据RPN预测的proposal box,从原图backbone的feature map上通过RoIPooling或RoIAlign(Faster R-CNN-FPN使用RoIAlign)提取每个proposal box对应区域的feature map,在这些区域feature map上进一步预测box的类别和相对proposal box的偏移量(微调)。另外,RPN和Fast R-CNN共用同一个backbone网络提取图像的feature map,大大减少了推理耗时。 从上面的介绍可以看出,RPN和Fast R-CNN的配合作用其实可以理解为一种注意力机制,先大致确定目标在视野中的位置,然后再锁定目标仔细观察,确定目标的类别和更加精确的位置,简单来说就是look twice,相比单阶段的look once,当然是比较耗时的,但也换来了更好的效果(虽然很多单阶段方法号称已经获得相当或好于两阶段的效果)。 下面以Faster R-CNN-FPN发展顺序的汇总介绍每个改进的核心思想。 在R-CNN中,CNN只被用来作为特征抽取,后接SVM和线性回归模型分别用于分类和box修正回归。在此基础上,Fast R-CNN直接对原输入图进行特征抽取,然后在整张图片的特征图上分别对每个RoI使用RoIPooling提取(后面会介绍RoIPooling的原理)特定长度的特征向量(论文中空降尺寸为7*7),去掉SVM和线性回归模型,在特征向量上直接使用若干FC层进行回归,然后分别使用两个FC分支预测RoI相关的类别和box,从而显著提升速度和预测效果。 整体框架图如下: 在Fast RCNN的基础上进一步优化,用CNN网络代替Fast R-CNN中的region proposal模块(使用传统Selective Search方法),从而实现了全神经网络的检测方法,在召回和速度上都超过了传统的Selective Search。作者将提供proposal region的网络称为RPN(Region Proposal Network),与检测网络Fast RCNN共享同一backbone,大大缩减了推理速度。 RPN在backbone产生的feature map(图中的conv feature map)之上执行 的滑窗操作,每个滑窗范围内的feature map会被映射为多个proposal box(图中的reg layer分支)以及每个box对应是否存在对象的类别信息(图中的cls layer分支)。由于CNN天然就是滑窗操作,所以RPN使用CNN作为窗口内特征的提取器(对应图中的intermediate layer,后面简称为“新增CNN层”),窗口大小 ,将feature map映射为较低维的feature map以节省计算量(论文中为256)。虽然只使用了 的卷积,但是在原图上的有效的感受野还是很大的,感受野大小不等于网络的降采样率,对于VGG网络,降采样率为16,但是感受野为228像素。类似于Fast-RCNN,为了分别得到box和box对应的类别(此处类别只是表示有没有目标,不识别具体类别),CNN操作之后会分为两个子网络,它们的输入都是新增CNN层输出的feature map,一个子网络负责box回归,一个负责类别回归。由于新增CNN层产生的feature map的每个空间位置的特征(包括通道方向,shape为 )都被用来预测映射前窗口对应位置是否存在对象(类别)和对象的box,那么使用 的CNN进行计算正合适(等效于FC层),这便是RPN的做法。综上所述,所有滑窗位置共享一个新增CNN层和后续的分类和box回归分支网络。下图是RPN在一个窗口位置上执行计算的原理示意。 由于滑窗操作是通过正方形的CNN卷积实现的,为了训练网络适应不同长宽比和尺寸的对象,RPN引入了anchor box的概念。每个滑窗位置会预置k个anchor box,每个anchor box的位置便是滑窗的中心点,k个anchor box的长宽比和尺寸不同,作者使用了9种,分别是长宽比为 、 和 ,尺寸为 , 和 的9种不同组合。分类分支和box回归分支会将新增CNN层输出的feature map的每个空间位置的tensor(shape为 )映射为k个box和与之对应的类别,假设每个位置的anchor box数量为k(如前所述, ),则分类分支输出的特征向量为2k(两个类别),box回归分支输出为4k(4为box信息,box中心点x坐标、box中心点y坐标、box宽w和box高h)。box分支预测的位置(x,y,w,h)都是相对anchor box的偏移量。从功能上来看,anchor box的作用有点类似于提供给Fast RCNN的propsal box的作用,也表示目标可能出现的位置box,但是anchor box是均匀采样的,而proposal box是通过特征抽取(或包含训练)回归得到的。由此可以看出,anchor box与预测的box是一一对应的。从后文将会了解到,通过anchor box与gt box的IoU的关系,可以确定每个预测box的正负样本类别。通过监督的方式让特定的box负责特定位置、特定尺寸和特定长宽比的对象,模型就学会了拟合不同尺寸和大小的对象。另外,由于预测的box是相对anchor box的偏移量,而anchor box是均匀分布在feature map上的,只有距离和尺寸与gt box接近(IoU较大)的anchor box对应的预测box才会与gt box计算损失,这大大简化了训练,不然会有大量的预测box与gt box计算损失,尤其是在训练初始阶段,当一切都是瞎猜的时候。 在Faster RCNN基础上,将backbone替换为ResNet50或ResNet101,涉及部分细节的改动,我们放在本文的细节部分进行描述。 在Faster RCNN-ResNet基础上,引入FPN(特征金字塔网络)模块,利用CNN网络天然的特征金字塔特点,模拟图像金字塔功能,使得RPN和Fast RCNN可以在多个尺度级别(scale level)的feature map上分别预测不同尺寸的对象,大大提高了Faster RCNN的检测能力。相比图像金字塔大大节省了推理时间。原理如下图所示: 从上图中可以看出,FPN并不是简单地使用backbone的多个CNN层输出的feature map进行box回归和分类,而是将不同层的feature map进行了top-down和lateral connection形式的融合后使用。这样便将CNN网络前向传播(bottom-up)产生的深层语义低分辨率特征与浅层的浅语义高分辨率的特征进行融合,从而弥补低层特征语义抽象不足的问题,类似增加上下文信息。其中,top-down过程只是简单地使用最近邻插值将低分辨率的feature map上采样到即将与之融合的下层feature map相同的尺寸(尺寸上采样到2倍),lateral connection则是先将低层的feature map使用 的卷积缩放为即将与之融合的上层feature map相同的通道数(减少计算量),然后执行像素级相加。融合后的feature map不仅会用于预测,还会继续沿着top-down方向向下传播用于下层的特征融合,直到最后一层。 mask R-CNN提出的RoI Align缓解了RoIPooling的缺陷,能够显著提升小目标物体的检测能力。网上介绍RoIPooling和RoIAlign的文章很多,此处不再赘述,推荐阅读个人觉得比较好的两篇博客: RoIPooling 和 RoIAlign 。 此处稍微啰嗦下个人对RoIPooling的思考: 为什么RoIPooling不使用自适应的池化操作,即根据输入的feature map的尺寸和希望输出的feature map尺寸,自动调整池化窗口的大小和步长以计算想要尺寸的feature map,类似于自适应池化操作,而不是将输入的feature map划分成均匀的小区域(bins,论文中划分为 个bins),然后每个小区域中分别计算MaxPooling。不管计算上是否高效,至少这种做法在输入的feature map尺寸(比如 )小于期望的输出feature map尺寸(比如 )时会失效,因为在3*3的feature map上如果不使用padding的话是无法得到 的特征的,而使用padding又是很低效的操作,因为要扩展局部feature map的尺寸,而使用划分bins的方法,即使输出的feature map尺寸远小于要输出的feature map尺寸,也仅仅是在同一位置采样多次而已。 本人之前介绍YOLOv3的 文章 也介绍过anchor box的作用,再加上本文节中的介绍应该比较全面了,不再赘述。 此处的绝大部分细节来自论文,论文中未提及的部分,主要参考了mmdetection中的 实现 。 整个模型的网络结构可以划分为四个部分,分别为backbone、FPN、RPN head和Fast RCNN head。 : 原图短边被resize到800像素,这里值得注意的是,如此resize后一个batch内的每张图片的大小很有可能并不一致,所以还无法合并为一个输入矩阵,普遍的做法是将batch内的每张图片的左上角对齐,然后计算resize后batch内所有图片的最大宽和高,最后按照最大宽或高分别对每张图片的宽或高进行0值padding;输出为4个不同尺寸的feature map(C2、C3、C4、C5)。 : ResNet backbone产生的4个不同尺寸的feature map(C2、C3、C4、C5)作为输入,输出5个不同尺寸的feature map(P2、P3、P4、P5、P6),P6是对P5进行2倍降采样得到,每个feature map的通道数为固定的256;使用P6的原因是为了预测更大尺寸的对象。 :输入为FPN产生的feature map(P2、P3、P4、P5、P6);由于RPN是在5个输入feature map上进行独立的预测,则每个feature map都会输出 proposal box,因此不可能将所有的proposal box都提供给Fast R-CNN,这里的做法是对每个feature map上产生的proposal box按类别概率进行排序(每个feature map上的proposal box独立进行),然后选择前k个proposal box, 5个feature map一共会 产生 个proposal box,训练时 ,推理时 。最后,将所有的 个proposal box合并后统一进行NMS(IoU threshold=)去掉冗余的box,最后选择前m个输出给Fast R-CNN,训练和测试时m都取1000。 训练时将gt box通过下面的公式转换为相对anchor box的偏移值,与网络的预测计算loss,至于将每个gt与具体的哪个anchor box计算偏移,则需要根据节中的正负样本方法来确定。测试时将预测的box通过该公式中的逆运算计算出当前box相对原图的位置和大小, , , , 指相对全图的box中心点坐标以及宽和高, , , , 指每个anchor相对全图的box中心点坐标以及宽和高。由此可以看出,box回归分支直接预测的便是相对anchor的偏移值,即公式中的 、 、 和 。 以上提到的2000和1000是作为Fast R-CNN的输入proposal box,在训练时参与RPN loss计算的anchor boxs数量为256个,正负样本数量为 ,正样本不足128的用负样本补足。这里的256是从所有feature map中的anchor box中选择的,并非每个feature map都独立取得256个正负样本。这也是合理的,因为每个gt box由于尺寸的原因,几乎不可能与所有feature map上的anchor box的IoU都大于一定的阈值(原因参考节)。注意选择前并未进行NMS处理,而是直接根据节中确定正负样本的方式确定每个预测box正负类别,然后分别在正样本中随机选择128个正样本,在负样本中随机选择128个负样本。 R-CNN:输入为FPN产生的前4个feature map和RPN输出的proposal box,4个feature map为P2、P3、P4、P5,与backbone对应,不使用P6。那么,如何确定在哪个feature map上执行每个proposal box对应的RoIAlign操作并得到 大大小的feature map呢?论文中的做法是通过下面的公式将特定尺寸的proposal box与FPN产生的4个feature map中尺寸最适合的对应起来,即让感受野更接近对象尺寸的feature map预测该对象 ,其中224为backbone在ImageNet上预训练的尺寸,w和h为proposal box的长和宽,k表示适合尺寸为w和h的propsal box的feature map的位置,即4个feature map为P2、P3、P4、P5的下标,k_0为proposal box大致为224*224时对应feature map位置值( ),表示proposal box大致为 时在P4上执行RoIAlign,小于 时,在P2或P3上执行,大于则在P5上。 网络都会针对每个RoI会输出一个类别概率分布(包括背景类别)和一个相对RoI box的长度为4的box偏移向量。概率分支由softmax激活函数得到。与RPN的类似,训练时,如节loss计算中所述,会将gt box通过下面的公式转换为相对proposal box(前提是该RoI是正样本)的偏移量,然后使用loss计算公式直接与预测的相对偏移量进行loss计算;测试时,会通过下列公式的逆运算将偏移值换算回相对原图的位置box,然后使用NMS去掉冗余的box,最终输出。 训练时,通过中的方式确定每个proposal box属于正样本或负样本后,随机选择512个样本,其中正负比例为1:3进行loss计算,正样本不足的由负样本补足。 在RPN中,由于每个feature map的每个滑窗位置上的张量( 维张量,C为feature map的通道数)会被用来预测k个box和每个box对应的类别概率,那么具体哪个box才能参与gt box的损失计算(包括类别和box回归损失)?这便需要在所有预测的box中确定正负样本,因为一个anchor对应一个预测的box和类别,那么确定预测的box是正例还是负例等价于确定anchor box的是正例还是反例。为了便于训练,RPN中使用双IoU阈值的方式确定正负样本,与gt box的IoU为最大或者大于的anchor box被设置为正样本,这会导致一个gt box与多个预测box计算损失,即允许多个box预测同一对象,与gt box的IoU小于的anchor box被设置为负样本,其余的忽略掉,即不参与loss计算。在此基础上,如节中所述,会对正负样本进行随机采样,总数为256,其他不参与损失函数计算。 与gt box的IoU大于的proposal box作为正样本,注意,是将proposal box与gt box计算IoU,Fast-RCNN中的proposal box的作用与anchor box有些类似,即确定正负样本和预测的box 都是针对它们的偏移值 ,其余IoU在 之间的作为负样本,低于的作为难例挖掘时的启发式样本(mmdetection中的做法是单阈值方式,与gt box的IoU大于的proposal box作为正样本,小于的都是负样本)。 Faster R-CNN中是以分步的方式联合训练RPN和Fast R-CNN,大致的过程为: 但在mmdetection中,已经将RPN和Fast R-CNN的loss进行权重加和,从而进行联合训练,训练流程简化很多,且能够达到相同的效果。 确定了每个预测box或anchor box的正负类别后,便可以计算损失函数了,类似于Fast RCNN的做法,只有正样本的box才会参与box损失计算,损失函数如下: 为类别损失为类别损失函数,使用交叉熵损失, 为box回归损失,使用smooth L1损失,论文中平衡因子lambda为10。 表示第i个anchor box对应的gt 类别(背景为0,对象为1), 为gt box相对anchor box的偏移量(如果该anchor box被确定为正样本),通过下面的公式计算得到, 即表示只有 ,即为正样本时才会计算box的损失。 Fast R-CNN的loss类似于RPN,只有proposal box为非背景类别(正样本)时才计算box损失, 为类别损失, 为box损失, 表示proposal box的 , 时表示背景(通过的方式确定proposal box的类别)。 为平衡因子,作者所有实验中 。为了防止box回归的L2 loss放大噪声(异常loss)从而影响训练,作者将L2 loss修改为 loss,当box尺寸的差异较大时使用L1 loss,抑制异常值对梯度的贡献。 其中v是通过下面的公式将gt box( , , , )转换得到,其中,( , , , )为proposal box的在原图中的中心点坐标和宽与高。 在Faster R-CNN和Faster R-CNN-ResNet中,由于RPN只是在单尺寸的feature map上进行滑窗,为了缓解多尺寸的问题,每个滑窗位置会设计多个尺寸的anchor,但是在Faster R-CNN-FPN中使用了FPN,则天然就具有了适应对象多尺寸的问题,因此不用再为每个滑窗设计多个尺寸的anchor。即在Faster RCNN-FPN中,为每种尺寸feature map上的滑窗只设计了单一尺寸多种长宽比的anchor,长宽比有 、 和 ,不同feature map上anchor的尺寸为: , , , 和 ,依次对应P2、P3、P4、P5和P6。 COCO上的训练细节:RPN的weight decay为,SGD的 ,初始学习率为,学习率调整使用step decay方式。
目标检测论文整理最近开始看一些object detection的文章,顺便整理一下思路。排版比较乱,而且几乎所有图片都是应用的博客或论文,如有侵权请联系我。文章阅读路线参考目前已完成的文章如下,后续还会继续补充(其中加粗的为精读文章):RCNNOverfeatMR-CNNSPPNetFast RCNNA Fast RCNNFaster RCNNFPNR-FCNMask RCNNYOLOYOLO 9000YOLO v3SSDDSSDR-SSDRetinaNet(focal loss)DSODCascade R-CNN(待续)吐槽一下,博客园的markdown竟然没有补齐功能,我还是先在本地补全再传上来吧。。。RCNN之前的故事Histogram of Gradient (HOG) 特征在深度学习应用之前,图像的特征是人工定义的具有鲁棒性的特征,如SIFT,HOG等,下面简要介绍一下HOG。8x8像素框内计算方向梯度直方图:HOG Pyramid特征金字塔,对于不同大小的物体进行适应,设计尺度不变性特征HOG特征 -> SVM分类DPM模型 Deformable Part Model加组件组合的HOG特征, 组件间计算弹性得分,优化可变形参数如果没有弹性距离,就是BoW (Bag of Word)模型, 问题很大, 位置全部丢失:n个组件的DPM计算流程:Selective Search 思想过分割后基于颜色纹理等相似度合并,然后,过分割、分层合并、建议区域排序基于Selective Search + DPM/HoG + SVM的物体识别此时的框架就是RCNN的雏形,因为DPM就是基本由RBG和他导师主导,所以大神就是大神。AlexNet的图像分类(深度学习登场)2012年AlexNet赢得LSVRC的ImageNet分类竞赛。深度CNN结构用来图像特征提取。bounding-box regression 框回归BBR 在DPM时代就和SVM分类结合,一般直接使用线性回归,或者和SVR结合RCNN: Rich feature hierarchies for accurate object detection and semantic segmentationRCNN作为深度学习用于目标检测的开山之作,可以看出是基于Selective Search + DPM/HoG + SVM框架,只不过将是将手工特征转变为CNN提取特征,本文主要贡献如下:CNN用于object detection解决数据集不足的问题主要流程如下:regional preposals(selective research)CNN feature extractionSVM ClassificationNMSbounding-box regression(BBR)为啥能work?优秀的目标检测框架,region proposal 和 regression offset降低了目标检测的难度,强大的CNN特征提取器,代替传统的已经到瓶颈的手工特征迁移训练降低了对数据集的要求MR-CNN:Object detection via a multi-region & semantic segmentation-aware CNN modelMulti-Region的提出, 开始对Box进一步做文章, 相当于对Box进一步做增强,希望改进增强后的效果,主要改善了部分重叠交叉的情况。特征拼接后使得空间变大,再使用SVM处理, 效果和R-CNN基本类似.OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks不得不说虽然OverFeat在但是比赛成绩不是太好,但是它的思想还是很有启发性的。OverFeat直接抛弃了Selective Search,采用CNN上slide windows来进行框推荐,并且把Bounding box Regression整合一起使用全连接层搞定, 解决了后面一端的问题(取代了SVM分类器和BBR线性回归器),这个思想影响了后来的Fast RCNN。是第一个End to End 的目标检测模型,模型虽然简陋,但是可以验证网络强大的拟合能力注意整合目标检测的各项功能(分类,回归)。亮点:先用CNN得到feature map再做slide windows推荐区域,避免了特征重复计算。设计了End to End模型,方便优化和加快检测速度设计全卷积网络,并进行多尺度图像训练maxpool offset(没有Fast RCNN的ROI Pooling自然)为啥能work?可以看出OverFeat将不同的两个问题物体分类和位置回归采用了两个分支网络,共用前面的CNN特征表述,而CNN提取的特征正如OverFeat所言,是一种类似于SIFT,HOG等人工描述子的一种稳定的描述子(底层抽象),可以用于构建不同的任务(高层表述),也就是模型为什么能work的原因。SPPNetR-CNN和Overfeat都存在部分多尺度,重叠效果的问题。 某种意义上, 应对了HoG特征, 这样对于物体来说类似BoW模型, 我们知道DPM里面,是带有组件空间分布的弹性得分的, 另外也有HoG Pyramid的思想。 如何把Pyramid思想和空间限制得分加入改善多尺度和重叠的效果呢? MR-CNN里面尝试了区域增强, Overfeat里面尝试了多尺度输入。 但是效果都一般。 这里我们介绍另外一个技术Spatial Pyramid Matching, SPM,是采用了空间尺度金字塔的特点。和R-CNN相比做到了先特征后区域, 和Overfeat相比自带Multi-Scale。SPP pooling layer 的优势:解决了卷积层到全连接层需要固定图片大小的问题,方便多尺度训练。能够对于任意大小的输入产生固定的输出,这样使得一幅图片的多个region proposal提取一次特征成为可能。进一步强调了CNN特征计算前移, 区域处理后移的思想, 极大节省计算量也能看出文章还是强调用CNN做特征的提取,还是用的BBR和SVM完成回归和分类的问题Fast RCNN可以看出Fast RCNN结合了OverFeat和Sppnet的实现,打通了高层表述和底层特征之间的联系主要流程:任意size图片输入CNN网络,经过若干卷积层与池化层,得到特征图;在任意size图片上采用selective search算法提取约2k个建议框;根据原图中建议框到特征图映射关系,在特征图中找到每个建议框对应的特征框【深度和特征图一致】,并在RoI池化层中将每个特征框池化到H×W【VGG-16网络是7×7】的size;固定H×W【VGG-16网络是7×7】大小的特征框经过全连接层得到固定大小的特征向量;将上一步所得特征向量经由各自的全连接层【由SVD分解实现(全连接层加速)】,分别得到两个输出向量:一个是softmax的分类得分,一个是Bounding-box窗口回归;利用窗口得分分别对每一类物体进行非极大值抑制剔除重叠建议框其中ROI POOL层是将每一个候选框映射到feature map上得到的特征框经池化到固定的大小,其次用了SVD近似求解实现全连接层加速。这里需要注意的一点,作者在文中说道即使进行多尺度训练,map只有微小的提升,scale对Fast RCNN的影响并不是很大,反而在测试时需要构建图像金字塔使得检测效率降低。这也为下一步的多尺度改进埋下了伏笔。为啥能更好的work?也是结合了OverFeat的和SPPnet的work,同时规范了正负样本的判定(之前由于SVM和CNN对区域样本的阈值划分不同而无法统一网络,当然这只是其中的一个原因。更多的估计是作者当时没想到),将网络的特征抽取和分类回归统一到了一个网络中。A Fast RCNN: Hard Positive Generation via Adversary for Object Detection这篇论文是对,CMU与rbg的online hard example mining(OHEM)改进,hard example mining是一个针对目标检测的难例挖掘的过程,这是一个更充分利用数据集的过程。实际上在RCNN训练SVM时就已经用到,但是OHEM强调的是online,即如何在训练过程中选择样本。同期还有S-OHEM的改进。而随着但是GAN的火热,A-Fast-RCNN尝试生成hard example(使用对抗网络生成有遮挡和有形变的两种特征,分别对应网络ASDN和ASTN)结论如下:ASTN 和 随机抖动(random jittering)做了对比,发现使用AlexNet,mAP分别是和,使用VGG16,mAP分别是和,ASTN 的表现都比比随机抖动效果好。作者又和OHEM对比,在VOC 2007数据集上,本文方法略好( vs. ),而在VOC 2012数据集上,OHEM更好( vs. )。gan用于目标检测还没有很好的idea,这篇论文相当于抛砖引玉了。同时需要注意的一个问题,网络对于比较多的遮挡和形变情况识别情况更好;但是对于正常目标的特征抽象能力下降,所以有时候创造难例也要注意样本的数量。下面是一些由于遮挡原因造成的误判。Faster RCNN:Towards Real-Time Object Detection with Region Proposal Networks这篇文章标志着two-stage目标检测的相对成熟,其主要改进是对候选区域的改进,将候选区域推荐整合进了网络中。结合后面的一系列文章,可以马后炮一下它的缺点:虽然Faster RCNN已经共享了绝大部分卷积层运算,但是RoI之后还有部分ConvNet的计算,有没有可能把ROI之上的计算进一步前移? 请看R-FCNFaster RCNN还是没有很好的解决多尺度问题,如何解决,请看FPNYOLO:You Only Look Once作者的论文简直是一股论文界的泥石流,作者本身是一个喜欢粉红小马的大叔,萌萌哒。实际上YOLO一直发展到v3都是简单粗暴的目标检测方法,虽然学术界模型繁杂多样,但是在实际应用工业应用上YOLO绝对是一个首选的推荐。YOLO v1版本现在看来真是简单粗暴,也印证了网络抽象的强大之处。可以看出作者没有受到太多前辈的影响,将对象检测重新定义为单个回归问题,直接从图像像素到边界框坐标和类概率(当然这也是一个缺少坐标约束也是一个缺点)。YOLO的明显缺点,如多尺度问题,密集物体,检测框耦合,直接回归坐标等在yolo 9000中也做了比较好的改进。SSD:Single Shot MultiBox DetectorSSD作为one stage的代表模型之一,省去了判断推荐候选区域的步骤(实际上可以认为one-stage就是以feature map cell来抽象代替ROI Pooling功能) ,虽然SSD和Faster RCNN在Anchor box上一脉相承,但是Faster RCNN却还是有一个推荐候选区域(含有物体的区域)的监督部分(注意后面其实也是整合到了最终Loss中),因此one-stage优势是更快,而含有区域推荐的two-stage目前是更加准确一些。(更看好one-stage,其实区域推荐不太符合视觉系统,但是可以简化目标检测问题),主要贡献:用多尺度feature map来预测,也生成了更多的default box检测框对每一类对象产生分数(低耦合,对比yolo)缺点:底层feature map高级语义不足 (FPN)正负样本影响 (focal loss)feature map抽象分类和回归任务只用了两个卷积核抽象性不足(DSSD)为啥能更好的工作?SSD的出现对多尺度目标检测有了突破性进展,利用卷积层的天然金字塔形状,设定roi scale让底层学习小物体识别,顶层学习大物体识别FPN:feature pyramid networksSSD网络引入了多尺度feature map,效果显著。那Faster RCNN自然也不能落后,如何在Faster RCNN中引入多尺度呢?自然有FPN结构同时FPN也指出了SSD因为底层语义不足导致无法作为目标检测的feature map注意原图的候选框在Faster RCNN中只固定映射到同一个ROI Pooling中,而现在如果某个anchor和一个给定的ground truth有最高的IOU或者和任意一个Ground truth的IOU都大于,则是正样本。如果一个anchor和任意一个ground truth的IOU都小于,则为负样本。本文算法在小物体检测上的提升是比较明显的,另外作者强调这些实验并没有采用其他的提升方法(比如增加数据集,迭代回归,hard negative mining),因此能达到这样的结果实属不易。DSSD:Deconvolutional Single Shot Detector一个SSD上移植FPN的典型例子,作者主要有一下改动:将FPN的Upsampling变成deconv复杂了高层表述分支(分类,回归)网络的复杂度R-SSD:Enhancement of SSD by concatenating feature maps for object detection本文着重讨论了不同特征图之间的融合对SSD的影响(水论文三大法宝),这篇论文创新点不是太多,就不说了DSOD: Learning Deeply Supervised Object Detectors from Scratch这篇文章的亮点:提出来了不需要预训练的网络模型DSOD实际上是densenet思想+SSD,只不过并不是在base model中采用densenet,而是密集连接提取default dox的层,这样有一个好处:通过更少的连接路径,loss能够更直接的监督前面基础层的优化,这实际上是DSOD能够直接训练也能取得很好效果的最主要原因,另外,SSD和Faster RCNN直接训练无法取得很好的效果果然还是因为网络太深(Loss监督不到)或者网络太复杂。Dense Prediction Structure 也是参考的densenetstem能保留更多的信息,好吧,这也行,但是对效果还是有提升的。YOLO 9000:Better, Faster, Stronger很喜欢这个作者的论文风格,要是大家都这么写也会少一点套路,多一点真诚。。。。文章针对yolo做了较多的实验和改进,简单粗暴的列出每项改进提升的map。这个建议详细的看论文。下面列举几个亮点:如何用结合分类的数据集训练检测的网络来获得更好的鲁棒性将全连接层改为卷积层并结合了细粒度信息(passthrough layer)Multi-Scale TraningDimension Clustersdarknet-19更少的参数Direct locaion prediction对offset进行约束R-FCN:Object Detection via Region-based Fully Convolutional Networks本文提出了一个问题,base CNN网络是为分类而设计的(pooling 实际上是反应了位置的不变性,我一张人脸图片只要存在鼻子,两只眼睛,分类网络就认为它是人脸,这也就是Geoffrey Hinton 在Capsule中吐槽卷积的缺陷),而目标检测则要求对目标的平移做出准确响应。Faster RCNN是通过ROI pooling让其网络学习位置可变得能力的,再次之前的base CNN还是分类的结构,之前讲过R-FCN将Faster RCNN ROI提取出来的部分的卷积计算共享了,那共享的分类和回归功能的卷积一定在划分ROI之前,那么问题来了,如何设计让卷积对位置敏感?主要贡献:将用来回归位置和类别的卷积前置共享计算,提高了速度。巧妙设计score map(feature map)的意义(感觉设计思想和yolo v1最后的全连接层一样),让其何以获得位置信息,之后在经过ROI pooling和vote得到结果为啥能work?实际上rfcn的feature map设计表达目标检测问题的方式更加抽象(ROI pool前的feature map中每一个cell的channel代表定义都很明确),loss在监督该层时更能通过论文中关于ROI pool和vote设计,在不同的channel上获得高的响应,这种设计方式可能更好优化(这个是需要大量的实验得出的结论),至于前面的resnet-base 自然是抽象监督,我们本身是无法理解的,只是作为fintuning。实际上fpn的loss监督也是非常浅和明确的,感觉这种可以理解的优化模块设计比较能work。Focal Loss: Focal Loss for Dense Object Detection这篇文章实际上提供了另外一个角度,之前一直认为Single stage detector结果不够好的原因是使用的feature不够准确(使用一个位置上的feature),所以需要Roi Pooling这样的feature aggregation办法得到更准确的表示。但是这篇文章基本否认了这个观点,提出Single stage detector不好的原因完全在于:极度不平衡的正负样本比例: anchor近似于sliding window的方式会使正负样本接近1000:1,而且绝大部分负样本都是easy example,这就导致下面一个问题:gradient被easy example dominant的问题:往往这些easy example虽然loss很低,但由于数 量众多,对于loss依旧有很大贡献,从而导致收敛到不够好的一个结果。所以作者的解决方案也很直接:直接按照loss decay掉那些easy example的权重,这样使训练更加bias到更有意义的样本中去。很直接地,如下图所示:实验中作者比较了已有的各种样本选择方式:按照class比例加权重:最常用处理类别不平衡问题的方式OHEM:只保留loss最高的那些样本,完全忽略掉简单样本OHEM+按class比例sample:在前者基础上,再保证正负样本的比例(1:3)Focal loss各种吊打这三种方式,coco上AP的提升都在3个点左右,非常显著。值得注意的是,3的结果比2要更差,其实这也表明,其实正负样本不平衡不是最核心的因素,而是由这个因素导出的easy example dominant的问题。RetinaNet 结构如下实际上就是SSD+FPN的改进版
论文里的目标值就是你要围绕什么目标写论文啊,要达到什么水平
姓名:郄心怡 学号: 学院:电子工程学院 【原文链接】 【嵌牛导读】本文对特征金字塔网络FPN做了一个简单介绍 【嵌牛鼻子】特征金字塔网络FPN 【嵌牛提问】什么是特征金字塔网络FPN? 【嵌牛正文】 这里介绍的文章是来自Facebook的特征金字塔网络Feature Pyramid Networks(FPN)。FPN主要解决的是物体检测中的多尺度问题,通过简单的网络连接改变,在基本不增加原有模型计算量情况下,大幅度提升了小物体检测的性能。我们将从论文背景,论文思想,结果与结论几方面探讨此论文。 在物体检测里面,有限计算量情况下,网络的深度(对应到感受野)与stride通常是一对矛盾的东西,常用的网络结构对应的stride一般会比较大(如32),而图像中的小物体甚至会小于stride的大小,造成的结果就是小物体的检测性能急剧下降。传统解决这个问题的思路包括: (1)多尺度训练和测试,又称图像金字塔,如图1(a)所示。目前几乎所有在ImageNet和COCO检测任务上取得好成绩的方法都使用了图像金字塔方法。然而这样的方法由于很高的时间及计算量消耗,难以在实际中应用。 (2)特征分层,即每层分别预测对应的scale分辨率的检测结果。如图1(c)所示。SSD检测框架采用了类似的思想。这样的方法问题在于直接强行让不同层学习同样的语义信息。而对于卷积神经网络而言,不同深度对应着不同层次的语义特征,浅层网络分辨率高,学的更多是细节特征,深层网络分辨率低,学的更多是语义特征。因而,目前多尺度的物体检测主要面临的挑战为: 1. 如何学习具有强语义信息的多尺度特征表示? 2. 如何设计通用的特征表示来解决物体检测中的多个子问题?如object proposal, box localization, instance segmentation. 3. 如何高效计算多尺度的特征表示? 本文针对这些问题,提出了特征金字塔网络FPN,如图1(d)所示,网络直接在原来的单网络上做修改,每个分辨率的feature map引入后一分辨率缩放两倍的feature map做element-wise相加的操作。通过这样的连接,每一层预测所用的feature map都融合了不同分辨率、不同语义强度的特征,融合的不同分辨率的feature map分别做对应分辨率大小的物体检测。这样保证了每一层都有合适的分辨率以及强语义特征。同时,由于此方法只是在原网络基础上加上了额外的跨层连接,在实际应用中几乎不增加额外的时间和计算量。作者接下来实验了将FPN应用在Faster RCNN上的性能,在COCO上达到了state-of-the-art的单模型精度。 具体而言,FPN分别在RPN和Fast RCNN两步中起到作用。其中RPN和Fast RCNN分别关注的是召回率和正检率,在这里对比的指标分别为Average Recall(AR)和Average Precision(AP)。分别对比了不同尺度物体检测情况,小中大物体分别用s,m,l表示。 在RPN中,区别于原论文直接在最后的feature map上设置不同尺度和比例的anchor,本文的尺度信息对应于相应的feature map(分别设置面积为32^2, 64^2, 128^2, 256^2, 512^2),比例用类似于原来的方式设置{1:2, 1:1,, 2:1}三种。 与RPN一样,FPN每层feature map加入3*3的卷积及两个相邻的1*1卷积分别做分类和回归的预测。在RPN中,实验对比了FPN不同层feature map卷积参数共享与否,发现共享仍然能达到很好性能,说明特征金字塔使得不同层学到了相同层次的语义特征。RPN网络的实验结果为:这里FPN对比原来取自conv4和conv5的RPN网络(a)(b),召回率得到了大幅度提升,尤其在中物体和小物体上(c)。另外,作者做了变量对比实验,比如只保留横向连接(d),即特征分层网络,性能仅与原RPN差不多,原因就在于不同层之间的语义特征差距较大。另外,试验了砍掉横向连接,只保留自上而下放大feature map做预测结果(e),以及只用最终得到的feature map层(f),均比完整的FPN网络小物体检测AR低10个点左右。说明金字塔特征表示与横向连接都起了很大作用。 实验Fast RCNN时,需要固定FPN+RPN提取的proposal结果。在Fast RCNN里,FPN主要应用于选择提取哪一层的feature map来做ROI pooling。假设特征金字塔结果对应到图像金字塔结果。定义不同feature map集合为{P2, P3, P4, P5},对于输入网络的原图上w*h的ROI,选择的feature map为Pk,其中(224为ImageNet输入图像大小):类似于RPN的实验,对比了原有网络,以及不同改变FPN结构的Fast RCNN实验,实验结果为:实验发现FPN筛选ROI区域,同样对于Fast RCNN的小物体检测精度有大幅提升。同时,FPN的每一步都必不可少。 最后,FPN对比整个Faster RCNN的实验结果如下:对比其他单模型方法结果为:最后是在FPN基础上,将RPN和Fast RCNN的特征共享,与原Faster CNN一样,精度得到了小幅提升。FPN+Faster RCNN的方法在COCO数据集上最终达到了最高的单模型精度。 总结起来,本文提出了一种巧妙的特征金字塔连接方法,实验验证对于物体检测非常有效,极大提高了小物体检测性能,同时由于相比于原来的图像金字塔多尺度检测算法速度也得到了很大提升。 Q1:不同深度的feature map为什么可以经过upsample后直接相加? 答:作者解释说这个原因在于我们做了end-to-end的training,因为不同层的参数不是固定的,不同层同时给监督做end-to-end training,所以相加训练出来的东西能够更有效地融合浅层和深层的信息。 Q2:为什么FPN相比去掉深层特征upsample(bottom-up pyramid)对于小物体检测提升明显?(RPN步骤AR从到,Fast RCNN步骤AP从到) 答:作者在poster里给出了这个问题的答案对于小物体,一方面我们需要高分辨率的feature map更多关注小区域信息,另一方面,如图中的挎包一样,需要更全局的信息更准确判断挎包的存在及位置。 Q3:如果不考虑时间情况下,image pyramid是否可能会比feature pyramid的性能更高? 答:作者觉得经过精细调整训练是可能的,但是image pyramid主要的问题在于时间和空间占用太大,而feature pyramid可以在几乎不增加额外计算量情况下解决多尺度检测问题。
2021年了,竟然还有人写关于Faster R-CNN的文章?我的原因主要有两点: 我们先从全局上了解Faster R-CNN-FPN,然后再关注其中涉及的细节。下面是Faster R-CNN-FPN的网络框架图(或称为tensor流动图)。 众所周知,Faster R-CNN-FPN(主要是Faster R-CNN)是个两阶段的对象检测方法,主要由两部分网络组成,RPN和Fast R-CNN。 RPN的作用是以bouding box(后简称为box)的方式预测出图片中对象可能的位置,并过滤掉图片中绝大部分的背景区域,目标是达到尽量召回图像中感兴趣的对象,预测box尽量能够与实际对象的box贴合,并且保证一定的预测精度(Precision)。另外,RPN并不需要指出预测的box中对象具体的类别,RPN预测的box称为RoI(Region of Interest),由于是以box的方式输出,所以后面我们统一将其称为proposal box。 Fast R-CNN则是在FPN预测的proposal box基础上进一步预测box中对象具体的类别,并对proposal box进行微调,使得最终预测的box尽量贴合目标对象。大致的做法是根据RPN预测的proposal box,从原图backbone的feature map上通过RoIPooling或RoIAlign(Faster R-CNN-FPN使用RoIAlign)提取每个proposal box对应区域的feature map,在这些区域feature map上进一步预测box的类别和相对proposal box的偏移量(微调)。另外,RPN和Fast R-CNN共用同一个backbone网络提取图像的feature map,大大减少了推理耗时。 从上面的介绍可以看出,RPN和Fast R-CNN的配合作用其实可以理解为一种注意力机制,先大致确定目标在视野中的位置,然后再锁定目标仔细观察,确定目标的类别和更加精确的位置,简单来说就是look twice,相比单阶段的look once,当然是比较耗时的,但也换来了更好的效果(虽然很多单阶段方法号称已经获得相当或好于两阶段的效果)。 下面以Faster R-CNN-FPN发展顺序的汇总介绍每个改进的核心思想。 在R-CNN中,CNN只被用来作为特征抽取,后接SVM和线性回归模型分别用于分类和box修正回归。在此基础上,Fast R-CNN直接对原输入图进行特征抽取,然后在整张图片的特征图上分别对每个RoI使用RoIPooling提取(后面会介绍RoIPooling的原理)特定长度的特征向量(论文中空降尺寸为7*7),去掉SVM和线性回归模型,在特征向量上直接使用若干FC层进行回归,然后分别使用两个FC分支预测RoI相关的类别和box,从而显著提升速度和预测效果。 整体框架图如下: 在Fast RCNN的基础上进一步优化,用CNN网络代替Fast R-CNN中的region proposal模块(使用传统Selective Search方法),从而实现了全神经网络的检测方法,在召回和速度上都超过了传统的Selective Search。作者将提供proposal region的网络称为RPN(Region Proposal Network),与检测网络Fast RCNN共享同一backbone,大大缩减了推理速度。 RPN在backbone产生的feature map(图中的conv feature map)之上执行 的滑窗操作,每个滑窗范围内的feature map会被映射为多个proposal box(图中的reg layer分支)以及每个box对应是否存在对象的类别信息(图中的cls layer分支)。由于CNN天然就是滑窗操作,所以RPN使用CNN作为窗口内特征的提取器(对应图中的intermediate layer,后面简称为“新增CNN层”),窗口大小 ,将feature map映射为较低维的feature map以节省计算量(论文中为256)。虽然只使用了 的卷积,但是在原图上的有效的感受野还是很大的,感受野大小不等于网络的降采样率,对于VGG网络,降采样率为16,但是感受野为228像素。类似于Fast-RCNN,为了分别得到box和box对应的类别(此处类别只是表示有没有目标,不识别具体类别),CNN操作之后会分为两个子网络,它们的输入都是新增CNN层输出的feature map,一个子网络负责box回归,一个负责类别回归。由于新增CNN层产生的feature map的每个空间位置的特征(包括通道方向,shape为 )都被用来预测映射前窗口对应位置是否存在对象(类别)和对象的box,那么使用 的CNN进行计算正合适(等效于FC层),这便是RPN的做法。综上所述,所有滑窗位置共享一个新增CNN层和后续的分类和box回归分支网络。下图是RPN在一个窗口位置上执行计算的原理示意。 由于滑窗操作是通过正方形的CNN卷积实现的,为了训练网络适应不同长宽比和尺寸的对象,RPN引入了anchor box的概念。每个滑窗位置会预置k个anchor box,每个anchor box的位置便是滑窗的中心点,k个anchor box的长宽比和尺寸不同,作者使用了9种,分别是长宽比为 、 和 ,尺寸为 , 和 的9种不同组合。分类分支和box回归分支会将新增CNN层输出的feature map的每个空间位置的tensor(shape为 )映射为k个box和与之对应的类别,假设每个位置的anchor box数量为k(如前所述, ),则分类分支输出的特征向量为2k(两个类别),box回归分支输出为4k(4为box信息,box中心点x坐标、box中心点y坐标、box宽w和box高h)。box分支预测的位置(x,y,w,h)都是相对anchor box的偏移量。从功能上来看,anchor box的作用有点类似于提供给Fast RCNN的propsal box的作用,也表示目标可能出现的位置box,但是anchor box是均匀采样的,而proposal box是通过特征抽取(或包含训练)回归得到的。由此可以看出,anchor box与预测的box是一一对应的。从后文将会了解到,通过anchor box与gt box的IoU的关系,可以确定每个预测box的正负样本类别。通过监督的方式让特定的box负责特定位置、特定尺寸和特定长宽比的对象,模型就学会了拟合不同尺寸和大小的对象。另外,由于预测的box是相对anchor box的偏移量,而anchor box是均匀分布在feature map上的,只有距离和尺寸与gt box接近(IoU较大)的anchor box对应的预测box才会与gt box计算损失,这大大简化了训练,不然会有大量的预测box与gt box计算损失,尤其是在训练初始阶段,当一切都是瞎猜的时候。 在Faster RCNN基础上,将backbone替换为ResNet50或ResNet101,涉及部分细节的改动,我们放在本文的细节部分进行描述。 在Faster RCNN-ResNet基础上,引入FPN(特征金字塔网络)模块,利用CNN网络天然的特征金字塔特点,模拟图像金字塔功能,使得RPN和Fast RCNN可以在多个尺度级别(scale level)的feature map上分别预测不同尺寸的对象,大大提高了Faster RCNN的检测能力。相比图像金字塔大大节省了推理时间。原理如下图所示: 从上图中可以看出,FPN并不是简单地使用backbone的多个CNN层输出的feature map进行box回归和分类,而是将不同层的feature map进行了top-down和lateral connection形式的融合后使用。这样便将CNN网络前向传播(bottom-up)产生的深层语义低分辨率特征与浅层的浅语义高分辨率的特征进行融合,从而弥补低层特征语义抽象不足的问题,类似增加上下文信息。其中,top-down过程只是简单地使用最近邻插值将低分辨率的feature map上采样到即将与之融合的下层feature map相同的尺寸(尺寸上采样到2倍),lateral connection则是先将低层的feature map使用 的卷积缩放为即将与之融合的上层feature map相同的通道数(减少计算量),然后执行像素级相加。融合后的feature map不仅会用于预测,还会继续沿着top-down方向向下传播用于下层的特征融合,直到最后一层。 mask R-CNN提出的RoI Align缓解了RoIPooling的缺陷,能够显著提升小目标物体的检测能力。网上介绍RoIPooling和RoIAlign的文章很多,此处不再赘述,推荐阅读个人觉得比较好的两篇博客: RoIPooling 和 RoIAlign 。 此处稍微啰嗦下个人对RoIPooling的思考: 为什么RoIPooling不使用自适应的池化操作,即根据输入的feature map的尺寸和希望输出的feature map尺寸,自动调整池化窗口的大小和步长以计算想要尺寸的feature map,类似于自适应池化操作,而不是将输入的feature map划分成均匀的小区域(bins,论文中划分为 个bins),然后每个小区域中分别计算MaxPooling。不管计算上是否高效,至少这种做法在输入的feature map尺寸(比如 )小于期望的输出feature map尺寸(比如 )时会失效,因为在3*3的feature map上如果不使用padding的话是无法得到 的特征的,而使用padding又是很低效的操作,因为要扩展局部feature map的尺寸,而使用划分bins的方法,即使输出的feature map尺寸远小于要输出的feature map尺寸,也仅仅是在同一位置采样多次而已。 本人之前介绍YOLOv3的 文章 也介绍过anchor box的作用,再加上本文节中的介绍应该比较全面了,不再赘述。 此处的绝大部分细节来自论文,论文中未提及的部分,主要参考了mmdetection中的 实现 。 整个模型的网络结构可以划分为四个部分,分别为backbone、FPN、RPN head和Fast RCNN head。 : 原图短边被resize到800像素,这里值得注意的是,如此resize后一个batch内的每张图片的大小很有可能并不一致,所以还无法合并为一个输入矩阵,普遍的做法是将batch内的每张图片的左上角对齐,然后计算resize后batch内所有图片的最大宽和高,最后按照最大宽或高分别对每张图片的宽或高进行0值padding;输出为4个不同尺寸的feature map(C2、C3、C4、C5)。 : ResNet backbone产生的4个不同尺寸的feature map(C2、C3、C4、C5)作为输入,输出5个不同尺寸的feature map(P2、P3、P4、P5、P6),P6是对P5进行2倍降采样得到,每个feature map的通道数为固定的256;使用P6的原因是为了预测更大尺寸的对象。 :输入为FPN产生的feature map(P2、P3、P4、P5、P6);由于RPN是在5个输入feature map上进行独立的预测,则每个feature map都会输出 proposal box,因此不可能将所有的proposal box都提供给Fast R-CNN,这里的做法是对每个feature map上产生的proposal box按类别概率进行排序(每个feature map上的proposal box独立进行),然后选择前k个proposal box, 5个feature map一共会 产生 个proposal box,训练时 ,推理时 。最后,将所有的 个proposal box合并后统一进行NMS(IoU threshold=)去掉冗余的box,最后选择前m个输出给Fast R-CNN,训练和测试时m都取1000。 训练时将gt box通过下面的公式转换为相对anchor box的偏移值,与网络的预测计算loss,至于将每个gt与具体的哪个anchor box计算偏移,则需要根据节中的正负样本方法来确定。测试时将预测的box通过该公式中的逆运算计算出当前box相对原图的位置和大小, , , , 指相对全图的box中心点坐标以及宽和高, , , , 指每个anchor相对全图的box中心点坐标以及宽和高。由此可以看出,box回归分支直接预测的便是相对anchor的偏移值,即公式中的 、 、 和 。 以上提到的2000和1000是作为Fast R-CNN的输入proposal box,在训练时参与RPN loss计算的anchor boxs数量为256个,正负样本数量为 ,正样本不足128的用负样本补足。这里的256是从所有feature map中的anchor box中选择的,并非每个feature map都独立取得256个正负样本。这也是合理的,因为每个gt box由于尺寸的原因,几乎不可能与所有feature map上的anchor box的IoU都大于一定的阈值(原因参考节)。注意选择前并未进行NMS处理,而是直接根据节中确定正负样本的方式确定每个预测box正负类别,然后分别在正样本中随机选择128个正样本,在负样本中随机选择128个负样本。 R-CNN:输入为FPN产生的前4个feature map和RPN输出的proposal box,4个feature map为P2、P3、P4、P5,与backbone对应,不使用P6。那么,如何确定在哪个feature map上执行每个proposal box对应的RoIAlign操作并得到 大大小的feature map呢?论文中的做法是通过下面的公式将特定尺寸的proposal box与FPN产生的4个feature map中尺寸最适合的对应起来,即让感受野更接近对象尺寸的feature map预测该对象 ,其中224为backbone在ImageNet上预训练的尺寸,w和h为proposal box的长和宽,k表示适合尺寸为w和h的propsal box的feature map的位置,即4个feature map为P2、P3、P4、P5的下标,k_0为proposal box大致为224*224时对应feature map位置值( ),表示proposal box大致为 时在P4上执行RoIAlign,小于 时,在P2或P3上执行,大于则在P5上。 网络都会针对每个RoI会输出一个类别概率分布(包括背景类别)和一个相对RoI box的长度为4的box偏移向量。概率分支由softmax激活函数得到。与RPN的类似,训练时,如节loss计算中所述,会将gt box通过下面的公式转换为相对proposal box(前提是该RoI是正样本)的偏移量,然后使用loss计算公式直接与预测的相对偏移量进行loss计算;测试时,会通过下列公式的逆运算将偏移值换算回相对原图的位置box,然后使用NMS去掉冗余的box,最终输出。 训练时,通过中的方式确定每个proposal box属于正样本或负样本后,随机选择512个样本,其中正负比例为1:3进行loss计算,正样本不足的由负样本补足。 在RPN中,由于每个feature map的每个滑窗位置上的张量( 维张量,C为feature map的通道数)会被用来预测k个box和每个box对应的类别概率,那么具体哪个box才能参与gt box的损失计算(包括类别和box回归损失)?这便需要在所有预测的box中确定正负样本,因为一个anchor对应一个预测的box和类别,那么确定预测的box是正例还是负例等价于确定anchor box的是正例还是反例。为了便于训练,RPN中使用双IoU阈值的方式确定正负样本,与gt box的IoU为最大或者大于的anchor box被设置为正样本,这会导致一个gt box与多个预测box计算损失,即允许多个box预测同一对象,与gt box的IoU小于的anchor box被设置为负样本,其余的忽略掉,即不参与loss计算。在此基础上,如节中所述,会对正负样本进行随机采样,总数为256,其他不参与损失函数计算。 与gt box的IoU大于的proposal box作为正样本,注意,是将proposal box与gt box计算IoU,Fast-RCNN中的proposal box的作用与anchor box有些类似,即确定正负样本和预测的box 都是针对它们的偏移值 ,其余IoU在 之间的作为负样本,低于的作为难例挖掘时的启发式样本(mmdetection中的做法是单阈值方式,与gt box的IoU大于的proposal box作为正样本,小于的都是负样本)。 Faster R-CNN中是以分步的方式联合训练RPN和Fast R-CNN,大致的过程为: 但在mmdetection中,已经将RPN和Fast R-CNN的loss进行权重加和,从而进行联合训练,训练流程简化很多,且能够达到相同的效果。 确定了每个预测box或anchor box的正负类别后,便可以计算损失函数了,类似于Fast RCNN的做法,只有正样本的box才会参与box损失计算,损失函数如下: 为类别损失为类别损失函数,使用交叉熵损失, 为box回归损失,使用smooth L1损失,论文中平衡因子lambda为10。 表示第i个anchor box对应的gt 类别(背景为0,对象为1), 为gt box相对anchor box的偏移量(如果该anchor box被确定为正样本),通过下面的公式计算得到, 即表示只有 ,即为正样本时才会计算box的损失。 Fast R-CNN的loss类似于RPN,只有proposal box为非背景类别(正样本)时才计算box损失, 为类别损失, 为box损失, 表示proposal box的 , 时表示背景(通过的方式确定proposal box的类别)。 为平衡因子,作者所有实验中 。为了防止box回归的L2 loss放大噪声(异常loss)从而影响训练,作者将L2 loss修改为 loss,当box尺寸的差异较大时使用L1 loss,抑制异常值对梯度的贡献。 其中v是通过下面的公式将gt box( , , , )转换得到,其中,( , , , )为proposal box的在原图中的中心点坐标和宽与高。 在Faster R-CNN和Faster R-CNN-ResNet中,由于RPN只是在单尺寸的feature map上进行滑窗,为了缓解多尺寸的问题,每个滑窗位置会设计多个尺寸的anchor,但是在Faster R-CNN-FPN中使用了FPN,则天然就具有了适应对象多尺寸的问题,因此不用再为每个滑窗设计多个尺寸的anchor。即在Faster RCNN-FPN中,为每种尺寸feature map上的滑窗只设计了单一尺寸多种长宽比的anchor,长宽比有 、 和 ,不同feature map上anchor的尺寸为: , , , 和 ,依次对应P2、P3、P4、P5和P6。 COCO上的训练细节:RPN的weight decay为,SGD的 ,初始学习率为,学习率调整使用step decay方式。
论文里的目标值就是你要围绕什么目标写论文啊,要达到什么水平
【必过论文】毕业论文答辩ppt模板.rar免费下载
链接:
幻灯片模板即已定义的幻灯片格式。PowerPoint和Word、Excel等应用软件一样,都是Microsoft公司推出的Office系列产品之一,主要用于设计制作广告宣传、产品演示的电子版幻灯片,制作的演示文稿可以通过计算机屏幕或者投影机播放;利用PowerPoint,不但可以创建演示文稿,还可以在互联网上召开面对面会议、远程会议或在Web上给观众展示演示文稿。随着办公自动化的普及,PowerPoint的应用越来越广。
简历|毕业论文|中国风简历PPT模板 免费下载
链接:
幻灯片模板即已定义的幻灯片格式。PowerPoint和Word、Excel等应用软件一样,都是Microsoft公司推出的Office系列产品之一,主要用于设计制作广告宣传、产品演示的电子版幻灯片,制作的演示文稿可以通过计算机屏幕或者投影机播放;利用PowerPoint,不但可以创建演示文稿,还可以在互联网上召开面对面会议、远程会议或在Web上给观众展示演示文稿。随着办公自动化的普及,PowerPoint的应用越来越广
可以去怪人网看看 做了两年的PPT一直都在怪人网上下载模板怪人网上有很多不错的毕业论文答辩PPT模板自己需要哪个下哪个关键是不要钱
论文答辩ppt范例模板如下:
一、
二、
三、
四、
五、
六、
七、
八、论文答辩ppt范例制作要点:
1、首先,PPT封面应该有:毕设题目、答辩人、指导教师以及答辩日期。
2、其次,需要有一个目录页来清楚的阐述本次答辩的主要内容有哪些。
3、接下来,就到了答辩的主要内容了,第一块应该介绍课题的研究背景与意义。之后,是对于研究内容的理论基础做一个介绍,这一部分简略清晰即可。
4、最后,是对工作的一个总结和展望。
5、结束要感谢一下各位老师的指导与支持。
标准论文格式模板范文
标准论文格式模板范文,毕业论文是我们掌握所学的专业基础知识的呈现,论文基本上是每个人都要写的,对论文的题目要有自己的心得体会,论文的格式也是非常重要的,下面学习一下标准论文格式模板范文。
一、封面
使用学校统一格式,题目居中,学号等内容靠左侧对齐,后面的下画线要整齐。。题目要对论文(设计)的内容有高度的概括性,简明、易读,字数应在20以内。
二、中文论文题目
论文题目 黑体三号,居中。下面空一行。
三、中文摘要
“摘要:“顶头,黑体四号,后面内容采用宋体小四号,摘要应简要说明毕业论文(设计)所研究的内容、目的、实验方法、主要成果和特色,一般为150-300字。下面空一行
四、中文关键词
“关键词:“顶头,黑体四号,后面内容采用宋体小四号,关键词一般3-5个,以”,“号隔开,最后一个关键词尾不加标点符号,下面空两行。
五、英文论文题目
所有英文采用“Times New roman”字体,黑体三号,加粗,居中。下面空一行。
六、英文摘要和关键词
英文摘要和关键词除字体外同中文摘要和关键词的格式要求,但“Abstract:”和“Key words:”要加粗。内容翻译要准确,英文摘要的词汇和语法必须准确。
注意:如果内容教多,可以将英文题目、摘要、关键词放到下页。
七、目录
“目录”两字为黑体3号,居中,下面空一行。
第一层次标题“一、”顶头,黑体、小四号,第二层次缩进一字,宋体,小四号,第三层次再缩进一字,宋体,小四号……,页码加小括号,页码前为连续的点,垂直居中。
如果采用“1”、“1、1”、“1、1、1”的形式,则每层缩进半字。
参考文献按第一层次标题的格式。
八、正文
正文采用宋体,小四号,每段开头空两字,要符合一般学术论文的写作规范,文理科毕业论文字数一般不少于6000字,工科、艺术类专业毕业设计字数视专业情况而定。
论文应文字流畅,语言准确,层次清晰,论点清楚,论据准确,论证完整、严密,有独立的观点和见解,应具备学术性、科学性和一定的创新性。
毕业论文内容要实事求是,尊重知识产权,凡引用他人的观点、统计数据或计算公式的要有出处(引注),计算的数据要求真实、客观、准确。
九、标题
所有标题左侧空两字,数字标题从大到小的顺序写法应为:“一、”,“(一)”,“1、”,“(1)”,“” 的形式,黑体,小四号,左侧空两字,或者采用“1”、“1、1”、“1、1、1”……的形式,黑体,小四号,左侧顶格。
十、注释
采用本学科学术规范,提倡实用脚注,论文所有引用的中外文资料都要注明出处。中外文注释要注明所用资料的原文版作者、书名、出版商、出版年月、页码。
十一、图表
正文中出现图表时,调整行距至所需大小,返回正文再将行距调整为22磅。
十二、参考文献
参考文献按在正文中出现的先后次序列表于文后;文后以“参考文献:”(左顶格)为标识;参考文献的序号左顶格,并用数字加方括号表示,如[1]、[2]、…,以与正文中的指示序号格式一致。参照ISO690及ISO690-2,每一参考文献条目的最后均以“、”结束。各类参考文献条目的编排格式及示例如下:
专著、论文集、学位论文、报告
[序号]主要责任者、文献题名[文献类型标识]、出版地:出版者,出版年、起止页码(任选)、(中译本前要加国别)
[1] [英]M奥康诺尔著,王耀先译.科技书刊的编译工作[M]、北京:人民教育出版社,1982、56-57、
[2] 辛希孟、信息技术与信息服务国际研讨会论文集:A集[C]、北京:中国社会科学出版社,1994、
十三、打印及纸张
本科生毕业论文(设计)应一律采用打印的形式,使用A4规格的纸张,左边距2、75cm,右边距及上下边距2、5cm,页眉页脚1、5cm,全文行距22磅,装订线在左侧。按以下介绍的次序依次编排,页号打在页下方,宋体五号,居中。
装订次序
学生答辩后各院系要将有关资料和论文按照封面、中英文内容摘要及关键词、目录、正文、注释、参考文献、选题审批表、开题报告、中期检查表、指导教师评语、答辩记录表的顺序统一装订成册,存入院系教学档案。
十四、提交论文电子稿
学生上交的毕业论文(设计)软盘一定要经过杀毒处理!
毕业论文(设计)应用Microsoft Word编辑,存成以学号为名的、doc文件,例如一个学生的学号为0137023,则文件名应该为0137023、doc。每个学生交上来的磁盘中只能有一个名为学号、doc的文件,对于双修的学生,应上交两篇论文,其中一篇名为学号、doc,另一篇名为学号sh、doc,如 0137023sh、doc(双修专业)。
1、论文题目:
要求准确、简练、醒目、新颖。
2、内容提要:
文章主要内容的.摘录,要求短、精、完整。字数少可几十字,多不超过三百字为宜。
3、摘要及关键词:
关键词是从论文的题名、提要和正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。每篇论文一般选取3-8个词汇作为关键词。
主题词是经过规范化的词。
4、论文正文:
引言:引言又称前言、序言和导言,用在论文的开头。引言一般要概括地写出作者意图,说明选题的目的和意义,并指出论文写作的范围。引言要短小精悍、紧扣主题。
正文:正文是论文的主体,正文应包括论点、论据、论证过程和结论。主体部分包括以下内容:a.提出问题-论点;b.分析问题-论据和论证;c.解决问题-论证方法与步骤;d.结论。
5、参考文献:
一篇论文的参考文献是将论文在研究和写作中可参考或引证的主要文献资料,列于论文的末尾。参考文献应另起一页,标注方式按《GB7714-87文后参考文献著录规则》进行。标题--作者--出版物信息(版地、版者、版期)
所列参考文献的要求是:
(1)所列参考文献应是正式出版物,以便读者考证。
(2)所列举的参考文献要标明序号、著作或文章的标题、作者、出版物信息。
标题:
作者:
单位:
电话:
基金项目:
摘要:
关键词:
论文整体格式模板如下:
1、题目:题目应简洁、明确、有概括性,字数不宜超过20个字(不同院校可能要求不同)。本专科毕业论文一般无需单独的题目页,硕博士毕业论文一般需要单独的题目页,展示院校、指导教师、答辩时间等信息。英文部分一般需要使用Times New Roman字体。
2、版权声明:一般而言,硕士与博士研究生毕业论文内均需在正文前附版权声明,独立成页。个别本科毕业论文也有此项。
3、摘要:要有高度的概括力,语言精练、明确,中文摘要约100—200字(不同院校可能要求不同)。
4、关键词:从论文标题或正文中挑选3~5个(不同院校可能要求不同)最能表达主要内容的词作为关键词。关键词之间需要用分号或逗号分开。
5、目录:写出目录,标明页码。正文各一级二级标题(根据实际情况,也可以标注更低级标题)、参考文献、附录、致谢等。
6、正文:专科毕业论文正文字数一般应在5000字以上,本科文学学士毕业论文通常要求8000字以上,硕士论文可能要求在3万字以上(不同院校可能要求不同)。
毕业论文正文:包括前言、本论、结论三个部分。
①前言(引言)是论文的开头部分,主要说明论文写作的目的、现实意义、对所研究问题的认识,并提出论文的中心论点等。前言要写得简明扼要,篇幅不要太长。
②本论是毕业论文的主体,包括研究内容与方法、实验材料、实验结果与分析(讨论)等。在本部分要运用各方面的研究方法和实验结果,分析问题,论证观点,尽量反映出自己的科研能力和学术水平。
③结论是毕业论文的收尾部分,是围绕本论所作的结束语。其基本的要点就是总结全文,加深题意。
7、致谢:简述自己通过做毕业论文的体会,并应对指导教师和协助完成论文的有关人员表示谢意。
8、参考文献:在毕业论文末尾要列出在论文中参考过的所有专著、论文及其他资料,所列参考文献可以按文中参考或引证的先后顺序排列,也可以按照音序排列(正文中则采用相应的哈佛式参考文献标注而不出现序号)。
9、注释:在论文写作过程中,有些问题需要在正文之外加以阐述和说明。
10、附录:对于一些不宜放在正文中,但有参考价值的内容,可编入附录中。有时也常将个人简介附于文后。
毕业论文格式完整模板
艰辛而又充满意义的大学生活即将结束,毕业前要通过最后的毕业论文,毕业论文是一种有准备、有计划、比较正规的、比较重要的检验学生学习成果的形式,怎样写毕业论文才更能吸引眼球呢?下面是我为大家收集的毕业论文格式完整模板,希望能够帮助到大家。
专业论文论文题名:(二号,黑体,加粗,居中)
副标题(三号,黑体,加粗,居右)
张三 030333221 xx011班
(与标题按五号字大小空一行,小四号,黑体,居中,只学号加粗,每项中间空两个字符,不出现姓名、学号等字。)
指导老师:李四
(与姓名间不空行,小四号,黑体,居中,含指导老师四字。)
【摘要】: 对论文内容不加注释和评论的简短陈述,以第三人称陈述。一般应说明实践目的、实践方法、结果和最终结论等,一般不超过为300字。(与指导老师按五号字大小空一行,摘要两字为黑体,小四号,居左,加中括号,中括号采用中文形式;摘要部分的文字为宋体,五号,不另起一行,无需段落缩进。)
【关键词】: 为了文献标引工作从论文中选取出来用以表示全文主题内容信息款目的单词或术语。一般应选取3~5个词作为关键词。(与摘要间不空行,关键词三字为黑体,小四号,居左,加中括号,中括号采用中文形式;关键词为宋体,五号,词间用逗号分隔,最后一个词后不加标点符号,不另起一行,无需段落缩进。)
【正文】: 与关键词间不空行,正文两字为黑体,小四号,居左,加中括号,中括号采用中文形式
正文另起一行开始,正文部分文字为宋体,五号,每段首行两字符缩进,段落间不空行
A 正文层次:各部分层次不出现一xxxx等标题,统一层次格式为:
1(四号,宋体,居左,加粗,标题与上文按五号字大小空一行,与下文不空行)
(小四号,宋体,居左,加粗,小标题间不空行)
(五号,宋体,居左,加粗,小标题间不空行)
⑴(宋体,五号,居左,序号采用特殊符号添加,小标题间不空行)
①(宋体,五号,居左,序号采用特殊符号添加,小标题间不空行)
另:任意标题,当与表格或图片紧连时,按五号字大小空一行
B 表格格式:表格名称位于表格下方。
表格本身(全部采用1/2榜实体黑线,位于文档中间,且尽量不让表格分页,必须分页时,保证任一格中内容不分页),表格内的分类标题(五号,宋体,加粗,居中),表格内文字(五号,宋体,居中)表格内文字通过调整表格框架使四字以下(含四字)文字尽量在一行中,若必须分行的则上行两字,下行一字或两字;五字以上(含五字)可分行。
表格中若存在图片,图片大小不超过六行五号字;图片和文字同时存在的,文字位于图片上方(五号,宋体,居中)。
C 图片格式:名字位于图片下方。
不需文字解释的,图片居中,根据页面调整大小;需要文字解释的,图片位于文档左边,文字采用四周型环绕,图片大小根据文字调整。
D 文中的图、表、公式、算式等,一律用阿拉伯数字编序号(图的名称位于图的下方,表的名称位于表格上方,字体采用宋体,五号,加粗,居中。图、表序号根据其所在的大层次标题序号和在改层次的序号定)。如:
图、表、公式
E 注:论文中对某一问题、概念、观点等需简单解释、说明、评价、提示等,如不宜在正文中出现,采用加注的形式(注的编排序号用①、②、③依次标示在需加注处,以上标形式表示);具体说明文字列于同一页内的下端,并用横线与正文分隔开(宋体,小五号,居左)。
【参考文献】: 应具有权威性,并注意引用最新的文献。与正文间按五号字大小空两行。(参考文献四字为黑体,五号,加粗,加中括号,中括号采用中文形式;其他为宋体,小五号,序号的中括号采用英文形式,每项用英文形式句号隔开)
著作:[序号]作者.译者.书名.版本.出版地.出版社.出版时间.
期刊:[序号]作者.译者.文章题目.期刊名.年份.卷号(期数)
会议论文集:[序号]作者.译者.文章名.文集名 .会址.开会年.出版地.出版者.出版时间.
网址:[序号] 作者.文献名称.网站名称.网址
整篇论文其他注意部分:
A页面设置,采用A4大小竖版纸面,上下页边距厘米,左右页边距厘米,所有图片、表格等都不得超过边距。
B文章所有页面加入页眉,页眉为论文名称
C文章所有页面不加页码
D英文采用Times New Roman
E拉丁文采用Times New Roman,斜体
F标点为中文,半角
G正文内全为单倍行距,标题间空行除外
摘要: 本文从Chomsky在语言学研究过程中所采用的理想化模式入手,认为Chomsky为了使研究变得简单,便将与语言关系紧密的社会因素摒除在研究范围之外,这是一种不可取的理想模式。接下来本文从两个主要方面阐述了理想化模式不可取的原因:
一是语言作为一种符号系统,只有在社会的'环境下才能具有完整的意义。二是语言作为一种社会结构,无论是它的产生还是发展过程,都在不断地和社会发生着相互作用。故而只要是研究语言学,我们就不能将社会因素理想化。至于什么因素可以暂时不予考虑,这仍有待进一步的研究。
关键词 :
理想化,符号系统,社会结构,语言与社会的相互作用
1.统一使用A4纸,单面打印;
2.封面:封面栏目要求打印;
3.字体全部用宋体;主标题行要求用小二号字加黑,次标题用三号字加黑,再次标题用小三号字加黑,以此类推。正文内容要求用小四号字;行距为单倍;页边距左为3㎝、右为2㎝、上为㎝、下为㎝;
4.用阿拉伯数字连续编排页码,页码放在右下角,由正文首页开始编排,封面封底不编入页码;
5.题目:简要、明确,一般不超过20字;
6.中英文摘要和关键词:中文摘要一般不超过300字;关键词为3~8个,另起一行,排在摘要下方,词与词之间以分隔;英文摘要和英文关键词要求与中文摘要和中文关键词一致;摘要和关键字用小四号字;
7.目录:由论文的章节以及附录、参考文献等的序号、题名和页码组成(课程论文不列入);
8.结构层次序数的表示方法:第一层为1,第二层为,第三层为,第四层为,正文中序号用①表示,不分段;
9.附表与插图:附表要有表号、表题;插图要有图号、图题;所有的图表都应具有自明性,即不阅读正文,就可理解图表的意思;
10.致谢:在正文后对单位和个人等表示感谢的文字(课程论文不列入);
11.附录:是正文主体的补充项目,并不是必需的。下列内容可以作为附录:(课程论文不列入) (1)为了整篇材料的完整,插入正文又有损于编排条理性和逻辑性的材料; (2)由于篇幅过大,或取材于复制件不便编入正文的材料; (3)对一般读者并非必须阅读,但对本专业人员有参考价值的资料;
12.参考文献:
(1)参考文献的标注方法:采用顺序编码制,即按照文章正文部分(包括图、表及其说明)引用的先后顺序连续编码;标注的符号为[ ],作为上标,在标点符号前使用;
(2)参考文献的写作格式为:
①参考文献是连续出版物时,其格式为:[序号] 作者.题名.刊名,出版年份,卷号(期号):引文所在的起止页码
②参考文献是专著时,其格式为:[序号] 作者.书名.版本(第1版不标注).出版地:出版者,出版年.引文所在的起止页码
③参考文献是论文集时,其格式为:[序号] 作者.题名.见(英文用In):主编.论文集名.出版地:出版者,出版年.引文所在起止页码
④参考文献是学位论文时,其格式为:[序号] 作者.题名:〔博士、硕士或学士学位论文〕.保存地点:保存单位,年份
⑤参考文献是专利时,其格式为:[序号]专利申请者.题名.专利国别,专利文献种类,专利号.出版日期
参考文献著录中需要注意:
个人作者(包括译者、编者)著录时一律姓在前,名在后,由于各国(或民族)的姓名写法不同,著录时应特别注意课件下载,名可缩写为首字母(大写),但不加编写点。另外,作者(主要责任者)不多于3人时要全部写出,并用,号相隔;3人以上只列出前3人,后加等或相应的文字如et al。等或et al前加,号。
装订格式
1.课程论文一律左边装订成册;
2.装订顺序为:封面、题目、论文摘要与关键词、正文、参考文献。
毕业论文提纲格式范本(通用6篇)
充实的大学生活即将结束,大家都知道毕业生要通过毕业论文,毕业论文是一种有准备的检验学生学习成果的形式,那么毕业论文应该怎么写才合适呢?以下是我精心整理的毕业论文提纲格式范本,希望能够帮助到大家。
(一)确定论文提要,再加进材料,形成全文的概要
论文提要是内容提纲的雏型。一般书、教学参考书都有反映全书内容的提要,以便读者一翻提要就知道书的大概内容。我们写论文也需要先写出论文提要。在执笔前把论文的题目和大标题、小标题列出来,再把选用的材料插进去,就形成了论文内容的提要。
(二)原稿纸页数的分配
写好毕业论文的提要之后,要根据论文的内容考虑篇幅的长短,文章的各个部分,大体上要写多少字。如计划写20页原稿纸(每页300字)的论文,考虑序论用1页,本论用17页,结论用1—2页。本论部分再进行分配,如本论共有四项,可以第一项3—4页,第二项用4—5页,第三项3—4页,第四项6—7页。有这样的分配,便于资料的配备和安排,写作能更有计划。毕业论文的长短一般规定为5000—6000字,因为过短,问题很难讲透,而作为毕业论文也不宜过长,这是一般大专、本科学生的理论基础、实践经验所决定的。
(三)编写提纲
论文提纲可分为简单提纲和详细提纲两种。简单提纲是高度概括的,只提示论文的要点,如何展开则不涉及。这种提纲虽然简单,但由于它是经过深思熟虑构成的,写作时能顺利进行。没有这种准备,边想边写很难顺利地写下去。以《关于培育和完善建筑劳动力市场的思考》为例,简单提纲可以写成下面这样:
一、序论
二、本论
(一)培育建筑劳动力市场的前提条件
(二)目前建筑劳动力市场的基本现状
(三)培育和完善建筑劳动力市场的对策
三、结论
详细提纲,是把论文的主要论点和展开部分较为详细地列出来。如果在写作之前准备了详细提纲,那么,执笔时就能更顺利。下面仍以《关于培育和完善建筑劳动力市场的思考》为例,介绍详细提纲的写法:一、序论
1.提出中心论题;
2,说明写作意图。
二、本论
(一)培育建筑劳动力市场的前提条件
1.市场经济体制的确立,为建筑劳动力市场的产生创造了宏观环境;
2.建筑产品市场的形成,对建筑劳动力市场的培育提出了现实的要求;
3.城乡体制改革的深化,为建筑劳动力市场的形成提供了可靠的保证;
4.建筑劳动力市场的建立,是建筑行业用工特殊性的内在要求。
一、论文题目。论文题目应能概括整个论文最重要的内容,言简意赅,引人注目,一般不宜超过20个字。毕业论文的标题一般分为总标题、副标题、分标题几种。
二、目录。既是论文的提纲,也是论文组成部分的小标题,应标注相应页码。
三、摘要。摘要是全文内容的缩影。在这里,作者以极经济的笔墨,勾画出全文的整体面目;提出主要论点、揭示论文的研究成果、简要叙述全文的框架结构。
四、关键词或主题词。关键词是从论文的题名、提要和正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。每篇论文一般选取3-8个词汇作为关键词,另起一行,排在“摘要”的左下方。主题词是经过规范化的词,在确定主题词时,要对论文进行主题,依照标引和组配规则转换成主题词表中的规范词语。
五、引言(或序言)。内容应包括本研究领域的国内外现状,本论文所要解决的问题及这项研究工作在经济建设、科技进步和社会发展等方面的理论意义与实用价值。
六、正文。正文是论文的主体,正文应包括论点、论据、论证过程和结论。主体部分包括以下内容:a.提出-论点;b.分析问题-论据和论证;c.解决问题-论证与步骤;d.结论。论文结论要求明确、精炼、完整,应阐明自己的创造性成果或新见解,以及在本领域的意义。
七、参考文献和注释。按论文中所引用文献或注释编号的顺序列在论文正文之后,参考文献之前。图表或数据必须注明来源和出处。
参考文献是期刊时,书写格式为:
[编号]、作者、文章题目、期刊名(外文可缩写)、年份、卷号、期数、页码。
参考文献是图书时,书写格式为:
[编号]、作者、书名、出版单位、年份、版次、页码。
八、附录。包括放在正文内过份冗长的公式推导,以备他人阅读方便所需的辅助性数学工具、重复性数据图表、论文使用的符号意义、单位缩写、程序全文及有关说明等。
一、毕业论文格式
一般说来,一篇毕业论文要具备相对固定的格式。这些提到的毕业论文格式仅供参考。学校有具体规定的,则按规定办。这里以文件中规定的毕业论文格式为准。
①论文题目,有的含副标题。题目之下是作者署名,署名之前或下边一行写作者的校、院、系、年级。
②摘要与关键词(或称内容提要),一般为300字左右。位于作者署名之后,正文之前。关键词,结合标题和正文内容一般选取3至5个。
③引论。用O标示,常写作引言、引论、绪论,引言较短时可不标出O.引言类小标题。引论的内容一般是交代选题背景,主要有:课题来源,本课题在国内外的研究进展状况。已有的研究成果,存在的问题。选题的意义,讨论的问题。本文分几部分,从哪些方面进行讨论,以及指导思想、论证方法等,均可根据内容的需要写在引论中。
④正论。正论常分几部分写,分别标示一二三四等,有的加小标题,或以分论点的形式出现,以凸现论述的观点或主要内容。这部分是对研究过程及分析、归纳、概括的表达,体现出分析方法与思路,充分有力的论证。正论还要体现出明确的指导思想。
⑤结论。一般用结语小结余论等标示。也可不标示结语之类的词儿,在正论之后空一行直接写结论或总结。 在毕业论文格式中,结论是对整个研究工作的归纳、综合或概括,也可以提出进一步研究的建议。若是在正论之后,对相关联的问题还想简短论述一下,或是对较为重要的问题再说一些想法,可写成余论。
⑥毕业论文致谢。接上文另起一段。简述自己撰写毕业论文的体会,并对指导老师以及有关人员表示感谢。毕业论文致谢并非形式,也不是走过场,是一个大学生修养的表现。
⑦注释与参考资料。注释专指本文注,即作者对论文有关内容所作的解释,一般用脚注(放在本页末)(属毕业论文格式的非必备项)。参考文献专指引文注,即作者对引用他人作品的有关内容所作的说明,在引文结束处右上角用[1][2]等标示,序号与文末参考文献列表一致。同一著作或文章被多次引用时只著录一次。
⑧附录。收录和论文有直接关系的文字材料、图表、数据、试验结果等。中文方面的毕业论文 格式中作附录的情况似乎不多见(属毕业论文格式的非必备项)。
以上是一篇毕业论文格式要求,是一般撰写毕业论文必需的表达形式,其中除注释和附录可有可无外,其他部分的毕业论文格式是必备的。
2.毕业论文格式的其他要求
①毕业论文的字数要求。一般来说,文学、新闻、历史、哲学等方面的毕业论文在7000字以上,语言方面的论文在6000字左右,也有对函授学员、自考生要求在5000字左右的。我的想法是对字数不去斤斤计较,关键是在毕业论文的内容要有创见。一般说来,达到了内容的要求,相应地也会满足字数的要求。
②表述要求。毕业论文是对自己研究成果的详细表述。要求论理正确、论据确凿、逻辑性强、层次分明,表意准确、鲜明,语言通顺、流畅,用规范汉字,不写错别字。一般情况下应采用计算机打印成文,若手抄则要求书写工整。
③修改要求。论文初稿写好后,全文阅读,前后对照,检查论点论据论证和词句运用,修改好了之后,搁置几天或者一两周,再来挑毛病,经过多次修改、加工、润色,最后在老师指导下定稿。
二、论文写作格式要求解析
1.引言(前言)
是医学论文开篇的一段短文,主要介绍本文的背景、理论依据、论文的范围目的与工作的收获、结果、意义等。可根据论文的需要或长或短。要求言简意赅,点明主题。如我院内科1992年2月至1995年10月应用盐酸纳络酮治疗镇静催眠药急性中毒48例,与同期未用纳络酮治疗的42例对照比较,疗效满意,报告如下。不可言过其实,尤其是诸如国内外罕见,未见报道,无先例,属最新水平之类,必须有充分证据,否则一般不用。
2.临床资料(资料与方法)
是论著的主要内容,包括实验对象、器具、采用什么方法、多少病例(男多少、女多少)、如何分组、诊断手断、依据、治疗方法(用药)、疗效标准、观察及随访时间等等。应说明资料来源的时限、年龄、性别、职业的可比性。在此需要特别提醒注意的是说明疗效或某种方法时需设对照组,条件同等、随机分组、用药或检测采用双盲法对照。共同的是使读者具体了解该研究的具体内容,一方面便于理解和评价,另方面便于验证和仿行。任何科学成果,必须能够在方法同样条件下重复出同样结果,方能得到公认。因此,描述材料和方法以使读者能进行重复为度,过分简略固然不行,过分详尽也无必要。
资料中如数字较多可用统计图表表示。统计表应有表题和序号(一个表不用序号,列为附表)。统计表应按统计学原则制作,表格两端开口,不用纵线,只用一条纵线说明主语与谓语,表格左上角不用斜线。表格内避免繁杂,更不能与正文重复。
3.结果
医学论文的中心部分。即实验研究、临床研究、分析观察、调查的各种资料和数据,进行分析、归纳,经必要的统计学处理后所得的结果。这是决定论著质量是否严谨,数据是否准确可靠,要求高度真实和准确,实事求是的撰写。失败就是失败,成功就是成功,不要人为地夸大成功率,且要消灭统计方面的误差。
4.讨论
即将所得结论或研究结果,从理论上进一步认真分析。科学的推论和评价,证实所得结果的可靠性,阐明具有科学性、先进性的论据,从而取得大家的公认。通常讨论的问题有:阐述该文研究的原理与机制;说明该文材料与方法的特点及其得失;分析该文结果与他人的异同及优缺点;根据该文结果提出新假设、新观点;对各种不同学术观点进行比较和评价;提出今后探索的方向等等。当然,一篇文章通常只讨论其中的某些方面,不可能面面俱到。重要的是,讨论必须紧紧扣住该文的研究结果,突出自己的新发现与新认识。有的医学论文讨论部分只是重复过去的文献,甚至抄袭某些专著和教科书的内容,这就失去了讨论的意义。
讨论的深浅、正确与否,很大程度上取决于掌握文献的多少和分析能力。因此,必须了解本专业的近况及动向,才能比较客观的得出正确的结论。
5.医学论文的参考文献
只限于自己阅读过并引用的文献(必须是公开发行的刊物),按文内引用顺序排列写在文后,文内按顺序在引用处标出右上角码,如在右上角标注[1]或[1-3]或[1,4]最好是着重引用近年的(3-5年)期刊文献。 医学论文参考文献的书写格式多采用温哥华式。
刊物:作者(两位作者可一并列上,中间加逗号;三位作者或以上,可只写第一作者,后加逗号及等),文题列于作者后(有的刊物略去文题),然后顺序列出刊物名称、年份、卷(期):起迄页。
例 杨亚辉.国内外胸心血管外科进展临床医学1995;15(6):36
杨亚辉,等.国内外胸心血管外科进展临床医学1995;15(6):36一38
书籍:依次顺序为作者,书名,版次,出版地:出版社,年份:起页~迄页
例 张学礼主编,怎样撰写医学论文第一版,北京:中国医药科技出版社,
外文资料西文只用姓,不用全称,其它顺序同期刊。
参考文献不宜过多,论著8条、综述20条以内为宜。引用的文献必须具有价值,引用的论点必须准确无误。取其精华,引用部分要恰到好处,宁少勿滥。
一、论文题目
从汤显祖《牡丹亭》中杜丽娘人物形象
——看“发乎情,止乎礼”的时代性
二、论文观点来源
“发乎情,止乎礼”出自《论语》,是古代形容男女关系的。发乎情,即人的情感在男女之间产生。止乎礼,就是受礼节的约束。汤显祖所说的“情”是指包括*爱之欲在内的`人生欲求。可汤显祖在《牡丹亭》中强调真情,至情的时候,他始终指向的仍是社会现实,表现出对现世的热情和对道德的关注,更重视“发乎情,止乎礼”的教育作用。
三、基本观点
《牡丹亭》中杜丽娘能突破自身的心理防线,逾越家庭与社会的层层障碍,勇敢迈过贞节观,为鬼时,以身慰情人;在死而复生之初,能婉言拒绝情人的求欢,“发乎情,止乎礼”。有人认为,这是汤显祖思想的矛盾性,它在突破传统的同时,又在墨守陈规,是一种退步。而我认为“发乎情,止乎礼”符合了那个时代的特征,而在现代,在女性贞操观念淡薄,过度追求个性解放的今天,其伦理道德意义就更为重要了。
四、论文结构
全文共分七节及结论。
第一节《牡丹亭》:介绍汤显祖及其作品《牡丹亭》中的主要人物及内容。
第二节《杜丽娘》:杜丽娘是人们心中至情与纯情的偶像,对于人物的塑造,我认为主要受汤显祖的文学思想和当时人们思想信仰的影响。
第三节《萌芽》:主要论述《牡丹亭》中杜丽娘爱情观的萌芽。她一面悲叹青春的虚度,个人才貌的被埋没;一面又执着于自由、幸福的追求,“一灵咬住”,始终不放。
第四节《冲破》:《牡丹亭》中杜丽娘死了,可是她的死不是生命的结束,而是新的斗争的开始。在摆脱了现实世界的种种约束之后,她果然找到了梦中的书生,主动地向他表示爱情,并以身慰情人,还魂之后还结为夫妇。
第五节《对抗“情,礼”》:杜丽娘与柳梦梅梦中约会,以最明确的方式宣示,爱情以及*爱,首先是年轻女子自身的需要。在超我层面上,她遵从礼教的束缚,在本我层面上,她有强烈的情欲本能。《牡丹亭》复活了*爱女神的形象,表现了*爱女神的抗争。
毕业论文的要求
1、题目:应简洁、明确、有概括性,字数不宜超过20个字。
2、摘要:要有高度的概括力,语言精练、明确,中文摘要约100-200字;
3、关键词:从论文标题或正文中挑选3~5个最能表达主要内容的词作为关键词。
4、目录:写出目录,标明页码。
5、正文:
专科毕业论文正文字数一般应在3000字以上。
毕业论文正文:包括前言、本论、结论三个部分。
前言(引言)是论文的开头部分,主要说明论文写作的目的、现实意义、对所研究问题的认识,并提出论文的中心论点等。前言要写得简明扼要,篇幅不要太长。
本论是毕业论文的主体,包括研究内容与方法、实验材料、实验结果与分析(讨论)等。在本部分要运用各方面的研究方法和实验结果,分析问题,论证观点,尽量反映出自己的科研能力和学术水平。
结论是毕业论文的收尾部分,是围绕本论所作的结束语。其基本的要点就是总结全文,加深题意。
6、谢辞:简述自己通过做毕业论文的体会,并应对指导教师和协助完成论文的有关人员表示谢意。
7、参考文献:在毕业论文末尾要列出在论文中参考过的专著、论文及其他资料,所列参考文献应按文中参考或引证的先后顺序排列。
8、注释:在论文写作过程中,有些问题需要在正文之外加以阐述和说明。
9、附录:对于一些不宜放在正文中,但有参考价值的内容,可编入附录中。
1、标题问题:应简练、明白、有归纳综合性。
2、择要:要有高度的归纳综合力,说话精炼、明白。
3、环节词:从论文成效或者注释中遴选3~5个最能表达次要形式的词作为环节词。
4、目次:写出目次,表示页码。
5、注释:毕业论文注释:包含媒介、本论、结论三个局部。
媒介(引言)是论文的开首局部,次要解释论文写作的手段、理想意义、对于所钻研成绩的看法,并提出论文的中央论点等。数据复原媒介要写得长篇大论,篇幅没有要太长。
本论是毕业论文的主体,包含钻研形式与设施、试验资料、试验成效与剖析(评论辩论)等。正在本局部要使用各方面的钻研设施和试验成效,剖析成绩,论证观念,尽可能反映出本人的科研才能和学术程度。
结论是毕业论文的开头局部,是盘绕本论所作的完毕语。数据复原其基础的要点便是总结全文,加深题意。
6、道谢辞:简述本人经由过程做毕业论文的体味,并应答指点教员和辅佐完成论文的相关职员透露表现谢意。
7、参考文献:正在毕业论文开端要列出正在论文中参考过的专著、论文及其他材料,所列参考文献应按文中参考或者引证的前后递次摆列。
毕业论文概要
毕业论文概要的基础构造由序论、本论、结论三小局部组成。序论、结论这两局部正在概要中部应比拟简单。本论则是全文的重点,是应集合文字写深写透的局部,是以正在概要上也要列得较为具体。数据复原本论局部最少要有两层规范,层层深刻,层层推理,以便表现泛论点和分论点的无机连系,把论点讲深讲透。
1、论文题目:要求准确、简练、醒目、新颖。
2、目录:目录是论文中主要段落的简表。(短篇论文不必列目录)
3、提要:是文章主要内容的摘录,要求短、精、完整。字数少可几十字,多不超过三百字为宜。
4、关键词或主题词:关键词是从论文的题名、提要和正文中选取出来的,是对表述论文的中心内容有实质意义的词汇。关键词是用作机系统标引论文内容特征的词语,便于信息系统汇集,以供读者检索。每篇论文一般选取3-8个词汇作为关键词,另起一行,排在“提要”的左下方。
主题词是经过规范化的词,在确定主题词时,要对论文进行主题,依照标引和组配规则转换成主题词表中的规范词语。
5、论文正文:
(1)引言:引言又称前言、序言和导言,用在论文的开头。引言一般要概括地写出作者意图,说明选题的目的和意义,并指出论文写作的范围。引言要短小精悍、紧扣主题。
〈2)论文正文:正文是论文的主体,正文应包括论点、论据、论证过程和结论。主体部分包括以下内容:
a、提出-论点;
b、分析问题-论据和论证;
c、解决问题-论证与步骤;
d、结论。
6、一篇论文的参考文献是将论文在和写作中可参考或引证的主要文献资料,列于论文的末尾。参考文献应另起一页,标注方式按《gb7714-87文后参考文献著录规则》进行。
中文:标题——作者——出版物信息(版地、版者、版期):作者--标题--出版物信息
所列参考文献的要求是:
(1)所列参考文献应是正式出版物,以便读者考证。
(2)所列举的参考文献要标明序号、著作或文章的标题、作者、出版物信息。
论文提纲也可以用最简单的格式和分类,简单明了地说明论文的目的、依据和意义,甚至是两句话。这种提纲往往是用于科学论文,而且在对于各种概念有相互联系而不是孤立的出来讨论的情况下。如果总要分出1、2、3……点来写的话,往往会变成“八股文”的模式,这样的论文往往是应付式的论文,其真正的科学价值会大打折扣。
毕业论文提纲模板范文
论文提纲是作者构思谋篇的具体体现。便于作者有条理地安排材料、展开论证。有了一个好的提纲,就能纲举目张,提纲挚领,掌握全篇论文的基本骨架,使论文的结构完整统一。以下是我整理的关于毕业论文提纲模板范文,欢迎阅读参考。
题目:主标题 数据结构课程建设
副标题 ---网络教学平台的设计与实现
关键词:网络教学 asp 网络课程
摘要:本文简要介绍了关于网络教学的意义,以及我国网络教学的模式现状,网络教学平台的设计与实现
目录:
摘要-------------------------------------(300字)
引言-------------------------------------(500字)
一、网络教学(xx字)
.网络教学现状-----------------------------
.网络教学与传统教学的比较分析-------------
.网络教学的优势---------------------------
二、网络课程(xx字)
.教育建设资源规范-------------------------
.我国网络课程模式现状与问题的思考---------
三、网络教学平台设计的理论基础(xx字)---------
四、网络教学平台功能描述(1000字)---------------
公告板--课堂学习--答疑教室--概念检索-------
作业部分--试题部分--算法演示--技术文章-----
--课件推荐--课件下载--资源站点--管理部分
五、网络教学平台的设计与实现(xx字)
.课堂学习-------------------------------
.公告板---------------------------------
.概念检索-------------------------------
.技术文章-------------------------------
六、数据库部分的设计与实现(1000字)-------------
七、用户管理权限部分的设计与实现(1000字)-------
八、结论(500字)
1.课题名称:
钢筋混凝土多层、多跨框架软件开发
2.项目研究背景:
所要编写的结构程序是混凝土的框架结构的设计,建筑指各种房屋及其附属的构筑物。建筑结构是在建筑中,由若干构件,即组成结构的单元如梁、板、柱等,连接而构成的能承受作用(或称荷载)的平面或空间体系。
编写算例使用建设部最新出台的《混凝土结构设计规范》gb50010-xx,该规范与原混凝土结构设计规范gbj10-89相比,新增内容约占15%,有重大修订的内容约占35%,保持和基本保持原规范内容的部分约占50%,规范全面总结了原规范发布实施以来的实践经验,借鉴了国外先进标准技术。
3.项目研究意义:
建筑中,结构是为建筑物提供安全可靠、经久耐用、节能节材、满足建筑功能的一个重要组成部分,它与建筑材料、制品、施工的工业化水平密切相关,对发展新技术。新材料,提高机械化、自动化水平有着重要的促进作用。
由于结构计算牵扯的数学公式较多,并且所涉及的规范和标准很零碎。并且计算量非常之大,近年来,随着经济进一步发展,城市人口集中、用地紧张以及商业竞争的激烈化,更加剧了房屋设计的复杂性,许多多高层建筑不断的被建造。这些建筑无论从时间上还是从劳动量上,都客观的需要计算机程序的`辅助设计。这样,结构软件开发就显得尤为重要。
一栋建筑的结构设计是否合理,主要取决于结构体系、结构布置、构件的截面尺寸、材料强度等级以及主要机构构造是否合理。这些问题已经正确解决,结构计算、施工图的绘制、则是另令人辛苦的具体程序设计工作了,因此原来在学校使用的手算方法,将被运用到具体的程序代码中去,精力就不仅集中在怎样利用所学的结构知识来设计出做法,还要想到如何把这些做法用代码来实现,
4.文献研究概况
在不同类型的结构设计中有些内容是一样的,做框架结构设计时关键是要减少漏项、减少差错,计算机也是如此的。
建筑结构设计统一标准(gbj68-84) 该标准是为了合理地统一各类材料的建筑结构设计的基本原则,是制定工业与民用建筑结构荷载规范、钢结构、薄壁型钢结构、混凝土结构、砌体结构、木结构等设计规范以及地基基础和建筑抗震等设计规范应遵守的准则。
结构,以及组成结构的构件和基础;适用于结构的使用阶段,以及结构构件的制作、运输与安装等施工阶段。本标准引进了现代结构可靠性设计理论,采用以概率理论为基础的极限状态设计方法分析确定,即将各种影响结构可靠性的因素都视为随机变量,使设计的概念和方法都建立在统计数学的基础上,并以主要根据统计分析确定的失效概率来度量结构的可靠性,属于“概率设计法”,这是设计思想上的重要演进。这也是当代国际上工程结构设计方法发展的总趋势,而我国在设计规范(或标准)中采用概率极限状态设计法是迄今为止采用最广泛的国家。