物体检测论文汇总

钢结构无损检测摘要：通过对应用于建筑钢结构行业中的几种常规无损检测方法的简述，归纳了被检对象所适用的不同无损检测方法。为广大工程技术人员和管理人员了解、学习、应用无损检测技术提供参考。关键词：建筑钢结构；无损检测 1 前言建筑钢结构由于其强度高、工业化程度高以及综合经济效益好等优点，自上世纪 90 年代，特别是近年来得到了迅猛发展，广泛应用于工业和民用等领域。由于一些重点工程，建筑钢结构发生了严重的质量事故，如郑州中原博览中心网架曾发生了崩塌事故，所以建筑钢结构的安全性和可靠性越来越受到重视。建筑钢结构的安全性和可靠性源于设计，其自身质量则源于原材料、加工制作和现场安装等因素。评价建筑钢结构的安全性和可靠性一般有三种方式：⑴模拟实验；⑵破坏性实验；⑶无损检测。模拟实验是按一定比例模拟建筑钢结构的规格、材质、结构形式等，模拟在其运行环境中的工作状态，测试、评价建筑钢结构的安全性和可靠性。模拟实验能对建筑钢结构的整体性能作出定量评价，但其成本高，周期长，工艺复杂。破坏性实验是采用破坏的方式对抽样试件的性能指标进行测试和观察。破坏性实验具有检测结果精确、直观、误差和争议性比较小等优点，但破坏性实验只适用于抽样，而不能对全部工件进行实验，所以不能得出全面、综合的结论。无损检测则能对原材料和工件进行 100%检测，且经济成本相对较低。上世纪 50 年代初，无损检测技术通过前苏联进入我国。作为工艺过程控制和产品质量控制的手段，如今在核电、航空、航天、船舶、电力、建筑钢结构等行业中得到广泛的应用，创造了巨大的经济效益和社会效益。无损检测技术是建立在众多学科之上的一门新兴的、综合性技术。无损检测技术是以不损伤被检对象的结构完整性和使用性能为前提，应用物理原理和化学现象，借助先进的设备器材，对各种原材料，零部件和结构件进行有效的检验和测试，借以评价它们的完整性、连续性、致密性、安全性、可靠性及某些物理性能。无损检测经历了三个阶段，即无损探伤（Non-destructive Inspection，简称 NDI）、无损检测（Non-destructive testing，简称 NDT）、无损评价（Non-destructive Evaluation，简称 NDE）、无损探伤的含义是探测和发现缺陷。无损检测不仅仅要探测和发现缺陷，而且要发现缺陷的大小、位置、当量、性质和状态。无损评价的含义则更广泛、更深刻，它不仅要求发现缺陷，探测被检对象的结构、性质、状态，还要求获得更全面、更准确的，综合的信息，从而评价被检对象的运行状态和使用寿命。应用于钢结构行业中的常规无损检测方法有磁粉检测（Magnetic Testing 简称 MT）、渗透检测（Penetrate Testing，简称 PT）、涡流检测（Eddy current Testing 简称 ET）、声发射检测（Acoustic Emission Testing 简称 AET）、超声波检测（Ultrasonic Testing，简称 UT）、射线检测（Radiography Testing，简称 RT）。在建筑钢结构行业中，按检测缺陷产生的时机，无损检测方法可以按下图分类。 2 检测方法的简述磁粉检测（MT）原理铁磁性材料被磁化后，产生在被检对象上的磁力线均匀分布。由于不连续性的存在，使工件表面和近表面的磁力线发生了局部畸变而产生了漏磁场，漏磁场吸附施加在被检对象表面的磁粉，形成在合适光照下可见的磁痕,从而达到检测缺陷的目的。适用范围可以对铁磁性原材料，如钢板、钢管、铸钢件等进行检测，也可以对铁磁性结构件进行检测。局限性仅适用铁磁性材料及其合金的表面和近表面的缺陷检测，对检测人员的视力、工作场所、被检对象的规格、形状等有一定的要求。优点经济、方便、效率高、灵敏度高、检测结果直观。渗透检测（PT）原理在被检对象表面施加含有荧光染料或着色染料的渗透液，渗透液在毛细血管的作用下，经过一定时间后，渗透液可以渗透到表面开口的缺陷中去。经过去除被检对象表面多余的渗透液，干燥后，再在被检对象表面施加吸附介质（显象剂）。同样在毛细血管的作用下，显象剂吸附缺陷中的渗透液，使渗透液回渗到显象剂中，在一定的光照下，缺陷中的渗透液被显示。从而达到检测缺陷的目的。适用范围适用于非多孔状固体表面开口缺陷。局限性仅适用于表面开口缺陷的检测，而且对被检对象的表面光洁度要求较高，涂料、铁锈、氧化皮会覆盖表面缺陷而造成漏检。对检测人员的视力有一定要求，成本相对较高。优点设备轻便、操作简单，检测灵敏度高，结果直观、准确。涡流检测（ET）原理金属材料在交变磁场的作用下产生了涡流，根据涡流的分布和大小可以检测出铁磁性材料和非铁磁性材料的缺陷。适用范围适用于各种导电材料的表面和近表面的缺陷检测。局限性不适用不导电材料检测，对形状复杂的试件很难应用，比较适合钢管、钢板等形状规则的轧制型材的检测，而且设备较贵；无法判定缺陷的性质。优点检测速度快，生产效率高，自动化程度高。声发射检测（AET）原理材料或结构件受到内力或外力的作用产生形变或断裂时，以弹性波的形式释放出应变能的现象称为声发射，也称为应力波发射。声发射检测是通过受力时材料内部释放的应力波判断被检对象内部结构损伤程度的一种新兴动态无损检测技术。适用对象适用于被检对象的动态监测，如对大型桥梁、核电设备的实时动态监测。局限性无法监测静态缺陷、干扰检测的因素较多；设备复杂、价格较贵、检测技术不太成熟。优点可以远距离监控设备的运行情况和缺陷的扩展情况，对结构的安全性和可靠性评价提供依据。超声波检测（UT）原理超声波是指频率大于 20 千兆赫兹的机械波。根据波动传播时介质的振动方向相对于波的传播方向不同，可将波动分为纵波、横波、表面波和板波等。用于钢结构检测的主要是纵波和横波。超声波探伤仪激励探头产生的超声波在被检对象的介质中按一定速度传播，当遇到异面介质（如气孔、夹渣）时，一部分超声波反射回来，经仪器处理后，放大进入示波屏，显示缺陷的回波。适用对象适用于各类焊逢、板材、管材、棒材、锻件、铸件以及复合材料的检测，特别适合厚度较大的工件。局限性检测结果可追溯性较差；定性困难，定量不精确，人为因素较多；对被检工件的材质规格，几何形状有一定要求。优点检测成本低、速度快、周期短、效率高；仪器小、操作方便；能对缺陷进行精确定位；对面积型缺陷的检出率较高（如裂纹、未熔合等）射线检测（RT）原理射线是一种波长短、频率高的电磁波。射线检测，常规使用×射线机或放射性同位素作为放射源产生射线，射线穿过被检对象，经过吸收和衰减，由于被检试件中存在厚度差的原因，不同强度的射线到达记录介质（如射线胶片），射线胶片的不同部位吸收了数量不等的光子，经过暗室处理后，底片上便出现了不同黑度的缺陷影象，从而判定缺陷的大小和性质。适用范围适用较薄而不是较厚（如果工件的厚度超过 80mm 就要使用特殊设备进行检测，如加速器）的工件的内部体积型缺陷的检测。局限性检测成本高、周期长，工作效率低；不适用角焊逢、板材、管材、棒材、锻件的检测；对面状的缺陷检出率较低；对缺陷的高度和缺陷在被检对象中的深度较难确定；影响人体健康。优点检测结果直观、定性定量准确；检测结果有记录，可以长期保存，可追溯性较强。 3 小结综上所述，每种无损检测方法的原理和特点各不相同，且适用的检测对象也不一样。在建筑钢结构的行业中应根据结构的整体性能，检测成本及被检对象的规格、材质、缺陷的性质、缺陷产生的位置等诸多因素合理选择无损检测方法。一般地，选择无损检测方法及合格等级，是设计人员依据相关规范而确定的。有的工程，业主也有无损检测方法及合格等级的要求，这就需要供需双方相互协商了。钢结构在加工制作及安装过程中无损检测方法的选择见表 1 被检对象原材料检验板材锻件及棒材管材螺栓焊接检验坡口部位清根部位对接焊逢角焊逢和 T 型焊逢 UT 检测方法 UT、MT（PT） UT（RT）、MT（PT） UT、MT（PT） UT、PT（MT） PT（MT） RT（UT）、MT（PT） UT（RT）、PT（MT）被检对象所适用的无损检测方法见表 2 内部缺陷表面缺陷和近表面检测方法 UT ● ○ ● ● MT ● ● ● ● PT ● ○ ○ ● ET △ △ ● × AET △ △ △ △ 发生中缺陷检测检测方法 RT 被检对象试件分类锻件铸件压延件（管、板、型材）焊逢 × ● × ● 分层疏松气孔内部缩孔缺陷未焊透未熔合缺陷分类夹渣裂纹白点表面裂纹表面缺陷表面气孔折叠断口白点 × × ● ● ● △ ● ○ × △ ○ — × ● ○ ○ ○ ● ● ○ ○ ○ △ × — × — — — — — — — — — ● △ ○ ● — — — — — — — — — ● ● ○ ● — — — — — — — — — ● △ ○ — — — — — △ △ △ △ △ △ — — — 注：●很适用；○适用；△有附加条件适用；×不适用；—不相关参 1. 考文献强天鹏射线检测 [M] 云南科技出版社 2001 2. 3. 4. 5. 周在杞等张俊哲等无损检测技术及其应用 [M] 科学出版社王小雷锅炉压力容器无损检测相关知识 [M] 李家伟等无损检测冉启芳 2001 1993 [M] 机械工业出版社 2002 无损检测方法的分类及其特征的介绍 [J] 无损检测 1999 2 钢网架结构超声波检测及其质量的分 [J] 无损检测 2001 6 磁粉检测（MT）磁粉检测（MT）原理铁磁性材料被磁化后，产生在被检对象上的磁力线均匀分布。由于不连续性的存在，使工件表面和近表面的磁力线发生了局部畸变而产生了漏磁场，漏磁场吸附施加在被检对象表面的磁粉，形成在合适光照下可见的磁痕,从而达到检测缺陷的目的。磁粉探伤的原理及概述磁粉探伤的原理磁粉探伤又称 MT 或者 MPT（Magnetic Particle Testing），适用于钢铁等磁性材料的表面附近进行探伤的检测方法。利用铁受磁石吸引的原理进行检查。在进行磁粉探伤检测时，使被测物收到磁力的作用，将磁粉（磁性微型粉末）散布在其表面。然后，缺陷的部分表面所泄漏出来泄露磁力会将磁粉吸住，形成指示图案。指示图案比实际缺陷要大数十倍，因此很容易便能找出缺陷。磁粉探伤方法磁粉探伤检测的顺序分为前期处理、磁化、磁粉使用、观察，以及后期处理。前期处理→磁化→磁粉使用→观察→后期处理以下分别说明各个步骤的概要。（1）前期处理探探伤面如果有油脂、涂料、锈、或其他异物附着的情况下，不仅会妨碍磁粉吸附在伤痕上，而且还会出现磁粉吸附在伤痕之外的部分形成疑私图像的情况。因此在磁化之前，要采用物理或者化学处理，进行去除污垢异物的步骤。（2）磁化将检测物适当磁化是非常重要的。通常，采用与伤痕方向与磁力线方向垂直的磁化方式。另外为了适当磁化，根据检测物的形状可以采用多种方法。日本工业规格（JIS G 0565-1992）中规定了以下 7 种磁化方法。 ①轴通电法……在检测物轴方向直接通过电流。 ②直角通电法……在检测物垂直于轴的方向直接通过电流。 ③Prod 法……在检测物局部安置 2 个电极（称为 Prod）通过电流。 ④电流贯通法……在检测物的孔穴中穿过的导电体中通过电流。 ⑤线圈法……在检测物中放入线圈，在线圈中通过电流。 ⑥极间法……把检测物或者要检测的部位放入电磁石或永磁石的磁极间。 ⑦磁力线贯通法……对通过检测物的孔穴的强磁性物体施加交流磁力线，使感应电流通过检测物。（3）磁粉使用磁粉探伤的原理 ① 磁粉的种类为了让磁粉吸附在伤痕部的磁极间形成检出图像，使用的磁粉必须容易被伤痕部的微弱磁场磁化，吸附在磁极上，也就是说需要优秀的吸附性能。另外，要求形成的磁粉图像必须有很高的识别性。一般，磁粉探伤中使用的磁粉有在可见光下使用的白色、黑色、红色等不同磁粉，以及利用荧光发光的荧光磁粉。另外，根据磁粉使用的场合，有粉状的干性磁粉以及在水或油中分散使用的湿性磁粉。 ② 磁粉的使用时间磁粉使用时间分为一边通过磁化电流一边使用磁粉的连续法，以及在切断磁化电流的状态即利用检测物的残留磁力的残留法两种。（4）观察为了便于观察附着在伤痕部位的磁粉图像，必须创造容易观察的环境。普通磁粉需要在尽可能明亮的环境下观察，荧光磁粉则要使用紫外线照射灯将周围尽量变暗才容易观察。（5）后期处理磁粉探伤结束，检测物有可能仍作为产品或是需要送往下一个加工步骤接受机械加工等。这时就需要进行退磁、去除磁粉、防锈处理等后期处理。适用范围可以对铁磁性原材料，如钢板、钢管、铸钢件等进行检测，也可以对铁磁性结构件进行检测。局限性仅适用铁磁性材料及其合金的表面和近表面的缺陷检测，对检测人员的视力、工作场所、被检对象的规格、形状等有一定的要求。优点经济、方便、效率高、灵敏度高、检测结果直观。生产厂家：生产厂家：济宁联永超声电子有限公司仪器设备名称：仪器设备名称：CDX-Ⅲ该机型磁粉探伤仪 Ⅲ 仪器概况：CDX-Ⅲ该机型磁粉探伤仪是具有多种磁化方式的磁粉探伤仪设备。仪器采用可控硅作无触点开关，噪音小、寿命长、操作简单、方便、适应性强、工作稳定。是最近推出新产品，它除具有便携式机种的一切优点，还具有移动机种的某些长处，扩展了用途，简化了操作，还具有退磁功能。该设备有四种探头： 1、旋转探头：型）能对各种焊缝、各种几何形状的曲面、平面、（E 管道、锅炉、球罐等压力容器进行一次性全方位显示缺陷和伤痕。 2、电磁轭探头：型）它配有活关节，可以对平面、曲面工件进行（D 探伤。 3、马蹄探头：型）它可以对各种角焊缝，大型工件的内外角进行（A 局部探伤。 4、磁环：型）它能满足所有能放入工件的周向裂纹的探伤，用它（O 来检测工件的疲劳痕（疲劳裂痕均垂于轴向）及为方便，用它还可以对工件进行远离法退磁。总之，该仪器是多种探伤仪的给合体，功能与适用范围广，尤其应用于不允许通电起弧破表面零件的探伤。无损检测概论及新技术应用无损检测概论及新技术应用概论摘要：摘要：综述了无损检测的定义、方法、特点、要求等基本知识，以及无损检测在现今社会中的应用实例，其中包括混凝土超声波无损检测技术、涡流无损检测技术、渗透探伤技术。关键词：关键词：无损检测；混凝土缺陷；涡流检测;渗透探伤。引言：引言：随着现代工业的发展，对产品的质量和结构的安全性、使用的可靠性提出了越来越高的要求，无损检测技术由于具有不破坏试件、检测灵敏度高等优点，所以其应用日益广泛。无损检测是工业发展必不可少的有效工具，在一定程度上反映了一个国家的工业发展水平，其重要性已得到公认。 1、无损检测概论、无损检测检测概论无损检测就是利用声、光、磁和电等特性，在不损害或不影响被检对象使用性能的前提下，检测被检对象中是否存在缺陷或不均匀性，给出缺陷的大小、位置、性质和数量等信息，进而判定被检对象所处技术状态（如合格与否、剩余寿命等）的所有技术手段的总称。常用的无损检测方法有射线照相检验(RT)、超声检测(UT)、磁粉检测(MT)和液体渗透检测(PT) 四种。其他无损检测方法：涡流检测(ET)、声发射检测（AT）、（TIR）泄漏试验、（LT）交流场测量技术、（ACFMT）漏磁检验、（MFL)、热像/红外远场测试检测方法（RFT)等。基于以上方法，无损检测具有一下应用特点： 1>不损坏试件材质、结构无损检测的最大特点就是能在不损坏试件材质、结构的前提下进行检测，所以实施无损检测后，产品的检查率可以达到 100%。但是，并不是所有需要测试的项目和指标都能进行无损检测，无损检测技术也有自身的局限性。某些试验只能采用破坏性试验，因此，在目前无损检测还不能代替破坏性检测。也就是说，对一个工件、材料、机器设备的评价，必须把无损检测的结果与破坏性试验的结果互相对比和配合，才能作出准确的评定。 2>正确选用实施无损检测的时机在无损检测时，必须根据无损检测的目的,正确选择无损检测的时机,从而顺利地完成检测预定目的,正确评价产品质量。 3>正确选用最适当的无损检测方法由于各种检测方法都具有一定的特点，为提高检测结果可靠性，应根据设备材质、制造方法、工作介质、使用条件和失效模式，预计可能产生的缺陷种类、形状、部位和取向，选择合适的无损检测方法。 4>综合应用各种无损检测方法任何一种无损检测方法都不是万能的，每种方法都有自己的优点和缺点。应尽可能多用几种检测方法，互相取长补短，以保障承压设备安全运行。此外在无损检测的应用中，还应充分认识到，检测的目的不是片面追求过高要求的“高质量”，而是应在充分保证安全性和合适风险率的前提下，着重考虑其经济性。只有这样，无损检测在承压设备的应用才能达到预期目的。[1] 通过各种检测方法，最终对于无损检测的要求是：不仅要发现缺陷，探测试件的结构、状态、性质，还要获取更全面、准确和综合的信息，辅以成象技术、自动化技术、计算机数据分析和处理技术等，与材料力学、断裂力学等学科综合应用，以期对试件和产品的质量和性能作出全面、准确的评价。 2、无损检测在各领域的应用、无损检测基于以上优点,在现今社会受到广泛关注和应用,为实际生产工作减少了废料成本,提供了极大的方便。其中超声波检测技术、涡流检测、渗透探伤技术、霍尔效应无损探伤技术应用极为出色。混凝土超声无损检测混凝土是我国建筑结构工程最为重要的材料之一，它的质量直接关系到结构的安全。多年来，结构混凝土质量的传统检测方法是以按规定的取样方法，制作立方体试件，在规定的温度环境下，养护 28d 时按标准实验方法测得的试件抗压强度来评定结构构件的混凝土强度。用试件实验测得的混凝土性能指标，往往是与结构物中的混凝土性能有一定差别。因此，直接在结构物上检测混凝土质量的现场检测技术，已成为混凝土质量管理的重要手段。所谓混凝土“无损检测”技术，就是要在不破坏结构构件的情况下，利用测试仪器获取有关混凝土质量等受力功能的物理量。因该物理量与混凝土质量之间有较好的相互关系，可采用获取的物理量去推定混凝土质量。[2] 混凝土超声检测是用超声波探头中的压电陶瓷或其他类型的压电晶体加载某频率的交流电压后激发出固定频率的弹性波，在材料或结构内部传播后再由超声波换能器接收，通过对采集的超声波信号的声速、振幅、频率以及波形等声学参数进行分析，以此推断混凝土结构的力学特性、内部结构及其组成情况。超声波检测可用于混凝土结构的测厚、探伤、混凝土的弹性模量测定以及混凝土力学强度评定等方面. [3] 涡流无损检测涡流检测的基本原理：将通有交流电的线圈置于待测的金属板上或套在待测的金属管外。这时线圈内及其附近将产生交变磁场，使试件中产生呈旋涡状的感应交变电流，称为涡流。涡流的分布和大小，除与线圈的形状和尺寸、交流电流的大小和频率等有关外，还取决于试件的电导率、磁导率、形状和尺寸、与线圈的距离以及表面有无裂纹缺陷等。因而，在保持其他因素相对不变的条件下，用一探测线圈测量涡流所引起的磁场变化，可推知试件中涡流的大小和相位变化，进而获得有关电导率、缺陷、材质状况和其他物理量(如形状、尺寸等)的变化或缺陷存在等信息。但由于涡流是交变电流，具有集肤效应，所检测到的信息仅能反映试件表面或近表面处的情况。[4] 应用：按试件的形状和检测目的的不同，可采用不同形式的线圈,通常有穿过式、探头式和插入式线圈 3 种。穿过式线圈用来检测管材、棒材和线材，它的内径略大于被检物件，使用时使被检物体以一定的速度在线圈内通过，可发现裂纹、夹杂、凹坑等缺陷。探头式线圈适用于对试件进行局部探测。应用时线圈置于金属板、管或其他零件上，可检查飞机起落撑杆内筒上和涡轮发动机叶片上的疲劳裂纹等。插入式线圈也称内部探头，放在管子或零件的孔内用来作内壁检测，可用于检查各种管道内壁的腐蚀程度等。为了提高检测灵敏度，探头式和插入式线圈大多装有磁芯。涡流法主要用于生产线上的金属管、棒、线的快速检测以及大批量零件如轴承钢球、汽门等的探伤（这时除涡流仪器外尚须配备自动装卸和传送的机械装置）、材质分选和硬度测量，也可用来测量镀层和涂膜的厚度。[5] 优缺点：涡流检测时线圈不需与被测物直接接触，可进行高速检测,易于实现自动化,但不适用于形状复杂的零件,而且只能检测导电材料的表面和近表面缺陷, 检测结果也易于受到材料本身及其他因素的干扰。渗透探伤技术液体渗透检测的基本原理：零件表面被施涂含有荧光染料或着色染料的渗透剂后，在毛细管作用下，经过一段时间，渗透液可以渗透进表面开口缺陷中；经去除零件表面多余的渗透液后，再在零件表面施涂显像剂，同样，在毛细管的作用下，显像剂将吸引缺陷中保留的渗透液，渗透液回渗到显像剂中，在一定的光源下（紫外线光或白光）缺陷处的渗透液痕迹被现实，黄绿色荧光或鲜艳红色），（，从而探测出缺陷的形貌及分布状态。[6] 渗透检测适用于具有非吸收的光洁表面的金属、非金属，特别是无法采用磁性检测的材料，例如铝合金、镁合金、钛合金、铜合金、奥氏体钢等的制品，可检验锻件、铸件、焊缝、陶瓷、玻璃、塑料以及机械零件等的表面开口型缺陷。渗透检测的优点是灵敏度较高（已能达到检测开口宽度达的裂缝），检测成本低，使用设备与材料简单，操作轻便简易，显示结果直观并可进一步作直观验证（例如使用放大镜或显微镜观察），其结果也容易判断和解释，检测效率较高。缺点是受试件表面状态影响很大并只能适用于检查表面开口型缺陷，如果缺陷中填塞有较多杂质时将影响其检出的灵敏度。[7] 3、结语、随着现代科学技术的发展，激光、红外、微波、液晶等技术都被应用于无损检测领域，而传统的常规无损检测技术也因为现代科技的发展，大大丰富了应用方法，如射线照相就可细分为 X 射线、γ射线、中子射线、高能 X 射线、射线实时照相、层析照相……等多种方法。无损检测作为一种综合性应用技术，无损检测技术经历了从无损探伤，到无损检测，再到无损评价，并且向自动无损评价、定量无损评价发展。相信在不远的将来，新生的纳米材料、微机电器件等行业的无损检测技术将会得到迅速发展。参考文献【1】李喜孟.无损检测.机械工业出版社.2011 】【2】父新漩. 混凝土无损检测手册.人民交通出版社.2003 】【 3】冯子蒙.超声波无损检测于评价的关键技术问题及其解决方案.煤矿机】械.2009(9) 【4】唐继强.无损检测实验.机械工业出版社.2011 】【5】李丽茹.表面检测.机械工业出版社.2009 】【6】国防科技工业无损检测人员资格鉴定与认证培训教材编审委员会.机械工业出版社.2004 【7】胡学知主编. 中国劳动社会保障出版社.2007 】

对于目标检测方向并不是特别熟悉，本文记录一下RCNN, fast-RCNN, faster-RCNN, mask-RCNN这4篇有关目标检测的论文笔记和学习心得。

R-CNN的意思就是Region based，主要思路就是根据一张图像，提取多个region，再将每个Region输入CNN来进行特征的提取。因此RCNN就可以分为 Region proposals , Feature extraction 两个主要部分，提取的特征就可以输入任意一个分类器来进行分类。模型的流程图如下：

在训练的时候，首先使用的是已经训练好的CNN网络作为特征提取器，但是由于预训练是在分类数据集上，因此在应用到检测之前要做finetune。也就是说，为了将用ImageNet数据集训练的网络应用到新的任务（检测），新的数据集（region）上，作者将原来的CNN最后的1000类的fc层，更改为了层，代表待检测的物体的类别数。然后，对于所有的region，如果它和ground truth的重叠率大于，就认为是正类。对于分类器的训练，作者发现选择多大的IoU来区分正类和负类非常关键。并且，对于每一类，都会训练一个分类器。

框的回归非常重要，在对每一个region proposal使用分类器进行打分评价之后，作者使用一个回归器来预测一个新的框作为结果。这个回归器使用的特征是从CNN中提取的特征。回归器的训练中，输入是 region proposal 的和ground truth的，目标是学习一种变换，使得region proposal通过该变换能够接近ground truth。同时，希望这种变换拥有尺度不变性，也就是说尺度变化的话，变换不会改变。如下图所示，每一个regressor会学习一组参数，特征输入是pool 5的特征输出，拟合的目标是。

Fast-RCNN 主要解决的问题是在RCNN中对于每一个region proposal都进行特征提取，会产生非常多的冗余计算，因此可以先对一张图像进行特征提取，再根据region proposal在相应的特征上进行划分得到对应region的特征（映射关系）。这样便可以实现共享计算提高速度，但是与SPPnets不同，SPPnets在一副图像得到对应的特征后，从这张图像的特征上proposal对应的部分，采用空间金字塔池化，如下图：

RoI pooling的方法很简单，类似于空间金字塔pooling，它将proposal部分对应卷积层输出的特征（称之为RoI，因为用于做pooling的特征是 region of interest，也就是我们感兴趣的区域）划分成块，然后对每一块求最大值，最终得到了一个的特征图。可以看出，它只是空间金字塔pooling的一部分。但是SPP-nets的空间金字塔也是可以求导的，那么它到底不好在哪里呢？因为当每一个RoI都可能来源于不同的图像的时候（R-CNN和SPPnets的训练策略是从一个batch的不同图像中，分别挑选一个proposal region），SPPNets的训练非常地低效，这种低效来源于在SPPnets的训练中，每个RoI的感受野都非常地大，很可能对应了原图的整个图像，因此，得到的特征也几乎对应了整张图像，所以输入的图像也就很大。为了提高效率，Fast-RCNN首先选取个图像，再从每个图像上选择个RoI，这样的效率就比从每个图像提取一个RoI提高了倍。

为了将分类和框回归结合起来，作者采用了多任务的loss，来进行联合的训练。具体来说就是将分类的loss和框回归的loss结合起来。网络的设计上非常直接，就是将RoI得到的特征接几个FC层后，分别接不同的输出层。对应于分类部分，特征会接一个softmax输出，用于分类，对于框回归部分，会接一个输出4维特征的输出层，然后分别计算loss，用于反向传播。loss的公式如下：

回归的target可以参考前面的R-CNN部分。

notes

为什么比fast还fast呢？主要原因是在这篇论文中提出了一个新的层：RPN（region proposal networks）用于替代之前的selective search。这个层还可以在GPU上运算来提高速度。 RPN的目的：

为了能够进行region proposal，作者使用了一个小的网络，在基础的卷积层输出的特征上进行滑动，这个网络输入大小为，输入后会映射（用的卷积）为一个固定长度的特征向量，然后接两个并联的fc层（用的卷积层代替），这两个fc层，一个为box-regressoin，一个为box-classification。如下图：

在每一个滑动窗口（可以参考），为了考虑到尽可能多的框的情况，作者设计了anchors来作为region proposal。anchors就是对于每一个滑动窗口的中心位置，在该位置对应的原图位置的基础上，按照不同的尺度，长宽比例框出个不同的区域。然后根据这些anchors对应的原始图像位置以及区域，和ground truth，就可以给每一个滑动窗口的每一个anchor进行标记，也就是赋予label，满足一定条件标记为正类（比如和ground truth重叠大于一个值），一定条件为负类。对于正类，就可以根据ground truth和该anchor对应的原图的区域之间的变换关系（参考前面的R-CNN的框回归），得到回归器中的目标，用于训练。也就是论文中的loss function部分：

自然地，也就要求RPN的两个并联的FC层一个输出2k个值用于表示这k个anchor对应的区域的正类，负类的概率，另一个输出4k个值，用于表示框回归的变换的预测值。

对于整个网络的训练，作者采用了一种叫做 4-step Alternating Training 的方法。具体可以参考论文。

与之前的检测任务稍有不同，mask r-cnn的任务是做instance segmentation。因此，它需要对每一个像素点进行分类。与Faster R-CNN不同，Faster R-CNN对每一个候选框产生两个输出，一个是类别，一个是bounding box的offset。Mask R-CNN新增加了一个输出，作为物体的mask。这个mask类似于ps中的蒙版。

与Faster R-CNN类似的是，Mask R-CNN同样采用RPN来进行Region Proposal。但是在之后，对于每一个RoI，mask r-cnn还输出了一个二值化的mask。

不像类别，框回归，输出都可以是一个向量，mask必须保持一定的空间信息。因此，作者采用FCN来从每个RoI中预测一个的mask。

由于属于像素级别的预测问题，就需要RoI能够在进行特征提取的时候保持住空间信息，至少在像素级别上能够对应起来。因此，传统的取最大值的方法就显得不合适。 RoI Pooling，经历了两个量化的过程：第一个：从roi proposal到feature map的映射过程。第二个：从feature map划分成7*7的bin，每个bin使用max pooling。

为此，作者使用了RoIAlign。如下图

为了避免上面提到的量化过程

可以参考

作者使用ResNet作为基础的特征提取的网络。对于预测类别，回归框，mask的网络使用如下图结构：

整体看完这几篇大佬的论文，虽说没有弄清楚每一个实现细节，但是大体上了解了算法的思路。可以看出，出发点都源于深度神经网络在特征提取上的卓越能力，因此一众大神试图将这种能力应用在检测问题中。从R-CNN中简单地用于特征提取，到为了提高速度减少计算的Fast R-CNN，再到为了将region proposal集成进入整个模型中，并且利用GPU加速的RPN，也就是Faster R-CNN。再到为了应用于instance segmentation任务中，设计的RoIAlign和mask。包括bounding box regression，pooling层的设计，训练方法的选择，loss的设计等等细节，无一不体现了大师们的思考和创造力。可能在我们这些“拿来”者的眼中，这些方法都显得“理所应当”和巧妙，好用，但是，它们背后隐藏的选择和这些选择的思考却更值得我们学习。以及，对待每一个问题，如何设计出合理的解决方案，以及方案的效率，通用性，更是应该我们努力的方向。

2019目标检测论文汇总

原文： Scalable Object Detection using Deep Neural Networks——学术范最近，深度卷积神经网络在许多图像识别基准上取得了最先进的性能，包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络，它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文，但如果不天真地复制每个实例的输出数量，就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型，它预测了一组与类无关的边界框，每个框有一个分数，对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例，并允许在网络的最高级别上进行跨类泛化。目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器，并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中，以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加，这个挑战变得更加困难，因为大多数方法都训练每个类单独的检测器。为了解决这个问题，人们提出了多种方法，从检测器级联到使用分割提出少量的对象假设。关于对象检测的文献非常多，在本节中，我们将重点讨论利用类不可知思想和解决可伸缩性的方法。许多提出的检测方法都是基于基于部件的模型，最近由于有区别学习和精心设计的特征，已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板，这是非常昂贵的。此外，它们在类的数量上是可伸缩的，这对像ImageNet这样的现代数据集来说是一个挑战。为了解决前一个问题，Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题，Song et al.使用了一个低维部件基，在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。另一种不同的工作，与我们的工作更接近，是基于对象可以本地化的想法，而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机，Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分，并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型，分割作为第一层，分割分类作为后续层。尽管它们编码了已证明的感知原理，但我们将表明，有更深入的模型，充分学习可以导致更好的结果。最后，我们利用了DeepLearning的最新进展，最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而，基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能，但由于单个掩模回归的成本，不能扩展到多个类。我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说，我们使用了深度神经网络(DNN)，它输出固定数量的包围盒。此外，它为每个盒子输出一个分数，表示这个盒子包含一个对象的网络信任度。为了形式化上述思想，我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值，可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸，以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的，后面跟着一个sigmoid。我们可以组合边界盒位置sli,i∈{1，…K}为一个线性层。同样，我们可以将所有置信区间ci,i∈{1，…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层在推理时，我们的算法生成kbound盒。在我们的实验中，我们使用ek = 100和K= 200。如果需要，我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此，它们可以通过后续的分类器进行分类，实现目标检测。由于盒子的数量非常少，我们可以提供强大的分类器。在我们的实验中，我们使用另一个dnn进行分类。我们训练一个DNN来预测每个训练图像的边界框及其置信度得分，以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子，对象被标记为boundingboxesgj,j∈{1，…，M}。在实践中，pre- dictionary的数量远远大于groundtruthboxm的数量。因此，我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置，以提高他们的匹配度，最大化他们的信心。与此同时，我们将剩余预测的置信度最小化，这被认为不能很好地定位真实对象。为了达到上述目的，我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1，如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为其中，我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外，我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为最终的损失目标结合了匹配损失和信心损失受式1的约束。α平衡了不同损失条款的贡献。对于每个训练例子，我们通过解决一个最佳的赋值x*的预测到真实的盒子约束执行赋值解决方案。这是二部匹配的一种变体，是一种多项式复杂度匹配。在我们的应用程序中，匹配是非常便宜的——每幅图像中标记的对象的数量少于一打，而且在大多数情况下只有很少的对象被标记。然后，通过反向传播优化网络参数。例如，反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的，但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类，并找到这样的聚类/质心，我们可以使用这些聚类/质心作为每个预测位置的先验。因此，鼓励学习算法为每个预测位置学习一个残差到一个先验。第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配，而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成，就会像之前一样计算目标的置信度。此外，位置预测损失也不变:对于任何一对匹配的(目标，预测)位置，其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配，并假设它促进了预测的多样化。需要注意的是，尽管我们以一种与类无关的方式定义了我们的方法，但我们可以将它应用于预测特定类的对象盒。要做到这一点，我们只需要在类的边框上训练我们的模型。此外，我们可以预测每个类的kbox。不幸的是，这个模型的参数数量会随着类的数量线性增长。此外，在一个典型的设置中，给定类的对象数量相对较少，这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此，我们认为我们的两步过程——首先本地化，然后识别——是一个更好的选择，因为它允许使用少量参数利用同一图像中多个对象类型的数据我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减，128的小批量，以及使用多个相同的网络副本进行并行分布式训练，从而实现更快的收敛。如前所述，我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外，使用非最大抑制对盒进行修剪，Jaccard相似度阈值为。然后，我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络，我们从训练集中生成了大约3000万幅图像，并对训练集中的每幅图像应用以下步骤。最后，样品被打乱。为了训练我们的本地化网络，我们通过对训练集中的每一幅图像应用以下步骤，从训练集中生成了大约3000万幅图像。对于每幅图像，我们生成相同数量的平方样本，使样本总数大约为1000万。对于每幅图像，样本被桶状填充，这样，对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例，都有相同数量的样本，其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中，我们没有探索任何非标准数据生成或正则化选项。在所有的实验中，所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成，其中包含了20种不同的对象类别的边界框。在我们的评估中，我们关注的是2007版VOC，为此发布了一个测试集。我们通过培训VOC 2012展示了结果，其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。我们在一个由1000万作物组成的数据集上训练分类器，该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。在第一轮中，定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络，我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后，保留评分最高的前10个检测项，并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估，并用于计算精确查全曲线。首先，我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量，正如Pascal检测标准所定义的那样，与生成的包围框的数量相对比。在图1中，我们展示了使用VOC2012进行训练所获得的结果。此外，我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的，当使用10个边界框的预算时，我们可以用第一个模型本地化的对象，用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能，例如对象度算法达到42%[1]。此外，这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象，但当使用更高分辨率的图像作物时，我们获得了额外的提升。进一步，我们用21-way分类器对生成的包围盒进行分类，如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是，与先进水平相当。注意，我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是，可视化检测是通过仅使用最大中心方形图像裁剪，即使用全图像获得的。然而，我们设法获得了相对较小的对象，例如第二行和第二列的船，以及第三行和第三列的羊。在本工作中，我们提出了一种新的方法来定位图像中的对象，该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下，对1000个盒子进行非max-suppression，使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则，并学习在未见图像中预测这些位置。我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果，在这两个基准上，所提出的方法具有竞争力。此外，该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明，deepmultibox的方法是可扩展的，甚至可以在两个数据集之间泛化，就能够预测感兴趣的定位，甚至对于它没有训练的类别。此外，它能够捕获同一类物体的多种情况，这是旨在更好地理解图像的算法的一个重要特征。在未来，我们希望能够将定位和识别路径折叠到一个单一的网络中，这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下，双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估，每个评估的速度大约为1个CPU-sec(现代机器)。重要的是，这个数字并不与要识别的类的数量成线性关系，这使得所提出的方法与类似dpm的方法非常有竞争力。