物体识别与检测论文

这两天在公司做PM实习，主要是自学一些CV的知识，以了解产品在解决一些在图像识别、图像搜索方面的问题，学习的主要方式是在知网检索了篇国内近3年计算机视觉和物体识别的硕博士论文。由于时间关系，后面还会继续更新图片相似度计算（以图搜图）等方面的学习成果将这两天的学习成果在这里总结一下。你将会看到计算机视觉在解决特定物体识别问题（主要是卷积神经网络CNNs）的基础过程和原理，但这里不会深入到技术的实现层面。

计算机视觉（Computer vision）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图像处理，用计算机处理成为更适合人眼观察或传送给仪器检测的图像。 ————维基百科通常而言，计算机视觉的研究包括三个层次：（1）底层特征的研究：这一层次的研究主要聚焦如何高效提取出图像对象具有判别性能的特征，具体的研究内容通常包括：物体识别、字符识别等（2）中层语义特征的研究：该层次的研究在于在识别出对象的基础上，对其位置、边缘等信息能够准确区分。现在比较热门的：图像分割；语义分割；场景标注等，都属于该领域的范畴（3）高层语义理解：这一层次建立在前两层的基础上，其核心在于“理解”一词。目标在于对复杂图像中的各个对象完成语义级别的理解。这一层次的研究常常应用于：场景识别、图像摘要生成及图像语义回答等。而我研究的问题主要隶属于底层特征和中层语义特征研究中的物体识别和场景标注问题。

人类的视觉工作模式是这样的：首先，我们大脑中的神经元接收到大量的信息微粒，但我们的大脑还并不能处理它们。于是接着神经元与神经元之间交互将大量的微粒信息整合成一条又一条的线。接着，无数条线又整合成一个个轮廓。最后多个轮廓累加终于聚合我们现在眼前看到的样子。计算机科学受到神经科学的启发，也采用了类似的工作方式。具体而言，图像识别问题一般都遵循下面几个流程

（1）获取底层信息。获取充分且清洁的高质量数据往往是图像识别工作能否成功的关键所在（2）数据预处理工作，在图像识别领域主要包括四个方面的技术：去噪处理（提升信噪比）、图像增强和图像修复（主要针对不够清晰或有破损缺失的图像）；归一化处理（一方面是为了减少开销、提高算法的性能，另一方面则是为了能成功使用深度学习等算法，这类算法必须使用归一化数据）。（3）特征提取，这一点是该领域的核心，也是本文的核心。图像识别的基础是能够提取出足够高质量，能体现图像独特性和区分度的特征。过去在10年代之前我们主要还是更多的使用传统的人工特征提取方法，如PCA\LCA等来提取一些人工设计的特征，主要的方法有（HOG、LBP以及十分著名的SIFT算法）。但是这些方法普遍存在（a）一般基于图像的一些提层特征信息（如色彩、纹理等）难以表达复杂的图像高层语义，故泛化能力普遍比较弱。（b）这些方法一般都针对特定领域的特定应用设计，泛化能力和迁移的能力大多比较弱。另外一种思路是使用BP方法，但是毕竟BP方法是一个全连接的神经网络。这以为这我们非常容易发生过拟合问题（每个元素都要负责底层的所有参数），另外也不能根据样本对训练过程进行优化，实在是费时又费力。因此，一些研究者开始尝试把诸如神经网络、深度学习等方法运用到特征提取的过程中，以十几年前深度学习方法在业界最重要的比赛ImageNet中第一次战胜了SIFT算法为分界线，由于其使用权重共享和特征降采样，充分利用了数据的特征。几乎每次比赛的冠军和主流都被深度学习算法及其各自改进型所占领。其中，目前使用较多又最为主流的是CNN算法，在第四部分主要也研究CNN方法的机理。

上图是一个简易的神经网络，只有一层隐含层，而且是全连接的（如图，上一层的每个节点都要对下一层的每个节点负责。）具体神经元与神经元的作用过程可见下图。

在诸多传统的神经网络中，BP算法可能是性能最好、应用最广泛的算法之一了。其核心思想是：导入训练样本、计算期望值和实际值之间的差值，不断地调整权重，使得误差减少的规定值的范围内。其具体过程如下图：

一般来说，机器学习又分成浅层学习和深度学习。传统的机器学习算法，如SVM、贝叶斯、神经网络等都属于浅层模型，其特点是只有一个隐含层。逻辑简单易懂、但是其存在理论上缺乏深度、训练时间较长、参数很大程度上依赖经验和运气等问题。如果是有多个隐含层的多层神经网络（一般定义为大于5层），那么我们将把这个模型称为深度学习，其往往也和分层训练配套使用。这也是目前AI最火的领域之一了。如果是浅层模型的问题在于对一个复杂函数的表示能力不够，特别是在复杂问题分类情况上容易出现分类不足的弊端，深度网络的优势则在于其多层的架构可以分层表示逻辑，这样就可以用简单的方法表示出复杂的问题，一个简单的例子是：如果我们想计算sin(cos(log(exp(x))))，那么深度学习则可分层表示为exp(x)—>log(x)—>cos(x)—>sin(x)

图像识别问题是物体识别的一个子问题，其鲁棒性往往是解决该类问题一个非常重要的指标，该指标是指分类结果对于传入数据中的一些转化和扭曲具有保持不变的特性。这些转化和扭曲具体主要包括了：（1）噪音（2）尺度变化（3）旋转（4）光线变化（5）位移

该部分具体的内容，想要快速理解原理的话推荐看[知乎相关文章] ( )，特别是其中有些高赞回答中都有很多动图和动画，非常有助于理解。但核心而言，CNN的核心优势在于共享权重以及感受野，减少了网络的参数，实现了更快的训练速度和同样预测结果下更少的训练样本，而且相对于人工方法，一般使用深度学习实现的CNN算法使用无监督学习，其也不需要手工提取特征。

CNN算法的过程给我的感觉，个人很像一个“擦玻璃”的过程。其技术主要包括了三个特性：局部感知、权重共享和池化。

CNN中的神经元主要分成了两种：（a）用于特征提取的S元，它们一起组成了卷积层，用于对于图片中的每一个特征首先局部感知。其又包含很关键的阈值参数（控制输出对输入的反映敏感度）和感受野参数（决定了从输入层中提取多大的空间进行输入，可以简单理解为擦玻璃的抹布有多大）（b）抗形变的C元，它们一起组成了池化层，也被称为欠采样或下采样。主要用于特征降维，压缩数据和参数的数量，减小过拟合，同时提高模型的容错性。（c*）激活函数，及卷积层输出的结果要经过一次激励函数才会映射到池化层中，主要的激活函数有Sigmoid函数、Tanh函数、ReLU、Leaky ReLU、ELU、Maxout等。

也许你会抱有疑问，CNN算法和传统的BP算法等究竟有什么区别呢。这就会引出区域感受野的概念。在前面我们提到，一个全连接中，较高一层的每个神经元要对低层的每一个神经元负责，从而导致了过拟合和维度灾难的问题。但是有了区域感受野和，每个神经元只需要记录一个小区域，而高层会把这些信息综合起来，从而解决了全连接的问题。

了解区域感受野后，你也许会想，区域感受野的底层神经元具体是怎么聚合信息映射到上一层的神经元呢，这就要提到重要的卷积核的概念。这个过程非常像上面曾提到的“神经元与神经元的联系”一图，下面给大家一个很直观的理解。

上面的这个过程就被称为一个卷积核。在实际应用中，单特征不足以被系统学习分类，因此我们往往会使用多个滤波器，每个滤波器对应1个卷积核，也对应了一个不同的特征。比如：我们现在有一个人脸识别应用，我们使用一个卷积核提取出眼睛的特征，然后使用另一个卷积核提取出鼻子的特征，再用一个卷积核提取出嘴巴的特征，最后高层把这些信息聚合起来，就形成了分辨一个人与另一个人不同的判断特征。

现在我们已经有了区域感受野，也已经了解了卷积核的概念。但你会发现在实际应用中还是有问题：给一个100 100的参数空间，假设我们的感受野大小是10 10，那么一共有squar（1000-10+1）个，即10的六次方个感受野。每个感受野中就有100个参数特征，及时每个感受野只对应一个卷积核，那么空间内也会有10的八次方个次数，，更何况我们常常使用很多个卷积核。巨大的参数要求我们还需要进一步减少权重参数，这就引出了权重共享的概念。用一句话概括就是，对同一个特征图，每个感受野的卷积核是一样的，如这样操作后上例只需要100个参数。

池化是CNN技术的最后一个特性，其基本思想是：一块区域有用的图像特征，在另一块相似的区域中很可能仍然有用。即我们通过卷积得到了大量的边缘EDGE数据，但往往相邻的边缘具有相似的特性，就好像我们已经得到了一个强边缘，再拥有大量相似的次边缘特征其实是没有太大增量价值的，因为这样会使得系统里充斥大量冗余信息消耗计算资源。具体而言，池化层把语义上相似的特征合并起来，通过池化操作减少卷积层输出的特征向量，减少了参数，缓解了过拟合问题。常见的池化操作主要包括3种：分别是最大值池化（保留了图像的纹理特征）、均值池化（保留了图像的整体特征）和随机值池化。该技术的弊端是容易过快减小数据尺寸，目前趋势是用其他方法代替池化的作用,比如胶囊网络推荐采用动态路由来代替传统池化方法，原因是池化会带来一定程度上表征的位移不变性，传统观点认为这是一个优势，但是胶囊网络的作者Hinton et al.认为图像中位置信息是应该保留的有价值信息，利用特别的聚类评分算法和动态路由的方式可以学习到更高级且灵活的表征，有望冲破目前卷积网络构架的瓶颈。

CNN总体来说是一种结构，其包含了多种网络模型结构，数目繁多的的网络模型结构决定了数据拟合能力和泛化能力的差异。其中的复杂性对用户的技术能力有较高的要求。此外，CNN仍然没有很好的解决过拟合问题和计算速度较慢的问题。

该部分的核心参考文献：《深度学习在图像识别中的应用研究综述》郑远攀,李广阳,李晔.[J].计算机工程与应用,2019,55(12):20-36. 深度学习技术在计算机图像识别方面的领域应用研究是目前以及可预见的未来的主流趋势，在这里首先对深度学习的基本概念作一简介，其次对深度学习常用的结构模型进行概述说明，主要简述了深度信念网络（DBN）、卷积神经网络（CNN）、循环神经网络（RNN）、生成式对抗网络（GAN）、胶囊网络（CapsNet）以及对各个深度模型的改进模型做一对比分析。

深度学习按照学习架构可分为生成架构、判别架构及混合架构。其生成架构模型主要包括：受限波尔兹曼机、自编码器、深层信念网络等。判别架构模型主要包括：深层前馈网络、卷积神经网络等。混合架构模型则是这两种架构的集合。深度学习按数据是否具有标签可分为非监督学习与监督学习。非监督学习方法主要包括：受限玻尔兹曼机、自动编码器、深层信念网络、深层玻尔兹曼机等。监督学习方法主要包括：深层感知器、深层前馈网络、卷积神经网络、深层堆叠网络、循环神经网络等。大量实验研究表明，监督学习与非监督学习之间无明确的界限，如：深度信念网络在训练过程中既用到监督学习方法又涉及非监督学习方法。

[1]周彬. 多视图视觉检测关键技术及其应用研究[D].浙江大学,2019. [2]郑远攀,李广阳,李晔.深度学习在图像识别中的应用研究综述[J].计算机工程与应用,2019,55(12):20-36. [3]逄淑超. 深度学习在计算机视觉领域的若干关键技术研究[D].吉林大学,2017. [4]段萌. 基于卷积神经网络的图像识别方法研究[D].郑州大学,2017. [5]李彦冬. 基于卷积神经网络的计算机视觉关键技术研究[D].电子科技大学,2017. [6]李卫. 深度学习在图像识别中的研究及应用[D].武汉理工大学,2014. [7]许可. 卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012. [8]CSDN、知乎、机器之心、维基百科

钢结构无损检测摘要：通过对应用于建筑钢结构行业中的几种常规无损检测方法的简述，归纳了被检对象所适用的不同无损检测方法。为广大工程技术人员和管理人员了解、学习、应用无损检测技术提供参考。关键词：建筑钢结构；无损检测 1 前言建筑钢结构由于其强度高、工业化程度高以及综合经济效益好等优点，自上世纪 90 年代，特别是近年来得到了迅猛发展，广泛应用于工业和民用等领域。由于一些重点工程，建筑钢结构发生了严重的质量事故，如郑州中原博览中心网架曾发生了崩塌事故，所以建筑钢结构的安全性和可靠性越来越受到重视。建筑钢结构的安全性和可靠性源于设计，其自身质量则源于原材料、加工制作和现场安装等因素。评价建筑钢结构的安全性和可靠性一般有三种方式：⑴模拟实验；⑵破坏性实验；⑶无损检测。模拟实验是按一定比例模拟建筑钢结构的规格、材质、结构形式等，模拟在其运行环境中的工作状态，测试、评价建筑钢结构的安全性和可靠性。模拟实验能对建筑钢结构的整体性能作出定量评价，但其成本高，周期长，工艺复杂。破坏性实验是采用破坏的方式对抽样试件的性能指标进行测试和观察。破坏性实验具有检测结果精确、直观、误差和争议性比较小等优点，但破坏性实验只适用于抽样，而不能对全部工件进行实验，所以不能得出全面、综合的结论。无损检测则能对原材料和工件进行 100%检测，且经济成本相对较低。上世纪 50 年代初，无损检测技术通过前苏联进入我国。作为工艺过程控制和产品质量控制的手段，如今在核电、航空、航天、船舶、电力、建筑钢结构等行业中得到广泛的应用，创造了巨大的经济效益和社会效益。无损检测技术是建立在众多学科之上的一门新兴的、综合性技术。无损检测技术是以不损伤被检对象的结构完整性和使用性能为前提，应用物理原理和化学现象，借助先进的设备器材，对各种原材料，零部件和结构件进行有效的检验和测试，借以评价它们的完整性、连续性、致密性、安全性、可靠性及某些物理性能。无损检测经历了三个阶段，即无损探伤（Non-destructive Inspection，简称 NDI）、无损检测（Non-destructive testing，简称 NDT）、无损评价（Non-destructive Evaluation，简称 NDE）、无损探伤的含义是探测和发现缺陷。无损检测不仅仅要探测和发现缺陷，而且要发现缺陷的大小、位置、当量、性质和状态。无损评价的含义则更广泛、更深刻，它不仅要求发现缺陷，探测被检对象的结构、性质、状态，还要求获得更全面、更准确的，综合的信息，从而评价被检对象的运行状态和使用寿命。应用于钢结构行业中的常规无损检测方法有磁粉检测（Magnetic Testing 简称 MT）、渗透检测（Penetrate Testing，简称 PT）、涡流检测（Eddy current Testing 简称 ET）、声发射检测（Acoustic Emission Testing 简称 AET）、超声波检测（Ultrasonic Testing，简称 UT）、射线检测（Radiography Testing，简称 RT）。在建筑钢结构行业中，按检测缺陷产生的时机，无损检测方法可以按下图分类。 2 检测方法的简述磁粉检测（MT）原理铁磁性材料被磁化后，产生在被检对象上的磁力线均匀分布。由于不连续性的存在，使工件表面和近表面的磁力线发生了局部畸变而产生了漏磁场，漏磁场吸附施加在被检对象表面的磁粉，形成在合适光照下可见的磁痕,从而达到检测缺陷的目的。适用范围可以对铁磁性原材料，如钢板、钢管、铸钢件等进行检测，也可以对铁磁性结构件进行检测。局限性仅适用铁磁性材料及其合金的表面和近表面的缺陷检测，对检测人员的视力、工作场所、被检对象的规格、形状等有一定的要求。优点经济、方便、效率高、灵敏度高、检测结果直观。渗透检测（PT）原理在被检对象表面施加含有荧光染料或着色染料的渗透液，渗透液在毛细血管的作用下，经过一定时间后，渗透液可以渗透到表面开口的缺陷中去。经过去除被检对象表面多余的渗透液，干燥后，再在被检对象表面施加吸附介质（显象剂）。同样在毛细血管的作用下，显象剂吸附缺陷中的渗透液，使渗透液回渗到显象剂中，在一定的光照下，缺陷中的渗透液被显示。从而达到检测缺陷的目的。适用范围适用于非多孔状固体表面开口缺陷。局限性仅适用于表面开口缺陷的检测，而且对被检对象的表面光洁度要求较高，涂料、铁锈、氧化皮会覆盖表面缺陷而造成漏检。对检测人员的视力有一定要求，成本相对较高。优点设备轻便、操作简单，检测灵敏度高，结果直观、准确。涡流检测（ET）原理金属材料在交变磁场的作用下产生了涡流，根据涡流的分布和大小可以检测出铁磁性材料和非铁磁性材料的缺陷。适用范围适用于各种导电材料的表面和近表面的缺陷检测。局限性不适用不导电材料检测，对形状复杂的试件很难应用，比较适合钢管、钢板等形状规则的轧制型材的检测，而且设备较贵；无法判定缺陷的性质。优点检测速度快，生产效率高，自动化程度高。声发射检测（AET）原理材料或结构件受到内力或外力的作用产生形变或断裂时，以弹性波的形式释放出应变能的现象称为声发射，也称为应力波发射。声发射检测是通过受力时材料内部释放的应力波判断被检对象内部结构损伤程度的一种新兴动态无损检测技术。适用对象适用于被检对象的动态监测，如对大型桥梁、核电设备的实时动态监测。局限性无法监测静态缺陷、干扰检测的因素较多；设备复杂、价格较贵、检测技术不太成熟。优点可以远距离监控设备的运行情况和缺陷的扩展情况，对结构的安全性和可靠性评价提供依据。超声波检测（UT）原理超声波是指频率大于 20 千兆赫兹的机械波。根据波动传播时介质的振动方向相对于波的传播方向不同，可将波动分为纵波、横波、表面波和板波等。用于钢结构检测的主要是纵波和横波。超声波探伤仪激励探头产生的超声波在被检对象的介质中按一定速度传播，当遇到异面介质（如气孔、夹渣）时，一部分超声波反射回来，经仪器处理后，放大进入示波屏，显示缺陷的回波。适用对象适用于各类焊逢、板材、管材、棒材、锻件、铸件以及复合材料的检测，特别适合厚度较大的工件。局限性检测结果可追溯性较差；定性困难，定量不精确，人为因素较多；对被检工件的材质规格，几何形状有一定要求。优点检测成本低、速度快、周期短、效率高；仪器小、操作方便；能对缺陷进行精确定位；对面积型缺陷的检出率较高（如裂纹、未熔合等）射线检测（RT）原理射线是一种波长短、频率高的电磁波。射线检测，常规使用×射线机或放射性同位素作为放射源产生射线，射线穿过被检对象，经过吸收和衰减，由于被检试件中存在厚度差的原因，不同强度的射线到达记录介质（如射线胶片），射线胶片的不同部位吸收了数量不等的光子，经过暗室处理后，底片上便出现了不同黑度的缺陷影象，从而判定缺陷的大小和性质。适用范围适用较薄而不是较厚（如果工件的厚度超过 80mm 就要使用特殊设备进行检测，如加速器）的工件的内部体积型缺陷的检测。局限性检测成本高、周期长，工作效率低；不适用角焊逢、板材、管材、棒材、锻件的检测；对面状的缺陷检出率较低；对缺陷的高度和缺陷在被检对象中的深度较难确定；影响人体健康。优点检测结果直观、定性定量准确；检测结果有记录，可以长期保存，可追溯性较强。 3 小结综上所述，每种无损检测方法的原理和特点各不相同，且适用的检测对象也不一样。在建筑钢结构的行业中应根据结构的整体性能，检测成本及被检对象的规格、材质、缺陷的性质、缺陷产生的位置等诸多因素合理选择无损检测方法。一般地，选择无损检测方法及合格等级，是设计人员依据相关规范而确定的。有的工程，业主也有无损检测方法及合格等级的要求，这就需要供需双方相互协商了。钢结构在加工制作及安装过程中无损检测方法的选择见表 1 被检对象原材料检验板材锻件及棒材管材螺栓焊接检验坡口部位清根部位对接焊逢角焊逢和 T 型焊逢 UT 检测方法 UT、MT（PT） UT（RT）、MT（PT） UT、MT（PT） UT、PT（MT） PT（MT） RT（UT）、MT（PT） UT（RT）、PT（MT）被检对象所适用的无损检测方法见表 2 内部缺陷表面缺陷和近表面检测方法 UT ● ○ ● ● MT ● ● ● ● PT ● ○ ○ ● ET △ △ ● × AET △ △ △ △ 发生中缺陷检测检测方法 RT 被检对象试件分类锻件铸件压延件（管、板、型材）焊逢 × ● × ● 分层疏松气孔内部缩孔缺陷未焊透未熔合缺陷分类夹渣裂纹白点表面裂纹表面缺陷表面气孔折叠断口白点 × × ● ● ● △ ● ○ × △ ○ — × ● ○ ○ ○ ● ● ○ ○ ○ △ × — × — — — — — — — — — ● △ ○ ● — — — — — — — — — ● ● ○ ● — — — — — — — — — ● △ ○ — — — — — △ △ △ △ △ △ — — — 注：●很适用；○适用；△有附加条件适用；×不适用；—不相关参 1. 考文献强天鹏射线检测 [M] 云南科技出版社 2001 2. 3. 4. 5. 周在杞等张俊哲等无损检测技术及其应用 [M] 科学出版社王小雷锅炉压力容器无损检测相关知识 [M] 李家伟等无损检测冉启芳 2001 1993 [M] 机械工业出版社 2002 无损检测方法的分类及其特征的介绍 [J] 无损检测 1999 2 钢网架结构超声波检测及其质量的分 [J] 无损检测 2001 6 磁粉检测（MT）磁粉检测（MT）原理铁磁性材料被磁化后，产生在被检对象上的磁力线均匀分布。由于不连续性的存在，使工件表面和近表面的磁力线发生了局部畸变而产生了漏磁场，漏磁场吸附施加在被检对象表面的磁粉，形成在合适光照下可见的磁痕,从而达到检测缺陷的目的。磁粉探伤的原理及概述磁粉探伤的原理磁粉探伤又称 MT 或者 MPT（Magnetic Particle Testing），适用于钢铁等磁性材料的表面附近进行探伤的检测方法。利用铁受磁石吸引的原理进行检查。在进行磁粉探伤检测时，使被测物收到磁力的作用，将磁粉（磁性微型粉末）散布在其表面。然后，缺陷的部分表面所泄漏出来泄露磁力会将磁粉吸住，形成指示图案。指示图案比实际缺陷要大数十倍，因此很容易便能找出缺陷。磁粉探伤方法磁粉探伤检测的顺序分为前期处理、磁化、磁粉使用、观察，以及后期处理。前期处理→磁化→磁粉使用→观察→后期处理以下分别说明各个步骤的概要。（1）前期处理探探伤面如果有油脂、涂料、锈、或其他异物附着的情况下，不仅会妨碍磁粉吸附在伤痕上，而且还会出现磁粉吸附在伤痕之外的部分形成疑私图像的情况。因此在磁化之前，要采用物理或者化学处理，进行去除污垢异物的步骤。（2）磁化将检测物适当磁化是非常重要的。通常，采用与伤痕方向与磁力线方向垂直的磁化方式。另外为了适当磁化，根据检测物的形状可以采用多种方法。日本工业规格（JIS G 0565-1992）中规定了以下 7 种磁化方法。 ①轴通电法……在检测物轴方向直接通过电流。 ②直角通电法……在检测物垂直于轴的方向直接通过电流。 ③Prod 法……在检测物局部安置 2 个电极（称为 Prod）通过电流。 ④电流贯通法……在检测物的孔穴中穿过的导电体中通过电流。 ⑤线圈法……在检测物中放入线圈，在线圈中通过电流。 ⑥极间法……把检测物或者要检测的部位放入电磁石或永磁石的磁极间。 ⑦磁力线贯通法……对通过检测物的孔穴的强磁性物体施加交流磁力线，使感应电流通过检测物。（3）磁粉使用磁粉探伤的原理 ① 磁粉的种类为了让磁粉吸附在伤痕部的磁极间形成检出图像，使用的磁粉必须容易被伤痕部的微弱磁场磁化，吸附在磁极上，也就是说需要优秀的吸附性能。另外，要求形成的磁粉图像必须有很高的识别性。一般，磁粉探伤中使用的磁粉有在可见光下使用的白色、黑色、红色等不同磁粉，以及利用荧光发光的荧光磁粉。另外，根据磁粉使用的场合，有粉状的干性磁粉以及在水或油中分散使用的湿性磁粉。 ② 磁粉的使用时间磁粉使用时间分为一边通过磁化电流一边使用磁粉的连续法，以及在切断磁化电流的状态即利用检测物的残留磁力的残留法两种。（4）观察为了便于观察附着在伤痕部位的磁粉图像，必须创造容易观察的环境。普通磁粉需要在尽可能明亮的环境下观察，荧光磁粉则要使用紫外线照射灯将周围尽量变暗才容易观察。（5）后期处理磁粉探伤结束，检测物有可能仍作为产品或是需要送往下一个加工步骤接受机械加工等。这时就需要进行退磁、去除磁粉、防锈处理等后期处理。适用范围可以对铁磁性原材料，如钢板、钢管、铸钢件等进行检测，也可以对铁磁性结构件进行检测。局限性仅适用铁磁性材料及其合金的表面和近表面的缺陷检测，对检测人员的视力、工作场所、被检对象的规格、形状等有一定的要求。优点经济、方便、效率高、灵敏度高、检测结果直观。生产厂家：生产厂家：济宁联永超声电子有限公司仪器设备名称：仪器设备名称：CDX-Ⅲ该机型磁粉探伤仪 Ⅲ 仪器概况：CDX-Ⅲ该机型磁粉探伤仪是具有多种磁化方式的磁粉探伤仪设备。仪器采用可控硅作无触点开关，噪音小、寿命长、操作简单、方便、适应性强、工作稳定。是最近推出新产品，它除具有便携式机种的一切优点，还具有移动机种的某些长处，扩展了用途，简化了操作，还具有退磁功能。该设备有四种探头： 1、旋转探头：型）能对各种焊缝、各种几何形状的曲面、平面、（E 管道、锅炉、球罐等压力容器进行一次性全方位显示缺陷和伤痕。 2、电磁轭探头：型）它配有活关节，可以对平面、曲面工件进行（D 探伤。 3、马蹄探头：型）它可以对各种角焊缝，大型工件的内外角进行（A 局部探伤。 4、磁环：型）它能满足所有能放入工件的周向裂纹的探伤，用它（O 来检测工件的疲劳痕（疲劳裂痕均垂于轴向）及为方便，用它还可以对工件进行远离法退磁。总之，该仪器是多种探伤仪的给合体，功能与适用范围广，尤其应用于不允许通电起弧破表面零件的探伤。无损检测概论及新技术应用无损检测概论及新技术应用概论摘要：摘要：综述了无损检测的定义、方法、特点、要求等基本知识，以及无损检测在现今社会中的应用实例，其中包括混凝土超声波无损检测技术、涡流无损检测技术、渗透探伤技术。关键词：关键词：无损检测；混凝土缺陷；涡流检测;渗透探伤。引言：引言：随着现代工业的发展，对产品的质量和结构的安全性、使用的可靠性提出了越来越高的要求，无损检测技术由于具有不破坏试件、检测灵敏度高等优点，所以其应用日益广泛。无损检测是工业发展必不可少的有效工具，在一定程度上反映了一个国家的工业发展水平，其重要性已得到公认。 1、无损检测概论、无损检测检测概论无损检测就是利用声、光、磁和电等特性，在不损害或不影响被检对象使用性能的前提下，检测被检对象中是否存在缺陷或不均匀性，给出缺陷的大小、位置、性质和数量等信息，进而判定被检对象所处技术状态（如合格与否、剩余寿命等）的所有技术手段的总称。常用的无损检测方法有射线照相检验(RT)、超声检测(UT)、磁粉检测(MT)和液体渗透检测(PT) 四种。其他无损检测方法：涡流检测(ET)、声发射检测（AT）、（TIR）泄漏试验、（LT）交流场测量技术、（ACFMT）漏磁检验、（MFL)、热像/红外远场测试检测方法（RFT)等。基于以上方法，无损检测具有一下应用特点： 1>不损坏试件材质、结构无损检测的最大特点就是能在不损坏试件材质、结构的前提下进行检测，所以实施无损检测后，产品的检查率可以达到 100%。但是，并不是所有需要测试的项目和指标都能进行无损检测，无损检测技术也有自身的局限性。某些试验只能采用破坏性试验，因此，在目前无损检测还不能代替破坏性检测。也就是说，对一个工件、材料、机器设备的评价，必须把无损检测的结果与破坏性试验的结果互相对比和配合，才能作出准确的评定。 2>正确选用实施无损检测的时机在无损检测时，必须根据无损检测的目的,正确选择无损检测的时机,从而顺利地完成检测预定目的,正确评价产品质量。 3>正确选用最适当的无损检测方法由于各种检测方法都具有一定的特点，为提高检测结果可靠性，应根据设备材质、制造方法、工作介质、使用条件和失效模式，预计可能产生的缺陷种类、形状、部位和取向，选择合适的无损检测方法。 4>综合应用各种无损检测方法任何一种无损检测方法都不是万能的，每种方法都有自己的优点和缺点。应尽可能多用几种检测方法，互相取长补短，以保障承压设备安全运行。此外在无损检测的应用中，还应充分认识到，检测的目的不是片面追求过高要求的“高质量”，而是应在充分保证安全性和合适风险率的前提下，着重考虑其经济性。只有这样，无损检测在承压设备的应用才能达到预期目的。[1] 通过各种检测方法，最终对于无损检测的要求是：不仅要发现缺陷，探测试件的结构、状态、性质，还要获取更全面、准确和综合的信息，辅以成象技术、自动化技术、计算机数据分析和处理技术等，与材料力学、断裂力学等学科综合应用，以期对试件和产品的质量和性能作出全面、准确的评价。 2、无损检测在各领域的应用、无损检测基于以上优点,在现今社会受到广泛关注和应用,为实际生产工作减少了废料成本,提供了极大的方便。其中超声波检测技术、涡流检测、渗透探伤技术、霍尔效应无损探伤技术应用极为出色。混凝土超声无损检测混凝土是我国建筑结构工程最为重要的材料之一，它的质量直接关系到结构的安全。多年来，结构混凝土质量的传统检测方法是以按规定的取样方法，制作立方体试件，在规定的温度环境下，养护 28d 时按标准实验方法测得的试件抗压强度来评定结构构件的混凝土强度。用试件实验测得的混凝土性能指标，往往是与结构物中的混凝土性能有一定差别。因此，直接在结构物上检测混凝土质量的现场检测技术，已成为混凝土质量管理的重要手段。所谓混凝土“无损检测”技术，就是要在不破坏结构构件的情况下，利用测试仪器获取有关混凝土质量等受力功能的物理量。因该物理量与混凝土质量之间有较好的相互关系，可采用获取的物理量去推定混凝土质量。[2] 混凝土超声检测是用超声波探头中的压电陶瓷或其他类型的压电晶体加载某频率的交流电压后激发出固定频率的弹性波，在材料或结构内部传播后再由超声波换能器接收，通过对采集的超声波信号的声速、振幅、频率以及波形等声学参数进行分析，以此推断混凝土结构的力学特性、内部结构及其组成情况。超声波检测可用于混凝土结构的测厚、探伤、混凝土的弹性模量测定以及混凝土力学强度评定等方面. [3] 涡流无损检测涡流检测的基本原理：将通有交流电的线圈置于待测的金属板上或套在待测的金属管外。这时线圈内及其附近将产生交变磁场，使试件中产生呈旋涡状的感应交变电流，称为涡流。涡流的分布和大小，除与线圈的形状和尺寸、交流电流的大小和频率等有关外，还取决于试件的电导率、磁导率、形状和尺寸、与线圈的距离以及表面有无裂纹缺陷等。因而，在保持其他因素相对不变的条件下，用一探测线圈测量涡流所引起的磁场变化，可推知试件中涡流的大小和相位变化，进而获得有关电导率、缺陷、材质状况和其他物理量(如形状、尺寸等)的变化或缺陷存在等信息。但由于涡流是交变电流，具有集肤效应，所检测到的信息仅能反映试件表面或近表面处的情况。[4] 应用：按试件的形状和检测目的的不同，可采用不同形式的线圈,通常有穿过式、探头式和插入式线圈 3 种。穿过式线圈用来检测管材、棒材和线材，它的内径略大于被检物件，使用时使被检物体以一定的速度在线圈内通过，可发现裂纹、夹杂、凹坑等缺陷。探头式线圈适用于对试件进行局部探测。应用时线圈置于金属板、管或其他零件上，可检查飞机起落撑杆内筒上和涡轮发动机叶片上的疲劳裂纹等。插入式线圈也称内部探头，放在管子或零件的孔内用来作内壁检测，可用于检查各种管道内壁的腐蚀程度等。为了提高检测灵敏度，探头式和插入式线圈大多装有磁芯。涡流法主要用于生产线上的金属管、棒、线的快速检测以及大批量零件如轴承钢球、汽门等的探伤（这时除涡流仪器外尚须配备自动装卸和传送的机械装置）、材质分选和硬度测量，也可用来测量镀层和涂膜的厚度。[5] 优缺点：涡流检测时线圈不需与被测物直接接触，可进行高速检测,易于实现自动化,但不适用于形状复杂的零件,而且只能检测导电材料的表面和近表面缺陷, 检测结果也易于受到材料本身及其他因素的干扰。渗透探伤技术液体渗透检测的基本原理：零件表面被施涂含有荧光染料或着色染料的渗透剂后，在毛细管作用下，经过一段时间，渗透液可以渗透进表面开口缺陷中；经去除零件表面多余的渗透液后，再在零件表面施涂显像剂，同样，在毛细管的作用下，显像剂将吸引缺陷中保留的渗透液，渗透液回渗到显像剂中，在一定的光源下（紫外线光或白光）缺陷处的渗透液痕迹被现实，黄绿色荧光或鲜艳红色），（，从而探测出缺陷的形貌及分布状态。[6] 渗透检测适用于具有非吸收的光洁表面的金属、非金属，特别是无法采用磁性检测的材料，例如铝合金、镁合金、钛合金、铜合金、奥氏体钢等的制品，可检验锻件、铸件、焊缝、陶瓷、玻璃、塑料以及机械零件等的表面开口型缺陷。渗透检测的优点是灵敏度较高（已能达到检测开口宽度达的裂缝），检测成本低，使用设备与材料简单，操作轻便简易，显示结果直观并可进一步作直观验证（例如使用放大镜或显微镜观察），其结果也容易判断和解释，检测效率较高。缺点是受试件表面状态影响很大并只能适用于检查表面开口型缺陷，如果缺陷中填塞有较多杂质时将影响其检出的灵敏度。[7] 3、结语、随着现代科学技术的发展，激光、红外、微波、液晶等技术都被应用于无损检测领域，而传统的常规无损检测技术也因为现代科技的发展，大大丰富了应用方法，如射线照相就可细分为 X 射线、γ射线、中子射线、高能 X 射线、射线实时照相、层析照相……等多种方法。无损检测作为一种综合性应用技术，无损检测技术经历了从无损探伤，到无损检测，再到无损评价，并且向自动无损评价、定量无损评价发展。相信在不远的将来，新生的纳米材料、微机电器件等行业的无损检测技术将会得到迅速发展。参考文献【1】李喜孟.无损检测.机械工业出版社.2011 】【2】父新漩. 混凝土无损检测手册.人民交通出版社.2003 】【 3】冯子蒙.超声波无损检测于评价的关键技术问题及其解决方案.煤矿机】械.2009(9) 【4】唐继强.无损检测实验.机械工业出版社.2011 】【5】李丽茹.表面检测.机械工业出版社.2009 】【6】国防科技工业无损检测人员资格鉴定与认证培训教材编审委员会.机械工业出版社.2004 【7】胡学知主编. 中国劳动社会保障出版社.2007 】

随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文，欢迎阅读!

图像识别技术研究综述

摘要：随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解，由于图像在成像时受到外部环境的影响，使得图像具有特殊性，复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。

关键词：图像处理;图像识别;成像

中图分类号：TP391 文献标识码：A 文章编号：1009-3044(2013)10-2446-02

图像是客观景物在人脑中形成的影像，是人类最重要的信息源，它是通过各种观测系统从客观世界中获得，具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展，图像处理技术的应用也越来越广泛，并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段，比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等，在这些应用中，都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理，着重强调图像与图像之间进行的交换，主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性，使得图像处理和识别技术成为研究热点。

1 图像处理技术

图像处理(image processing)利用计算机对图像进行分析，以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理，而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声，将原始图像编程适于计算机进行特征提取的形式，主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集，图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像，也包括一些动态图像，并可以将其转为数字图像，和文字、图形、声音一起存储在计算机内，显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强，图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化，数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分，使图像的主体结构更加明确，必须对图像进行改善，即图像增强。通过图像增强，以减少图像中的图像的噪声，改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量，使图像中的物体的轮廓更加清晰，细节更加明显。图像增强不考虑图像降质的原因，增强后的图像更加赏欣悦目，为后期的图像分析和图像理解奠定基础。

3)图像复原，图像复原也称图像恢复，由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊，为了提取比较清晰的图像需要对图像进行恢复，图像恢复主要采用滤波方法，从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建，该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩，数字图像的显著特点是数据量庞大，需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频，那么必须对图像进行编码和压缩。目前，图像压缩编码已形成国际标准，如比较著名的静态图像压缩标准JPEG，该标准主要针对图像的分辨率、彩色图像和灰度图像，适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列，因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术，图像分割是把图像分成一些互不重叠而又具有各自特征的子区域，每一区域是像素的一个连续集，这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位，然后把目标从背景中分离出来。目前，图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰，使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述，描述是用数字或者符号表示图像或景物中各个目标的相关特征，甚至目标之间的关系，最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时，可以采用模板匹配模型。在某些具体的应用中，图像识别除了要给出被识别对象是什么物体外，还需要给出物体所处的位置和姿态以引导计算初工作。目前，图像识别技术已广泛应用于多个领域，如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有：

指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段，主要应用于身份验证。指纹识别是生物特征的一个部分，它具有不变性：一个人的指纹是终身不变的;唯一性：几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前，指纹识别技术与我们的现实生活紧密相关，如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

人脸识别目前大多数人脸识别系统使用可见光或红外图像进行人脸识别，可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下，其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响，但由于红外线不能穿透玻璃，如果待识别的对象戴有眼镜，那么在图像识别时，眼部信息全部丢失，将严重影响人脸识别的性能[4]。

文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术，可以自动地把文字和其他信息分离出来，通过智能识别后输入计算机，用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档，如银行票据、文稿、各类公式和符号等自动录入，可以提供文字的处理效率，有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样，使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事，但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下，图像识别技术取得了一定的成功，但在复杂的环境下，仍面临着许多问题：如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准，以及算法本身存在一定的局限性，这使得图像识别的最终结果不十分精确等。

参考文献：

[1] 胡爱明，周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用，2003，39(7)：90—91.

[2] 胡学龙.数字图像处理[M].北京：电子工业出版社，2011.

[3] 范立南，韩晓微，张广渊.图像处理与模式识别[M].北京：科学出版社，2007.

[4] 晓慧，刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用，2009，1(29)：8.

[5] 陈良育，曾振柄，张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用，2005，25(7)：1629-1631.

[6] Sanderson C，Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33，Martigny，Swizerland，2002.

点击下页还有更多>>>图像识别技术论文

目标检测与识别论文

能不能给我发一份呢？

目标检测（object detection）是计算机视觉中非常重要的一个领域。在卷积神经网络出现之前，都利用一些传统方法手动提取图像特征进行目标检测及定位，这些方法不仅耗时而且性能较低。而在卷积神经网络出现之后，目标检测领域发生了翻天覆地的变化。最著名的目标检测系统有RCNN系列、YOLO和SSD，本文将介绍RCNN系列的开篇作RCNN。 RCNN系列的技术演进过程可参见基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN 。目标检测分为两步：第一步是对图像进行分类，即图像中的内容是什么；第二步则是对图像进行定位，找出图像中物体的具体位置。简单来说就是图像里面有什么，位置在哪。然而，由于不同图片中物体出现的大小可能不同（多尺度），位置也可能不同，而且摆放角度，姿态等都可以不同，同时一张图片中还可以出现多个类别。这使得目标检测任务异常艰难。上面任务用专业的说法就是：图像识别+定位两个不同的分支分别完成不同的功能，分类和定位。回归（regression）分支与分类分支（classification）共享网络卷积部分的参数值。还是刚才的分类识别+回归定位思路。只是现在我们提前先取好不同位置的框，然后将这个框输入到网络中而不是像思路一将原始图像直接输入到网络中。然后计算出这个框的得分，取得分最高的框。如上，对于同一个图像中猫的识别定位。分别取了四个角四个框进行分类和回归。其得分分别为，因此右下角得分最高，选择右下角的黑框作为目标位置的预测（这里即完成了定位任务）。这里还有一个问题——检测位置时的框要怎么取，取多大？在上面我们是在257x257的图像中取了221x221的4个角。以不同大小的窗口从左上角到右下角依次扫描的话，数据量会非常大。而且，如果考虑多尺度问题的话，还需要在将图像放缩到不同水平的大小来进行计算，这样又大大增加了计算量。如何取框这个问题可以说是目标检测的核心问题之一了，RCNN，fast RCNN以及faster RCNN对于这个问题的解决办法不断地进行优化，这个到了后面再讲。总结一下思路：对于一张图片，用各种大小的框将图片截取出来，输入到CNN，然后CNN会输出这个框的类别以及其位置得分。对于检测框的选取，一般是采用某种方法先找出可能含有物体的框（也就是候选框，比如1000个候选框），这些框是可以互相重叠互相包含的，这样我们就可以避免暴力枚举所有框了。讲完了思路，我们下面具体仔细来看看RCNN系列的实现，本篇先介绍RCNN的方法。 R-CNN相比于之前的各种目标检测算法，不仅在准确率上有了很大的提升，在运行效率上同样提升很大。R-CNN的过程分为4个阶段：在前面我们已经简单介绍了selective search方法，通过这个方法我们筛选出了2k左右的候选框。然而搜索出的矩形框大小是不同的。而在AlexNet中由于最后全连接层的存在，对于图像尺寸有固定的要求，因此在将候选框输入之前，作者对这些候选框的大小进行了统一处理——放缩到了统一大小。文章中作者使用的处理方法有两种：（1）各向异性缩放因为图片扭曲可能会对后续CNN模型训练产生影响，于是作者也测试了各向同性缩放的方法。有两种方法：此外，作者对于bounding box还尝试了padding处理，上面的示意图中第1、3行就是结合了padding=0，第2、4行结果采用padding=16的结果。经过最后的试验，作者发现采用各向异性缩放、padding=16的精度最高。卷积神经网络训练分为两步：（1）预训练；（2）fine-tune。先在一个大的数据集上面训练模型（R-CNN中的卷机模型使用的是AlexNet），然后利用这个训练好的模型进行fine-tune（或称为迁移学习），即使用这个预训练好的模型参数初始化模型参数，然后在目标数据集上面进行训练。此外，在训练时，作者还尝试采用不同层数的全连接层，发现一个全连接层比两个全连接层效果要好，这可能是因为使用两个全连接层后过拟合导致的。另一个比较有意思的地方是：对于CNN模型，卷积层学到的特征其实就是基础的共享特征提取层，类似于传统的图像特征提取算法。而最后的全连接层学到的则是针对特定任务的特征。譬如对于人脸性别识别来说，一个CNN模型前面的卷积层所学习到的特征就类似于学习人脸共性特征，然后全连接层所学习的特征就是针对性别分类的特征了。最后，利用训练好的模型对候选框提取特征。关于正负样本的问题：由于选取的bounding box不可能与人工label的完全相同，因此在CNN训练阶段需要设置IOU阈值来为bounding box打标签。在文章中作者将阈值设置为，即如果候选框bounding box与人工label的区域重叠面积大于，则将其标注为物体类别（正样本），否则我们就把他当做背景类别（负样本）。作者针对每一个类别都训练了一个二分类的SVM。这里定义正负样本的方法与上面卷积网络训练的定义方法又不相同。作者在文章中尝试了多种IoU阈值（）。最后通过训练发现，IoU阈值为的时候效果最好（选择为0精度下降了4个百分点，选择精度下降了5个百分点）。即当IoU小于的时候我们将其视为负样本，否则为正样本。目标检测问题的衡量标准是重叠面积：许多看似准确的检测结果，往往因为候选框不够准确，重叠面积很小。故需要一个位置精修步骤。在实现边界回归的过程中发现了两个微妙的问题。第一是正则化是重要的：我们基于验证集，设置λ=1000。第二个问题是，选择使用哪些训练对(P,G)时必须小心。直观地说，如果P远离所有的检测框真值，那么将P转换为检测框真值G的任务就没有意义。使用像P这样的例子会导致一个无望的学习问题。因此，只有当提案P至少在一个检测框真值附近时，我们才执行学习任务。“附近”即，将P分配给具有最大IoU的检测框真值G（在重叠多于一个的情况下），并且仅当重叠大于阈值（基于验证集，我们使用的阈值为）。所有未分配的提案都被丢弃。我们为每个目标类别执行一次，以便学习一组特定于类别的检测框回归器。在测试时，我们对每个提案进行评分，并预测其新的检测框一次。原则上，我们可以迭代这个过程（即重新评估新预测的检测框，然后从它预测一个新的检测框，等等）。但是，我们发现迭代不会改进结果。使用selective search的方法在测试图片上提取2000个region propasals ，将每个region proposals归一化到227x227，然后再CNN中正向传播，将最后一层得到的特征提取出来。然后对于每一个类别，使用为这一类训练的SVM分类器对提取的特征向量进行打分，得到测试图片中对于所有region proposals的对于这一类的分数，再使用贪心的非极大值抑制（NMS）去除相交的多余的框。再对这些框进行canny边缘检测，就可以得到bounding-box(then B-BoxRegression)。参考： Rich feature hierarchies for accurate object detection and semantic segmentation. RCNN-将CNN引入目标检测的开山之作-晓雷的文章基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN R-CNN 论文翻译

运动目标检测与跟踪算法研究视觉是人类感知自身周围复杂环境最直接有效的手段之一，而在现实生活中大量有意义的视觉信息都包含在运动中，人眼对运动的物体和目标也更敏感，能够快速的发现运动目标，并对目标的运动轨迹进行预测和描绘。随着计算机技术、通信技术、图像处理技术的不断发展，计算机视觉己成为目前的热点研究问题之一。而运动目标检测与跟踪是计算机视觉研究的核心课题之一，融合了图像处理、模式识别、人工智能、自动控制、计算机等众多领域的先进技术，在军事制导、视觉导航、视频监控、智能交通、医疗诊断、工业产品检测等方面有着重要的实用价值和广阔的发展前景。 1、国内外研究现状运动目标检测运动目标检测是指从序列图像中将运动的前景目标从背景图像中提取出来。根据运动目标与摄像机之间的关系，运动目标检测分为静态背景下的运动目标检测和动态背景下的运动目标检测。静态背景下的运动目标检测是指摄像机在整个监视过程中不发生移动；动态背景下的运动目标检测是指摄像机在监视过程中发生了移动，如平动、旋转或多自由度运动等。静态背景静态背景下的运动目标检测方法主要有以下几种：（1）背景差分法背景差分法是目前最常用的一种目标检测方法，其基本思想就是首先获得一个背景模型，然后将当前帧与背景模型相减，如果像素差值大于某一阈值，则判断此像素属于运动目标，否则属于背景图像。利用当前图像与背景图像的差分来检测运动区域，一般能够提供比较完整的特征数据，但对于动态场景的变化，如光照和外来无关事件的干扰等特别敏感。很多研究人员目前都致力于开发不同的背景模型，以减少动态场景变化对运动目标检测的影响。背景模型的建立与更新、阴影的去除等对跟踪结果的好坏至关重要。背景差分法的实现简单，在固定背景下能够完整地精确、快速地分割出运动对象。不足之处是易受环境光线变化的影响，需要加入背景图像更新机制，且只对背景已知的运动对象检测比较有效，不适用于摄像头运动或者背景灰度变化很大的情况。（2）帧间差分法帧间差分法是在连续的图像序列中两个或三个相邻帧间，采用基于像素的时间差分并阈值化来提取图像中的运动区域。帧间差分法对动态环境具有较强的自适应性，但一般不能完全提取出所有相关的特征像素点，在运动实体内部容易产生空洞现象。因此在相邻帧间差分法的基础上提出了对称差分法，它是对图像序列中每连续三帧图像进行对称差分，检测出目标的运动范围，同时利用上一帧分割出来的模板对检测出来的目标运动范围进行修正，从而能较好地检测出中间帧运动目标的形状轮廓。帧间差分法非常适合于动态变化的环境，因为它只对运动物体敏感。实际上它只检测相对运动的物体，而且因两幅图像的时间间隔较短，差分图像受光线变化影响小，检测有效而稳定。该算法简单、速度快，已得到广泛应用。虽然该方法不能够完整地分割运动对象，只能检测出物体运动变化的区域，但所检测出的物体运动信息仍可用于进一步的目标分割。（3）光流法光流法就充分的利用了图像自身所携带的信息。在空间中,运动可以用运动场描述,而在一个图像平面上,物体的运动往往是通过图像序列中图像灰度分布的不同来体现,从而使空间中的运动场转移到图像上就表示为光流场。所谓光流是指空间中物体被观测面上的像素点运动产生的瞬时速度场，包含了物体表面结构和动态行为等重要信息。基于光流法的运动目标检测采用了运动目标随时间变化的光流特性，由于光流不仅包含了被观测物体的运动信息，还携带了物体运动和景物三位结构的丰富信息。在比较理想的情况下,它能够检测独立运动的对象, 不需要预先知道场景的任何信息,可以很精确地计算出运动物体的速度,并且可用于动态场景的情况。但是大多数光流方法的计算相当复杂,对硬件要求比较高, 不适于实时处理,而且对噪声比较敏感,抗噪性差。并且由于遮挡、多光源、透明性及噪声等原因，使得光流场基本方程——灰度守恒的假设条件无法满足，不能正确求出光流场，计算方也相当复杂，计算量巨大，不能满足实时的要求。动态背景动态背景下的运动目标检测由于存在着目标与摄像机之间复杂的相对运动，检测方法要比静态背景下的运动目标检测方法复杂。常用的检测方法有匹配法、光流法以及全局运动估计法等。 2、运动目标跟踪运动目标跟踪是确定同一物体在图像序列的不同帧中的位置的过程。近年来出现了大批运动目标跟踪方法，许多文献对这些方法进行了分类介绍，可将目标跟踪方法分为四类：基于区域的跟踪、基于特征的跟踪、基于活动轮廓的跟踪、基于模型的跟踪，这种分类方法概括了目前大多数跟踪方法，下面用这种分类方法对目前的跟踪方法进行概括介绍。 (1)基于区域的跟踪基于区域的跟踪方法基本思想是：首先通过图像分割或预先人为确定提取包含目标区域的模板，并设定一个相似性度量，然后在序列图像中搜索目标，把度量取极值时对应的区域作为对应帧中的目标区域。由于提取的目标模板包含了较完整的目标信息，该方法在目标未被遮挡时，跟踪精度非常高，跟踪非常稳定，但通常比较耗时，特别是当目标区域较大时，因此一般应用于跟踪较小的目标或对比度较差的目标。该方法还可以和多种预测算法结合使用，如卡尔曼预测、粒子预测等，以估计每帧图像中目标的位置。近年来，对基于区域的跟踪方法关注较多的是如何处理运动目标姿态变化引起的模板变化时的情况以及目标被严重遮挡时的情况。 (2)基于特征的跟踪基于特征的跟踪方法基本思想是：首先提取目标的某个或某些局部特征，然后利用某种匹配算法在图像序列中进行特征匹配，从而实现对目标的跟踪。该方法的优点是即使目标部分被遮挡，只要还有一部分特征可以被看到，就可以完成跟踪任务，另外，该方法还可与卡尔曼滤波器结合使用，实时性较好，因此常用于复杂场景下对运动目标的实时、鲁棒跟踪。用于跟踪的特征很多，如角点边缘、形状、纹理、颜色等，如何从众多的特征中选取最具区分性、最稳定的特征是基于特征的跟踪方法的关键和难点所在。 (3)基于活动轮廓的跟踪基于活动轮廓的跟踪方法基本思想是：利用封闭的曲线轮廓表达运动目标，结合图像特征、曲线轮廓构造能量函数，通过求解极小化能量实现曲线轮廓的自动连续更新，从而实现对目标的跟踪。自Kass在1987年提出Snake模型以来，基于活动轮廓的方法就开始广泛应用于目标跟踪领域。相对于基于区域的跟踪方法，轮廓表达有减少复杂度的优点，而且在目标被部分遮挡的情况下也能连续的进行跟踪，但是该方法的跟踪结果受初始化影响较大，对噪声也较为敏感。 (4)基于模型的跟踪基于模型的跟踪方法基本思想是：首先通过一定的先验知识对所跟踪目标建立模型，然后通过匹配跟踪目标，并进行模型的实时更新。通常利用测量、CAD 工具和计算机视觉技术建立模型。主要有三种形式的模型，即线图模型、二维轮廓模型和三维立体模型口61，应用较多的是运动目标的三维立体模型，尤其是对刚体目标如汽车的跟踪。该方法的优点是可以精确分析目标的运动轨迹，即使在目标姿态变化和部分遮挡的情况下也能够可靠的跟踪，但跟踪精度取决于模型的精度，而在现实生活中要获得所有运动目标的精确模型是非常困难的。目标检测算法，至今已提出了数千种各种类型的算法，而且每年都有上百篇相关的研究论文或报告发表。尽管人们在目标检测或图像分割等方面做了许多研究，现己提出的分割算法大都是针对具体问题的，并没有一种适合于所有情况的通用算法。目前，比较经典的运动目标检测算法有：双帧差分法、三帧差分法(对称差分法)、背景差法、光流法等方法，这些方法之间并不是完全独立，而是可以相互交融的。目标跟踪的主要目的就是要建立目标运动的时域模型，其算法的优劣直接影响着运动目标跟踪的稳定性和精确度，虽然对运动目标跟踪理论的研究已经进行了很多年，但至今它仍然是计算机视觉等领域的研究热点问题之一。研究一种鲁棒性好、精确、高性能的运动目标跟踪方法依然是该研究领域所面临的一个巨大挑战。基于此目的，系统必须对每个独立的目标进行持续的跟踪。为了实现对复杂环境中运动目标快速、稳定的跟踪，人们提出了众多算法，但先前的许多算法都是针对刚体目标，或是将形变较小的非刚体近似为刚体目标进行跟踪，因而这些算法难以实现对形状变化较大的非刚体目标的正确跟踪。根据跟踪算法所用的预测技术来划分，目前主要的跟踪算法有：基于均值漂移的方法、基于遗传算法的方法、基于Kalman滤波器的方法、基于Monto Carlo的方法以及多假设跟踪的方法等。运动检测与目标跟踪算法模块运动检测与目标跟踪算法模块与目标跟踪一、运动检测算法 1.算法效果算法效果总体来说，对比度高的视频检测效果要优于对比度低的视频。算法可以比较好地去除目标周围的浅影子，浅影的去除率在 80%以上。去影后目标的完整性可以得到较好的保持，在 80%以上。在对比度比较高的环境中可以准确地识别较大的滞留物或盗移物。从对目标的检测率上来说，对小目标较难进行检测。一般目标小于 40 个像素就会被漏掉。对于对比度不高的目标会检测不完整。总体上来说，算法在对比度较高的环境中漏检率都较低，在以下，在对比度不高或有小目标的场景下漏检率在 6%以下。精细运动检测的目的是在较理想的环境下尽量精确地提取目标的轮廓和区域，以供高层进行应用。同时在分离距离较近目标和进行其它信息的进一步判断也具有一定的优势。反映算法优缺点的详细效果如下所示：去影子和完整性效果好公司内视频左边的为去影前，右边的为去影后的结果，可以看出在完整性和去影率上都有所突出。这两个视频的共周特点城市交通是，影子都是浅影子，视频噪声不太明显。目标与背景的对比度比较高。效果差这两个视频的特点是影子都是深影子。虽然影子没有去掉，但是物体的完整性是比较高的。主要原因就是场景的对路口，上午十点比度比较高。滞留物检测和稳定性效果好会议室盗移效果好的原因，一是盗移或滞留目标与背景对比度较大，二是目标本身尺寸较大。另外盗移物或滞留物在保持各自的状态期间不能受到光照变化或其它明显运动目标的干扰，要不然有可能会造成判断的不稳定。效果差会议室遗留物大部分时间内，滞留的判断都是较稳定的，但是在后期出现了不稳定。主要原因是目标太小的原故。因此在进行滞留物判断时，大目标，对比度较高的环境有利于判断的稳定性和准确性。漏检率效果好城市交通在对比度高的环境下，目标相对都较大的情况下（大于 40 个像素）可以很，稳定的检测出目标。在这种条件下的漏检率通常都是非常低的，在以下。效果差行人－傍晚和“行人”目录下的其它昏暗条件下的视频在对比度较低的情况下，会造成检测结果不稳定。漏检率较高。主要原因是由于去影子造成的。这种对比度下的漏检率一般在 6%以下。除了对比度低是造成漏检的原因外，过小的目标也会造成漏检，一般是 40 个像素以下的目标都会被忽略掉。算法效率内存消耗（单位：b） .MD_ISRAM_data .MD_ISRAM_bss .MD_SDRAM_data 0x470 0x24 0x348 .MD_SDRAM_bss .MD_text 0x1a8480 0x6d40 速度 ms 运动区域占 2/3 左右时 CPU 占用率一帧耗时 Max:57% Min: Avg: Max:23 Min: Avg:15 运动区域占 1/3 左右时 Max:45% Min: Avg:20% Max:18 Min: Avg:8 检测参数说明检测参数说明检测到的滞留物或盗走物的消失时间目前分别设定在 200 帧和 100 帧，可以通过参数来自行调整。目前目标与背景的差异是根据局部光照强度所决定的，范围在 4 个像素值以上。目前参数设置要求目标大小要在 20 个像素以上才能被检测到，可以通过参数来自行调整。目标阴影的去除能力是可以调整的，目前的参数设置可以去除大部分的浅影子和较小的光照变化。适用环境推荐光照条件较好（具有一定的对比度）的室内环境或室外环境。不易用它去检测过小的目标，比如小于 40 个像素的目标。室外环境不易太复杂。输出目标为精细轮廓目标，可以为后面高层应用提供良好的信息。二、目标跟踪稳定运行环境要求此版本跟踪算法与运动检测算法紧密结合，对相机的架设和视频的背景环境和运动目标数量运动方式有一定要求：背景要求：由于运动跟踪是基于运动检测的结果进行的，所以对背景的要求和运动检测一样，背景要求：运动目标相对于背景要有一定反差。运动目标：由于运动检测中，对较小的目标可能过滤掉。所以运动目标的大小要符合运动检运动目标：测的要求。运动目标的速度不能太大，要保证前后帧运动目标的重合面积大于 10 个像素。此阈值可修改(建议不要随意修改，过小，可能把碎片当成原目标分裂出来的小目标，过大，可能失去跟踪。当然可试着调节以适应不同场景)。该算法对由于运动检测在地面上产生的碎片抗干扰性比较差，运动目标和碎片相遇时，容易发生融合又分离的现象，造成轨迹混乱。消失目标和新生目标很容易当成同一目标处理，所以可能出现一个新目标继承新生目标的轨迹。运动方式：运动目标的最大数量由外部设定。但运动跟踪对运动目标比较稀疏的场景效果比运动方式：较好。算法对由于运动检测在运动目标上产生的碎片有一定的抗干扰。算法没对物体的遮挡进行处理。对于两运动目标之间的遮挡按融合来处理。拍摄角度：拍摄角度：拍摄视野比较大，且最好是俯视拍摄。

红外目标检测与识别论文

你好你有完整的论文么？有的话可不可以给我发一下急需的谢谢啊！！

出版专著：Mao X., Li Z. Multimodal Intelligent Tutoring Systems[M]. E-Learning--Organizational Infrastructure and Tools for Specific Areas. Feb, 2012. ISBN:978-9-5351-0053-9.(专著章节)毛峡，薛雨丽. 人机情感交互[M]. 科学出版社, 2011年7月1日. ISBN: 978-7-0303-1799-5. （专著）Mao X., Li Z. Web-based Affective Human-agent Interaction Generation[M]. Ronald Hartung (Ed.), Agent and Multi-agent system technology for Internet and Enterprise Systems, Springer-Verlag Berlin Heidelberg 2010, pp. 323-345,2010 ISBN: 978-3-642-13525-5. (专著章节)Mao X, Xue Y, Li Z, et al. Layered Fuzzy Facial Expression Generation: Social, Emotional and Physiological[M]. Affective Computing,Focus on Emotion Expression, Synthesis and Recognition, I-Tech Education and Publishing, pp. 83-106, May 2008, ISBN 978-3-902613-23-3. (专著章节)主要论文：SCI收录:X. Wu, X. Mao, L. Chen, Y. Xue, and A. Rovetta, Kernel optimization using nonparametric Fisher criterion in the subspace, Pattern Recognition Letters, vol. 54, pp. 43-49, 2015. (SCI)Yi J, Mao X, Chen L, et al. Illuminant direction estimation for a single image based on local region complexity analysis and average gray value[J]. Applied optics, 2014, 53(2): 226-236. (SCI)Yi J, Mao X, Chen L, et al. Facial expression recognition considering individual differences in facial structure and texture[J]. Computer Vision, IET, 2014, 8(5): 429-440.(SCI)Yuan S, Mao X, Xue Y, et al. SQR: a simple quantum representation of infrared images[J]. Quantum Information Processing, 2014, 13(6): 1353-1379.(SCI)Chen L, Mao X, Wei P, et al. Speech emotional features extraction based on electroglottograph[J]. Neural computation, 2013, 25(12): 3294-3317.(SCI)Yuan S, Mao X, Chen L, et al. Quantum digital image processing algorithms based on quantum measurement[J]. Optik-International Journal for Light and Electron Optics, 2013, 124(23): 6386-6390.(SCI)Mao X, Liu Y L, Chen L J, et al. A More Precise Empirical Formula for Estimating Normalized Fog Attenuation in the Millimeter-Wave Frequency Range 30~ 100 GHz[J]. Journal of Infrared, Millimeter, and Terahertz Waves, 2013, 34(3-4): 308-315.(SCI)Wang X,Mao X, Caleanu C D, et al. Statistical shape analysis for face movement manifold modeling[J]. Optical Engineering, 2012, 51(3): 037004-1-037004-8.(SCI)Chen L, Mao X, Wei P, et al. Mandarin emotion recognition combining acoustic and emotional point information[J]. Applied Intelligence, 2012, 37(4): 602-612.(SCI)Zheng H C, Mao X, Xue Y L, et al. Evaluation for detection probability of infrared point target under complicated backgrounds[J]. Journal of Electromagnetic Waves and Applications, 2012, 26(11-12): 1528-1537.(SCI)Chen L, Mao X, Xue Y, et al. Speech emotion recognition: Features and classification models[J]. Digital Signal Processing, 2012, 22(6): 1154-1160.(SCI)Li Z, Mao X. Emotional eye movement generation based on Geneva Emotion Wheel for virtual agents[J]. Journal of Visual Languages & Computing, 2012, 23(5): 299-310.(SCI)Mao X, Jiang L, Xue Y. Affect Computation of Chinese Short Text[J]. IEICE TRANSACTIONS on Information and Systems, 2012, 95(11): 2741-2744.(SCI)Diao, W. H., Mao, X, Zheng, H C, Xue, Y. L., & Gui, V. (2012). Image Sequence Measures for Automatic Target Tracking[J]. Progress In Electromagnetics Research, 130, 447-472(SCI)Li, Z., Mao, X. (2012). EEMML: the emotional eye movement animation toolkit[J]. Multimedia Tools and Applications, 1-21(SCI)Catalin-Daniel Caleanu, Xia Mao, Gilbert Pradel, Sorin Moga, Yuli Xue. Combined pattern search optimization of feature extraction and classification parameters in facial recognition[J]. Pattern Recognition Letters 32 (9),1250-1255，2011(SCI)W. H. Diao, X. Mao, . Metrics for Performance Evaluation of Pre-processing Algorithm In Infrared Small Target Images[J]. Progress In Electromagnetics Research, , 2011(SCI)Yu-Li Xue, Xia Mao, Catalin-Daniel Caleanu, ShanWei Lv, Layered Fuzzy Facial Expression Generation of Virtual Agent[J]. Chinese Journal of Electronics 19 (1), 69-74,2010 (SCI)Wang ., Mao, X., Caleanu. . Nonlinear shape-texture Manifold learning[J]. IEICE Transaction on Information and Systems 93 (8), 2016-2019, 2010(SCI)X. Mao, . Emotion Recognition Based on Parametric Filter and Fractal Dimension [J]. IEICE Transactions on Information and Systems 93 (8), 2324-2326, 2010(SCI)Kang Huang, Xia Mao. Novel Metric of Relative Characteristics of Small Targets and Backgrounds in Infrared Images[J]. Optical Engineering, 49(10), 2010 (SCI)Kang Huang, Xia Mao. Detectability of infrared small targets[J]. Infrared Physics & Technology, 53(3), 208- 217, 2010 (SCI)Xia Mao, Zheng Li. Generating and Describing Affective Eye Behaviors[J]. IEICE Transaction on Information and Systems, IEICE Press, 2010 (SCI)Xia Mao, Zheng Li. Agent Based Affective Tutoring Systems: A Pilot Study[J]. Computer & Education, Elsevier Press, 2010 (SCI)Wei-he Diao, Xia distance evaluation method for infrared imaging system under complicated backgrounds[J]. Electronics Letters. 45(25), 2009 (SCI)Xia Mao, Wei-he Diao. Criterion to evaluate the quality of infrared small target images [J]. In: International Journal of Infrared and Millimeter Waves,2008 (SCI)Xia Mao, Yu-Li Xue, Lee-Lung Cheng, Yun Sun. Harmonious Graphics Generating Based on the 1/f Function Theory. Chaos, Solitons & Fractals, v 32, n 2, April, 2007, 521-525 (SCI)Mao Xia, et al. Study on the Affective Property of music[J]. Chaos,Solitons & Fractals,. 2005 (SCI）Mao Xia, et al. Affective Property of Image and Fractal Dimension [J].Chaos,Solition & Fractal, . 905-910 (SCI）EI/ISTP收录:Wu X, Mao X, Chen L, et al. View-Invariant Gesture Recognition Using Nonparametric Shape Descriptor[C]//Pattern Recognition (ICPR), 2014 22nd International Conference on. IEEE, 2014: X, Liu X, Feng T, et al. A communication protocol of man overboard system based on BeiDou [C]//Intelligent Transportation Systems (ITSC), 2014 IEEE 17th International Conference on. IEEE, 2014: 1910-1911.易积政，毛峡，薛雨丽。基于特征点矢量与纹理形变能量参数融合的人脸表情识别[J]. 电子与信息学报刘运龙，薛雨丽，袁素真，毛峡。基于局部均值的红外小目标检测算法[J]. 红外与激光工程. 2013.毛峡，刘运龙，薛雨丽. 基于未加权区域采样的直线反走样算法[J]. 北航学报. 2013.袁素真, 毛峡, 陈立江, 薛雨丽. 基于双量子比特态测量的量子自适应中值滤波[J]. 北京航空航天大学学报Wu X, Mao X, Chen L, et al. Combined Motion and Region-Based 3D Tracking in Active Depth Image Sequence[C]//Green Computing and Communications (GreenCom), 2013 IEEE and Internet of Things (iThings/CPSCom), IEEE International Conference on and IEEE Cyber, Physical and Social Computing. IEEE, 2013: J, Mao X, Xue Y, et al. Facial Expression Recognition Based on t-SNE and AdaboostM2[C]//Green Computing and Communications (GreenCom), 2013 IEEE and Internet of Things (iThings/CPSCom), IEEE International Conference on and IEEE Cyber, Physical and Social Computing. IEEE, 2013: L, Mao X, Wei P, et al. Speech Synthesis Research Based on EGG[C]//Green Computing and Communications (GreenCom), 2013 IEEE and Internet of Things (iThings/CPSCom), IEEE International Conference on and IEEE Cyber, Physical and Social Computing. IEEE, 2013: J, Mao X, Chen L. Fast Motion Estimation Algorithm Based on H. 264[C]//Green Computing and Communications (GreenCom), 2013 IEEE and Internet of Things (iThings/CPSCom), IEEE International Conference on and IEEE Cyber, Physical and Social Computing. IEEE, 2013: L,Mao X, Xue Y L, et al. Speech Emotional Features Measured by Power-law Distribution based on Electroglottography[C]//BIOSIGNALS. 2012: X, Luo N, Xue Y L. Emphasizing on the Timing and Type-Enhancing the Backchannel Performance of Virtual Agent[C]//ICAART (2). 2012: 259-263.毛峡，李硕. 基于AVS音频编码的信息隐藏方法[J]. 华中科技大学学报, 2012.毛峡，李硕. AAC窗型判别和量化模块的改进算法[J] 信号处理, Xue, Xia Mao and Qing Chang. Facial Action Unit Recognition and Inference for Facial Ecpression Analysis[C]. VISIGRAPP Zheng, Xia Mao, Lin Jiang and Yuli Xue. Detection probability evaluation method for infrared point target under complicated backgrounds[C]. 11th International Conference on Quantitative InfraRed X, Jiang L, Xue Y. Textual Affect Detection in Human Computer Interaction[M]//Intelligent Autonomous Systems 12. Springer Berlin Heidelberg, 2013: X, Wang C, Xue Y. Expression Intensity Recognition Based on Multilayer Hybrid Classifier[M]//Intelligent Autonomous Systems 12. Springer Berlin Heidelberg, 2013: 739-748.陈立江，毛峡，Mitsuru Ishizuka. 基于Fisher准则与SVM的分层语音情感识别[J]. 模式识别与人工智能, 2012.毛峡，刘言，梁晓庚. 极坐标框架两轴平台光轴稳定算法[J]. 兵工学报, 2011.毛峡，常乐，刁伟鹤复杂背景下红外点目标探测概率估算[J]. 北航学报, 2011.王晓侃, 毛峡, Mitsuru Ishizuk.基于非线性流形学习的人脸面部运动估计[J]. 电子与信息学报, 2011.黄康，毛峡，梁晓庚.红外小目标图像背景杂波量化方法[J]. 光学学报, 2011.黄康, 毛峡, 梁晓庚. 红外小目标图像背景杂波量化方法[J].光学学报, Caleanu,Xia Mao,Vigil Tiponut, Yuli Xue. Direct Search as Unsupervised Training Algorithm for Neural Networks[A]. 14th WSEAS Int. Conf. on Systems, Z, Mao of Virtual Agent's Pupil Size, Blink Rate and Saccade on Person Impressions[J]. 10th International Conference on Intelligent Virtual Agents (IVA'10), Philadelphia, USA. 2010.毛峡，常乐，刁伟鹤. 复杂背景下红外点目标探测概率估算[J]. 北京航空航天大学学报.薛雨丽,毛峡, Catalin-Daniel Caleanu, 常青. 基于社交、情感和生理的分层模糊表情生成[J]. 模式识别与人工智能. 2010.黄康, 毛峡,梁晓庚, 一种新的红外背景抑制滤波算法[J]. 航空学报, 31(6), .Xia Mao,Zheng Li. Emotional Eye Movement Markup Language for Virtual Agents[A], 10th International Conference on Autonomous Agents and Multiagent Systems (AAMAS'10), Toronto, Canada 2010.刁伟鹤, 毛峡.一种新的红外目标图像质量评价方法[J]. 航空学报，2010.刁伟鹤,毛峡.自动目标识别中的图像序列质量评价方法[J]. 电子与信息学报，2010.薛雨丽，毛峡，Catalin-Daniel Caleanu，吕善伟.遮挡条件下的鲁棒表情识别方法[J], 北京航空航天大学学报，2010.刁伟鹤, 毛峡, 梁晓庚. 复杂背景红外成像系统作用距离估算方法[J]. 北京航空航天大学学报, 35(8), 1022-1026, 2009.黄康, 毛峡, 胡海勇，梁晓庚. 复杂背景下红外弱小运动目标检测的新方法,航空学报, 30(9), 1754-1760, Mao, Zheng Li, Lei Liu. Providing Expressive Eye Movement to Virtual Agents[A]. 11th International Conference on Multimodal Interfaces (ICMI-MLMI'09), Doctoral Spotlight Session. MIT Media Lab, pp. 241-244, Boston, MA, USA (2009).Xia Mao, Zheng Li, YuLi Xue. Emotional Gaze Behaviors Generation in Human-agent Interaction[A]. 27th ACM International Conference on Human Factors in Computing Systems (ACMCHI'09), Extended Abstracts, pp. 3691-3696. Boston, MA, USA, Mao, Zheng Li. Implementing Emotion-Based User-Aware E-Leaning[A]. 27th ACM International Conference on Human Factors in Computing Systems (ACMCHI'09), Extended Abstracts, pp. 3787-3792. Boston, MA, USA, Mao, Zheng Li, YuLi Xue. Emotional Gaze Behaviors Generation in Human-agent Interaction[A]. 27th ACM International Conference on Human Factors in Computing Systems (ACMCHI'09), Extended Abstracts, pp. 3691-3696. Boston, MA, USA, Mao, Zheng Li, Hai-Yan Bao. Extension of MPML with Emotion Recognition Functions Attached[A]. Proceeding of IVA08, Tokyo, Japan Mao, Zheng Li, Hai-Yan Bao. Generating and Describing Affective Human-agent Interaction[A]. Proceeding of ICNC08, Jinan, China, Mao, Zheng Li, Hai-Yan Bao. A Rough Set and SVM Based Approach to Chinese Textual Affect Sensing[A].Proceedings - 8th International Conference on Intelligent Systems Design and Applications, Taipei, China, Mao, Hai-Yan Bao, Zheng Li. Intelligent Emotion Decision System for Autonomous Agents[A]. Proceedings - 8th International Conference on Intelligent Systems Design and Applications, Taipei, China, Fu, Xia Mao. Speaker Independent Emotion Recognition Based SVM/HMMs Fusion System[A]. IEEE International Conference On Audio, Language And Image Processing (ICALIP), Shanghai, China, Fu, Xia Mao, LiJiang Chen. Speaker Independent Emotion Recognition Using HMMs Fusion System with Relative Speech Features. International Conference on Intelligent Networks and Intelligent Systems (ICINIS) , Wuhan, China, 2008.刁伟鹤，毛峡, 董旭阳. 一种红外小目标图像质量的评定方法[J]. 北京航空航天大学学报， Xia, Zhang Bing, Luo Yi. Emotion Recognition Based on a Hybrid of HMM/ANN[A]. 7th WSEAS Int. Conf. on Applied Informatics and Communications, Athens, Greece, Xia, Xue Yu-Li, Li Zheng and Diao WeiHe. Modeling of Layered Fuzzy Facial Expression Generation[A]. 12th Conf. on Huamn-Computer Interaction, Beijing, China, Xia, Xue YuLi, Li Zheng and Hu HanYong. Research on Multiple Facial Expressions of Emotions[A]. 5th Conf. on Computing, Communications and Control Technologies, Orlando, Florida, USA, 2007.毛峡, 赵兴圆，沈巍. 一种基于模糊决策的矩形目标提取算法[J]. 北京航空航天大学学报.2007.毛峡, 薛雨丽等. BHU人脸表情数据库的设计与实现[J]. 北京航空航天大学学报, (02): Xue,Xia UNIVERSITY FACIAL EXPRESSION DATABASE AND MULTIPLE FACIAL EXPRESSION RECOGNITIO[A]. International Conference on Machine Learning and Cybernetics 2006.毛峡, 孟庆宇. 基于小波分析和神经网络的脑电信号分类方法[J]. 北京航空航天大学学报., 31(10): Xia,et al. Analysis and Synthesis of Two Dimensional Fractional Brownian Motion Based on Wavelet[A]. The 6th World Multi-Conference on SYSTEMICS, CYBERNETICS AND INFORMATICS, America, Xia, et al. Study on Transforming From Painting to EURASIP – IEEE Region 8 International Symposium on Video/Image Processing and Multimedia Communications. (VIPromCom – 2002 ), Xia, et al. Analysis of Affective Characteristics and Evaluation of Harmonious Feeling of Image Based on 1/f Fluctuation Theory [A]. International Conference on Industrial & Engineering Applications of Artificial Intelligence & Expert Systems(IEA/AIE 2002)[C], Australia,: 780-789.毛峡等. 1/f波动数据的产生及其舒服感评价[J].北京航空航天大学学报，2002, 28(3):253-256.毛峡等. 基于小波的2-D分形布朗运动分析与合成[J].电子学报, .毛峡等. 图像的情感特征分析及其和谐评价[J]. 电子学报, Xia,et al. Characterization of Dried Seaweed Fluctuation Analysis[A]. of Japan [C], 1997,

一种用于三维空间杂波环境机动目标跟踪的数据互联方法，《电子与信息学报》2009年第4期被动传感器阵列中基于粒子滤波的目标跟踪，《电子与信息学报》2009年第4期一种新的嵌入式Linux高性能定时器实现方法，《信号处理》2009年第3期一种新的红外弱小目标检测与跟踪算法，《信号处理》2008年第6期被动传感器网基于修正Riccati方程的系统优化设计，《信号处理》2008年第5期基于SIS框架和蚁群算法的非线性多目标跟踪，《电子与信息学报》2008年第9期基于人类视觉系统的自适应数字水印算法，《上海交通大学学报》2008年第7期一种基于电子签章的二值图像数字水印算法，《信号处理》2008年第3期基于身份的网络化制造安全协同商务平台，《计算机工程》2008年第13期基于Clifford代数传感器网络覆盖理论的路径分析，《电子学报》2007年第B12期传感器网络高阶模糊覆盖分析，《电子学报》2007年第B12期传感器网络最佳情况模糊覆盖问题研究，《电子学报》2007年第B12期一种基于蚁群算法的多目标跟踪数据关联方法，《电子学报》2008年第3期基于数据仓库的投资决策支持系统设计研究，《微电子学与计算机》2008年第2期量子球壳聚类，《西安电子科技大学学报》2008年第1期基于身份的安全邮件认证体系设计与分析，《计算机科学》2008年第2期异类传感器系统目标快速定位方法，《系统工程与电子技术》2007年第12期一种基于并行计算熵迁移策略的多分辨DOM数据生成算法，《中国科学技术大学学报》2007年第12期基于模糊Hough变换的被动传感器系统航迹起始方法，《系统工程与电子技术》2007年第11期THz信号处理与分析的研究现状和发展展望，《电子学报》2007年第10期模糊数据互联滤波器及其在机动目标跟踪中的应用，《系统仿真学报》2007年第20期分布式异类传感器网异步采样下的航迹起始算法，《系统工程与电子技术》2007年第9期机动目标跟踪中数据互联新方法，《电子与信息学报》2007年第10期一种新的视界覆盖遗传算法，《西安电子科技大学学报》2007年第5期基于运动特征的远距离红外目标检测方法，《电子与信息学报》2007年第8期被动传感器网基于模糊综合贴近度的航迹起始，《电子学报》2007年第8期基于IBE的跨网络电子公文安全交换平台，《微计算机信息》2007年第18期一种基于身份的无可信第三方签名方案，《深圳大学学报：理工版》2007年第3期基于图像梯度场序列的双向GDIM光流计算方法，《电子学报》2007年第7期一种基于身份的短数字签名方案，《微计算机信息》2007年第21期分布式异类传感器网Hough变换航迹起始算法，《深圳大学学报：理工版》2007年第2期基于DWT和DCT域的二值图像数字水印算法，《计算机与数字工程》2007年第3期基于并行计算熵的同构集群负载均衡算法，《深圳大学学报：理工版》2007年第1期基于unscented粒子滤波的红外弱小目标跟踪，《系统工程与电子技术》2007年第1期一种空域DCT与时域DWT相结合的鲁棒视频数字水印算法，《中国体视学与图像分析》2006年第4期图像插值方法对互信息局部极值的影响分析，《电子与信息学报》2006年第10期网状被动传感器系统优化设计，《系统工程与电子技术》2006年第12期基于小波变换和目标运动特性的红外弱小目标检测，《红外》2006年第9期基于小波变换的红外弱小目标检测新方法，《红外技术》2006年第7期在线CA的安全增强方案研究，《计算机工程》2006年第11期基于ADSP—BF561车载多媒体系统，《现代电子技术》2006年第3期空间分析中视界覆盖问题的研究，《系统工程与电子技术》2005年第11期模糊观测数据的关联和目标跟踪，《信号处理》2005年第4期从航空影像中自动提取高层建筑物，《计算机学报》2005年第7期城市航空影像中基于模糊Retinex的阴影消除，《电子学报》2005年第3期一种新的自适应图像模糊增强算法，《西安电子科技大学学报》2005年第2期基于OAR模型的航空影像高层建筑自动提取，《深圳大学学报：理工版》2005年第1期红外热图像序列中基于人体模型的目标头部定位方法，《激光与红外》2005年第2期直线Snakes及其在建筑物提取中的应用，《西安电子科技大学学报》2005年第1期网状被动传感器系统视线交叉目标定位方法，《电子与信息学报》2005年第1期一种新的道路描述子：对称边缘方向直方图，《电子学报》2005年第1期基于对称边缘方向直方图自动提取主要道路，《中国体视学与图像分析》2005年第2期分布式被动传感器网异步采样下的机动目标跟踪，《系统仿真学报》2005年第6期一种基于频带一致性的多模态图像校准算法，《通信学报》2005年第4期基于模糊熵的自适应图像多层次模糊增强算法，《电子学报》2005年第4期一种安全增强的基于椭圆曲线可验证门限签名方案，《计算机研究与发展》2005年第4期密码学与数字水印在电子印章中的应用，《微机发展》2004年第11期一种安全实用的电子公文系统设计与实现，《现代电子技术》2004年第21期基于DSP的PCI图像采集卡设计，《现代电子技术》2004年第4期基于DSP组建短波电台无线数据传输网络的系统设计，《电子设计应用》2004年第2期基于直方图的自适应高斯噪声滤波器，《系统工程与电子技术》2004年第1期短波电台无线数据传输网络的组建，《现代电子技术》2004年第3期半抑制式模糊C-均值聚类算法，《中国体视学与图像分析》2004年第2期基于模糊推理的自动多级图像分割，《中国体视学与图像分析》2004年第1期航空影像中立交桥的自动检测，《中国体视学与图像分析》2004年第1期网状被动传感器系统航迹初始状态估计，《信号处理》2004年第6期被动传感器系统分层快速关联算法，《电子学报》2004年第12期一种基于模糊运算的多目标多传感器跟踪算法，《系统工程与电子技术》2004年第11期异步被动传感器系统模糊Hough变换航迹起始算法，《系统工程与电子技术》2004年第11期窗户纹理的时频描述及其在建筑物提取中的应用，《中国图象图形学报：A辑》2004年第10期基于模糊熵的支撑矢量预选取方法，《复旦学报：自然科学版》2004年第5期基于物方几何约束提取建筑物垂直边缘，《中国图象图形学报：A辑》2004年第9期分布式网状被动传感器系统定位误差分析，《西安电子科技大学学报》2004年第5期分布式网状被动传感器系统量测数据关联，《系统工程与电子技术》2004年第12期基于核方法的分类型属性数据集模糊聚类算法，《华南理工大学学报：自然科学版》2004年第9期基于模糊决策的密集多回波环境下航迹起始算法，《雷达与对抗》2004年第3期红外传感器阵列基于信息冗余性的目标定位，《系统工程与电子技术》2004年第8期基于核方法的模糊聚类算法，《西安电子科技大学学报》2004年第4期一种用于模式识别的多色Voronoi图，《系统工程与电子技术》2004年第7期基于DSP的短波电台无线数据传输网络实现，《深圳大学学报：理工版》2004年第3期基于直方图的自适应图像去噪滤波器，《电子学报》2004年第7期自适应模糊Hough变换，《电子学报》2004年第6期基于主动秘密共享的安全容忍入侵方案，《兰州交通大学学报》2004年第1期基于模糊熵的多值图像恢复方法，《西安电子科技大学学报》2004年第2期

随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文，欢迎阅读!

图像识别技术研究综述

摘要：随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解，由于图像在成像时受到外部环境的影响，使得图像具有特殊性，复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。

关键词：图像处理;图像识别;成像

中图分类号：TP391 文献标识码：A 文章编号：1009-3044(2013)10-2446-02

图像是客观景物在人脑中形成的影像，是人类最重要的信息源，它是通过各种观测系统从客观世界中获得，具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展，图像处理技术的应用也越来越广泛，并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段，比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等，在这些应用中，都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理，着重强调图像与图像之间进行的交换，主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性，使得图像处理和识别技术成为研究热点。

1 图像处理技术

图像处理(image processing)利用计算机对图像进行分析，以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理，而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声，将原始图像编程适于计算机进行特征提取的形式，主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集，图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像，也包括一些动态图像，并可以将其转为数字图像，和文字、图形、声音一起存储在计算机内，显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强，图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化，数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分，使图像的主体结构更加明确，必须对图像进行改善，即图像增强。通过图像增强，以减少图像中的图像的噪声，改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量，使图像中的物体的轮廓更加清晰，细节更加明显。图像增强不考虑图像降质的原因，增强后的图像更加赏欣悦目，为后期的图像分析和图像理解奠定基础。

3)图像复原，图像复原也称图像恢复，由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊，为了提取比较清晰的图像需要对图像进行恢复，图像恢复主要采用滤波方法，从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建，该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩，数字图像的显著特点是数据量庞大，需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频，那么必须对图像进行编码和压缩。目前，图像压缩编码已形成国际标准，如比较著名的静态图像压缩标准JPEG，该标准主要针对图像的分辨率、彩色图像和灰度图像，适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列，因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术，图像分割是把图像分成一些互不重叠而又具有各自特征的子区域，每一区域是像素的一个连续集，这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位，然后把目标从背景中分离出来。目前，图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰，使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述，描述是用数字或者符号表示图像或景物中各个目标的相关特征，甚至目标之间的关系，最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时，可以采用模板匹配模型。在某些具体的应用中，图像识别除了要给出被识别对象是什么物体外，还需要给出物体所处的位置和姿态以引导计算初工作。目前，图像识别技术已广泛应用于多个领域，如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有：

指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段，主要应用于身份验证。指纹识别是生物特征的一个部分，它具有不变性：一个人的指纹是终身不变的;唯一性：几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前，指纹识别技术与我们的现实生活紧密相关，如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

人脸识别目前大多数人脸识别系统使用可见光或红外图像进行人脸识别，可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下，其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响，但由于红外线不能穿透玻璃，如果待识别的对象戴有眼镜，那么在图像识别时，眼部信息全部丢失，将严重影响人脸识别的性能[4]。

文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术，可以自动地把文字和其他信息分离出来，通过智能识别后输入计算机，用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档，如银行票据、文稿、各类公式和符号等自动录入，可以提供文字的处理效率，有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样，使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事，但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下，图像识别技术取得了一定的成功，但在复杂的环境下，仍面临着许多问题：如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准，以及算法本身存在一定的局限性，这使得图像识别的最终结果不十分精确等。

参考文献：

[1] 胡爱明，周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用，2003，39(7)：90—91.

[2] 胡学龙.数字图像处理[M].北京：电子工业出版社，2011.

[3] 范立南，韩晓微，张广渊.图像处理与模式识别[M].北京：科学出版社，2007.

[4] 晓慧，刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用，2009，1(29)：8.

[5] 陈良育，曾振柄，张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用，2005，25(7)：1629-1631.

[6] Sanderson C，Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33，Martigny，Swizerland，2002.

点击下页还有更多>>>图像识别技术论文

车牌检测与识别系统论文

车牌自动识别原理基本是经过车牌捕捉、定位、截取、二值化、字符切分，最后车牌OCR识别、结果输出，一般还会有字符识别后处理等几个步骤，这几个步骤要协调处理才行，还要使用各种情况，比如，雨雪天气、反光、阴阳车牌、晚上补光、污损车牌等具体实际情况进行各种优化，才能得到一个完美的车牌识别算法，如果做论文，可以直接用开源的一些东西去完善，如果实际应用，可以用商用的车牌OCR识别产品。启智畅想车牌识别SDK特点：1、毫秒级识别车牌，彻底解决手工输入痛点，快速、准确；2、手机相机视频预览识别车牌，可提供安卓、ISO、Windows、Linux等系统识别，支持移动设备离线识别以及电脑客户端、服务器端识别；3、支持识别的车牌种类多，蓝牌、黄牌、新能源车牌均可识别，4、复杂场景车牌均可识别，适应性强，白天晚上、远距离、大角度都能快速准确的识别车牌；5、车牌识别SDK开发部整体不超过500K，识别率高达99%；

交通运输企业作为国民经济的重要参与主体。下文是我为大家整理的关于交通运输毕业论文的范文，欢迎大家阅读参考!

浅析公路交通运输

【摘要】在中国东部铁路和水运都较发达的地区，公路起着辅助运输作用，承担短途运输;在西南和西北地区则担负着干线运输的任务。公路运输随着治超的深入以及降低大吨位车辆路桥通行费等政策措施的落实，运价水平回落，货运量将保持较快的增长，运输市场将出现供大于求的局面。

【关键词】公路运输;运输特点;运输前景

纵观中国运输现状，各种运输方式发展势头迅猛，公路运输在中国仍发挥着不可磨灭的作用。我国公路在客运量、货运量、客运周转量等方面均遥遥领先于其他运输方式的总和。

一、公路运输的地位和作用

公路运输在整个交通运输业中处于基础地位并发挥以下作用：

(1)公路运输机动灵活、快速直达，是最便捷也是唯一(管道运输除外)具有送达功能的运输方式。

(2)其它运输方式组织运输生产，需要公路运输提供集疏运输的条件。

(3)公路运输覆盖面广。

(4)随着公路等级的逐步提高，公路客货运量在综合运输体系中所占的比重不断提高。

(5)半个世纪以来，公路运输是世界各国各种运输方式中发展最快的一种，现已成为许多国家最主要的运输方式。例如：我国汽车保有量逐年增加。

二、公路运输的特点

1.机动灵活，适应性强：由于公路运输网一般比铁路、水路网的密度要大十几倍，分布面也广，因此公路运输车辆可以“无处不到、无时不有”。公路运输在时间方面的机动性也比较大，车辆可随时调度、装运，各环节之间的衔接时间较短。尤其是公路运输对客、货运量的多少具有很强的适应性，汽车的载重吨位有小(～1t左右)有大(200t～300t左右)，既可以单个车辆独立运输，也可以由若干车辆组成车队同时运输，这一点对抢险、救灾工作和军事运输具有特别重要的意义。

2.可实现“门到门”直达运输：由于汽车体积较小，中途一般也不需要换装，除了可沿分布较广的路网运行外，还可离开路网深入到工厂企业、农村田间、城市居民住宅等地，即可以把旅客和货物从始发地门口直接运送到目的地门口，实现“门到门”直达运输。这是其它运输方式无法与公路运输比拟的特点之一。

3.在中、短途运输中，运送速度较快：在中、短途运输中，由于公路运输可以实现“门到门”直达运输，中途不需要倒运、转乘就可以直接将客货运达目的地，因此，与其它运输方式相比，其客、货在途时间较短，运送速度较快。

4.原始投资少，资金周转快：公路运输与铁、水、航运输方式相比，所需固定设施简单，车辆购置费用一般也比较低，因此，投资兴办容易，投资回收期短。据有关资料表明，在正常经营情况下，公路运输的投资每年可周转1～3次，而铁路运输则需要3～4年才能周转一次。

5.掌握车辆驾驶技术较易：与火车司机或飞机驾驶员的培训要求来说，汽车驾驶技术比较容易掌握，对驾驶员的各方面素质要求相对也比较低。

6.运量较小，运输成本较高：目前，世界上最大的汽车是美国通用汽车公司生产的矿用自卸车，长20多米，自重610t，载重350t左右，但仍比火车、轮船少得多;由于汽车载重量小，行驶阻力比铁路大9～14倍，所消耗的燃料又是价格较高的液体汽油或柴油，因此，除了航空运输，就是汽车运输成本最高了。

7.运行持续性较差：据有关统计资料表明，在各种现代运输方式中，公路的平均运距是最短的，运行持续性较差。如我国1998年公路平均运距客运为55km，货运为57km，铁路客运为395km，货运为764km。

8.安全性较低，污染环境较大：据历史记载，自汽车诞生以来，已经吞吃掉3000多万人的生命，特别是20世纪90年代开始，死于汽车交通事故的人数急剧增加，平均每年达50多万。这个数字超过了艾滋病、战争和结核病人每年的死亡人数。汽车所排出的尾气和引起的噪声也严重地威胁着人类的健康，是大城市环境污染的最大污染源之一。

三、公路运输的现状

我国传统的公路运输业经过几十年的发展，已经初具规模。在总体规模、运力、运量和服务质量等方面都达到一定的水准。在计划经济时代，传统的公路运输业比较能适应社会经济对公路运输业的要求，对过去我国国民经济的发展做出过重要贡献。但是，随着我国改革开放的逐渐深入和社会主义市场经济体制的不断建立，脱胎于计划经济时代的传统公路运输企业已经越来越不能适应新形势下社会经济发展的需要，其内在的弊端也逐渐显现出来。目前我国传统的公路运输业主要面临以下几个方面的问题：

1.在行业管理上，由于公路运输行业的市场准入门槛很低，因此公路运输行业出现了运输企业“规模小、数量多、管理混乱”的状况。这种各自为战、过度竞争的情况，使得公路运输企业通常达不到经济运营规模，形不成规模优势，这严重影响了公路运输的健康发展。

2.在经营管理理念上，传统的公路运输企业中有很大一部分还没有针对新的经济环境及时改变经营观点、转变经营方式。企业所追求的仍然是吨公里、实载率等传统指标的完成情况，仅为客户提供低层次、低水平的运输服务。在市场恶性竞争、无序经营盛行的情况下，公路运输企业的经营步履艰难。

3.在企业管理手段上，传统公路运输企业目前还停留在纸面操作的阶段，大部分的运输企业尚未应用先进的计算机管理系统，因此，所提供运输服务在及时性、准确性、可靠性及多样性等方面都处在较低水平。

四、公路运输发展趋势

1.随着高速公路及汽车专用公路建成使用，加大开展公路快速客、货运业务是趋势。

2.随着公路网的完善，按规模化要求建立集约化经营的运输企业在这过程中，行政区域的界限将趋于淡化。

3.公路运输将纳入物流服务业发展系统中，将进一步加强专业化原则上的合作，包括不同运输方式之间的合作与服务对象的合作。

4.在运输管理方面将采用车辆运行动态监控系统以及车辆运行自动记录仪。

5.运输组织方式按生产水平分层发展。在公路通行条件好、客货流量大的公路上按现代企业制度的要求建立规模化、集约化经营的运输企业。

6.逐步加强运输规划，是公路建设及运输站场设施的配置与客货流规律更好地协调起来。

【参考文献】

[1]王俊.公路交通运输浅析.2012，(07).

[2]王瑜.交通运输业技能发展及创新轨迹.2012，(08).

[3]曹红阳.交通运输评估与对策.2011，(02).

浅谈智能交通运输系统一、智能交通运输系统的概念

智能交通运输系统(ITS)是将先进的信息技术、通讯技术、传感技术、控制技术以及计算机技术等有效地集成运用于整个交通运输管理体系，而建立起的一种在大范围内、全方位发挥作用的，实时、准确、高效的综合的运输和管理系统。该系统将采集到的各种道路交通及服务信息经交通管理中心集中处理后，传输到公路运输系统的各个用户(驾驶员、居民、警察局、停车场、运输公司、医院、救护排障等部门)，出行者可时时选择交通方式和交通路线;交通管理部门可自动进行合理的交通疏导、控制和事故处理;运输部门可随时掌握车辆的运行情况，进行合理调度。从而，使路网上的交通流运行处于最佳状态，改善交通拥挤和阻塞，最大限度地提高路网的通行能力，提高整个公路运输系统的机动性、安全性和生产效率。

二、智能交通系统的发展及内涵

20世纪80年代，各发达国家虽然已经基本建成了四通八达的现代化国家道路网，但是随着经济的发展，各国路网通行能力日益满足不了快速增长的交通需求，交通拥挤、交通事故、环境污染以及能源短缺等交通问题是世界各国面临的共性问题，无论是发达国家还是发展中国家，都遭遇不同程度交通问题的困扰。在发达国家工业化进程中，最初解决交通问题的传统办法是修建道路，扩大路网规模来满足人民日益增长的交通需求。但无论是发达国家还是发展中国家，由于土地资源日益紧张，用来修建道路的空间越来越小。与此同时交通在快速发展过程中带来的负效应日益显现，面对这些交通问题，能否找到一种有效途径解决以上交通问题，降低经济损失，提高交通运营的效率和安全是发达国家最先研究智能交通系统的主要动机。通讯、控制、信息技术等先进技术的产生为智能交通系统的产生提供了有力的技术支撑。用高新技术改造传统产业，提高交通运输整体效率和水平，已经成为各国共识。

1.美国。

注重ITS安全设施建设，根据本国交通基础设施特点和实际需要，已建立起相对完善的车队管理、公交出行信息、电子收费和交通需求管理四大系统及多个子系统及技术规范标准。“”恐怖事件引发了美国政府和交通界人士反思，认为ITS应该而且能够有效预防恐怖袭击，加强基础设施和出行者安全并可用于评价灾难程度与加快交通恢复，实现快速疏散和隔离。因此，美国ITS今后建设趋势之一就是研究ITS在美国安全体系中维护地面交通安全作用，重点集中在安全防御、用户服务、系统性能和交通安全管理方面。

2.日本。

注重ITS诱导设施建设，建设组织以丰田公司为首的25家公司联合研发自动公路系统(AHS)。近几年，日本还投入15亿日元开发全国公路电子地图系统，打开了车辆电子导航市场，已有近400万套车内导航系统在市场上应用。日本的ITS建设主要集中在交通信息提供、电子收费、公共交通、商业车辆管理及紧急车辆优先等方面。

3.欧洲。

注重构建ITS基础平台，ITS建设进展介于日本和美国之间。目前正在全面应用开发远程信息处理技术，计划在全欧洲建立专门交通(以道路交通为主)无线数据通信网，ITS的主要功能和交通管理、导航和电子收费等都围绕远程信息处理技术及全欧洲无线数据通信网来实现。目前，开发先进的旅行信息系统(ATIS)、车辆控制系统(AVCS)、商业车辆运行系统(ACVO)、电子收费系统等方面。

从以上发达国家智能交通产生的过程，我们可以看出：智能交通系统的产生是历史发展的产物，它是经济与技术发展在交通运输领域的融合体现。它的发展离不开经济促进，离不开技术支撑体系，智能交通的最终目标是促进交通运输的高效、安全、舒适、可持续发展。

三、智能交通运输系统的应用

目前世界上应用智能交通系统最为广泛的是日本，日本的VICS系统已经达到了相当完善和成熟的阶段。美国、欧洲等地区的智能交通系统也已经广泛普及应用。

1.省际公路(高速公路)交通管理。

省际公路交通管理主要包括国道、省道等城市之间的普通公路及高速公路管理系统。目前省际公路交通管理主要应用的系统为“国家高速公路联网不停车收费和服务系统(ETC)”，简称不停车收费系统。将来，ETC系统将在区域甚至全国进行联网。

2.城市道路交通管理。

城市道路管理系统中还包括信号灯控制系统、路况指示系统、车牌识别系统、道路视频监控系统等。

信号灯控制系统和路况指示牌主要帮助管理部门和车辆更了解所处的路况条件，以便进行最合理的道路管理和道路选择，提高道路运输的效率;车牌识别系统和道路视频监控系统除提高道路运输效率外，还对城市治安监控起到一定的作用;道路视频监控系统是以上系统中只用最为广泛的系统，在众多城市的“平安城市”建设中，道路视频监控已经被纳入建设范围。

3.城市公共交通管理。

城市智能公交系统是主要针对城市内部公共交通的指挥、管理、调度、应急等方面智能系统。城市智能公交系统主要实现对城市公共交通线路、车站、车辆的全面监控。通过各种辅助设备预知并合理调度公交资源，优化公交系统，并与道路交通管理系统进行协作，实现既定的城市交通策略。如，北京奥运期间通过GPS对公交车定位和信号灯遥控系统协作，实施“公交优先”的交通策略。

4.高速铁路交通系统管理。

高速铁路信息化数字化系统，也称高速铁路智能化系统，主要包括五个系统：通信系统、信号系统、电力系统、电气化系统和信息系统。

四、小结

智能交通系统是全面应用信息技术的一个交通运输发展领域。智能交通系统的建设绝不仅仅是各种先进的电子系统的堆积，而应该大力强调信息在智能交通建设中的核心作用，紧紧围绕信息这个核心，强化对公路、城市道路、公共交通和轨道交通设施的管理，实现更安全、更便捷、更有效、与环境更协调的客货运输。

参考文献:

[1]杜一萍，智能交通运输系统综述[J].江苏省交通科学研究院，

[2]魏明、龚家传，智能交通运输系统及其发展现状[J].贵州大学学报(农业与生物科学版)，2002年第5期

汽车牌照自动识别技术是一项利用车辆的动态视频或静态图像进行牌照号码、牌照颜色自动识别的模式识别技术。通过对图像的采集和处理，完成车牌自动识别功能，能从一幅图像中自动提取车牌图像，自动分割字符，进而对字符进行识别.其硬件基础一般包括触发设备(监测车辆是否进入视野)、摄像设备、照明设备、图像采集设备、识别车牌号码的处理机(如计算机)等，其软件核心包括车牌定位算法、车牌字符分割算法和光学字符识别算法等。某些牌照识别系统还具有通过视频图像判断车辆驶入视野的功能称之为视频车辆检测。一个完整的牌照识别系统应包括车辆检测、图像采集、牌照识别等几部分。当车辆检测部分检测到车辆到达时触发图像采集单元，采集当前的视频图像。牌照识别单元对图像进行处理，定位出牌照位置，再将牌照中的字符分割出来进行识别，然后组成牌照号码输出。车牌识别停车场管理系统将摄像机在入口拍摄的车辆车牌号码图象自动识别并转换成数字信号。做到一卡一车，车牌识别的优势在于可以把卡和车对应起来，使管理提高一个档次，卡和车的对应的优点在于长租卡须和车配合使用，杜绝一卡多车使用的漏洞，提高物业管理的效益;同时自动比对进出车辆，防止偷盗事件的发生。升级后的摄像系统可以采集更清晰的图片，作为档案保存，可以为一些纠纷提供有力的证据。方便了管理人员在车辆出场时进行比对，大大增强了系统的安全性。

车牌识别系统可以自动检测并识别图像中的车辆牌照，其算法主要包括牌照定位、牌照分割、字符识别等步骤。本文将给出一种基于深度学习的车牌识别系统方案。由于可以自动地从视频图像中提取车辆牌照信息，因此车牌识别系统可以应用于以下行业：我们的项目包含以下三个步骤：车辆牌照检测、牌照字符分割、牌照字符识别。我们使用Yolo（You Only Look One）算法来检测车辆牌照。Yolo是一个基于卷积神经网络的深度学习目标检测架构。该架构由 Joseph Redmon , Ali Farhadi, Ross Girshick和Santosh Divvala引入，2015年推出第一个版本，然后逐渐升级至版本3： Yolo是一个端到端训练的单一网络，可以用来预测目标的类别与边界框。Yolo网络速度极快，可以每秒45帧的速度实时处理图像。其中一个较小规模的网络，被称为Fast YOLO，甚至达到了令人咂舌的155帧/秒的处理速度。下面我们来实现YOLO V3网络。首先，我们准备一个有700张包含土耳其车辆牌照的图片的数据集，对每一张图片，我们都使用一个桌面应用LabelImg标注出车牌位置并存入一个xml文件。数据下载及网络训练脚本如下：在网络训练完之后，为了识别图像中的车辆牌照，我们从darknet/custom/weights中选择最新的模型并在文件中写入其路径名称，我们也将使用文件，注释掉训练部分，然后执行：这就是我们的结果：现在我们要分割出我们的车牌号码。这个步骤的输入是车牌图像，我们必须能够提取出单个字符的图像。由于这一步骤的输出将用于识别步骤，因此对于一个车牌识别系统而言，车牌分割步骤非常重要。为了尽可能的正确分割车牌字符，我们需要进行必要的预处理。像素投影直方图用来找出字符区域的上限和下限、左边及右边。我们使用水平投影来找出字符的顶部和底部位置，使用垂直投影来找出字符的左边和右边位置：从车辆牌照中提取数字的另一个方法时使用形态学的开/闭操作来生成一些连通区域，然后再使用连通跟踪算法提取这些连通区域。识别阶段是我们的车牌自动检测与识别系统的最后一个环节，识别是基于前面环节得到的单个字符图像。我们的模型将对这些图像进行预测，从而得到最终的车牌号码。为了尽可能利用训练数据，我们将每个字符单独切割，得到一个车牌字符数据集，该数据集中包含11个类（数字0-9以及阿拉伯单词），每个类包含30~40张字符图像，图像为28X28的PNG格式。然后，我们就多层感知器MLP和K近邻分类器KNN的比较进行了一些调研，研究结果标明，对于多层感知器而言，如果隐层的神经元增多，那么分类器的性能就会提高；同样，对于KNN而言，性能也是随着近邻数量的增多而提高。不过由于KNN的可调整潜力要远远小于MLP，因此我们最终选择在这个阶段使用多层感知器MLP网络来识别分割后的车牌字符：你可以在这里找到代码及数据集：github 原文链接：车辆牌照自动检测与识别 —— 汇智网

图像目标检测与识别论文

论文原文：

YOLO（you only look once）是继RCNN、faster-RCNN之后，又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下，解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比：

如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测，那么yolo则是更进一步，将目标区域预测与目标类别判断整合到单个神经网络模型中。各检测算法结构见下图：

每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息，其值是这样计算的：

其中如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

每个bounding box要预测(x, y, w, h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。即SxS个网格，每个网格除了要预测B个bounding box外，还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。（注意：class信息是针对每个网格的，即一个网格只预测一组类别而不管里面有多少个bounding box，而confidence信息是针对每个bounding box的。）

举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示：

在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score:

等式左边第一项就是每个网格预测的类别信息，第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率，也有该box准确度的信息。

得到每个box的class-specific confidence score以后，设置阈值，滤掉得分低的boxes，对保留的boxes进行NMS（非极大值抑制non-maximum suppresssion）处理，就得到最终的检测结果。

1、每个grid因为预测两个bounding box有30维（30=2*5+20），这30维中，8维是回归box的坐标，2维是box的confidence，还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间，w,h除以图像的width和height也归一化到0-1之间。

2、对不同大小的box预测中，相比于大box预测偏一点，小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题，作者用了一个比较取巧的办法，就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解，小box的横轴值较小，发生偏移时，反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。

3、一个网格预测多个box，希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大，就负责哪个。这种做法称作box predictor的specialization。

4、损失函数公式见下图：

在实现中，最主要的就是怎么设计损失函数，坐标（x,y,w,h），confidence，classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足：

解决方法：

只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候，才会对box的coordinate error进行惩罚，而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。

作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段，采用网络中的前20卷积层，外加average-pooling层和全连接层。模型训练了一周，获得了top-5 accuracy为（ImageNet2012 validation set），与GoogleNet模型准确率相当。

然后，将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层，提高了模型输入分辨率（224×224->448×448）。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation，其它层使用 leaky rectified linear。

作者采用sum-squared error为目标函数来优化，增加bounding box loss权重，减少置信度权重，实验中，设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮，batch size为64，动量为，学习速率延迟为。Learning schedule为：第一轮，学习速率从缓慢增加到（因为如果初始为高学习速率，会导致模型发散）；保持速率到75轮；然后在后30轮中，下降到；最后30轮，学习速率为。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为；data augmentation包括：random scaling，translation，adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点：

1、 YOLO检测物体非常快

因为没有复杂的检测流程，只需要将图像输入到神经网络就可以得到检测结果，YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且，YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、 YOLO可以很好的避免背景错误，产生false positives

不像其他物体检测系统使用了滑窗或region proposal，分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息，因此YOLO在检测物体时能很好的利用上下文信息，从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比，YOLO的背景错误不到Fast-R-CNN的一半。

3、 YOLO可以学到物体的泛化特征

当YOLO在自然图像上做训练，在艺术作品上做测试时，YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征，从而迁移到其他领域。

尽管YOLO有这些优点，它也有一些缺点：

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好（尤其是密集的小物体，因为一个栅格只能预测2个物体）。

随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文，欢迎阅读!

图像识别技术研究综述

摘要：随着图像处理技术的迅速发展，图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解，由于图像在成像时受到外部环境的影响，使得图像具有特殊性，复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。

关键词：图像处理;图像识别;成像

中图分类号：TP391 文献标识码：A 文章编号：1009-3044(2013)10-2446-02

图像是客观景物在人脑中形成的影像，是人类最重要的信息源，它是通过各种观测系统从客观世界中获得，具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展，图像处理技术的应用也越来越广泛，并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段，比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等，在这些应用中，都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理，着重强调图像与图像之间进行的交换，主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性，使得图像处理和识别技术成为研究热点。

1 图像处理技术

图像处理(image processing)利用计算机对图像进行分析，以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理，而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声，将原始图像编程适于计算机进行特征提取的形式，主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集，图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像，也包括一些动态图像，并可以将其转为数字图像，和文字、图形、声音一起存储在计算机内，显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强，图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化，数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分，使图像的主体结构更加明确，必须对图像进行改善，即图像增强。通过图像增强，以减少图像中的图像的噪声，改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量，使图像中的物体的轮廓更加清晰，细节更加明显。图像增强不考虑图像降质的原因，增强后的图像更加赏欣悦目，为后期的图像分析和图像理解奠定基础。

3)图像复原，图像复原也称图像恢复，由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊，为了提取比较清晰的图像需要对图像进行恢复，图像恢复主要采用滤波方法，从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建，该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩，数字图像的显著特点是数据量庞大，需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频，那么必须对图像进行编码和压缩。目前，图像压缩编码已形成国际标准，如比较著名的静态图像压缩标准JPEG，该标准主要针对图像的分辨率、彩色图像和灰度图像，适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列，因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术，图像分割是把图像分成一些互不重叠而又具有各自特征的子区域，每一区域是像素的一个连续集，这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位，然后把目标从背景中分离出来。目前，图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰，使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述，描述是用数字或者符号表示图像或景物中各个目标的相关特征，甚至目标之间的关系，最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时，可以采用模板匹配模型。在某些具体的应用中，图像识别除了要给出被识别对象是什么物体外，还需要给出物体所处的位置和姿态以引导计算初工作。目前，图像识别技术已广泛应用于多个领域，如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有：

指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段，主要应用于身份验证。指纹识别是生物特征的一个部分，它具有不变性：一个人的指纹是终身不变的;唯一性：几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前，指纹识别技术与我们的现实生活紧密相关，如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

人脸识别目前大多数人脸识别系统使用可见光或红外图像进行人脸识别，可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下，其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响，但由于红外线不能穿透玻璃，如果待识别的对象戴有眼镜，那么在图像识别时，眼部信息全部丢失，将严重影响人脸识别的性能[4]。

文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术，可以自动地把文字和其他信息分离出来，通过智能识别后输入计算机，用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档，如银行票据、文稿、各类公式和符号等自动录入，可以提供文字的处理效率，有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样，使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事，但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下，图像识别技术取得了一定的成功，但在复杂的环境下，仍面临着许多问题：如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准，以及算法本身存在一定的局限性，这使得图像识别的最终结果不十分精确等。

参考文献：

[1] 胡爱明，周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用，2003，39(7)：90—91.

[2] 胡学龙.数字图像处理[M].北京：电子工业出版社，2011.

[3] 范立南，韩晓微，张广渊.图像处理与模式识别[M].北京：科学出版社，2007.

[4] 晓慧，刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用，2009，1(29)：8.

[5] 陈良育，曾振柄，张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用，2005，25(7)：1629-1631.

[6] Sanderson C，Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33，Martigny，Swizerland，2002.

点击下页还有更多>>>图像识别技术论文

首页

> 学术期刊知识库

物体识别与检测论文