图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。我整理了图像分割技术论文,欢迎阅读!
图像分割技术研究
摘要:图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。本文介绍了基于阈值的分割方法和图像分割的图像分割性能的评价、应用现状;最后总结出图像分割的发展趋势。
关键词:图像分割、阈值、边缘检测、区域分割
中图分类号: 文献标识码: A
1引言
随着图像分割技术研究的深入,其应用日趋广泛。凡属需要对图像目标进行提取、测量的工作都离不开图像分割。图像分割是图像处理、模式识别和人工智能等多个领域中一个十分重要且又十分困难的问题,是计算机视觉技术中首要的、重要的关键步骤。图像分割结果的好坏直接影响对计算机视觉中的图像理解。现有的方法多是为特定应用设计的,有很大的针对性和局限性,到目前为止还不存在一个通用的方法,也不存在一个判断分割是否成功的客观标准。因此,对图像分割的研究目前还缺乏一个统一的理论体系,使得图像分割的研究仍然是一个极富有挑战性的课题。
2图像分割方法
图像分割(Image Segmentation),简单地说就是将一幅数字图像分割成不同的区域,在同一区域内具有在一定的准则下可认为是相同的性质,如灰度、颜色、纹理等。而任何相邻区域之间其性质具有明显的区别。
基于灰度特征的阈值分割方法
阈值分割技术是经典的、流行的图象分割方法之一,它是用一个或几个阈值将图像的灰度级分为几个部分,认为属于同一个部分的像素是同一个物体。
这类方法主要包括以下几种:
(1)单阈值法,用一个全局阈值区分背景和目标。当一幅图像的直方图具有明显的双峰时,选择两峰之间的谷底作为阈值。
(2)双阈值法,用两个阈值区分背景和目标。通过设置两个阈值,以防单阈值设置阈值过高或过低,把目标像素误归为背景像素,或把背景像素误归为目标像素。
(3)多阈值法,当存在照明不均,突发噪声等因素或背景灰度变化较大时,整幅图像不存在合适的单一阈值,单一阈值不能兼顾图像不同区域的具体情况,这时可将图像分块处理,对每一块设一个阈值。
边缘检测分割法
基于边缘检测技术可以按照处理的顺序分为并行边缘检测和串行边缘检测两大类。常见的边缘检测方法有:差分法、模板匹配法及统计方法等。由于边缘灰度变化规律一般体现为阶梯状或者脉冲状。边缘与差分值的关系可以归纳为两种情况,其一是边缘发生在差分最大值或者最小值处;其二是边缘发生在过零处。
基于区域的分割方法
基于区域的分割方法利用的是图像的空间性质。该方法认为分割出来的某一区域具有相似的性质。常用的方法有区域生长法和区域分裂合并法。该类方法对含有复杂场景或自然景物等先验知识不足的图像进行分割,效果较好。
区域生长方法是把一幅图像分成许多小区域开始的,这些初始的小区域可能是小的邻域甚至是单个像素,在每个区域中,通过计算能反映一个物体内像素一致性的特征,作为区域合并的判断标准。区域合并的第一步是赋给每个区域一组参数,即特征。接下来对相邻区域的所有边界进行考查,如果给定边界两侧的特征值差异明显,那么这个边界很强,反之则弱。强边界允许继续存在,而弱边界被消除,相邻区域被合并。没有可以消除的弱边界时,区域合并过程结束,图像分割也就完成。
结合特定工具的图像分割技术
20世纪80年代末以来,随着一些特殊理论的出现及其成熟,如数学形态学、分形理论、模糊数学、小波分析、模式识别、遗传算法等,大量学者致力于将新的概念、新的方法用于图像分割,有效地改善了分割效果。产生了不少新的分割算法。下面对这些算法做一些简单的概括。
基于数学形态学的分割算法
分水岭算法是一种经典的借鉴了数学形态理论的分割方法。该方法中,将一幅图像比为一个具有不同高度值的地形,高灰度值处被认为是山脊,底灰度值处被认为是山谷,将一滴水从任一点流下,它会朝地势底的地方流动,最终聚于某一局部最底点,最后所有的水滴会分聚在不同的吸引盆地,由此,相应的图像就被分割成若干部分。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感。
基于模糊数学的分割算法
目前,模糊技术在图像分割中应用的一个显著特点就是它能和现有的许多图像分割方法相结合,形成一系列的集成模糊分割技术,例如模糊聚类、模糊阈值、模糊边缘检测技术等。
这类方法主要有广义模糊算子与模糊阈值法两种分割算法。
(1)广义模糊算子在广义模糊集合的范围内对图像处理,使真正的边缘处于较低灰度级,但还有一些不是边缘的像素点的灰度也在较低灰度级中,虽然算法的计算简明,且边缘细腻,但得到的边缘图会出现断线问题。
(2)模糊阈值法引入灰度图像的模糊数学描述,通过计算图像的模糊熵来选取图像的分割阈值,后用阈值法处理图像得到边界。
基于遗传算法的分割方法
此算法是受生物进化论思想提出的一种优化问题的解决方法,它使用参数编码集而不是参数本身,通过模拟进化,以适者生存的策略搜索函数的解空间,它是在点群中而不是在单点进行寻优。遗传算法在求解过程中使用随机转换规则而不是确定性规则来工作,它唯一需要的信息是适应值,通过对群体进行简单的复制、杂交、变异作用完成搜索过程。由于此法能进行能量函数全局最小优化搜索,且可以降低搜索空间维数,降低算法对模板初始位置的敏感,计算时间也大为减少。其缺点是容易收敛于局部最优。
基于神经网络分割算法
人工神经网络具有自组织、自学习、自适应的性能和非常强的非线性映射能力,适合解决背景知识不清楚、推理规则不明确和比较复杂的分类问题,因而也适合解决比较复杂的图像分割问题。原则上讲,大部分分割方法都可用 ANN(attificial neural network)实现。ANN 用于分割的研究起步较晚,只有多层前馈NN,多层误差反传(BP)NN,自组织NN,Hopfield NN以及满足约束的NN(CSNN-Const raint Satisfaction Neurat Network)等得到了应用。使用一个多层前向神经网络用于图象分割,输入层神经元的数目取决于输入特征数,而输出层神经元的数目等同于分类的数目。
图像分割中的其他方法
前面介绍了4大类图像分割较常用的方法,有关图像分割方法和文献很多,新方法不断产生,这些方法有的只对特定的情形有效,有的综合了几种方法,放在一起统称为第5类。
(1)标号法(labeling)是一种基于统计学的方法,这种方法将图像欲分割成的几个区域各以一个不同的标号来表示,用一定的方式对图像中的每一个像素赋以标号,标号相同的像素就合并成该标号所代表的区域。
(2)基于Snak模型的分割方法,基于Snake模型的分割是通过对能量函数的动态优化来逼近图像目标的真实轮廓的
(3)纹理分割,由于新的数学工具的引入,纹理分割技术取得了一些进展,张蓬等人将小波分析应用于纹理基元提取。
(4)基于知识的图像分割方法,直接建立在先验知识的基础上,使分割更符合实际图像的特点。该方法的难度在于知识的正确合理的表示与利用。
3图像分割性能的评价
图像分割评价主要有两个方面的内容:一是研究各分割算法在不同情况下的表现,掌握如何选择和控制其参数设置,以适应不同需要。二是分析多个分割算法在分割同一图像时的性能,比较优劣,以便在实际应用中选取合适的算法。分割评价方法分为分析法和实验法两大类。分析法是直接分析分割算法本身的原理及性能,而实验法是通过对测试图像的分割结果来评价算法的。两种方法各有优劣,由于缺乏可靠理论依据,并非所有分割算法都能够通过分析法分析其性能。每种评价方法都是出于某种考虑而提出来的,不同的评价方法只能反映分割算法性能的某一性能。另一方面,每一种分割算法的性能是由多种因素决定的,因此,有可能需要多种准则来综合评价。
4图像分割技术的发展趋势
随着神经网络、遗传算法、统计学理论、小波理论以及分形理论等在图像分割中的广泛应用,图像分割技术呈现出以下的发展趋势:(1)多种特征的融合。(2)多种分割方法的结合。(3)新理论与新方法。
参考文献
[1] [美]RC冈萨雷斯.数字图像处理(第二版)[M].阮秋琦,等译.北京:电子工业出版社,2003
[2] 章毓晋.图像分割[M].北京:科学出版社,2001.
[3] 李弼程,彭天强,彭波等.智能图像处理技术[M].北京:电子工业出版社,2004.
[4] 杨晖,曲秀杰.图像分割方法综述[J].电脑开发与应用。2005,18(3):21-23.
点击下页还有更多>>>图像分割技术论文
数字图像处理方面了解的了。
数字图像压缩技术的研究及进展摘要:数字图像压缩技术对于数字图像信息在网络上实现快速传输和实时处理具有重要的意义。本文介绍了当前几种最为重要的图像压缩算法:JPEG、JPEG2000、分形图像压缩和小波变换图像压缩,总结了它们的优缺点及发展前景。然后简介了任意形状可视对象编码算法的研究现状,并指出此算法是一种产生高压缩比的图像压缩算法。关键词:JPEG;JPEG2000;分形图像压缩;小波变换;任意形状可视对象编码一 引 言 随着多媒体技术和通讯技术的不断发展,多媒体娱乐、信息高速公路等不断对信息数据的存储和传输提出了更高的要求,也给现有的有限带宽以严峻的考验,特别是具有庞大数据量的数字图像通信,更难以传输和存储,极大地制约了图像通信的发展,因此图像压缩技术受到了越来越多的关注。图像压缩的目的就是把原来较大的图像用尽量少的字节表示和传输,并且要求复原图像有较好的质量。利用图像压缩,可以减轻图像存储和传输的负担,使图像在网络上实现快速传输和实时处理。 图像压缩编码技术可以追溯到1948年提出的电视信号数字化,到今天已经有50多年的历史了[1]。在此期间出现了很多种图像压缩编码方法,特别是到了80年代后期以后,由于小波变换理论,分形理论,人工神经网络理论,视觉仿真理论的建立,图像压缩技术得到了前所未有的发展,其中分形图像压缩和小波图像压缩是当前研究的热点。本文对当前最为广泛使用的图像压缩算法进行综述,讨论了它们的优缺点以及发展前景。二 JPEG压缩 负责开发静止图像压缩标准的“联合图片专家组”(Joint Photographic Expert Group,简称JPEG),于1989年1月形成了基于自适应DCT的JPEG技术规范的第一个草案,其后多次修改,至1991年形成ISO10918国际标准草案,并在一年后成为国际标准,简称JPEG标准。1.JPEG压缩原理及特点 JPEG算法中首先对图像进行分块处理,一般分成互不重叠的 大小的块,再对每一块进行二维离散余弦变换(DCT)。变换后的系数基本不相关,且系数矩阵的能量集中在低频区,根据量化表进行量化,量化的结果保留了低频部分的系数,去掉了高频部分的系数。量化后的系数按zigzag扫描重新组织,然后进行哈夫曼编码。JPEG的特点优点:(1)形成了国际标准;(2)具有中端和高端比特率上的良好图像质量。缺点:(1)由于对图像进行分块,在高压缩比时产生严重的方块效应;(2)系数进行量化,是有损压缩;(3)压缩比不高,小于50。 JPEG压缩图像出现方块效应的原因是:一般情况下图像信号是高度非平稳的,很难用Gauss过程来刻画,并且图像中的一些突变结构例如边缘信息远比图像平稳性重要,用余弦基作图像信号的非线性逼近其结果不是最优的。2. JPEG压缩的研究状况及其前景 针对JPEG在高压缩比情况下,产生方块效应,解压图像较差,近年来提出了不少改进方法,最有效的是下面的两种方法:(1)DCT零树编码 DCT零树编码把 DCT块中的系数组成log2N个子带,然后用零树编码方案进行编码。在相同压缩比的情况下,其PSNR的值比 EZW高。但在高压缩比的情况下,方块效应仍是DCT零树编码的致命弱点。(2)层式DCT零树编码 此算法对图像作 的DCT变换,将低频 块集中起来,做 反DCT变换;对新得到的图像做相同变换,如此下去,直到满足要求为止。然后对层式DCT变换及零树排列过的系数进行零树编码。 JPEG压缩的一个最大问题就是在高压缩比时产生严重的方块效应,因此在今后的研究中,应重点解决 DCT变换产生的方块效应,同时考虑与人眼视觉特性相结合进行压缩。三 JEPG2000压缩 JPEG2000是由ISO/IEC JTCISC29标准化小组负责制定的全新静止图像压缩标准。一个最大改进是它采用小波变换代替了余弦变换。2000年3月的东京会议,确定了彩色静态图像的新一代编码方式—JPEG2000图像压缩标准的编码算法。1.JPEG2000压缩原理及特点 JPEG2000编解码系统的编码器和解码器的框图如图1所示。编码过程主要分为以下几个过程:预处理、核心处理和位流组织。预处理部分包括对图像分片、直流电平(DC)位移和分量变换。核心处理部分由离散小波变换、量化和熵编码组成。位流组织部分则包括区域划分、码块、层和包的组织。 JPEG2000格式的图像压缩比,可在现在的JPEG基础上再提高10%~30%,而且压缩后的图像显得更加细腻平滑。对于目前的JPEG标准,在同一个压缩码流中不能同时提供有损和无损压缩,而在JPEG2000系统中,通过选择参数,能够对图像进行有损和无损压缩。现在网络上的JPEG图像下载时是按“块”传输的,而JPEG2000格式的图像支持渐进传输,这使用户不必接收整个图像的压缩码流。由于JPEG2000采用小波技术,可随机获取某些感兴趣的图像区域(ROI)的压缩码流,对压缩的图像数据进行传输、滤波等操作。2.JPEG2000压缩的前景 JPEG2000标准适用于各种图像的压缩编码。其应用领域将包括Internet、传真、打印、遥感、移动通信、医疗、数字图书馆和电子商务等。JPEG2000图像压缩标准将成为21世纪的主流静态图像压缩标准。四 小波变换图像压缩1.小波变换图像压缩原理小波变换用于图像编码的基本思想就是把图像根据Mallat塔式快速小波变换算法进行多分辨率分解。其具体过程为:首先对图像进行多级小波分解,然后对每层的小波系数进行量化,再对量化后的系数进行编码。小波图像压缩是当前图像压缩的热点之一,已经形成了基于小波变换的国际压缩标准,如MPEG-4标准,及如上所述的JPEG2000标准 。2.小波变换图像压缩的发展现状及前景 目前3个最高等级的小波图像编码分别是嵌入式小波零树图像编码(EZW),分层树中分配样本图像编码(SPIHT)和可扩展图像压缩编码(EBCOT)。(1)EZW编码器 1993年,Shapiro引入了小波“零树”的概念,通过定义POS、NEG、IZ和ZTR四种符号进行空间小波树递归编码,有效地剔除了对高频系数的编码,极大地提高了小波系数的编码效率。此算法采用渐进式量化和嵌入式编码模式,算法复杂度低。EZW算法打破了信息处理领域长期笃信的准则:高效的压缩编码器必须通过高复杂度的算法才能获得,因此EZW编码器在数据压缩史上具有里程碑意义。(2)SPIHT编码器 由Said和Pearlman提出的分层小波树集合分割算法(SPIHT)则利用空间树分层分割方法,有效地减小了比特面上编码符号集的规模。同EZW相比,SPIHT算法构造了两种不同类型的空间零树,更好地利用了小波系数的幅值衰减规律。同EZW编码器一样,SPIHT编码器的算法复杂度低,产生的也是嵌入式比特流,但编码器的性能较EZW有很大的提高。(3)EBCOT编码器优化截断点的嵌入块编码方法(EBCOT)首先将小波分解的每个子带分成一个个相对独立的码块,然后使用优化的分层截断算法对这些码块进行编码,产生压缩码流,结果图像的压缩码流不仅具有SNR可扩展而且具有分辨率可扩展,还可以支持图像的随机存储。比较而言,EBCOT算法的复杂度较EZW和SPIHT有所提高,其压缩性能比SPIHT略有提高。小波图像压缩被认为是当前最有发展前途的图像压缩算法之一。小波图像压缩的研究集中在对小波系数的编码问题上。在以后的工作中,应充分考虑人眼视觉特性,进一步提高压缩比,改善图像质量。并且考虑将小波变换与其他压缩方法相结合。例如与分形图像压缩相结合是当前的一个研究热点。五 分形图像压缩 1988年,Barnsley通过实验证明分形图像压缩可以得到比经典图像编码技术高几个数量级的压缩比。1990年,Barnsley的学生提出局部迭代函数系统理论后,使分形用于图像压缩在计算机上自动实现成为可能。1. 分形图像压缩的原理 分形压缩主要利用自相似的特点,通过迭代函数系统(Iterated Function System, IFS)实现。其理论基础是迭代函数系统定理和拼贴定理。 分形图像压缩把原始图像分割成若干个子图像,然后每一个子图像对应一个迭代函数,子图像以迭代函数存储,迭代函数越简单,压缩比也就越大。同样解码时只要调出每一个子图像对应的迭代函数反复迭代,就可以恢复出原来的子图像,从而得到原始图像。2.几种主要分形图像编码技术 随着分形图像压缩技术的发展,越来越多的算法被提出,基于分形的不同特征,可以分成以下几种主要的分形图像编码方法。(1)尺码编码方法 尺码编码方法是基于分形几何中利用小尺度度量不规则曲线长度的方法,类似于传统的亚取样和内插方法,其主要不同之处在于尺度编码方法中引入了分形的思想,尺度 随着图像各个组成部分复杂性的不同而改变。(2)迭代函数系统方法 迭代函数系统方法是目前研究最多、应用最广泛的一种分形压缩技术,它是一种人机交互的拼贴技术,它基于自然界图像中普遍存在的整体和局部自相关的特点,寻找这种自相关映射关系的表达式,即仿射变换,并通过存储比原图像数据量小的仿射系数,来达到压缩的目的。如果寻得的仿射变换简单而有效,那么迭代函数系统就可以达到极高的压缩比。(3)A-E-Jacquin的分形方案 A-E-Jacquin的分形方案是一种全自动的基于块的分形图像压缩方案,它也是一个寻找映射关系的过程,但寻找的对象域是将图像分割成块之后的局部与局部的关系。在此方案中还有一部分冗余度可以去除,而且其解码图像中存在着明显的方块效应。3.分形图像压缩的前景 虽然分形图像压缩在图像压缩领域还不占主导地位,但是分形图像压缩既考虑局部与局部,又考虑局部与整体的相关性,适合于自相似或自仿射的图像压缩,而自然界中存在大量的自相似或自仿射的几何形状,因此它的适用范围很广。六 其它压缩算法 除了以上几种常用的图像压缩方法以外,还有:NNT(数论变换)压缩、基于神经网络的压缩方法、Hibert扫描图像压缩方法、自适应多相子带压缩方法等,在此不作赘述。下面简单介绍近年来任意形状纹理编码的几种算法[10]~ [13]。(1)形状自适应DCT(SA-DCT)算法 SA-DCT把一个任意形状可视对象分成 的图像块,对每块进行DCT变换,它实现了一个类似于形状自适应Gilge DCT[10][11]变换的有效变换,但它比Gilge DCT变换的复杂度要低。可是,SA-DCT也有缺点,它把像素推到与矩形边框的一个侧边相平齐,因此一些空域相关性可能丢失,这样再进行列DCT变换,就有较大的失真了[11][14][15]。(2)Egger方法 Egger等人[16][17]提出了一个应用于任意形状对象的小波变换方案。在此方案中,首先将可视对象的行像素推到与边界框的右边界相平齐的位置,然后对每行的有用像素进行小波变换,接下来再进行另一方向的小波变换。此方案,充分利用了小波变换的局域特性。然而这一方案也有它的问题,例如可能引起重要的高频部分同边界部分合并,不能保证分布系数彼此之间有正确的相同相位,以及可能引起第二个方向小波分解的不连续等。(3)形状自适应离散小波变换(SA-DWT) Li等人提出了一种新颖的任意形状对象编码,SA-DWT编码[18]~[22]。这项技术包括SA-DWT和零树熵编码的扩展(ZTE),以及嵌入式小波编码(EZW)。SA-DWT的特点是:经过SA-DWT之后的系数个数,同原任意形状可视对象的像素个数相同;小波变换的空域相关性、区域属性以及子带之间的自相似性,在SA-DWT中都能很好表现出来;对于矩形区域,SA-DWT与传统的小波变换一样。SA-DWT编码技术的实现已经被新的多媒体编码标准MPEG-4的对于任意形状静态纹理的编码所采用。 在今后的工作中,可以充分地利用人类视觉系统对图像边缘部分较敏感的特性,尝试将图像中感兴趣的对象分割出来,对其边缘部分、内部纹理部分和对象之外的背景部分按不同的压缩比进行压缩,这样可以使压缩图像达到更大的压缩比,更加便于传输。七 总结 图像压缩技术研究了几十年,取得了很大的成绩,但还有许多不足,值得我们进一步研究。小波图像压缩和分形图像压缩是当前研究的热点,但二者也有各自的缺点,在今后工作中,应与人眼视觉特性相结合。总之,图像压缩是一个非常有发展前途的研究领域,这一领域的突破对于我们的信息生活和通信事业的发展具有深远的影响。参考文献:[1] 田青. 图像压缩技术[J]. 警察技术, 2002, (1):30-31.[2] 张海燕, 王东木等. 图像压缩技术[J]. 系统仿真学报, 2002, 14(7):831-835.[3] 张宗平, 刘贵忠. 基于小波的视频图像压缩研究进展[J]. 电子学报, 2002, 30(6):883-889.[4] 周宁, 汤晓军, 徐维朴. JPEG2000图像压缩标准及其关键算法[J]. 现代电子技术, 2002, (12):1-5.[5] 吴永辉, 俞建新. JPEG2000图像压缩算法概述及网络应用前景[J]. 计算机工程, 2003, 29(3):7-10.[6] J M Shaprio. Embedded image coding using zerotree of wavelet coefficients[J]. IEEE Trans. on Signal Processing, 1993, 41(12): 3445-3462.[7] A Said, W A Pearlman. A new fast and efficient image codec based on set partitioning in hierarchical trees[J]. IEEE Trans. on Circuits and Systems for Video Tech. 1996, 6(3): 243-250.[8] D Taubman. High performance scalable image compression with EBCOT[J]. IEEE Transactions on Image Processing, 2000, 9(7): 1158–1170.[9] 徐林静, 孟利民, 朱建军. 小波与分行在图像压缩中的比较及应用. 中国有线电视, 2003, 03/04:26-29.[10] M Gilge, T Engelhardt, R Mehlan. Coding of arbitrarily shaped image segments based on a generalized orthogonal transform[J]. Signal Processing: Image Commun., 1989, 1(10): 153–180.[11] T Sikora, B Makai. Shape-adaptive DCT for generic coding of video[J]. IEEE Trans. Circuits Syst. Video Technol., 1995, 5(1): 59–62.[12] T Sikora, S Bauer, B Makai. Efficiency of shape-adaptive 2-D transforms for coding of arbitrarily shaped image segments[J]. IEEE Trans. Circuits Syst. Video Technol., 1995, 5(3): 254–258.[13]邓家先 康耀红 编著 《信息论与编码》
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
医学影像诊断学是医学影像学中的一门重要学科,而医学影像学是临床医学的一个重要分支。下面是我为大家整理的医学影像技术专业 毕业 论文,供大家参考。
《 高职影像专业医学影像物理学的教学探讨 》
摘 要: 根据课程特点、学生现状,我们重视教师素质培养,理清教材层次与学生的关系,运用丰富的 教学 方法 ,变抽象的论述为理论联系实际的形象化教学,提高了医学影像物理学课程的教学质量。
关键词: 高职 医学 影像物理学 教学探讨
近十几年来,大型医学影像设备的迅速发展,极大地提高了诊断治疗水平。随着社会对医学影像专业人才的需要愈加迫切,国内众多本科医学院校都设置了医学影像专业。而随着我国社区医疗的发展,填报高等职业技术学院医学影像专业的学生人数不断增加。以湖北职业技术学院为例,影像专业学生录取人数由每年一个班提高到两至三个班。不论各院校侧重培养高学历医学影像临床诊断专业人才,还是侧重培养高学历医学影像工程技术人才,在专业课程设置过程中,都强调了开设医学影像物理学基础(以下简称影像物理学)这门课程的重要性和必要性。有些本科院校还在临床医学专业开始开设影像物理学为选修课程,目的就是让临床医师具备医学影像的基础理论知识,为将来后续专业课程――医学影像诊断学或医学影像学的开设提供必要的理论基础。
1.高职医学院校影像专业课程设置现状
以湖北职业技术学院为例,高职医学院校影像专业现在招收高中文科和理科学生及中职生。在课程开设上,只在大学一年级开设医学电子学基础这一门理工科课程,相关高等数学知识缺乏,学生的数理基础比较薄弱。医学影像物理学基础是一门交叉学科,又是一门非常重要的专业基础课。教学目的是让学生掌握医学成像理论的物理学基本原理、规律;了解医学成像的物理理论知识;为深刻理解成像过程,评价图像,以及读识图像、挖掘图像蕴藏的生物信息奠定基础。这就需要一定的高等数学、核物理学、量子物理、超声波物理等许多知识来做铺垫。当然更多需要成像技术的相关基础知识。面对这些必要的知识,影像专业高职生在有限的时间、有限的学时里是完成不了的,这是事实。其实,影像物理学是伴随影像专业的建立而诞生的一门新课程,在国内存在尚不足十年。因此,从教材到教学,各校都处于摸索前进的阶段。如何让高职生在无基础的前提下有效学习该门课程,我将自己在几年教学过程中的教学体会写出来,与大家共同探讨。
2.提高教师的专业素质,必须树立专业思想
由于缺乏相关师资力量,目前各院校影像物理学的教学任务大都由物理学教研室的教师承担。但是,物理学和影像物理学两门课程的专业性质差别很大,前者为理科基础课,后者为专业基础课。从事影像物理学教学的教师必须具备一定的医学专业知识,具备较高的专业素质,教学必须树立专业思想,才能将物理学知识和影像学知识有机结合起来,增强学生的学习兴趣,提高该课程的教学质量。因此,授课教师应加强自身专业素质,利用临床进修的机会学习影像知识和实际技术,尽力做好教学工作。
3.教学过程中必须恰当把握知识的深度
影像物理学是先期开设影像专业院校的教学工作者在教学过程中逐步完善而建立的。它是将高等数学知识、物理学知识、成像理论,计算机技术等知识应用于超声成像技术、X-CT成像技术、同位素成像技术、磁共振成像技术中的一门交叉学科。知识的起点很高,学生学习起来有一定的难度,在教学过程中应恰当把握教材知识的深度,讲解需深入浅出,通俗易懂。比如超声场的描述部分,涉及较多的高等数学知识,在教学过程中应注意引导学生注重理解场的分布性质、描述场的量的物理意义,等等,尽量避免学生由于数学知识少而降低对该课程的理解和学习兴趣。磁共振部分,学生需要具备一定的原子核物理、量子力学知识才能准确理解核自旋的能级、跃迁等概念和现象。在教学中应注意搜集一些资料,尽量用较通俗的、经典的、宏观假说进行解释,增强学生对微观世界的感性认识。
4.注意把握影像物理学原理与成像技术、影像设备学有关知识的权重关系
X-CT成像、超声成像、同位素成像、磁共振成像每一部分都有两项主要内容:物理基本原理和成像基本原理。在教学过程中应把主要精力放在讲解物理学基本原理上,这是毫无疑问的,这也是物理专业毕业的教师最容易做到的,但学生的学习兴趣往往集中在成像原理上,对涉及的成像技术、成像设备等知识更表现出浓厚兴趣。虽然成像技术和成像设备在后期专业课程的实践教学中会详细讲解,在这里我们对这部分做简要的介绍,以收到良好的教学效果。这些年来,我校历届学生都表现出对影像物理的极大学习兴趣。这与我们的教学方法有一定的关系。
5.注意提高学生对知识的感性认识
影像物理学各部分知识都是比较抽象的,学生普遍觉得难懂难学。因此,通过各种手段提高学生对知识的感性认识,能对学生的学习起到事半功倍的帮助作用。在教学过程中,我们将陀螺进动实验给学生做演示,讲解原子核中核子的自旋与自旋磁矩的相关知识;借助于声波的传播与反射知识对超声测量实验进行详细讲解;分配一定的学时带领学生到附属医院相关科室参观学习。邀请超声,CT临床诊断教师和技术教师给学生当场讲解仪器的原理、操作方法,以及诊断等,使学生对课堂上学到的知识有一个感性认识,加深理解,收到了很好的效果。
6.实现教材的多层次、立体化
由于该课程属于应用型的知识,学起来难度更大,我们进行了教材的多层次、立体化尝试。课程是教材的基础,教材是课程的载体,教材中要融入现代化的教学技术,实现多样化、配套和协调化。我们的做法是:文字教材与现代多媒体手段紧密结合。
教材体系包括:(1)传统的纸质教材《医学影像物理学》(人民卫生出版社出版);(2)教师授课用的独创的电子教案,其中配以大量的自制和临床实拍图片和自己研发的动画,并提出学生思考的问题;(3)辅助学生自学和研究的学习软件,如《CT与磁共振成像原理》CAI课件(人民卫生电子音像出版社公开出版发行,被列入“十一五”国家重点电子出版物);(4)网页形式课件2部。初步形成了多形态、多用途、多层次的教学资源和多种以教学服务为目的的结构性配套教学出版物的集合。
总之,影像物理学是一门新课,只有不断摸索,不断 总结 经验 ,逐步改进教学方法和手段,才能增强教学效果。通过几年来的努力,一方面学生看到了现在所学的就是将来所用的,提高了学习基础课的兴趣,另一方面学生培养了学习能力,同时对后续课程“医学影像诊断学”的学习奠定了基础。
参考文献:
[1]侯淑莲,李石玉,马新超等.关于医药学院校物理课程的思考[J].大学物理,2005,24,(5):53-56.
[2]包尚联,唐孝威.医学物理研究进展[J].自然科学进展,2006,16,(1):7-13.
[3]童家明,刘成玉,周晓彬等.普通高等学校医药类专业物理理论课教学现状调查[J].大学物理,2005,24,(7):55-59.
[4]侯淑莲.CT与磁共振成像原理[M/CD].北京:人民卫生电子音像出版社,2007.
《 刍议影像融合推动医学影像领域发展 》
内容摘要:科技的进步不仅是带动了工商业的发展,同时也推动了医学发展,计算机技术被广泛用于影像医学中。现在医学上的各种检查仪器越来越精密,功能更加完善,图像信息的存储和传输为医学的研究和诊断提供了更好的依据。医学影像的融合就是影像信息的融合,是借助计算机技术辅助诊断病情的。医学影像的融合是医学影像学新的发展方向,本文对医学影像的融合进行分析,探讨影像融合对医学影像发展的影响和作用。
关键词:医学影像 影像融合 诊断
一、影像融合
医学影像融合其实就是利用计算机技术,将影像信息进行融合。其中包括将图像信息进行数字化处理,再进行数据协同和匹配,得到一个新的影像信息来获得对病情更好的观测,以计算机为辅助手段,使诊断更加准确、具象。
影像融合的发展趋势
影像融合的趋势
医学影像学是近年来发展的比较快的临床学科之一,其中的超声、放射等早就被应用到医学的诊断上,但是,面对不同病人的各种症状,单一的影像检查已经不足以作为诊断的依据。因此,影像融合越来越成为医学中的焦点,人们更希望通过多重的影像检查、比较和分析,使检查结果更准确,更好的辅助临床疾病的治疗。影响融合的发展提高了医学诊断的综合水平,对于推动影像学的发展有重要的意义。而且,医学影像的融合不仅可以对诊断锦上添花,还可以为治疗提供帮助。例如:X线、超声、聚焦和磁共振结合在一起进行治疗。影响融合的发展是势在必行的,而且将推动医学影像学的更新与发展。
影像融合的必要性
1、医学技术的更新与发展需要影响融合
计算机技术被广泛应用于各个领域中,这也包括医学影像学。随着新技术的发展和实施,图像后期处理技术也需要不断的提高,影像的融合技术就是后处理技术的新发展。前后技术的同步才能更好的将影像学的好处发挥出来。
2、影像融合使检查更全面准确
影像学的检查手段是很多的,从B超到射线再到CT等,每项检查都是有针对性的,但是正因为这样又有一定的局限性。每项检查都有单一局限性,只能准确的体现一方面的数据值,不利于诊断病情。影像的融合弥补了这一缺陷。
3、临床诊断需要影像融合
一切的检查手段都是为了最终的临床治疗,影像诊断一样是为临床治疗服务的。影响的融合,集中了多项单一检查的优势,呈现的图像更清晰,更便于医生的判断,使诊断更清晰准确,也就能根据诊断提供更好的治疗方案,辅助临床治疗。
影响融合的方法和技术应用
首先是信息技术的融合。无论是什么样的诊断技术,最后要得到的都是这项技术所能诊断出来的信息。影像的融合首先要实施对信息的融合,图像数据的转换是理解是关键。而图像的转换时将不同检查设备检测的图像信息进行格式的转换和调整,使其更逼真的呈现出检测部位的状态,确保诊断的准确性。
其次是数字化技术的融合。建立图像数据库是比较直观和易于提取信息的。
还有就是计算机技术的应用,这几项技术的融合,使影像融合后的检查更加具体详细。
影像融合的方法:界标 配对 、表 面相 合法、空间力矩配对、交叉相关法。
四、 医学影像融合的临床价值
现代医学已经把用计算机技术对获取的影像信息进行处理的研究成果应用于临床医学的诊断,将各项检查结果通过计算机技术进行分析、处理,将影像融合重新现出清晰度高、高质量的影像。主要有以下几个方面的临床价值:
帮助临床诊断
影像融合后的图像将检查部位的结构和周边组织清楚地呈现出来,通过影像诊断,医生能够更加了解检测部位的组织形态是否发生病变以及病变的程度。很多疾病早期的病变都是不太明显了,一旦没被发现就可能会错过最佳的治疗时机。影像融合后的图像可以通过区域放大将组织的差异标注出来,便于观察和诊断,能够及时的发现病变,减少漏诊的情况。
有助于手术的治疗
影像融合的中,结合了图像重建和三维立体定向技术,这些技术的应用能够清晰的显示出病变部位及其周围组织的状况和空间状态,医生可以根据融合后的图像制定手术方案,并在手术实施过程中提供实时显示,也为术后的观察提供了方便。
有助于医学研究
影像的融合结合了多项检查的优势,提供的影像信息更全面清晰,病理特征更明显,是医学研究中非常有价值的影像学资料,为以后疾病的研究提供更好的依据。
结语:医学影像的融合就是将多项检查的优点,经过一系列计算机技术的融合和处理重新形成新的图像。医学影像的融合是医学影像技术发展的一次伟大的更新,它将各种各种技术综合运用到医学的检查和诊断上,推动了影像学的进一步发展。
参考文献
[1]王静云,李绍林;医学影像图像融合技术的新进展[J];第四军医大学学报;2004年20期
[2]李熙莹;黄镜荣;;图像融合技术研究及其在医学中的应用[A];大珩先生九十华诞文集暨中国光学学会2004年学术大会论文集[C];2004年
[3]吴疆;医学图像融合算法研究[D];西北工业大学;2006年
[4]张孝飞,王强,韦春荣,王至诚,张福北;医学图像融合技术研究综述[J];广西科学;2002年01期
[5]赵敏志;李钢;张仁斌;;图像融合技术现状[A];第六届全国信息获取与处理学术会 议论文 集(3)[C];2008年
[6]康晓东.计算机在医疗方面的最新应用.北京:电子工业出版社,1999,46-70.
有关医学影像技术专业毕业论文推荐:
1. 医学影像毕业论文范文
2. 有关医学影像类毕业论文
3. 医学影像本科毕业论文
4. 医学影像学研究论文
5. 关于医学影像的论文
融合算法fusionalgorithm如:(多传感器单目标位置融合算法)经纬仪引导数据的数据融合可以采用参数估计融合算法,即对8组引导数据,按照某种估计准则函数融合算法fusionalgorithm如:(多传感器单目标位置融合算法)经纬仪引导数据的数据融合可以采用参数估计融合算法,即对8组引导数据,按照某种估计准则函数
这篇博客介绍两篇基于多图像融合的低亮度图片增强算法: 基于多图像融合的低亮度质量评价算法主要考虑融合多幅图片来进行低亮度图片的增强。 由Retinex理论:其中 是亮度分量, 是RGB通道上的反射分量, 是待增强的分量。 首先,使用RGB通道上每个pixel的最大值最为亮度分量的一个估计值。因为图像的亮度分量一般是局部光滑的,所以文章中使用了形态学中的闭环操作来进一步估计亮度分量:公式中除以255是为了将亮度分量限制到了[0,1],文章中选取了disk作为结构元素。 亮度分量通过guided filter来保持the shape of large contours:是中心在 上的窗口。 multi_fusion融合了多幅增强的亮度分量: 最后,权重由以下公式表示:文章中首先将各个亮度分量 通过Laplacian金字塔分解为多个尺度上特征图,将权重 使用高斯金字塔光滑过度的部分。 将第 金字塔层的图像进行融合:融合多个金字塔层的图像: 其中 是上采样操作。 最后增强的图片由下式得到:EFF考虑融合同一场景下不同曝光程度的图片来增强低亮度图片。 为了得到完美曝光的图片,Exposure Fusion框架融合了不同曝光的图片: 其中 是各个颜色通道上的不同曝光率下的图片, 为对应的权重。 由之前基于相机响应模型的低亮度图片增强算法,我们可以得到同一场景下,不同曝光率的图片间的转换公式:在这篇文章中,作者只考虑了两种曝光率的图片,第一种是低亮度下的图片,另一种是低亮度下的图片使用曝光增强后的图片。由于需要将曝光完好的像素赋予更大的权重,所以文章中使用图片的亮度分量作为权重: 其中 用来调节增强的程度 对于亮度分量的求解可参考原文或是之前介绍基于相机响应模型的低亮度图片增强算法的博客。 与之前介绍基于相机响应模型的低亮度图片增强算法的博客中一致:文章中首先排除了原图中曝光较好的像素点: 其中 只包含了曝光不足的像素点。 的亮度部分定义为:则对于曝光率增强后的亮度分量有:将曝光不足的像素点转化为曝光正常的像素点后,可以提供的信息应该变大,所以,这里使用了图片墒最大化来求解曝光比:则由 可得到增强后的图片。
本文研究了无人机(UAV)遥感图像拼接过程中重叠区域的不匹配问题。为了解决这个问题,首先通过将双重匹配与随机抽样共识(RANSAC)方法相结合来过滤特征点。其次,为了保证每幅图像与全景照片的投影关系的一致性,我们提出了一种局部拼接的方法。为了避免随着图像数量的增加透视变化累积而导致图像倾斜的错误,我们建立了图像旋转坐标系,并将图像之间的关系限制为平移和旋转。用坐标原点的相对位置来表示平移距离,通过迭代求解最优旋转角度。最后,图像的重叠部分通过线性加权融合。通过实验结果验证,本文提出的方法在大量图像的情况下能够保证更快的处理速度和更高的处理精度,从而达到理想的拼接效果。 近年来,随着计算机视觉的不断进步,图像拼接技术在海洋和矿产勘探、遥感勘探、医学成像、效果生成、虚拟现实等方面得到了广泛的应用。许多航拍遥感图像可以通过配备摄像头的无人机在地面拍摄得到。通常,由于无人机飞行高度、相机焦距等因素,单幅图像存在信息量少、全局分辨率低等问题。因此,要获得广角高分辨率的照片,就需要研究全景图像拼接技术。Brown 在 2003 年引入了著名的 AutoSitich 算法,很快就被用于商业产品,如 Photoshop。但是,该算法假定图像的重叠区域没有深度变化。2013 年,萨拉戈萨 J 等人。将图像拆分为密集的网格,并为每个网格使用单个更改,称为网格变形。该方法在一定程度上解决了图像变形、尺寸缩放、重定向等问题。 图像拼接技术一般分为图像几何校正、图像预处理、图像对齐、图像融合四个步骤。由于相机镜头的畸变,需要对无人机的图像进行校正,使得到的图像满足个别地图的投影关系。图像预处理是几乎所有图像处理技术的重要组成部分,包括去噪、灰度变化等。这个过程可以降低匹配难度,提高匹配精度。然而,对于无人机遥感图像的拼接,图像匹配和图像融合是成功的关键。 图像匹配技术是图像拼接的基础。1975年米尔格拉姆提出了计算机拼接技术。于是,在重叠区域寻找最优接缝线就成为一个重要的研究方向。同年,Kuslin 提出了一种相位相关方法,通过傅里叶变化将图像转换到频域,并利用功率谱计算平移。1987 年,Reddy 提出了一种扩展的相位相关方法,该方法可以计算图像的平移和旋转关系并解决图像缩放问题。图像拼接的另一个分支是基于图像特征。1988年Harris提出经典的Harris点检测算法,它使用特定的旋转不变性哈里斯点进行特征匹配。2004 年,Lowe 提出了一种完美的尺度不变特征变换算法(SIFT),对平移、旋转、尺度缩放、不均匀光照等图像领域应用最广泛的技术具有良好的适应性。C Aguerrebere 根据输入图像的 SNR 条件给出的问题难度级别显示不同的行为区域。Wu通过建立模型,将深度学习和进化算法应用于遥感图像的拼接,实现概率意义上的全局优化。 图像融合技术是遥感图像拼接技术中的另一项核心技术,分为像素级融合、特征级融合、决策级融合。像素级融合仍然是现阶段最常用的图像融合方法之一。 对于无人机的遥感图像,存在图像数量多、光照条件多变等问题。每次拼接过程中的小错误都难以避免。随着图像数量的增加,误差不断累积,图像拼接后期会出现图像失真和重影。S Bang 创建高质量全景图,过滤掉视频的模糊帧,选择关键帧,并校正相机镜头失真。Zhang 提出了基于 STIF 的 GA-SIFT 并给出了一种自适应阈值方法来解决计算量大和拼接时间长的问题。李明基于动态规划解决无人机侧视问题寻找最佳接缝线。然而,当图像数量逐渐增加时,现有的拼接算法存在误差累积。 也有一些基于网格变形的图像拼接算法,但计算量太大。在本文中,图像被匹配两次以过滤特征点以提高准确度。拼接问题对应于通过坐标系转换的旋转角度解,应用高斯-牛顿迭代计算最优旋转角度。此外,我们练习局部匹配方法以减少错误并使用加权融合来实现过度平滑。 SIFT特征点不仅在空间尺度和旋转上保持不变,而且在光照和视角变化的条件下,还具有优异的抗干扰能力和良好的稳定性。为了实现空间尺度的不变性,SIFT特征点可以根据物体远看小而模糊,反之大而清晰的特点,建立高斯金字塔模型。差分金字塔 (DoG) 是通过计算金字塔中相邻两层图像之间的差异来获得的。使用函数拟合在 DOG 空间中测试极值。通过对确定场中基于SIFT特征点的梯度信息进行统计,选择加权幅度最大的梯度方向作为主梯度方向。通过将特征点与其主梯度方向相关联,可以解决图像特征点的旋转不变性问题。最后,利用特征点周围像素的信息建立一个128维的向量作为特征点的描述符。 提取特征点后,需要对两幅图像的特征点进行匹配。通过特征点成对匹配,可以计算出两个特征点对应的描述符之间的欧氏距离,选择欧氏距离最小的点作为匹配点对。为了减少不匹配的发生率, 被用作正确匹配的阈值。具有大于 的描述符欧几里得距离的匹配点对被消除。 RANSAC 是特征点匹配中最常用的方法之一。它首先从匹配结果中随机选择四对特征点并计算单应矩阵。其次,根据上一步得到的单应矩阵,计算第一幅图像在第二幅图像中的重投影坐标,并计算该坐标与第二幅图像中匹配点对坐标的距离。通过设置距离阈值记录所有匹配点对中正确匹配特征点对的个数。重复上面的过程,最终留下与最多点对数的正确匹配。 高斯-牛顿迭代是求解非线性最小二乘优化问题的算法之一,可以描述为: 我们选择一个初始值,然后不断更新当前优化变量以减小目标函数值。高斯-牛顿迭代的主要思想是对函数 进行一阶泰勒展开,计算 及其雅可比矩阵 对应的函数值。使用 和 计算 的增量,直到 足够小。 加权平均法是图像融合中简单有效的方法之一。第一幅图像和第二幅图像重叠区域的像素值由两幅图像像素的加权求和得到,表示为: 其中:越接近 img1, 的值越大。 的值从1逐渐变为0,重叠区域从第一幅图像逐渐过渡到第二幅图像,从而实现画面的平滑过渡。照片的加权平均融合因其直观的简单性和快速的运行速度而被广泛使用和图像拼接。 对于两幅图像的拼接,由于无人机的遥感相机通常安装在一个稳定的平台上,通过选择合适的坐标系,将图像对齐问题转化为单幅图像旋转问题,如图1所示。 此外,大多数具有相关高光频的常用相机通常在连续帧之间具有较大的重叠区域。因此,在图像拼接过程中,第 幅图像在全局位置上的投影关系,不仅受第 幅图像的影响,还与 图像相关。为了保证图像变形的一致性,首先将 张图像拼接在一起,然后将结果整合到整幅图像中。大量的实验测试证明,当i设置为3时效果最佳。整个过程如图图2。 图像中的特征点有很多种,本文使用最常见的SIFT特征点。我们提取并匹配两张输入图像的特征点,结果如下所示。 特征点的匹配精度直接影响旋转角度的计算,因此使用前必须对特征点对进行过滤。鉴于过滤特征点的方法很多,本文先将左图与右图进行匹配,再将右图与左图进行匹配。两次相同结果配对的匹配点将被保留。在此基础上,使用RANSAC方法对结果进行优化,成功匹配了上图中的121个特征点。 从无人机拍摄的两张照片之间通常存在旋转和平移。为了独立优化旋转角度,我们首先建立如图 5所示的坐标系。 以图像匹配成功的特征点坐标值的平均值作为该坐标的原点,坐标轴与像素坐标系的两个坐标轴平行。根据公式(3),特征点从图像坐标系转换为图像旋转坐标系: 其中 为滤波后的特征对的总数, 为特征点在原始图像坐标系中的坐标值,并且 是新的值。 在计算图像的旋转角度之前,我们首先需要分析图像的缩放比例。由飞行高度引起的尺寸变化将在轴上具有相同的缩放比例。因此,根据所有特征点与图像旋转坐标系原点的欧氏距离比,可以计算出两幅图像之间的缩放比例,对图像进行缩放和改变。 图像缩放后,计算图像旋转的角度。高斯牛顿迭代的方式计算旋转角度的最优解。首先设置目标函数: 通过迭代选择最优的 使得: 使用误差函数 的泰勒展开进行迭代。 其中 根据 我们可以发现增量值 每次迭代。最终,当我们计算出的 满足条件时,停止迭代过程。可以使用最佳旋转角度和旋转中心来求解图像的变换矩阵。 由于拍摄图像时光线不均匀,连续两张图像之间可能存在一些颜色差异。此外,图像旋转不可避免地存在小误差,因此我们练习线性加权融合以消除两幅图像之间的拼接线和色度变化。图像的重叠是按距离加权的,这样拼接结果自然是从img1到img2过度了。 我们利用OpenCV的功能从遥感图像中提取SIFT特征点并进行匹配。从Stitch拼接功能、基于透视变化的图像拼接结果以及本文的拼接速度的对比可以看出,本文采用的方法具有一定的优越性。 从表1数据可以看出,在拼接少量图像时,三种算法的拼接结果相似,没有出现明显的拼接误差。但是,Stitcher 算法比其他两种拼接方法花费的时间要多得多。 图 11很明显,随着图像数量的增加,基于透视变换的图像拼接算法出现了严重的失配。然而,本文采用的方法取得了比较满意的结果,因为在无人机拍摄的图像中,地面上的所有特征都可以近似地视为在同一平面上。根据透视变换,无人机的远近抖动会引入图像拼接导致错误。图像数量的不断增加会导致错误的积累,从而导致严重的失配。另外,这使得程序中断,从而无法完成所有60幅图像的拼接。假设同一平面上图片的仿射变化会更符合无人机遥感图像的实际情况。最后,可以通过线性加权融合来解决误差问题,以提高拼接效果。考虑到stitch算法耗时过长,本文不会对两者进行比较。 在上面的图 12 中,使用 100 张图像来测试本文中的方法。图像的仿射变换是通过计算围绕图像特征点中心的旋转角度来进行的。变换后的图像采用线性加权融合后,可以得到大量图像数据处理后的结果。拼接自然,符合人类视觉体验。 我们在网络上跑了一组数据,结果如下。 鉴于以上实验结果,该方法具有一定的抗干扰能力,可以高速运行。与高度集成的Stitcher和基于透视变换的图像拼接结果相比,我们可以发现,基于透视变化的图像拼接结果随着图像数量的增加而逐渐变差。然而,尽管拼接效果很好,但 Stitcher 需要更长的处理时间。 在本文中,我们研究了无人机遥感图像的拼接技术,主要贡献可以总结如下: 通过实验结果可以看出,本文提出的方法比现有方法具有更好的实时性,对于相机平面与成像平面平行的情况具有更好的拼接效果。
图像拼接的目标是创建看起来自然的马赛克,没有因相对相机运动、照明变化和光学像差而可能出现的伪影。在本文中,我们提出了一种新颖的拼接方法,该方法在整个目标图像上使用平滑拼接场,同时考虑到所有局部变换变化。计算扭曲是完全自动化的,并使用局部单应性和全局相似性变换的组合,两者都是相对于目标估计的。我们通过线性化单应性并慢慢将其更改为全局相似性来减轻非重叠区域中的透视失真。所提出的方法很容易推广到多幅图像,并允许自动获得全景中的最佳视角。它对参数选择也更加稳健,因此与最先进的方法相比更加自动化。使用各种具有挑战性的案例证明了所提出方法的好处。 图像拼接是计算机视觉中古老且广泛使用的算法之一。获得尽可能自然、没有伪影的图像马赛克是非常重要的,尽管解释全景图或马赛克的自然外观存在主观性。 早期的方法是估计单应变换,但容易导致错位和重影。作者提出了一种新方法,该方法结合了多种技术,使全景图看起来更自然。减轻 As-Projective-As-Possible (APAP) 中发生的透视失真拼接,重叠区域中对应点的子集自动估计全局相似性变换。在重叠区域中的单应性和全局相似性之间进行平滑插值,并在非重叠区域中使用线性化单应性(仿射)和全局相似性变换类似地进行外推。两个拼接场(单应线性化单应性和全局相似性)的平滑组合帮助实现: 目标图和参考图分别为 和 ,匹配点对分别为 和 ,由 到 的单应 表示为 在齐次坐标中表示 和 ,单应性可以由 的矩阵 表示。(5)中的 的矩阵中只有两行是相互独立的,对于 对匹配点对, 可以表示为: 其中 和 是(5)中矩阵的前两行,并且同时限制 保证单应矩阵只有8个自由度。 APAP中作者用局部加权的方式修改(6)式,在 处的的局部单应性可以表示为 重写为 其中 ,在APAP中权重采用高加权的方式获取,在靠近 的位置权重大,远离的位置权重小,即 其中 。 需要注意的是局部单应性只能在参考图和目标图重叠的区域计算。非重叠区域的单应变换采用重叠区域的权重的线性组合获得,因此需要谨慎选择合适的偏置以防外推伪影。 由于高斯加权的各向同性性质,会导致“波浪”效应,而选择适当的偏移会导致良好的结果。即使在这种情况下,APAP 的非重叠区域的透视失真也很明显。本文作者使用在重叠区域中没有偏移的移动 DLT 来估计局部单应性,并使用单应性线性化外推到非重叠区域,减少透视失真。 非重叠区域的单应变换会产生极不自然的尺度变化,用1维的透视变换来理解 若用一系列点对估计参数 ,在可用点对范围之外, 和 也是非线性的。在2维透视变换中扭曲会更加严重。 对于图像,锚点 附近的任意一点 的单应泰勒级数展开可以表示成 其中 为单应 在 点处的雅可比矩阵。 在非重叠区域计算 的 线性化并不容易。而重叠区域和非重叠区域的边界可能存在多个点,不知道在何处计算雅可比矩阵,因此在边界将锚点线性化并计算加权平均。 边界处的一系列锚点 ,线性化的加权组合表示为 为高斯权重 或Student权重 ,由于Student分布尾部衰减更慢,当q远离锚定点时,所有锚定点都被赋予类似的加权,表现更加鲁棒。 使用所有点匹配查找全局相似性变换可能会导致非最优解,特别是当重叠区域包含不同的图像平面时。这个问题在下图中很明显,它显示了SPHP的缝合结果。 作者通过以下方式分割对应点来计算参考图像和目标图像之间的最佳相似性变换的方法。在获得特征点匹配后,首先使用带有阈值 的RANSAC去除异常值。然后,使用带有阈值 的 RANSAC 找到具有最大内点的平面的单应性,其中 ,删除这些内点。重复这个过程,直到内点的数量小于η. 每组匹配的内点用于计算单个相似性变换。然后,检查对应于变换的旋转角度并选择具有最小旋转角度的旋转角度。 拼接结果出现不自然的区域用一下方式更新全局相似变换。 其中 为第 个局部单应性, 表示更新后的局部单应性 为全局相似变换, 和 为权重系数,上标 表示目标图像, 表示参考图像,限制 ,且都在0~1之间,用下式计算: 其中 为目标图像扭曲后在 方向上的投影点。 和 分别为目标图像和参考图像的中心点。 和 为 的最小和最大值,其中 为最终全景图的第 个位置。 使用全局相似性变换更新目标图像的扭曲会导致参考图像和先前对齐的目标图像之间的重叠区域不对齐。因此,我们需要通过适当地将变化从目标图像传播到参考图像来补偿这些变化。现在可以获得参考图像的局部变换,如下所示:在这项工作中,我们提出了一种新颖的拼接方法,该方法使用从局部单应性或其线性化版本和全局相似变换导出的平滑拼接场。结果表明,我们的方法提供了更自然的全景图,在重叠区域没有可见的视差,并减轻了非重叠区域的透视失真问题。此外,它较少依赖于参数的选择并自动计算适当的全局相似性变换。与现有方法的实验比较表明,与最先进的方法相比,所提出的方法产生了最好的缝合。未来的研究发展将包括在存在大运动时补偿视差,这可以通过将切缝方法集成到该框架中来执行。
论文名称:Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间:2014年 论文地址: 针对问题: 从Alexnet提出后,作者等人思考如何利用卷积网络来完成检测任务,即输入一张图,实现图上目标的定位(目标在哪)和分类(目标是什么)两个目标,并最终完成了RCNN网络模型。 创新点: RCNN提出时,检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢,作者采用的是Selective Search候选区域提取算法,来获得当前输入图上可能包含目标的不同图像块,再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。 参考博客: 。 论文题目:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间:2014年 论文地址: 针对问题: 该论文讨论了,CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后,在网络后端组织两组卷积或全连接层,一组用于实现定位,输出当前图像上目标的最小外接矩形框坐标,一组用于分类,输出当前图像上目标的类别信息。也是以此为起点,检测网络出现基础主干网络(backbone)+分类头或回归头(定位头)的网络设计模式雏形。 创新点: 在这篇论文中还有两个比较有意思的点,一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的,而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制,那用1x1卷积来替换FC层,是否可行呢?作者在测试时通过将全连接层替换为1x1卷积核证明是可行的;二是提出了offset max-pooling,也就是对池化层输入特征不能整除的情况,通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练,然后切换分类头为回归头,再训练回归头的参数,最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。 参考博客: 论文题目:Scalable Object Detection using Deep Neural Networks 提出时间:2014年 论文地址: 针对问题: 既然CNN网络提取的特征可以直接用于检测任务(定位+分类),作者就尝试将目标框(可能包含目标的最小外包矩形框)提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。 创新点: 本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心,(800个anchor box)然后学习预测不考虑目标类别的二分类网络,背景or前景。用到了多尺度下的检测。 参考博客: 论文题目:DeepBox: Learning Objectness with Convolutional Networks 提出时间:2015年ICCV 论文地址: 主要针对的问题: 本文完成的工作与第三篇类似,都是对目标框提取算法的优化方案,区别是本文首先采用自底而上的方案来提取图像上的疑似目标框,然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序;而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点: 本文作者想通过CNN学习输入图像的特征,从而实现对输入网络目标框是否为真实目标的情况进行计算,量化每个输入框的包含目标的可能性值。 参考博客: 论文题目:AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间:2015年ICCV 论文地址: 主要针对的问题: 对检测网络的实现方案进行思考,之前的执行策略是,先确定输入图像中可能包含目标位置的矩形框,再对每个矩形框进行分类和回归从而确定目标的准确位置,参考RCNN。那么能否直接利用回归的思路从图像的四个角点,逐渐得到目标的最小外接矩形框和类别呢? 创新点: 通过从图像的四个角点,逐步迭代的方式,每次计算一个缩小的方向,并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。 参考博客: 论文题目:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间:2014年 论文地址: 针对问题: 如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络,在处理过程中就造成了图像块信息的损失。在实际的场景中,输入网络的目标尺寸很难统一,而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点: 作者提出的SPPnet中,通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸,在训练的时候,池化的操作还是通过滑动窗口完成的,池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。 参考博客 : 论文题目:Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间:2015年 论文地址: 针对问题: 既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位,本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点: 作者通过对输入网络的region进行一定的处理(通过数据增强,使得网络利用目标周围的上下文信息得到更精准的目标框)来增加网络对目标回归框的精度。具体的处理方式包括:扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置,使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性,从而提高了回归框的精度。 参考博客 : 论文题目:Fast-RCNN 提出时间:2015年 论文地址: 针对问题: RCNN中的CNN每输入一个图像块就要执行一次前向计算,这显然是非常耗时的,那么如何优化这部分呢? 创新点: 作者参考了SPPNet(第六篇论文),在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸,从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图,再将原图上用Selective Search算法得到的目标框映射到特征图上,避免了特征的重复提取。 参考博客 : 论文题目:DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间:2015年 论文地址: 主要针对的问题: 本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文,作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。 创新点: 作者在不同的激活层上以滑动窗口的方式生成了假设,并表明最终的卷积层可以以较高的查全率找到感兴趣的对象,但是由于特征图的粗糙性,定位性很差。相反,网络的第一层可以更好地定位感兴趣的对象,但召回率降低。 论文题目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间:2015年NIPS 论文地址: 主要针对的问题: 由multibox(第三篇)和DeepBox(第四篇)等论文,我们知道,用CNN可以生成目标待检测框,并判定当前框为目标的概率,那能否将该模型整合到目标检测的模型中,从而实现真正输入端为图像,输出为最终检测结果的,全部依赖CNN完成的检测系统呢? 创新点: 将当前输入图目标框提取整合到了检测网络中,依赖一个小的目标框提取网络RPN来替代Selective Search算法,从而实现真正的端到端检测算法。 参考博客 :
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。我整理了图像分割技术论文,欢迎阅读!
图像分割技术研究
摘要:图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。本文介绍了基于阈值的分割方法和图像分割的图像分割性能的评价、应用现状;最后总结出图像分割的发展趋势。
关键词:图像分割、阈值、边缘检测、区域分割
中图分类号: 文献标识码: A
1引言
随着图像分割技术研究的深入,其应用日趋广泛。凡属需要对图像目标进行提取、测量的工作都离不开图像分割。图像分割是图像处理、模式识别和人工智能等多个领域中一个十分重要且又十分困难的问题,是计算机视觉技术中首要的、重要的关键步骤。图像分割结果的好坏直接影响对计算机视觉中的图像理解。现有的方法多是为特定应用设计的,有很大的针对性和局限性,到目前为止还不存在一个通用的方法,也不存在一个判断分割是否成功的客观标准。因此,对图像分割的研究目前还缺乏一个统一的理论体系,使得图像分割的研究仍然是一个极富有挑战性的课题。
2图像分割方法
图像分割(Image Segmentation),简单地说就是将一幅数字图像分割成不同的区域,在同一区域内具有在一定的准则下可认为是相同的性质,如灰度、颜色、纹理等。而任何相邻区域之间其性质具有明显的区别。
基于灰度特征的阈值分割方法
阈值分割技术是经典的、流行的图象分割方法之一,它是用一个或几个阈值将图像的灰度级分为几个部分,认为属于同一个部分的像素是同一个物体。
这类方法主要包括以下几种:
(1)单阈值法,用一个全局阈值区分背景和目标。当一幅图像的直方图具有明显的双峰时,选择两峰之间的谷底作为阈值。
(2)双阈值法,用两个阈值区分背景和目标。通过设置两个阈值,以防单阈值设置阈值过高或过低,把目标像素误归为背景像素,或把背景像素误归为目标像素。
(3)多阈值法,当存在照明不均,突发噪声等因素或背景灰度变化较大时,整幅图像不存在合适的单一阈值,单一阈值不能兼顾图像不同区域的具体情况,这时可将图像分块处理,对每一块设一个阈值。
边缘检测分割法
基于边缘检测技术可以按照处理的顺序分为并行边缘检测和串行边缘检测两大类。常见的边缘检测方法有:差分法、模板匹配法及统计方法等。由于边缘灰度变化规律一般体现为阶梯状或者脉冲状。边缘与差分值的关系可以归纳为两种情况,其一是边缘发生在差分最大值或者最小值处;其二是边缘发生在过零处。
基于区域的分割方法
基于区域的分割方法利用的是图像的空间性质。该方法认为分割出来的某一区域具有相似的性质。常用的方法有区域生长法和区域分裂合并法。该类方法对含有复杂场景或自然景物等先验知识不足的图像进行分割,效果较好。
区域生长方法是把一幅图像分成许多小区域开始的,这些初始的小区域可能是小的邻域甚至是单个像素,在每个区域中,通过计算能反映一个物体内像素一致性的特征,作为区域合并的判断标准。区域合并的第一步是赋给每个区域一组参数,即特征。接下来对相邻区域的所有边界进行考查,如果给定边界两侧的特征值差异明显,那么这个边界很强,反之则弱。强边界允许继续存在,而弱边界被消除,相邻区域被合并。没有可以消除的弱边界时,区域合并过程结束,图像分割也就完成。
结合特定工具的图像分割技术
20世纪80年代末以来,随着一些特殊理论的出现及其成熟,如数学形态学、分形理论、模糊数学、小波分析、模式识别、遗传算法等,大量学者致力于将新的概念、新的方法用于图像分割,有效地改善了分割效果。产生了不少新的分割算法。下面对这些算法做一些简单的概括。
基于数学形态学的分割算法
分水岭算法是一种经典的借鉴了数学形态理论的分割方法。该方法中,将一幅图像比为一个具有不同高度值的地形,高灰度值处被认为是山脊,底灰度值处被认为是山谷,将一滴水从任一点流下,它会朝地势底的地方流动,最终聚于某一局部最底点,最后所有的水滴会分聚在不同的吸引盆地,由此,相应的图像就被分割成若干部分。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感。
基于模糊数学的分割算法
目前,模糊技术在图像分割中应用的一个显著特点就是它能和现有的许多图像分割方法相结合,形成一系列的集成模糊分割技术,例如模糊聚类、模糊阈值、模糊边缘检测技术等。
这类方法主要有广义模糊算子与模糊阈值法两种分割算法。
(1)广义模糊算子在广义模糊集合的范围内对图像处理,使真正的边缘处于较低灰度级,但还有一些不是边缘的像素点的灰度也在较低灰度级中,虽然算法的计算简明,且边缘细腻,但得到的边缘图会出现断线问题。
(2)模糊阈值法引入灰度图像的模糊数学描述,通过计算图像的模糊熵来选取图像的分割阈值,后用阈值法处理图像得到边界。
基于遗传算法的分割方法
此算法是受生物进化论思想提出的一种优化问题的解决方法,它使用参数编码集而不是参数本身,通过模拟进化,以适者生存的策略搜索函数的解空间,它是在点群中而不是在单点进行寻优。遗传算法在求解过程中使用随机转换规则而不是确定性规则来工作,它唯一需要的信息是适应值,通过对群体进行简单的复制、杂交、变异作用完成搜索过程。由于此法能进行能量函数全局最小优化搜索,且可以降低搜索空间维数,降低算法对模板初始位置的敏感,计算时间也大为减少。其缺点是容易收敛于局部最优。
基于神经网络分割算法
人工神经网络具有自组织、自学习、自适应的性能和非常强的非线性映射能力,适合解决背景知识不清楚、推理规则不明确和比较复杂的分类问题,因而也适合解决比较复杂的图像分割问题。原则上讲,大部分分割方法都可用 ANN(attificial neural network)实现。ANN 用于分割的研究起步较晚,只有多层前馈NN,多层误差反传(BP)NN,自组织NN,Hopfield NN以及满足约束的NN(CSNN-Const raint Satisfaction Neurat Network)等得到了应用。使用一个多层前向神经网络用于图象分割,输入层神经元的数目取决于输入特征数,而输出层神经元的数目等同于分类的数目。
图像分割中的其他方法
前面介绍了4大类图像分割较常用的方法,有关图像分割方法和文献很多,新方法不断产生,这些方法有的只对特定的情形有效,有的综合了几种方法,放在一起统称为第5类。
(1)标号法(labeling)是一种基于统计学的方法,这种方法将图像欲分割成的几个区域各以一个不同的标号来表示,用一定的方式对图像中的每一个像素赋以标号,标号相同的像素就合并成该标号所代表的区域。
(2)基于Snak模型的分割方法,基于Snake模型的分割是通过对能量函数的动态优化来逼近图像目标的真实轮廓的
(3)纹理分割,由于新的数学工具的引入,纹理分割技术取得了一些进展,张蓬等人将小波分析应用于纹理基元提取。
(4)基于知识的图像分割方法,直接建立在先验知识的基础上,使分割更符合实际图像的特点。该方法的难度在于知识的正确合理的表示与利用。
3图像分割性能的评价
图像分割评价主要有两个方面的内容:一是研究各分割算法在不同情况下的表现,掌握如何选择和控制其参数设置,以适应不同需要。二是分析多个分割算法在分割同一图像时的性能,比较优劣,以便在实际应用中选取合适的算法。分割评价方法分为分析法和实验法两大类。分析法是直接分析分割算法本身的原理及性能,而实验法是通过对测试图像的分割结果来评价算法的。两种方法各有优劣,由于缺乏可靠理论依据,并非所有分割算法都能够通过分析法分析其性能。每种评价方法都是出于某种考虑而提出来的,不同的评价方法只能反映分割算法性能的某一性能。另一方面,每一种分割算法的性能是由多种因素决定的,因此,有可能需要多种准则来综合评价。
4图像分割技术的发展趋势
随着神经网络、遗传算法、统计学理论、小波理论以及分形理论等在图像分割中的广泛应用,图像分割技术呈现出以下的发展趋势:(1)多种特征的融合。(2)多种分割方法的结合。(3)新理论与新方法。
参考文献
[1] [美]RC冈萨雷斯.数字图像处理(第二版)[M].阮秋琦,等译.北京:电子工业出版社,2003
[2] 章毓晋.图像分割[M].北京:科学出版社,2001.
[3] 李弼程,彭天强,彭波等.智能图像处理技术[M].北京:电子工业出版社,2004.
[4] 杨晖,曲秀杰.图像分割方法综述[J].电脑开发与应用。2005,18(3):21-23.
点击下页还有更多>>>图像分割技术论文
网上搜搜国外有一些demo程序,方便你入门。图像边缘提取 常用的边缘检测算子有梯度算子、Roberts算子、Sobel算子、Prewitt算子、Canny算子 不过单用 效果不好 。不知道你是什么语言的车牌识别,建议用梯度算子。江苏视图科技专业图像识别,图片识别率高达98%以上。
基于matlab的图像识别研究的专业论文
如果是单纯的车牌识别算法的话 建议matlab中文论坛有3份1、贵州版本2、广西版本3、老衲版本 (已经发了,其他的你去论坛下载吧
随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文