随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!
图像识别技术研究综述
摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。
关键词:图像处理;图像识别;成像
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02
图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。
1 图像处理技术
图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。
1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。
2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。
3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。
4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。
5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。
2 图像识别技术
图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:
指纹识别
指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。
人脸识别 目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。
文字识别
文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。
3 结束语
人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。
参考文献:
[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.
[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.
[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.
[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.
[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.
[6] Sanderson C,Paliwal K Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.
点击下页还有更多>>>图像识别技术论文
图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。我整理了图像分割技术论文,欢迎阅读!
图像分割技术研究
摘要:图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。本文介绍了基于阈值的分割方法和图像分割的图像分割性能的评价、应用现状;最后总结出图像分割的发展趋势。
关键词:图像分割、阈值、边缘检测、区域分割
中图分类号: 文献标识码: A
1引言
随着图像分割技术研究的深入,其应用日趋广泛。凡属需要对图像目标进行提取、测量的工作都离不开图像分割。图像分割是图像处理、模式识别和人工智能等多个领域中一个十分重要且又十分困难的问题,是计算机视觉技术中首要的、重要的关键步骤。图像分割结果的好坏直接影响对计算机视觉中的图像理解。现有的方法多是为特定应用设计的,有很大的针对性和局限性,到目前为止还不存在一个通用的方法,也不存在一个判断分割是否成功的客观标准。因此,对图像分割的研究目前还缺乏一个统一的理论体系,使得图像分割的研究仍然是一个极富有挑战性的课题。
2图像分割方法
图像分割(Image Segmentation),简单地说就是将一幅数字图像分割成不同的区域,在同一区域内具有在一定的准则下可认为是相同的性质,如灰度、颜色、纹理等。而任何相邻区域之间其性质具有明显的区别。
基于灰度特征的阈值分割方法
阈值分割技术是经典的、流行的图象分割方法之一,它是用一个或几个阈值将图像的灰度级分为几个部分,认为属于同一个部分的像素是同一个物体。
这类方法主要包括以下几种:
(1)单阈值法,用一个全局阈值区分背景和目标。当一幅图像的直方图具有明显的双峰时,选择两峰之间的谷底作为阈值。
(2)双阈值法,用两个阈值区分背景和目标。通过设置两个阈值,以防单阈值设置阈值过高或过低,把目标像素误归为背景像素,或把背景像素误归为目标像素。
(3)多阈值法,当存在照明不均,突发噪声等因素或背景灰度变化较大时,整幅图像不存在合适的单一阈值,单一阈值不能兼顾图像不同区域的具体情况,这时可将图像分块处理,对每一块设一个阈值。
边缘检测分割法
基于边缘检测技术可以按照处理的顺序分为并行边缘检测和串行边缘检测两大类。常见的边缘检测方法有:差分法、模板匹配法及统计方法等。由于边缘灰度变化规律一般体现为阶梯状或者脉冲状。边缘与差分值的关系可以归纳为两种情况,其一是边缘发生在差分最大值或者最小值处;其二是边缘发生在过零处。
基于区域的分割方法
基于区域的分割方法利用的是图像的空间性质。该方法认为分割出来的某一区域具有相似的性质。常用的方法有区域生长法和区域分裂合并法。该类方法对含有复杂场景或自然景物等先验知识不足的图像进行分割,效果较好。
区域生长方法是把一幅图像分成许多小区域开始的,这些初始的小区域可能是小的邻域甚至是单个像素,在每个区域中,通过计算能反映一个物体内像素一致性的特征,作为区域合并的判断标准。区域合并的第一步是赋给每个区域一组参数,即特征。接下来对相邻区域的所有边界进行考查,如果给定边界两侧的特征值差异明显,那么这个边界很强,反之则弱。强边界允许继续存在,而弱边界被消除,相邻区域被合并。没有可以消除的弱边界时,区域合并过程结束,图像分割也就完成。
结合特定工具的图像分割技术
20世纪80年代末以来,随着一些特殊理论的出现及其成熟,如数学形态学、分形理论、模糊数学、小波分析、模式识别、遗传算法等,大量学者致力于将新的概念、新的方法用于图像分割,有效地改善了分割效果。产生了不少新的分割算法。下面对这些算法做一些简单的概括。
基于数学形态学的分割算法
分水岭算法是一种经典的借鉴了数学形态理论的分割方法。该方法中,将一幅图像比为一个具有不同高度值的地形,高灰度值处被认为是山脊,底灰度值处被认为是山谷,将一滴水从任一点流下,它会朝地势底的地方流动,最终聚于某一局部最底点,最后所有的水滴会分聚在不同的吸引盆地,由此,相应的图像就被分割成若干部分。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感。
基于模糊数学的分割算法
目前,模糊技术在图像分割中应用的一个显著特点就是它能和现有的许多图像分割方法相结合,形成一系列的集成模糊分割技术,例如模糊聚类、模糊阈值、模糊边缘检测技术等。
这类方法主要有广义模糊算子与模糊阈值法两种分割算法。
(1)广义模糊算子在广义模糊集合的范围内对图像处理,使真正的边缘处于较低灰度级,但还有一些不是边缘的像素点的灰度也在较低灰度级中,虽然算法的计算简明,且边缘细腻,但得到的边缘图会出现断线问题。
(2)模糊阈值法引入灰度图像的模糊数学描述,通过计算图像的模糊熵来选取图像的分割阈值,后用阈值法处理图像得到边界。
基于遗传算法的分割方法
此算法是受生物进化论思想提出的一种优化问题的解决方法,它使用参数编码集而不是参数本身,通过模拟进化,以适者生存的策略搜索函数的解空间,它是在点群中而不是在单点进行寻优。遗传算法在求解过程中使用随机转换规则而不是确定性规则来工作,它唯一需要的信息是适应值,通过对群体进行简单的复制、杂交、变异作用完成搜索过程。由于此法能进行能量函数全局最小优化搜索,且可以降低搜索空间维数,降低算法对模板初始位置的敏感,计算时间也大为减少。其缺点是容易收敛于局部最优。
基于神经网络分割算法
人工神经网络具有自组织、自学习、自适应的性能和非常强的非线性映射能力,适合解决背景知识不清楚、推理规则不明确和比较复杂的分类问题,因而也适合解决比较复杂的图像分割问题。原则上讲,大部分分割方法都可用 ANN(attificial neural network)实现。ANN 用于分割的研究起步较晚,只有多层前馈NN,多层误差反传(BP)NN,自组织NN,Hopfield NN以及满足约束的NN(CSNN-Const raint Satisfaction Neurat Network)等得到了应用。使用一个多层前向神经网络用于图象分割,输入层神经元的数目取决于输入特征数,而输出层神经元的数目等同于分类的数目。
图像分割中的其他方法
前面介绍了4大类图像分割较常用的方法,有关图像分割方法和文献很多,新方法不断产生,这些方法有的只对特定的情形有效,有的综合了几种方法,放在一起统称为第5类。
(1)标号法(labeling)是一种基于统计学的方法,这种方法将图像欲分割成的几个区域各以一个不同的标号来表示,用一定的方式对图像中的每一个像素赋以标号,标号相同的像素就合并成该标号所代表的区域。
(2)基于Snak模型的分割方法,基于Snake模型的分割是通过对能量函数的动态优化来逼近图像目标的真实轮廓的
(3)纹理分割,由于新的数学工具的引入,纹理分割技术取得了一些进展,张蓬等人将小波分析应用于纹理基元提取。
(4)基于知识的图像分割方法,直接建立在先验知识的基础上,使分割更符合实际图像的特点。该方法的难度在于知识的正确合理的表示与利用。
3图像分割性能的评价
图像分割评价主要有两个方面的内容:一是研究各分割算法在不同情况下的表现,掌握如何选择和控制其参数设置,以适应不同需要。二是分析多个分割算法在分割同一图像时的性能,比较优劣,以便在实际应用中选取合适的算法。分割评价方法分为分析法和实验法两大类。分析法是直接分析分割算法本身的原理及性能,而实验法是通过对测试图像的分割结果来评价算法的。两种方法各有优劣,由于缺乏可靠理论依据,并非所有分割算法都能够通过分析法分析其性能。每种评价方法都是出于某种考虑而提出来的,不同的评价方法只能反映分割算法性能的某一性能。另一方面,每一种分割算法的性能是由多种因素决定的,因此,有可能需要多种准则来综合评价。
4图像分割技术的发展趋势
随着神经网络、遗传算法、统计学理论、小波理论以及分形理论等在图像分割中的广泛应用,图像分割技术呈现出以下的发展趋势:(1)多种特征的融合。(2)多种分割方法的结合。(3)新理论与新方法。
参考文献
[1] [美]RC冈萨雷斯.数字图像处理(第二版)[M].阮秋琦,等译.北京:电子工业出版社,2003
[2] 章毓晋.图像分割[M].北京:科学出版社,2001.
[3] 李弼程,彭天强,彭波等.智能图像处理技术[M].北京:电子工业出版社,2004.
[4] 杨晖,曲秀杰.图像分割方法综述[J].电脑开发与应用。2005,18(3):21-23.
点击下页还有更多>>>图像分割技术论文
原文链接: 一、写在前面: 网络架构的设计主要是基于 CNN 结构延伸出来的。主要的改进方式有两点:新神经架构的设计(不同深度,宽度,连接性或者拓扑结构)或设计新的组件(或者层)。下面我们逐个去分析了解。 本文涉及到的论文范围如下图: 二、网络架构的改进 FCN 传统的 CNN 分割,为了对一个像素分类,使用该像素周围的一个图像块作为 CNN 的输入用于训练和预测。缺点很多:比如存储开销大,计算效率低,像素块大小也限制了感知域的大小。基于存在的这些问题,由 Long 等人在 2015 年提出的 FCN 结构,第一个全卷积神经网络的语义分割模型。我们要了解到的是,FCN 是基于 VGG 和 AlexNet 网络上进行预训练,然后将最后两层全连接层改为的卷积层。 FCN 具体处理过程是怎么样的?从 pool1 开始,每个 pool 后图像都会变为上个池化后图像的 1/2。Pool1 为原图的 1/2,以此类推,pool5 后为原图的 1/2^5,conv6,和 conv7 之后的图像保持不变,进行 stride=32 的反卷积,得到 FCN-32s。也就是直接对 pool5 进行 32 倍上采样获得 32 upsampled feature,再对 32 upsampled feature 每个点做 softmax prediction,就可以获得 32*upsampled prediction(分割图)。 FCN 这三个创新点有哪些? 全卷积 :用于解决逐像素的预测问题。通过将基础网络最后面几个全连接层换成卷积层,可实现任意大小的图像输入,并且输入图像大小与输入相对应。 反卷积 :端到端的像素级语义分割需要输出大小和输入图像大小一致。但是传统的 conv+pooling 结构会缩小图片尺寸。基于此作者引入反卷积(deconvolution)操作,对缩小后的特征进行上采样,恢复原始图像大小。 跳跃结构 :语义分割包括语义识别和目标定位。卷积网络的高层特征图可以有效的反应语义信息,而低层特征图可以有效反应目标的位置信息。语义分割任务同时进行语义识别和目标定位。作者提出的跨层连接结构(skip architecture),将低层的目标位置信息和高层语义信息进行融合,以此来提升语义分割性能。在此基础上进行 2 倍采样,2 倍 upsample 之后与 pool4 的像素点相加,进行 stride=16 的 upsample,为此 FCN-16s,重复上面类似的步骤,得到 FCN-8s。 了解到以上信息,应该对 FCN 有个整体的认识了。还有一些细节部分,比如 FCN 采用的简单的 softmax 分类损失函数,采用双线性差值 + 反卷积进行上采样,在微调的时候没有采用类别平衡策略。分割结果来看,FCN-8s>FCN-16s>FCN-32s。也就是说使用多层特征融合有利于提高分割准确性。 SegNet SegNet 主要动机是在场景理解 。它在设计的时候考虑的是预测期间保证内存和计算时间上的效率。其中,SegNet 和 FCN 有很多相似之处,编码网络使用 VGG16 的前 13 层卷积;移除全连接;解码器使用从相应的编码器的 max-pooling indices 进行 upsampling。 对比 SegNet 和 FCN 实现 Decoder 的过程。FCN 是利用双线性插值初始化的反卷积进行上采样。而 SegNet 则是在每次 pooling 时,都存下最大值的位置,在 upsample 时将 input 值直接赋给相应的位置,其他位置的值置零。 U-Net 接下来,我们需要了解的是 U-Net。U-net 网络架构,由收缩路径(contracting path)和扩展路径(expanding path)组成。每一层使用两个 3 乘 3 的 conv kernel,每次卷积都进行 Relu 和 stride=2 的 maxpooling 进行下采样。四次操作后输出结果称之为 feature map。 2 乘 2 的反卷积,上采样,通道数减半,并将左边对称位置的 feature map copy 到右边进行 concate 操作,来融合下采样的浅层位置信息和高层语义信息。合并后在进行 3*3 的卷积操作。最后 output 之前,通道数表示分类的类别产生 N 类分割结果,最后选择出概率值最大的分割结果,作为最后的分割图。 U-Net 中常常会问为什么适用于医学图像这个问题.。首先分析医学影像数据特点:图像语义较为简单,结构较为固定:都是一个固定的器官的成像。而且器官本身结构固定,语义信息没有特别丰富,所以高级语义信息和低级特征都非常重要。(U-net 的 skip connection 可以解决这个问题);数据量少:医学影像的数据较难获取,为了防止过拟合,设计的模型不宜过大;多模态:医学影像是具有多种模态的;可解释性:医生需要进一步指导病灶在哪一层,哪一层的哪个位置,分割结果能求体积么?而且 U-Net 在自然图像分割也取得了不错的效果。 需要注意的一点:Unet 融合浅层信息是 maxpooling 之前还是之后的结果?是 maxpooling 之前的结果。因为 Maxpooling 之后会丢失准确的位置信息。 V-Net V-Net 也就是 3D 的 U-net 的一种版本,3D 卷积,引入残差模块和 U-Net 的框架。整个网络分为压缩路径和非压缩路径,也就是缩小和扩大 feature maps,每个 stage 将特征缩小一半,也就是 128-128-64-32-16-8,通道上为 1-16-32-64-128-256。每个 stage 加入残差学习以加速收敛。 图中的圆圈加交叉代表卷积核为 5 乘 5 乘 5,stride 为 1 的卷积,可知 padding 为 2 乘 2 乘 2 就可以保持特征大小不变。每个 stage 的末尾使用卷积核为 2 乘 2 乘 2,stride 为 2 的卷积,特征大小减小一半(把 2x2 max-pooling 替换成了 2x2 conv.)。整个网络都是使用 keiming 等人提出的 PReLU 非线性单元。网络末尾加一个 1 乘 1 乘 1 的卷积,处理成与输入一样大小的数据,然后接一个 softmax。 而且 V-Net 采用 Dice coefficient 损失函数,如下: Pi 为预测的前景,Gi 为标记的前景,使用这个函数能有效避免类别不平衡的问题。 Dense-UNet Dense U-net(原名:one-hundred layers Tiramisu Network)该架构是由密集连接块(dense block)构建的。该架构由向下过度的两个下采样路径和向上过度的两个上采样路径组成。且同样包含两个水平跳跃连接,下采样 Dense 模块的输出与同水平的上采样 Dense 模块输入的相应特征图拼接在一起。上采样路径和下采样路径的连接模式并不完全相同:下采样路径中,每个密集块外有一条跳跃性连接,从而导致 feature map 数量线性增长,上采样中没有此操作。 主要创新点是融合了 Dense-Net 和 U-Net 网络。 DeepLab 系列网络 DeepLabV1:首次把空洞卷积(dilated convolution) 引入图形分割领域, 融合卷积神经网络和概率图模型:CNN + CRF,提高了分割定位精度。 DeepLabV2:ASPP (扩张空间金字塔池化):CNN+CRF。 DeepLabV3:改进 ASPP,多了 1 乘 1 卷积和全局平均池化(global avg pool);对比了级联和并联空洞卷积的效果。 DeepLabV3+:加入编解码架构思想,添加一个解码器模块来扩展 DeepLabv3;将深度可分离卷积应用于 ASPP 和解码器模块;将改进的 Xception 作为 Backbone。 PSPNet PSPNet 全名是 Pyramid Scene Parsing Network(金字塔场景解析网络)。提出了金字塔池化模块(pyramid pooling module)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。 输入图像后,使用预训练的带空洞卷积 ResNet 提取特征图。最终的特征映射大小是输入图像的 1/8;在特征图上,我们使用 C 中的金字塔池化模块收集上下文信息。使用 4 层金字塔结构,池化内核覆盖了图像的全部、一半和小部分。他们被融合为全局先验信息;在 c 的最后部分将之前的金字塔特征映射与原始特征映射 concate 起来;在进行卷积,生成 d 中的最终预测图。 总结 基于深度学习的图像语义分割模型大多遵循编码器-解码器体系结构,如 U-Net。近几年的研究成果表明,膨胀卷积和特征金字塔池可以改善 U-Net 风格的网络性能。 参考文献: Deep Semantic Segmentation of Natural and Medical Images: A Review
在经济学的论文中引用参考文献,具有重要的标志功能、评价功能、保护功能和链接功能,可以反映经济学论文的研究基础和科学依据,可供进一步检索有关资料,共享资源。下面我将为你推荐经济学论文参考文献的内容,希望能够帮到你!
[1]刘思华.生态马克思主义经济学原理[M].北京:人民出版社.2006
[2]叶耀丹.马克思主义生态自然观对中国生态文明建设的启示[D].成都:成都理工大学.2012
[3]陆畅.我国生态文明建设中的政府职能与责任研究[D].长春:东北师范大学.2012
[4]俞可平.科学发展观与生态文明[M].上海:华东师范大学出版社.2007:18
[5]朴光诛等.环境法与环境执法[M].北京:中国环境科学出版社.2004:23
[6]罗能生.非正式制度与中国经济改革和发展[M].北京:中国财政经济出版社.2002: 19
[7]党国英.制度、环境与人类文明一关于环境文明的观察与思考[N].新京报.2005-2-13
[8]张婷婷.生态文明建设的科技需求及政策研究[D].锦州:渤海大学.2012
[9]秦书生.生态文明视野中的绿色技术[J].科技与经济.2010(3): 82-85
[10]陈池波.论生态经济的持续协调发展[J].长江大学学报(社会科学版)2004(1):97-102
[11]张首先.社会主义与生态文明[J].理论与现代化.2010(1): 23-26
[12]黄光宇.陈勇.生态城市理论与规划设计 方法 [M].北京:科学出版社.2002
[13]张首先.生态文明研究[D].成都:西南交通大学.2010
[14]马仁忠.地理环境对种族、民族特征的影响[J].宿州 教育 学院学报.2002(4):
[15]冒佩华.王宝珠.市场制度与生态逻辑[J].教学与研究.2014(8):37-43.
[1]陈凌.应丽芬.代际传承:家族企业继任管理和创新〔J〕.管理世界.2003 ( 6): 89-9
[2]伯纳德‘萨拉尼着.陈新平、王瑞泽、陈宝明、周宗华译.税收经济学〔M〕.北京:中国人民大学出版社.2009:143-144.
[3]彼德·德鲁克.大变革时代的管理〔M〕.上海:上海译文出版社.1999版.
[4]陈凌.信息特征、交易成本和家族式组织〔J〕.经济研究.1998(7):27-33.
[5]. Toward an Economic Theory of Income Distribution〔 C〕.Cambridge, MA: MITPress, 1974,123:137-139.
[6]. The Wealth of Nations ( 1776 )〔M〕.Chicago: University of Chicago Press,1976(reprint): 391.
[7]沈建法.城市化与人口管理[M].北京:科学出版社.1999
[8]张志强.徐中民.程国栋.生态足迹的概念及计算模型[J].生态经济.2000(10) : 8-10
[9]张恒义.刘卫东.林育欣.等.基于改进生态足迹模型的浙江省域生态足迹分析[J].生态学报.2009(5):2738-2748
[10]贺成龙.吴建华.刘文莉.改进投入产出法在生态足迹中的应用[J].资源科学.2008 (12) : 1933-1939,2008 (2) : 261-266
[11]郭军华.幸学俊.中国城市化与生态足迹的动态计量分析[J].华东交通大学学报.2009 (5) : 131-134.
[1] 刘毅. 现代性语境下的正当性与合法性:一个思想史的考察[D]. 中国政法大学 2007
[2] 刘毅. 树突状细胞在兔动脉粥样硬化模型中作用的研究[D]. 南方医科大学 2009
[3] 刘毅. 硅基微环谐振腔光信号处理与布里渊光纤激光器的理论和实验研究[D]. 天津大学 2014
[4] 刘毅. 未来移动通信系统中的协作传输技术研究[D]. 北京邮电大学 2010
[5] 刘毅. 基于图割的交互式图像分割算法研究[D]. 南京理工大学 2013
[6] 刘毅. 基于iTRAQ技术对HBV相关性肝癌血浆差异蛋白的鉴定及功能学研究[D]. 重庆医科大学 2014
[7] 刘毅. 整体性治理视角下的县级政府社会管理体制创新研究[D]. 华中师范大学 2014
[8] 刘毅. 几类切换模糊系统的镇定控制设计[D]. 东北大学 2009
[9] 刘毅. 区域循环经济发展模式评价及其路径演进研究[D]. 天津大学 2012
[10] 刘毅. β-抑制蛋白2对哮喘小鼠CD4~+T细胞表达和产生IL-17的影响及其机制研究[D]. 中南大学 2011
[11] 刘毅. SIRT3在原发性肝癌中的表达及其抑瘤作用的研究[D]. 中南大学 2012
[12] 刘毅. 南中国海与东南极中晚全新世气候环境变化记录与研究方法探索[D]. 中国科学技术大学 2012
[13] 刘毅. 晚期糖基化终产物对心肌微血管内皮细胞及糖尿病心肌缺血再灌注损伤的影响及机制[D]. 第四军医大学 2012
[14] 刘毅. 华喦花鸟画研究[D]. 南京艺术学院 2012
[15] 刘毅. 三甲基芹菜素阻断多种心脏钾通道与增加迟钠电流的作用研究[D]. 华中科技大学 2012
[16] 刘毅. 面向人群的并行多目标疏散模型研究[D]. 武汉理工大学 2012
[17] 刘毅. 采用外周血进行肿瘤分子诊断的转化医学研究[D]. 中国人民解放军军事医学科学院 2012
猜你喜欢:
1. 会计毕业论文参考文献
2. 人力资源会计论文参考文献
3. 国际贸易论文
4. 经济学论文参考文献
5. 有关经济学论文参考文献
原文链接: 一、写在前面: 网络架构的设计主要是基于 CNN 结构延伸出来的。主要的改进方式有两点:新神经架构的设计(不同深度,宽度,连接性或者拓扑结构)或设计新的组件(或者层)。下面我们逐个去分析了解。 本文涉及到的论文范围如下图: 二、网络架构的改进 FCN 传统的 CNN 分割,为了对一个像素分类,使用该像素周围的一个图像块作为 CNN 的输入用于训练和预测。缺点很多:比如存储开销大,计算效率低,像素块大小也限制了感知域的大小。基于存在的这些问题,由 Long 等人在 2015 年提出的 FCN 结构,第一个全卷积神经网络的语义分割模型。我们要了解到的是,FCN 是基于 VGG 和 AlexNet 网络上进行预训练,然后将最后两层全连接层改为的卷积层。 FCN 具体处理过程是怎么样的?从 pool1 开始,每个 pool 后图像都会变为上个池化后图像的 1/2。Pool1 为原图的 1/2,以此类推,pool5 后为原图的 1/2^5,conv6,和 conv7 之后的图像保持不变,进行 stride=32 的反卷积,得到 FCN-32s。也就是直接对 pool5 进行 32 倍上采样获得 32 upsampled feature,再对 32 upsampled feature 每个点做 softmax prediction,就可以获得 32*upsampled prediction(分割图)。 FCN 这三个创新点有哪些? 全卷积 :用于解决逐像素的预测问题。通过将基础网络最后面几个全连接层换成卷积层,可实现任意大小的图像输入,并且输入图像大小与输入相对应。 反卷积 :端到端的像素级语义分割需要输出大小和输入图像大小一致。但是传统的 conv+pooling 结构会缩小图片尺寸。基于此作者引入反卷积(deconvolution)操作,对缩小后的特征进行上采样,恢复原始图像大小。 跳跃结构 :语义分割包括语义识别和目标定位。卷积网络的高层特征图可以有效的反应语义信息,而低层特征图可以有效反应目标的位置信息。语义分割任务同时进行语义识别和目标定位。作者提出的跨层连接结构(skip architecture),将低层的目标位置信息和高层语义信息进行融合,以此来提升语义分割性能。在此基础上进行 2 倍采样,2 倍 upsample 之后与 pool4 的像素点相加,进行 stride=16 的 upsample,为此 FCN-16s,重复上面类似的步骤,得到 FCN-8s。 了解到以上信息,应该对 FCN 有个整体的认识了。还有一些细节部分,比如 FCN 采用的简单的 softmax 分类损失函数,采用双线性差值 + 反卷积进行上采样,在微调的时候没有采用类别平衡策略。分割结果来看,FCN-8s>FCN-16s>FCN-32s。也就是说使用多层特征融合有利于提高分割准确性。 SegNet SegNet 主要动机是在场景理解 。它在设计的时候考虑的是预测期间保证内存和计算时间上的效率。其中,SegNet 和 FCN 有很多相似之处,编码网络使用 VGG16 的前 13 层卷积;移除全连接;解码器使用从相应的编码器的 max-pooling indices 进行 upsampling。 对比 SegNet 和 FCN 实现 Decoder 的过程。FCN 是利用双线性插值初始化的反卷积进行上采样。而 SegNet 则是在每次 pooling 时,都存下最大值的位置,在 upsample 时将 input 值直接赋给相应的位置,其他位置的值置零。 U-Net 接下来,我们需要了解的是 U-Net。U-net 网络架构,由收缩路径(contracting path)和扩展路径(expanding path)组成。每一层使用两个 3 乘 3 的 conv kernel,每次卷积都进行 Relu 和 stride=2 的 maxpooling 进行下采样。四次操作后输出结果称之为 feature map。 2 乘 2 的反卷积,上采样,通道数减半,并将左边对称位置的 feature map copy 到右边进行 concate 操作,来融合下采样的浅层位置信息和高层语义信息。合并后在进行 3*3 的卷积操作。最后 output 之前,通道数表示分类的类别产生 N 类分割结果,最后选择出概率值最大的分割结果,作为最后的分割图。 U-Net 中常常会问为什么适用于医学图像这个问题.。首先分析医学影像数据特点:图像语义较为简单,结构较为固定:都是一个固定的器官的成像。而且器官本身结构固定,语义信息没有特别丰富,所以高级语义信息和低级特征都非常重要。(U-net 的 skip connection 可以解决这个问题);数据量少:医学影像的数据较难获取,为了防止过拟合,设计的模型不宜过大;多模态:医学影像是具有多种模态的;可解释性:医生需要进一步指导病灶在哪一层,哪一层的哪个位置,分割结果能求体积么?而且 U-Net 在自然图像分割也取得了不错的效果。 需要注意的一点:Unet 融合浅层信息是 maxpooling 之前还是之后的结果?是 maxpooling 之前的结果。因为 Maxpooling 之后会丢失准确的位置信息。 V-Net V-Net 也就是 3D 的 U-net 的一种版本,3D 卷积,引入残差模块和 U-Net 的框架。整个网络分为压缩路径和非压缩路径,也就是缩小和扩大 feature maps,每个 stage 将特征缩小一半,也就是 128-128-64-32-16-8,通道上为 1-16-32-64-128-256。每个 stage 加入残差学习以加速收敛。 图中的圆圈加交叉代表卷积核为 5 乘 5 乘 5,stride 为 1 的卷积,可知 padding 为 2 乘 2 乘 2 就可以保持特征大小不变。每个 stage 的末尾使用卷积核为 2 乘 2 乘 2,stride 为 2 的卷积,特征大小减小一半(把 2x2 max-pooling 替换成了 2x2 conv.)。整个网络都是使用 keiming 等人提出的 PReLU 非线性单元。网络末尾加一个 1 乘 1 乘 1 的卷积,处理成与输入一样大小的数据,然后接一个 softmax。 而且 V-Net 采用 Dice coefficient 损失函数,如下: Pi 为预测的前景,Gi 为标记的前景,使用这个函数能有效避免类别不平衡的问题。 Dense-UNet Dense U-net(原名:one-hundred layers Tiramisu Network)该架构是由密集连接块(dense block)构建的。该架构由向下过度的两个下采样路径和向上过度的两个上采样路径组成。且同样包含两个水平跳跃连接,下采样 Dense 模块的输出与同水平的上采样 Dense 模块输入的相应特征图拼接在一起。上采样路径和下采样路径的连接模式并不完全相同:下采样路径中,每个密集块外有一条跳跃性连接,从而导致 feature map 数量线性增长,上采样中没有此操作。 主要创新点是融合了 Dense-Net 和 U-Net 网络。 DeepLab 系列网络 DeepLabV1:首次把空洞卷积(dilated convolution) 引入图形分割领域, 融合卷积神经网络和概率图模型:CNN + CRF,提高了分割定位精度。 DeepLabV2:ASPP (扩张空间金字塔池化):CNN+CRF。 DeepLabV3:改进 ASPP,多了 1 乘 1 卷积和全局平均池化(global avg pool);对比了级联和并联空洞卷积的效果。 DeepLabV3+:加入编解码架构思想,添加一个解码器模块来扩展 DeepLabv3;将深度可分离卷积应用于 ASPP 和解码器模块;将改进的 Xception 作为 Backbone。 PSPNet PSPNet 全名是 Pyramid Scene Parsing Network(金字塔场景解析网络)。提出了金字塔池化模块(pyramid pooling module)能够聚合不同区域的上下文信息,从而提高获取全局信息的能力。 输入图像后,使用预训练的带空洞卷积 ResNet 提取特征图。最终的特征映射大小是输入图像的 1/8;在特征图上,我们使用 C 中的金字塔池化模块收集上下文信息。使用 4 层金字塔结构,池化内核覆盖了图像的全部、一半和小部分。他们被融合为全局先验信息;在 c 的最后部分将之前的金字塔特征映射与原始特征映射 concate 起来;在进行卷积,生成 d 中的最终预测图。 总结 基于深度学习的图像语义分割模型大多遵循编码器-解码器体系结构,如 U-Net。近几年的研究成果表明,膨胀卷积和特征金字塔池可以改善 U-Net 风格的网络性能。 参考文献: Deep Semantic Segmentation of Natural and Medical Images: A Review
图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。我整理了图像分割技术论文,欢迎阅读!
图像分割技术研究
摘要:图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。本文介绍了基于阈值的分割方法和图像分割的图像分割性能的评价、应用现状;最后总结出图像分割的发展趋势。
关键词:图像分割、阈值、边缘检测、区域分割
中图分类号: 文献标识码: A
1引言
随着图像分割技术研究的深入,其应用日趋广泛。凡属需要对图像目标进行提取、测量的工作都离不开图像分割。图像分割是图像处理、模式识别和人工智能等多个领域中一个十分重要且又十分困难的问题,是计算机视觉技术中首要的、重要的关键步骤。图像分割结果的好坏直接影响对计算机视觉中的图像理解。现有的方法多是为特定应用设计的,有很大的针对性和局限性,到目前为止还不存在一个通用的方法,也不存在一个判断分割是否成功的客观标准。因此,对图像分割的研究目前还缺乏一个统一的理论体系,使得图像分割的研究仍然是一个极富有挑战性的课题。
2图像分割方法
图像分割(Image Segmentation),简单地说就是将一幅数字图像分割成不同的区域,在同一区域内具有在一定的准则下可认为是相同的性质,如灰度、颜色、纹理等。而任何相邻区域之间其性质具有明显的区别。
基于灰度特征的阈值分割方法
阈值分割技术是经典的、流行的图象分割方法之一,它是用一个或几个阈值将图像的灰度级分为几个部分,认为属于同一个部分的像素是同一个物体。
这类方法主要包括以下几种:
(1)单阈值法,用一个全局阈值区分背景和目标。当一幅图像的直方图具有明显的双峰时,选择两峰之间的谷底作为阈值。
(2)双阈值法,用两个阈值区分背景和目标。通过设置两个阈值,以防单阈值设置阈值过高或过低,把目标像素误归为背景像素,或把背景像素误归为目标像素。
(3)多阈值法,当存在照明不均,突发噪声等因素或背景灰度变化较大时,整幅图像不存在合适的单一阈值,单一阈值不能兼顾图像不同区域的具体情况,这时可将图像分块处理,对每一块设一个阈值。
边缘检测分割法
基于边缘检测技术可以按照处理的顺序分为并行边缘检测和串行边缘检测两大类。常见的边缘检测方法有:差分法、模板匹配法及统计方法等。由于边缘灰度变化规律一般体现为阶梯状或者脉冲状。边缘与差分值的关系可以归纳为两种情况,其一是边缘发生在差分最大值或者最小值处;其二是边缘发生在过零处。
基于区域的分割方法
基于区域的分割方法利用的是图像的空间性质。该方法认为分割出来的某一区域具有相似的性质。常用的方法有区域生长法和区域分裂合并法。该类方法对含有复杂场景或自然景物等先验知识不足的图像进行分割,效果较好。
区域生长方法是把一幅图像分成许多小区域开始的,这些初始的小区域可能是小的邻域甚至是单个像素,在每个区域中,通过计算能反映一个物体内像素一致性的特征,作为区域合并的判断标准。区域合并的第一步是赋给每个区域一组参数,即特征。接下来对相邻区域的所有边界进行考查,如果给定边界两侧的特征值差异明显,那么这个边界很强,反之则弱。强边界允许继续存在,而弱边界被消除,相邻区域被合并。没有可以消除的弱边界时,区域合并过程结束,图像分割也就完成。
结合特定工具的图像分割技术
20世纪80年代末以来,随着一些特殊理论的出现及其成熟,如数学形态学、分形理论、模糊数学、小波分析、模式识别、遗传算法等,大量学者致力于将新的概念、新的方法用于图像分割,有效地改善了分割效果。产生了不少新的分割算法。下面对这些算法做一些简单的概括。
基于数学形态学的分割算法
分水岭算法是一种经典的借鉴了数学形态理论的分割方法。该方法中,将一幅图像比为一个具有不同高度值的地形,高灰度值处被认为是山脊,底灰度值处被认为是山谷,将一滴水从任一点流下,它会朝地势底的地方流动,最终聚于某一局部最底点,最后所有的水滴会分聚在不同的吸引盆地,由此,相应的图像就被分割成若干部分。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感。
基于模糊数学的分割算法
目前,模糊技术在图像分割中应用的一个显著特点就是它能和现有的许多图像分割方法相结合,形成一系列的集成模糊分割技术,例如模糊聚类、模糊阈值、模糊边缘检测技术等。
这类方法主要有广义模糊算子与模糊阈值法两种分割算法。
(1)广义模糊算子在广义模糊集合的范围内对图像处理,使真正的边缘处于较低灰度级,但还有一些不是边缘的像素点的灰度也在较低灰度级中,虽然算法的计算简明,且边缘细腻,但得到的边缘图会出现断线问题。
(2)模糊阈值法引入灰度图像的模糊数学描述,通过计算图像的模糊熵来选取图像的分割阈值,后用阈值法处理图像得到边界。
基于遗传算法的分割方法
此算法是受生物进化论思想提出的一种优化问题的解决方法,它使用参数编码集而不是参数本身,通过模拟进化,以适者生存的策略搜索函数的解空间,它是在点群中而不是在单点进行寻优。遗传算法在求解过程中使用随机转换规则而不是确定性规则来工作,它唯一需要的信息是适应值,通过对群体进行简单的复制、杂交、变异作用完成搜索过程。由于此法能进行能量函数全局最小优化搜索,且可以降低搜索空间维数,降低算法对模板初始位置的敏感,计算时间也大为减少。其缺点是容易收敛于局部最优。
基于神经网络分割算法
人工神经网络具有自组织、自学习、自适应的性能和非常强的非线性映射能力,适合解决背景知识不清楚、推理规则不明确和比较复杂的分类问题,因而也适合解决比较复杂的图像分割问题。原则上讲,大部分分割方法都可用 ANN(attificial neural network)实现。ANN 用于分割的研究起步较晚,只有多层前馈NN,多层误差反传(BP)NN,自组织NN,Hopfield NN以及满足约束的NN(CSNN-Const raint Satisfaction Neurat Network)等得到了应用。使用一个多层前向神经网络用于图象分割,输入层神经元的数目取决于输入特征数,而输出层神经元的数目等同于分类的数目。
图像分割中的其他方法
前面介绍了4大类图像分割较常用的方法,有关图像分割方法和文献很多,新方法不断产生,这些方法有的只对特定的情形有效,有的综合了几种方法,放在一起统称为第5类。
(1)标号法(labeling)是一种基于统计学的方法,这种方法将图像欲分割成的几个区域各以一个不同的标号来表示,用一定的方式对图像中的每一个像素赋以标号,标号相同的像素就合并成该标号所代表的区域。
(2)基于Snak模型的分割方法,基于Snake模型的分割是通过对能量函数的动态优化来逼近图像目标的真实轮廓的
(3)纹理分割,由于新的数学工具的引入,纹理分割技术取得了一些进展,张蓬等人将小波分析应用于纹理基元提取。
(4)基于知识的图像分割方法,直接建立在先验知识的基础上,使分割更符合实际图像的特点。该方法的难度在于知识的正确合理的表示与利用。
3图像分割性能的评价
图像分割评价主要有两个方面的内容:一是研究各分割算法在不同情况下的表现,掌握如何选择和控制其参数设置,以适应不同需要。二是分析多个分割算法在分割同一图像时的性能,比较优劣,以便在实际应用中选取合适的算法。分割评价方法分为分析法和实验法两大类。分析法是直接分析分割算法本身的原理及性能,而实验法是通过对测试图像的分割结果来评价算法的。两种方法各有优劣,由于缺乏可靠理论依据,并非所有分割算法都能够通过分析法分析其性能。每种评价方法都是出于某种考虑而提出来的,不同的评价方法只能反映分割算法性能的某一性能。另一方面,每一种分割算法的性能是由多种因素决定的,因此,有可能需要多种准则来综合评价。
4图像分割技术的发展趋势
随着神经网络、遗传算法、统计学理论、小波理论以及分形理论等在图像分割中的广泛应用,图像分割技术呈现出以下的发展趋势:(1)多种特征的融合。(2)多种分割方法的结合。(3)新理论与新方法。
参考文献
[1] [美]RC冈萨雷斯.数字图像处理(第二版)[M].阮秋琦,等译.北京:电子工业出版社,2003
[2] 章毓晋.图像分割[M].北京:科学出版社,2001.
[3] 李弼程,彭天强,彭波等.智能图像处理技术[M].北京:电子工业出版社,2004.
[4] 杨晖,曲秀杰.图像分割方法综述[J].电脑开发与应用。2005,18(3):21-23.
点击下页还有更多>>>图像分割技术论文
论文地址: V-Net 是另一种版本的3D U-Net。它与U-Net的区别在于: 1、3D图像分割end2ent模型(基于3D卷积),用于MRI前列腺容积医学图像分割。2、新的目标函数,基于Dice coefficient。3、数据扩充方法:random non-linear transformations和histogram matching(直方图匹配)。4、加入残差学习提升收敛。 (1)网络结构 其网络结构主要特点是3D卷积,引入残差模块和U-Net的框架,网络结构如图: 整个网络分为压缩路径和非压缩路径,也就是缩小和扩大feature maps,每个stage将特征缩小一半,也就是128-128-64-32-16-8,通道上为1-16-32-64-128-256。每个stage加入残差学习以加速收敛。 图中的圆圈加交叉代表卷积核为5*5*5,stride为1的卷积,可知padding为2*2*2就可以保持特征大小不变。每个stage的末尾使用卷积核为2*2*2,stride为2的卷积,特征大小减小一半(把2x2 max-pooling替换成了2x2 conv.)。整个网络都是使用keiming等人提出的PReLU非线性单元。网络末尾加一个1*1*1的卷积,处理成与输入一样大小的数据,然后接一个softmax。 (2)损失函数 由于前景比较小,在学习过程中不容易被学习到,因此重新定义了Dice coefficient损失函数。两个二进制的矩阵的dice相似系数为: 使用这个函数能避免类别不平衡。
随着现代化科学技术的快速发展,计算机图形图像处理技术也越来越成熟,为人们的生活、工作和学习提供了极大的便利。然而我们该如何写有关计算机图形图像处理的论文呢?下面是我给大家推荐的计算机图形图像处理相关的论文,希望大家喜欢!
《计算机图形图像处理技术分析》
摘 要:随着现代化科学技术的快速发展,计算机图形图像处理技术也越来越成熟,Photoshop、CAE、CAD等计算机图形图像处理软件被广泛的应用在各个领域,为人们的生活、工作和学习提供了极大的便利。在未来的发展过程中,要不断改进和完善计算机图形图像处理技术,推动计算机图形图像处理技术更加广泛的应用和发展。本文简要介绍了计算机图形图像处理技术,阐述了计算机图形图像处理技术的应用。
关键词:计算机;图形图像;处理技术
中图分类号:
计算机图形图像技术以计算机网络系统为平台,实现了人们主观意识中图像和真实存在的图形之间的相互结合,各种各样的计算机图形图像处理软件,为人们的主观处理和操作提供了很多的便利,随着现代化科学技术的快速发展,计算机图形图像处理技术的应用前景会更加广阔。
1 计算机图形图像处理技术概述
基本含义
计算机图形图像处理技术是指通过几何模型和数据将描述性的形象或者概念在计算机系统软件中进行存储、定稿、优化、修改和显现。计算机图形图像处理技术可以用来设计图形的色彩、做纹理和明暗的贴图处理、对图像进行建模设计和造型、消除图像隐线和隐面、对图形曲线和曲面进行拟合操作、数字化的图像存储、图像分割、分析、编码、增强、复原等操作[1],以及对图像进行形式转换,如投影、缩放、旋转、平移等几何形式。
基本组成
计算机图形图像处理技术的基本组成主要包括计算机硬件设备和计算机图形图像处理软件。计算机硬件设备性能的好坏对于计算机图形图像处理效果有着直接的影响,计算机图形图像处理软件将终端的显示和计算机结合在一起,由于计算机图形图像处理技术自身具有设计、存储、修改等功能,可以迅速整合图片数据,不仅可以保障计算机图形图像的处理效果,也可以有效地提高计算机中央处理器和计算机图形图像处理软件的运行效果。键盘和鼠标作为终端的输入设备,可以完成对图形的修改和定位,并且利用显示器、绘图仪、打印机等显示设备和输出设备,可以完整的保存计算机图片。
基本功能
计算机图形图像处理技术主要具有五个基本功能:对话、输入、输出、存储和计算。对话功能是指利用通讯交互设备和计算机显示器实现人机交流。输入和输出功能是指计算机图形图像处理软件可以随时输入和输出相关的图形图像。存数功能是指实时监控计算机的图形图像数据进行有效的检索和维护。计算功能是指计算机图形图像处理软件对相关的图形图像进行必要的数据交换和计算分析。
计算机图形图像处理技术的运行环境
计算机图形图像处理技术的硬件配置主要包括工作站和微型机,软件配置就是建立在工作站和微型机上的运行软件。计算机图形图像处理技术的工作站软件主要有TDI和Alias两种,工作站的软件主要负责处理计算机工作站中的各种图形图像处理。微型机上的计算机图形图像处理软件主要包括3DStudio、Winimage:morph和Photoshop等,3DStudio是微型机上的一种最主要的图形图像处理软件,被广泛的应用在多个计算机系统中;Winimage:morph是一种常用的二维图形图像处理软件,可以将一个图形或者图像制作成另外一个图形或者图像;Photoshop是一个非常专业的图形图像处理软件,其支持图形图像资料的分色制版,给人们进行图形图像处理带来很多的便利。
2 计算机图形图像处理技术的应用
用户接口
人们利用计算机系统的用户接口来操作多种计算机软件,计算机图形图像处理技术和用户接口的有效结合,借助于计算机操作系统构建友好的人机交互用户图形界面,极大地提高了计算机图形图像处理的简便性和易用性。近年来,微软公司普及和推广的图像化windows系统,充分发挥了计算机图形图像处理技术和用户接口全面融合的重要作用。
动画与艺术
随着计算机科学技术的快速发展,计算机硬件设备和计算机图形学也在蓬勃发展,静态的图形图像已经很难再满足人们对高质量、优质的、动态的图形图像的巨大需求,因此近年来,计算机动画技术蓬勃发展,特别是一些美术设计人员,多是依靠计算机图形图像处理软件来进行艺术创作。计算机图形图像处理技术的快速发展,同时推动了艺术设计技术的应用和开发,例如,3DS Studio Max三维设计软件和Photoshop二维平面设计软件[2]。
可视化科学计算
近年来,我国社会主义市场经济快速发展,各个领域的信息通信越来越频繁,计算机网络技术的广泛应用和普及,使得计算机系统数据库中的信息量日益庞大,计算机数据处理和分析技术面临着严峻的考验。相关的技术操作人员利用计算机数据处理和分析软件,很难准确、快速地从计算机的数据库系统中检索出需要的信息数据,难以总结出数据信息的共性和特征。通过将计算机数据处理技术和计算机图形图像处理技术有效的结合起来,可以通过计算机图形图像技术将大量的复杂结构的信息数据进行归类,操作人员通过计算机数据处理软件可以对有共性特征和本质特征的数据信息进行快速检索,极大地提高了计算机数据处理和分析的效率。可视化的科学计算技术最早出现在美国的科学协会研讨中,目前,可视化的科学计算技术被广泛的应用在气象分析、流体力学、医学等领域中[3],特别是在医学领域,利用可视化的科学计算技术可以实现高精度的远程控制和操作,可以应用在远程的脑部手术中,突破医学难题。在未来的发展过程中,可视化的科学计算技术将会在更多的领域发挥更加重要的作用。
工业制造和设计
目前,计算机图形图像处理技术在工业制造和设计领域应用的最为广泛,特别是二维三维CAD和CAE等计算机图形图像处理软件,不仅在工业生产的产品制造和产品设计过程中,还有土木工程领域,甚至是集成电路、网络分析和电子线路等电子电工领域都有着广泛的应用。在高精度的工业制造和设计领域中,利用计算机图形图像处理软件,可以在很短的时间内完成高精度的图形图像设计和画图,极大地提高了技术人员的工作效率,同时,标准的计算机图形图像处理程序,提高了工业制造和设计的精确度,有效地降低了设计误差。由于工业产品多是批量化的制造和生产,利用计算机图形图像处理技术,可以极大地提高企业批量化的运行效率和生产质量,降低工业产品的质量检测投入成本,为工业企业带来了更大的经济效益。
3 结束语
计算机图形图像处理技术的广泛应用和快速发展,推动了多个领域的技术革新,充分发挥人们的想象和创造力,创造出很多独特新奇的图形图像效果,丰富人们的日常生活,同时也为企业节约了很多的图形图像处理成本,提高了产品竞争力。在未来的发展过程中,计算机图形图像处理技术的应用前景会更加广阔。
参考文献:
[1]韩晓颖.浅谈计算机图形图像处理技术[J].福建电脑,2011(10):83-84.
[2]和晓娟.计算机图形图像处理技术的探讨[J].信息与电脑(理论版),2013(11):164-165.
[3]王应荣,王静漪.计算机图形图像处理技术[J].天津理工学院学报,2012(03):6-10.
作者简介:刘倩(1981-),女,满族,硕士,讲师,研究方向:图形图像处理与多媒体技术。
作者单位:宁夏大学 数学计算机学院,银川 750001
可以学术研究的人都知道一个著名的短语Publish or perish。就是说,研究人员发表文章是硬道理,只有快速而持续在某些专业领域发表自己的研究成果才能在学术界占领高地,并且让自己走得更远。而无论大家如何评价学术论文发表对科学和社会的贡献,学术圈实质上的游戏规则一直没有太大改变:对研究人员来说发表论文是硬通货,是他们获得职位、争取资源、赢得荣誉的重要途经和手段。目前杂志数量爆发式增长,研究人员在发表论文的时候自然有了更多的选择,但同时也给学术的评估带来了不小的麻烦,于是乎评估人员只好依赖于期刊的质量指标来评定研究质量。比如汤普森的影响因子就是为了将这个复杂而微妙的判定简化为一个数字,当然这也是目前业内使用广泛的指标。理论上影响因子似乎是期刊所发表研究的质量,但这一假设目前却越来越受到质疑。学术圈的人都深切体会到一篇文章能否在某个期刊终发表出来,除了科学质量方面的因素外还有其他一些很重要的因素。比如我们一直在告诫学生,一篇稿件在写作风格上、突出重点上和表达上些微的差别就可能影响杂志的接收情况。那么,这究竟只是老道的论文作者的感觉,还是不同期刊上文章的表达真的存在着这样那样的差别呢?如果这些差别真的存在,那么是否就表明影响因子真的与科学质量以外的东西有关呢,而作者是否可以通过改善一些相对简单的写作技巧,以此来提高他们在高影响因子期刊上发表论文的机会呢?在竞争激烈的学术圈中,年轻的研究人员和学生们必须尽可能地发表更多的论文,也希望大限度地争取在好的刊物上发表文章的机会,那么我们应该怎么做呢?美国南伊利诺斯大学的Brady Neiles及其同事在近一期的Bulletin of the Ecological Society of America上撰文分析了不同影响因子期刊中发表的论文,他指出:在竞争激烈的环境下,作者如果要让他们的稿件脱颖而出,改善写作的风格可能是一个有效的手段。而有力的科学写作手段也可看作是某种程度的推销和讲故事,作者必须找到如何创造性地讲故事并清晰地表达这些发现的重要性。
这篇Multi-Branch Hierarchical Segmentation 文章来自上海交通大学仿脑计算与机器智能研究中心(简称BCMI),来自CVPR 2015,是一篇用 segmentation 来做 proposal 的论文,该文是在selective search原型的基础上进行了进一步区域聚合方法的探索。 Segment based object proposal的方法的主要思想是,将分割好的图像区域进行组合来得到目标区域。这存在一个问题:上一步区域组合出错会导致下一步错误,这种single-way merge segmentation region的方法是有缺陷的。所以此篇文章采用muti-branch分支的方法来扩大搜索范围,以达到改进精度的目的。 通过对分割区域空间搜索来得到目标区域的方式,单纯使用贪心策略是不可取的。此篇文章对分割区域的组合采用了一个原则:包含了多种颜色和纹理区域的复杂目标需要使用不同的组合策略来完成分割区域组合。这篇文章的主要思路就是将多种组合策略进行组合搜索,来改善selective search方法的精度。 此篇文章研究的内容主要由多种分割区域组合策略和分割区域搜索两部分组成。 (1)Learning complementary merging strategies 论文将区域组合的过程抽象为线性分类器,并通过改变每次训练样本的权值来训练分类器(类似Boosting过程)。但与Boosting不同的是,论文提出的区域组合分类器不是将多个弱分类器组合成强分类器,而是通过分类器之间的错误修改来形成新的分类器。 (2) Multi-staged branching 通过上面的区域组合分类器,可以对图像分割区域进行搜索,将一个贪心聚合的步骤分成了多个。 论文主要通过树形组织来增加分割区域的组合搜索空间,并用区域组合结果来训练SVM分类器。 文章采用树型分支的方式来组织不同的区域组合策略,同一个分支下的分割区域组合策略方法相同。 假设区域聚合树的高度为T,树的每个非叶子节点的度为K,则最底层可以得到KT个区域聚合结果,总共可以得到 个proposal窗口,其中λ表示每次区域聚合增加的零散区域数量,N为最开始图像拥有的分割区域数量。则可以使用λ和N来控制最后的proposal数量。 其中生成每个分支的过程实际上还是贪心聚合的方法,但对这个过程进行了分层操作。 上一点描述了如何进行分支操作,接下来是如何使用图像分割区域聚合树来生成proposal的过程,主要是如何设计分割区域分类器。 为使得图像分割区域聚合树不同分支上的proposal分类模型相同,文中使用了binary linear classifier(二元线性分类器)来对分割区域进行分类。 即将属于同一物体的不同区域作为正例,将属于不同的物体的不同的区域作为反例作为训练。进而得到相应的SVM分类器。 实验的原始图像数据来自PASCAL VOC2007,初始的图像分割图像算法和图像区域特征完全与selective search相同,这篇文章主要在区域聚合算法上面进行了改进。 进行对比的算法有selective search (SS), geodesic object proposals (GOP), global and local search (GLS), edge boxes (EB) 和 binarized normed gradients(BING)。 实验结果对比如下所示: 在对比中,文章提出的方法(Ours)与Selective Search (SS)差别并不太大。在低proposal数量情况下Edge Box和Selective Search的结果要好于文章提出的方法;在高proposal数量情况下,文章提出的方法结果稍微好一点。 上表是几种方法加R-CNN在PASCAL VOC2007识别结果对比,文章中并没有注明对比情况下的IoU参数。从表中看出,就检索精度上,文章提出的算法与Selective Search并没有太大的区别,文章提出的算法改进很有限。 这篇文章的主要思想是对Selective Search方法就分割区域聚合过程进行改进,文章使用了多层树形聚合方法,将之前的单贪心聚合分为多个贪心聚合流程,并使用SVM进行区域分类。文章使用的树形区域聚合方法确实增大了分割区域聚合的搜索空间,但从单个过程来看还是贪心聚合的方式,所以文章对Selective Search的改进程度很小,主要提供了一种新的分割区域聚合的思路。 从实验对比结果来看,文章提出的方法只在低proposal数量情况下稍微优于Selective Search,但文章提出的方法使用的空间复杂度远大于Selective Search,而且文章提出的方法增加了计算proposal的时间。 Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer vision (2013): 154-171.
论文地址: V-Net 是另一种版本的3D U-Net。它与U-Net的区别在于: 1、3D图像分割end2ent模型(基于3D卷积),用于MRI前列腺容积医学图像分割。2、新的目标函数,基于Dice coefficient。3、数据扩充方法:random non-linear transformations和histogram matching(直方图匹配)。4、加入残差学习提升收敛。 (1)网络结构 其网络结构主要特点是3D卷积,引入残差模块和U-Net的框架,网络结构如图: 整个网络分为压缩路径和非压缩路径,也就是缩小和扩大feature maps,每个stage将特征缩小一半,也就是128-128-64-32-16-8,通道上为1-16-32-64-128-256。每个stage加入残差学习以加速收敛。 图中的圆圈加交叉代表卷积核为5*5*5,stride为1的卷积,可知padding为2*2*2就可以保持特征大小不变。每个stage的末尾使用卷积核为2*2*2,stride为2的卷积,特征大小减小一半(把2x2 max-pooling替换成了2x2 conv.)。整个网络都是使用keiming等人提出的PReLU非线性单元。网络末尾加一个1*1*1的卷积,处理成与输入一样大小的数据,然后接一个softmax。 (2)损失函数 由于前景比较小,在学习过程中不容易被学习到,因此重新定义了Dice coefficient损失函数。两个二进制的矩阵的dice相似系数为: 使用这个函数能避免类别不平衡。
图像分类作为计算机视觉领域的基础任务,经过大量的研究与试验,已经取得了傲人的成绩。然而,现有的分类任务大多是以单标签分类展开研究的。当图片中有多个标签时,又该如何进行分类呢?本篇综述将带领大家了解多标签图像分类这一方向,了解更具难度的图像分类。 作者 | 郭冰洋 编辑 | 言有三 随着科学技术的进步与发展,图像作为信息传播的重要媒介,在通信、无人驾驶、医学影像分析、航天、遥感等多个领域得到了广泛的研究,并在国民社会、经济生活中承担着更加重要的角色。人们对图像研究的愈发重视,也促使计算机视觉领域迎来了蓬勃发展的黄金时代。 作为计算机视觉领域的基础性任务,图像分类是目标检测、语义分割的重要支撑,其目标是将不同的图像划分到不同的类别,并实现最小的分类误差。经过近30年的研究,图像分类已经成功应用至社会生活的方方面面。如今,在我们的生活中随处可见——智能手机的相册自动分类、产品缺陷识别、无人驾驶等等。 根据分类任务的目标不同,可以将图像分类任务划分成两部分:(1)单标签图像分类;(2)多标签图像分类。 单标签图像分类是指每张图片对应一个类别标签,根据物体类别的数量,又可以将单标签图像分类划分成二分类、多类别分类。如下图所示,可以将该图的标签记为海洋,通过单标签图像分类我们可以判定该图像中是否含有海洋。 然而,现实生活中的图片中往往包含多个类别的物体,这也更加符合人的认知习惯。我们再来观察下图,可以发现图中不仅包含海洋,还包括了海豚。多标签图像分类可以告知我们图像中是否同时包含这些内容,这也能够更好地解决实际生活中的问题。 机器学习算法主要包括两个解决思路: (1) 问题迁移,即将多标签分类问题转化为单标签分类问题,如将标签转化为向量、训练多个分类器等; (2) 根据多标签特点,提出新的适应性算法,包括ML-KNN、Ranking SVM、Multi-label Decision Tree等。现对其中具有代表性的算法进行总结。 问题迁移 问题迁移方法的主要思想是先将多标签数据集用某种方式转换成单标签数据集,然后运用单标签分类方法进行分类。该方法有可以包括基于标签转换和基于样本实例转换。 基于标签转换 针对每个标签,将属于这个标签的所有实例分为一类,不属于的分为另一类,将所有数据转换为多个单标签分类问题(如下图)。典型算法主要有Binary Relevance和Classifier Chain两种。 基于样本实例转换 这种方法是将多标签实例分解成多个单标签实例。如下图所示。实例E3对应标签y3和y4,则通过分解多标签方法法将E3分解成单独选中标签y3和y4的实例,然后对每一个标签作单独预测。 适应性方法 如上文所述,新的适应性算法是根据多标签分类的特殊性,改进现有的单标签分类算法,主要包括以下三种: ML-KNN ML-KNN由传统的KNN算法发展而来。首先通过KNN算法得到样本最接近的K个邻近样本,然后根据K个邻近样本的标签,统计属于某一标签的邻近样本个数,最后利用最大后验概率原则(MAP)决定测试样本含有的标签集合。 Rank SVM Rank SVM是在SVM的基础上,加入Ranking Loss损失函数和相应的边际函数作为约束条件,并扩展目标函数而提出的一种多标签学习算法。该算法的简要思路是:首先定义函数s(x)是样本x的标签集的规模大小,然后定义rk(x)=wkTx+bk,如果求得的rk(x)值在最大的s(x)个元素(r1(x),...rQ(x))之间,则认为该样本x选中该标签k,否则就没被选中。在求解过程中定义新的排序函数rk(x)-rl(x)≥1,其中k表示被样本x选中的标签,l表示没有被选中的标签,并基于这个新的排序函来大间隔分类器,同时最小化Ranking Loss,从而推导出适合多标签分类的目标函数和限制条件。 Multi-label Decision Tree 该算法采用决策树技术处理多标签数据,利用基于多标签熵的信息增益准则递归地构建决策树。树形结构包括非叶结点、分支、叶节点。决策树模型用于分类时,特征属性用非叶节点表示,特征属性在某个值域上的输出用非叶节点之间的分支表示,而类别则用叶节点存放。 计算思想如下:首先计算每个特征的信息增益,挑选增益最大的特征来划分样本为左右子集,递归下去,直到满足停止条件,完成决策树的构建。对新的测试样本,沿根节点遍历一条路径到叶子节点,计算叶子节点样本子集中每个标签为0和1的概率,概率超过则表示含有该标签。当遍历所有路径到底不同的叶节点之后,则可判断涵盖的所有标签信息。 除了上述三类主要算法外,还包括诸多以单标签分类进行改进的算法,在此不再赘述。 深度学习的发展带动了图像分类精度的大幅提升,神经网络强大的非线性表征能力可以在大规模数据中学习到更加有效的特征。近年来,多标签图像分类也开始使用深度学习的思想展开研究。 魏云超等在程明明教授提出的BING理论基础上,提出了Hypotheses-CNN-Pooling。首先对每张图片提取含有标签信息的候选区域(如上图中的Hypotheses Extraction过程),然后将每个候选区域送入CNN进行分类训练,最后利用cross-hypothesis max-pooling融合所有候选区域的分类结果,从而得到多个标签信息完整的图片。 CNN具有强大的语义信息提取能力,而RNN则可以建立信息之间的关联。根据这一理论观点,Jiang Wang等提出了CNN-RNN联合的网络结构。首先利用CNN对输入图像进行训练,得到相应的特征,然后将图片对应的特征投影到与标签一致的空间中,在该空间利用RNN进行单词的搜索训练。该算法充分考虑了类别之间的相关性,可以有效对图像中具有一定关系的标签进行识别。 在CNN-RNN结构的基础上,后续文章又加入Regional LSTM模块。该模块可以对CNN的特征进行导向处理,从而获取特征的位置信息,并计算位置信息和标签之间的相关性。在上文的结果上进一步考虑了特征、位置和标签之间潜在的依赖关系,可以有效计算图片中多个标签同时存在的可能性,并进行图片的分类。 最近,诸多基于image-level进行弱监督分割研究的文章,充分利用了多标签分类网络的信息。其主要思想是将标签统一处理为向量形式,为每幅图片构建一个维度为1xN的矩阵标签(如[0,0,0,1,1,0]形式),并采用专门的损失函数(Hanming loss、Ranking loss等)进行训练。这一方法成功地将多标签的复杂问题,转化为单标签问题,从而可以利用传统的分类网络进行训练。 多标签图像分类的相关算法仍然层出不穷,但不论是基于机器学习还是基于深度学习的算法,都有其优势和不足,如何根据实际应用需求选用合适的算法,才是我们应当关注的重点内容。 单标签分类中通常采用准确率(Precision),召回率(Recall)、F值(F-measure)和AUC曲线对分类结果进行评价。然而,在多标签分类中一个图片与多个标签同时关联,其复杂程度远远高于单标签分类。因此,在继承单标签分类评价指标的基础上,许多关于多标签分类的评价指标也被提出。在这里只介绍多标签分类常用的指标,有关单标签分类的指标不再赘述。 平均准确率(AP)和平均准确率均值(mAP) 同单标签分类一样,当一张图片中的所有标记均预测正确时,准确率才可以置1,否则置零。每个类别下的标签分别进行计算后,取其平均值即可获得平均准确率,对所有平均准确率取均值即可获得平均准确率均值。平均准确率可以衡量模型在每个类别的好坏程度,而平均准确率均值则衡量的是在所有类别的好坏程度。 汉明距离 将预测的标签集合与实际的标签集合进行对比,按照汉明距离的相似度来衡量。汉明距离的相似度越高,即汉明损失函数越小,则模型的准确率越高。 1-错误率 1-错误率用来计算预测结果中排序第一的标签不属于实际标签集中的概率。其思想相当于单标签分类问题中的错误率评价指标。1-错误率越小,说明预测结果越接近实际标签,模型的预测结果也就越好。 覆盖率 覆盖率用来度量“排序好的标签列表”平均需要移动多少步数,才能覆盖真实的相关标签集合。对预测集合Y中的所有标签{y1,y2,… yi … yn}进行排序,并返回标签yi在排序表中的排名,排名越高,则相关性越差,反之,相关性越高。 排序损失 排序损失计算的是不相关标签比相关标签的相关性还要大的概率。 高质量的数据集是图像分类的基础,更是关键所在。随着人们对数据质量的重视程度越来越高,如今已有诸多完备的多标签图像分类数据集。 Pascal VOC Pascal VOC数据集的主要任务是在真实场景中识别来自多个类别的目标。该数据集共有近两万张图片,共有20个类别组成。Pascal VOC官方对每张图片都进行了详细的信息标注,包括类别信息、边界框信息和语义信息,均保存在相应的xml格式文件中。通过读取xml文件中的项,我们可以获取到单张图片中包含的多个物体类别信息,从而构建多标签信息集合并进行分类训练。 COCO COCO(Common Objects in Context)数据集由微软公司赞助搭建。该数据集包含了91个类别,三十余万张图片以及近二百五十万个标签。与Pascal VOC相类似,COCO数据的标注信息均保存在图片对应的json格式文件中。通过读取json文件中的annotation字段,可以获取其中的category_id项,从而获取图片中的类别信息。同一json文件中包含多个category_id项,可以帮助我们构建多标签信息。COCO数据集的类别虽然远远大于Pascal VOC,而且每一类包含的图像更多,这也更有利于特定场景下的特征学习。 除了上述两个个主流数据集之外,比较常用的还包括ImageNet数据集、NUS-WIDE数据集。近年来,诸多公司、科研机构也提出了诸多全新的数据集,如ML-Images等。这些标注完善的数据,为多标签图像分类的研究提供了有力的支持,同样也为图像处理领域的发展做出了巨大贡献。 (1)多标签图像分类的可能性随着图片中标签类别的增加呈指数级增长,在现有的硬件基础上会加剧训练的负担和时间成本,如何有效的降低信息维度是面临的最大挑战。 (2) 多标签分类往往没有考虑类别之间的相关性,如房子大概率不会出现老虎、海洋上不太可能出现汽车。对于人类来说,这些均是常识性的问题,但对于计算机却是非常复杂的过程,如何找到类别之间的相关性也能够更好的降低多标签图像分类的难度。 古语有云:“纸上得来终觉浅,绝知此事要躬行”,理论知识的学习必须通过实践才能进一步强化,完成了综述内容的书写,后续将基于Pytorch框架以Pascal VOC2012增强数据集进行多标签图像分类实战,敬请期待哦! 如果想加入我们,后台留言吧 技术交流请移步知识星球 更多请关注知乎专栏《有三AI学院》和公众号《有三AI》
图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。我整理了图像分割技术论文,欢迎阅读!
图像分割技术研究
摘要:图像分割是图像处理与计算机视觉的基本问题之一,是图像处理图像分析的关键步骤。本文介绍了基于阈值的分割方法和图像分割的图像分割性能的评价、应用现状;最后总结出图像分割的发展趋势。
关键词:图像分割、阈值、边缘检测、区域分割
中图分类号: 文献标识码: A
1引言
随着图像分割技术研究的深入,其应用日趋广泛。凡属需要对图像目标进行提取、测量的工作都离不开图像分割。图像分割是图像处理、模式识别和人工智能等多个领域中一个十分重要且又十分困难的问题,是计算机视觉技术中首要的、重要的关键步骤。图像分割结果的好坏直接影响对计算机视觉中的图像理解。现有的方法多是为特定应用设计的,有很大的针对性和局限性,到目前为止还不存在一个通用的方法,也不存在一个判断分割是否成功的客观标准。因此,对图像分割的研究目前还缺乏一个统一的理论体系,使得图像分割的研究仍然是一个极富有挑战性的课题。
2图像分割方法
图像分割(Image Segmentation),简单地说就是将一幅数字图像分割成不同的区域,在同一区域内具有在一定的准则下可认为是相同的性质,如灰度、颜色、纹理等。而任何相邻区域之间其性质具有明显的区别。
基于灰度特征的阈值分割方法
阈值分割技术是经典的、流行的图象分割方法之一,它是用一个或几个阈值将图像的灰度级分为几个部分,认为属于同一个部分的像素是同一个物体。
这类方法主要包括以下几种:
(1)单阈值法,用一个全局阈值区分背景和目标。当一幅图像的直方图具有明显的双峰时,选择两峰之间的谷底作为阈值。
(2)双阈值法,用两个阈值区分背景和目标。通过设置两个阈值,以防单阈值设置阈值过高或过低,把目标像素误归为背景像素,或把背景像素误归为目标像素。
(3)多阈值法,当存在照明不均,突发噪声等因素或背景灰度变化较大时,整幅图像不存在合适的单一阈值,单一阈值不能兼顾图像不同区域的具体情况,这时可将图像分块处理,对每一块设一个阈值。
边缘检测分割法
基于边缘检测技术可以按照处理的顺序分为并行边缘检测和串行边缘检测两大类。常见的边缘检测方法有:差分法、模板匹配法及统计方法等。由于边缘灰度变化规律一般体现为阶梯状或者脉冲状。边缘与差分值的关系可以归纳为两种情况,其一是边缘发生在差分最大值或者最小值处;其二是边缘发生在过零处。
基于区域的分割方法
基于区域的分割方法利用的是图像的空间性质。该方法认为分割出来的某一区域具有相似的性质。常用的方法有区域生长法和区域分裂合并法。该类方法对含有复杂场景或自然景物等先验知识不足的图像进行分割,效果较好。
区域生长方法是把一幅图像分成许多小区域开始的,这些初始的小区域可能是小的邻域甚至是单个像素,在每个区域中,通过计算能反映一个物体内像素一致性的特征,作为区域合并的判断标准。区域合并的第一步是赋给每个区域一组参数,即特征。接下来对相邻区域的所有边界进行考查,如果给定边界两侧的特征值差异明显,那么这个边界很强,反之则弱。强边界允许继续存在,而弱边界被消除,相邻区域被合并。没有可以消除的弱边界时,区域合并过程结束,图像分割也就完成。
结合特定工具的图像分割技术
20世纪80年代末以来,随着一些特殊理论的出现及其成熟,如数学形态学、分形理论、模糊数学、小波分析、模式识别、遗传算法等,大量学者致力于将新的概念、新的方法用于图像分割,有效地改善了分割效果。产生了不少新的分割算法。下面对这些算法做一些简单的概括。
基于数学形态学的分割算法
分水岭算法是一种经典的借鉴了数学形态理论的分割方法。该方法中,将一幅图像比为一个具有不同高度值的地形,高灰度值处被认为是山脊,底灰度值处被认为是山谷,将一滴水从任一点流下,它会朝地势底的地方流动,最终聚于某一局部最底点,最后所有的水滴会分聚在不同的吸引盆地,由此,相应的图像就被分割成若干部分。分水岭算法具有运算简单、性能优良,能够较好提取运动对象轮廓、准确得到运动物体边缘的优点。但分割时需要梯度信息,对噪声较敏感。
基于模糊数学的分割算法
目前,模糊技术在图像分割中应用的一个显著特点就是它能和现有的许多图像分割方法相结合,形成一系列的集成模糊分割技术,例如模糊聚类、模糊阈值、模糊边缘检测技术等。
这类方法主要有广义模糊算子与模糊阈值法两种分割算法。
(1)广义模糊算子在广义模糊集合的范围内对图像处理,使真正的边缘处于较低灰度级,但还有一些不是边缘的像素点的灰度也在较低灰度级中,虽然算法的计算简明,且边缘细腻,但得到的边缘图会出现断线问题。
(2)模糊阈值法引入灰度图像的模糊数学描述,通过计算图像的模糊熵来选取图像的分割阈值,后用阈值法处理图像得到边界。
基于遗传算法的分割方法
此算法是受生物进化论思想提出的一种优化问题的解决方法,它使用参数编码集而不是参数本身,通过模拟进化,以适者生存的策略搜索函数的解空间,它是在点群中而不是在单点进行寻优。遗传算法在求解过程中使用随机转换规则而不是确定性规则来工作,它唯一需要的信息是适应值,通过对群体进行简单的复制、杂交、变异作用完成搜索过程。由于此法能进行能量函数全局最小优化搜索,且可以降低搜索空间维数,降低算法对模板初始位置的敏感,计算时间也大为减少。其缺点是容易收敛于局部最优。
基于神经网络分割算法
人工神经网络具有自组织、自学习、自适应的性能和非常强的非线性映射能力,适合解决背景知识不清楚、推理规则不明确和比较复杂的分类问题,因而也适合解决比较复杂的图像分割问题。原则上讲,大部分分割方法都可用 ANN(attificial neural network)实现。ANN 用于分割的研究起步较晚,只有多层前馈NN,多层误差反传(BP)NN,自组织NN,Hopfield NN以及满足约束的NN(CSNN-Const raint Satisfaction Neurat Network)等得到了应用。使用一个多层前向神经网络用于图象分割,输入层神经元的数目取决于输入特征数,而输出层神经元的数目等同于分类的数目。
图像分割中的其他方法
前面介绍了4大类图像分割较常用的方法,有关图像分割方法和文献很多,新方法不断产生,这些方法有的只对特定的情形有效,有的综合了几种方法,放在一起统称为第5类。
(1)标号法(labeling)是一种基于统计学的方法,这种方法将图像欲分割成的几个区域各以一个不同的标号来表示,用一定的方式对图像中的每一个像素赋以标号,标号相同的像素就合并成该标号所代表的区域。
(2)基于Snak模型的分割方法,基于Snake模型的分割是通过对能量函数的动态优化来逼近图像目标的真实轮廓的
(3)纹理分割,由于新的数学工具的引入,纹理分割技术取得了一些进展,张蓬等人将小波分析应用于纹理基元提取。
(4)基于知识的图像分割方法,直接建立在先验知识的基础上,使分割更符合实际图像的特点。该方法的难度在于知识的正确合理的表示与利用。
3图像分割性能的评价
图像分割评价主要有两个方面的内容:一是研究各分割算法在不同情况下的表现,掌握如何选择和控制其参数设置,以适应不同需要。二是分析多个分割算法在分割同一图像时的性能,比较优劣,以便在实际应用中选取合适的算法。分割评价方法分为分析法和实验法两大类。分析法是直接分析分割算法本身的原理及性能,而实验法是通过对测试图像的分割结果来评价算法的。两种方法各有优劣,由于缺乏可靠理论依据,并非所有分割算法都能够通过分析法分析其性能。每种评价方法都是出于某种考虑而提出来的,不同的评价方法只能反映分割算法性能的某一性能。另一方面,每一种分割算法的性能是由多种因素决定的,因此,有可能需要多种准则来综合评价。
4图像分割技术的发展趋势
随着神经网络、遗传算法、统计学理论、小波理论以及分形理论等在图像分割中的广泛应用,图像分割技术呈现出以下的发展趋势:(1)多种特征的融合。(2)多种分割方法的结合。(3)新理论与新方法。
参考文献
[1] [美]RC冈萨雷斯.数字图像处理(第二版)[M].阮秋琦,等译.北京:电子工业出版社,2003
[2] 章毓晋.图像分割[M].北京:科学出版社,2001.
[3] 李弼程,彭天强,彭波等.智能图像处理技术[M].北京:电子工业出版社,2004.
[4] 杨晖,曲秀杰.图像分割方法综述[J].电脑开发与应用。2005,18(3):21-23.
点击下页还有更多>>>图像分割技术论文
图像去噪的主要目的是去除影响图像主要信息的噪声部分,同时又希望不破坏图像本身真实信息的边缘和细节部分,小波变换是将图像经过小波变换后,图像的真实信息和噪声信息所产生的小波系数表现出不同的特点,利用不同方法多这些系数处理区分,最后用处理过的小波系数重构就能得到去噪后的图像信息。小波变换的图像去噪相比其他方法的去噪在保护图像边缘和细节方面由于其他方法。同时小波变换和其他方法结合也相对较容易。