您当前的位置:首页 > 发表论文>论文发表

物体识别技术论文

2023-12-09 20:46 来源:学术参考网 作者:未知

物体识别技术论文

随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。我整理了图像识别技术论文,欢迎阅读!

图像识别技术研究综述

摘要:随着图像处理技术的迅速发展,图像识别技术的应用领域越来越广泛。图像识别是利用计算机对图像进行处理、分析和理解,由于图像在成像时受到外部环境的影响,使得图像具有特殊性,复杂性。基于图像处理技术进一步探讨图像识别技术及其应用前景。

关键词:图像处理;图像识别;成像

中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2013)10-2446-02

图像是客观景物在人脑中形成的影像,是人类最重要的信息源,它是通过各种观测系统从客观世界中获得,具有直观性和易理解性。随着计算机技术、多媒体技术、人工智能技术的迅速发展,图像处理技术的应用也越来越广泛,并在科学研究、教育管理、医疗卫生、军事等领域已取得的一定的成绩。图像处理正显著地改变着人们的生活方式和生产手段,比如人们可以借助于图像处理技术欣赏月球的景色、交通管理中的车牌照识别系统、机器人领域中的计算机视觉等,在这些应用中,都离不开图像处理和识别技术。图像处理是指用计算机对图像进行处理,着重强调图像与图像之间进行的交换,主要目标是对图像进行加工以改善图像的视觉效果并为后期的图像识别大基础[1]。图像识别是利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对像的技术。但是由于获取的图像本事具有复杂性和特殊性,使得图像处理和识别技术成为研究热点。

1 图像处理技术

图像处理(image processing)利用计算机对图像进行分析,以达到所需的结果。图像处理可分为模拟图像处理和数字图像图像处理,而图像处理一般指数字图像处理。这种处理大多数是依赖于软件实现的。其目的是去除干扰、噪声,将原始图像编程适于计算机进行特征提取的形式,主要包括图像采样、图像增强、图像复原、图像编码与压缩和图像分割。

1)图像采集,图像采集是数字图像数据提取的主要方式。数字图像主要借助于数字摄像机、扫描仪、数码相机等设备经过采样数字化得到的图像,也包括一些动态图像,并可以将其转为数字图像,和文字、图形、声音一起存储在计算机内,显示在计算机的屏幕上。图像的提取是将一个图像变换为适合计算机处理的形式的第一步。

2)图像增强,图像在成像、采集、传输、复制等过程中图像的质量或多或少会造成一定的退化,数字化后的图像视觉效果不是十分满意。为了突出图像中感兴趣的部分,使图像的主体结构更加明确,必须对图像进行改善,即图像增强。通过图像增强,以减少图像中的图像的噪声,改变原来图像的亮度、色彩分布、对比度等参数。图像增强提高了图像的清晰度、图像的质量,使图像中的物体的轮廓更加清晰,细节更加明显。图像增强不考虑图像降质的原因,增强后的图像更加赏欣悦目,为后期的图像分析和图像理解奠定基础。

3)图像复原,图像复原也称图像恢复,由于在获取图像时环境噪声的影响、运动造成的图像模糊、光线的强弱等原因使得图像模糊,为了提取比较清晰的图像需要对图像进行恢复,图像恢复主要采用滤波方法,从降质的图像恢复原始图。图像复原的另一种特殊技术是图像重建,该技术是从物体横剖面的一组投影数据建立图像。

4)图像编码与压缩,数字图像的显著特点是数据量庞大,需要占用相当大的存储空间。但基于计算机的网络带宽和的大容量存储器无法进行数据图像的处理、存储、传输。为了能快速方便地在网络环境下传输图像或视频,那么必须对图像进行编码和压缩。目前,图像压缩编码已形成国际标准,如比较著名的静态图像压缩标准JPEG,该标准主要针对图像的分辨率、彩色图像和灰度图像,适用于网络传输的数码相片、彩色照片等方面。由于视频可以被看作是一幅幅不同的但有紧密相关的静态图像的时间序列,因此动态视频的单帧图像压缩可以应用静态图像的压缩标准。图像编码压缩技术可以减少图像的冗余数据量和存储器容量、提高图像传输速度、缩短处理时间。

5)图像分割技术,图像分割是把图像分成一些互不重叠而又具有各自特征的子区域,每一区域是像素的一个连续集,这里的特性可以是图像的颜色、形状、灰度和纹理等。图像分割根据目标与背景的先验知识将图像表示为物理上有意义的连通区域的集合。即对图像中的目标、背景进行标记、定位,然后把目标从背景中分离出来。目前,图像分割的方法主要有基于区域特征的分割方法、基于相关匹配的分割方法和基于边界特征的分割方法[2]。由于采集图像时会受到各种条件的影响会是图像变的模糊、噪声干扰,使得图像分割是会遇到困难。在实际的图像中需根据景物条件的不同选择适合的图像分割方法。图像分割为进一步的图像识别、分析和理解奠定了基础。

2 图像识别技术

图像识别是通过存储的信息(记忆中存储的信息)与当前的信息(当时进入感官的信息)进行比较实现对图像的识别[3]。前提是图像描述,描述是用数字或者符号表示图像或景物中各个目标的相关特征,甚至目标之间的关系,最终得到的是目标特征以及它们之间的关系的抽象表达。图像识别技术对图像中个性特征进行提取时,可以采用模板匹配模型。在某些具体的应用中,图像识别除了要给出被识别对象是什么物体外,还需要给出物体所处的位置和姿态以引导计算初工作。目前,图像识别技术已广泛应用于多个领域,如生物医学、卫星遥感、机器人视觉、货物检测、目标跟踪、自主车导航、公安、银行、交通、军事、电子商务和多媒体网络通信等。主要识别技术有:

2.1 指纹识别

指纹识别是生物识别技术中一种最实用、最可靠和价格便宜的识别手段,主要应用于身份验证。指纹识别是生物特征的一个部分,它具有不变性:一个人的指纹是终身不变的;唯一性:几乎没有两个完全相同的指纹[3]。一个指纹识别系统主要由指纹取像、预处理与特征提取、比对、数据库管理组成。目前,指纹识别技术与我们的现实生活紧密相关,如信用卡、医疗卡、考勤卡、储蓄卡、驾驶证、准考证等。

2.2 人脸识别   目前大多数人脸识别系统使用可见光或红外图像进行人脸识别,可见光图像识别性能很容易受到光照变化的影响。在户外光照条件不均匀的情况下,其正确识别率会大大降低。而红外图像进行人脸识别时可以克服昏暗光照条件变化影响,但由于红外线不能穿透玻璃,如果待识别的对象戴有眼镜,那么在图像识别时,眼部信息全部丢失,将严重影响人脸识别的性能[4]。

2.3 文字识别

文字识别是将模式识别、文字处理、人工智能集与一体的新技术,可以自动地把文字和其他信息分离出来,通过智能识别后输入计算机,用于代替人工的输入。文字识别技术可以将纸质的文档转换为电子文档,如银行票据、文稿、各类公式和符号等自动录入,可以提供文字的处理效率,有助于查询、修改、保存和传播。文字识别方法主要有结构统计模式识别、结构模式识别和人工神经网络[5]。由于文字的数量庞大、结构复杂、字体字形变化多样,使得文字识别技术的研究遇到一定的阻碍。

3 结束语

人类在识别现实世界中的各种事物或复杂的环境是一件轻而易举的事,但对于计算机来讲进行复杂的图像识别是非常困难的[6]。在环境较为简单的情况下,图像识别技术取得了一定的成功,但在复杂的环境下,仍面临着许多问题:如在图像识别过程中的图像分割算法之间的性能优越性比较没有特定的标准,以及算法本身存在一定的局限性,这使得图像识别的最终结果不十分精确等。

参考文献:

[1] 胡爱明,周孝宽.车牌图像的快速匹配识别方法[J].计算机工程与应用,2003,39(7):90—91.

[2] 胡学龙.数字图像处理[M].北京:电子工业出版社,2011.

[3] 范立南,韩晓微,张广渊.图像处理与模式识别[M].北京:科学出版社,2007.

[4] 晓慧,刘志镜.基于脸部和步态特征融合的身份识别[J].计算机应用,2009,1(29):8.

[5] 陈良育,曾振柄,张问银.基于图形理解的汉子构型自动分析系统[J].计算机应用,2005,25(7):1629-1631.

[6] Sanderson C,Paliwal K K.Information Fusion and Person Verification Using Speech & Face Information[C].IDIAP-RR 02-33,Martigny,Swizerland,2002.

点击下页还有更多>>>图像识别技术论文

[论文阅读-1]ImageNet Classification with Deep Convolutional Neural Networks

Abstract

我们训练了一个大型的深度卷积神经网络,将ImageNet lsvprc -2010竞赛中的120万幅高分辨率图像分类为1000个不同的类。在测试数据上,我们实现了top-1和top-5的错误率,分别为37.5%和17.0%,这与前的最高水平相比有了很大的提高。该神经网络有6000万个参数和65万个神经元,由5个卷积层(其中一些后面接了最大池化层)和3个全连接层(最后的1000路softmax)组成。为了使训练更快,我们使用了非饱和神经元和一个非常高效的GPU实现卷积运算。为了减少全连通层的过拟合,我们采用了一种最近发展起来的正则化方法——dropout,结果显示它非常有效。我们还在ILSVRC-2012比赛中输入了该模型的一个变体,并获得了15.3%的top-5测试错误率,而第二名获得了26.2%的错误率.

1 Introduction

当前的物体识别方法主要利用机器学习方法。为了提高它们的性能,我们可以收集更大的数据集,学习更强大的模型,并使用更好的技术来防止过度拟合。直到最近,标记图像的数据集在成千上万的图像(例如,NORB [16], Caltech-101/256 [8,9], CIFAR-10/100[12])中相对较小。使用这种大小的数据集可以很好地解决简单的识别任务,特别是如果使用保存标签的转换来扩展它们。例如,MNIST数字识别任务的当前最佳错误率(<0.3%)接近人类性能[4]。但是现实环境中的物体表现出相当大的可变性,所以为了学会识别它们,有必要使用更大的训练集。的确,小图像数据集的缺点已经被广泛认识(例如,Pinto等人的[21]),但直到最近才有可能收集数百万张图像的标记数据集。新的更大的数据集包括LabelMe[23],它由成千上万的全分段图像组成,和ImageNet[6],它由超过22000个类别的超过1500万标记的高分辨率图像组成。

要从数百万张图像中了解数千个物体,我们需要一个具有巨大学习能力的模型。 然而,对象识别任务的巨大复杂性意味着即使像ImageNet这样大的数据集也无法指定这个问题,因此我们的模型也应该具有大量的先验知识来补偿我们没有的所有数据。卷积神经网络(Convolutional neural networks, CNNs)就是这样一类模型[16,11,13,18,15,22,26]。它们的能力可以通过改变深度和宽度来控制,而且它们还对图像的性质(即统计的平稳性和像素依赖的局部性)做出了强有力且最正确的假设。 因此,与具有相似大小层的标准前馈神经网络相比,CNNs具有更少的连接和参数,因此更容易训练,而其理论上最好的性能可能只会稍微差一些。

尽管CNNs的质量很吸引人,尽管它们的本地架构相对高效,但在高分辨率图像上大规模应用仍然非常昂贵。幸运的是,当前的gpu与高度优化的2D卷积实现相结合,已经足够强大,可以方便地训练有趣的大型CNNs,而最近的数据集(如ImageNet)包含了足够多的标记示例,可以在不严重过拟合的情况下训练此类模型。

本文的具体贡献如下:

最后,网络的大小主要受到当前gpu上可用内存的大小和我们愿意忍受的训练时间的大小的限制。我们的网络需要5到6天的时间来训练两个GTX 580 3GB GPU。我们所有的实验都表明,只要等待更快的gpu和更大的数据集可用,我们的结果就可以得到改善。

2 The Dataset

ImageNet是一个包含超过1500万张高分辨率图像的数据集,属于大约22000个类别。这些图片是从网上收集来的,并由人工贴标签者使用亚马逊的土耳其机械众包工具进行标记。从2010年开始,作为Pascal视觉对象挑战赛的一部分,每年都会举办一场名为ImageNet大型视觉识别挑战赛(ILSVRC)的比赛。ILSVRC使用ImageNet的一个子集,每个类别大约有1000张图片。总共大约有120万张训练图像、5万张验证图像和15万张测试图像。

ILSVRC-2010 是唯一可用测试集标签的 ILSVRC 版本,因此这是我们进行大多数实验的版本。由于我们也在 ILSVRC-2012 竞赛中加入了我们的模型,在第6节中,我们也报告了我们在这个版本的数据集上的结果,对于这个版本的数据集,测试集标签是不可用的。在 ImageNet 上,通常报告两个错误率:top-1 和 top-5,其中 top-5 错误率是测试图像的一部分,其中正确的标签不在模型认为最可能的五个标签中。

ImageNet由可变分辨率的图像组成,而我们的系统需要一个恒定的输入维数。 因此,我们将图像降采样到256 * 256的固定分辨率。给定一个矩形图像,我们首先重新调整图像的大小,使其短边长度为256,然后从结果图像中裁剪出中心的256%256块。除了从每个像素中减去训练集上的平均活动外,我们没有以任何其他方式对图像进行预处理。因此,我们将网络训练成像素的原始RGB值(居中)。

3 The Architecture

3.1 ReLU Nonlinearity

3.2 Training on Multiple GPUs

3.3 Local Response Normalization

3.4 Overlapping Pooling

Pooling layers in CNNs summarize the outputs of neighboring groups of neurons in the same kernel map. Traditionally, the neighborhoods summarized by adjacent pooling units do not overlap (e.g.,[17, 11, 4]). To be more precise, a pooling layer can be thought of as consisting of a grid of pooling units spaced s pixels apart, each summarizing a neighborhood of size z z centered at the location of the pooling unit. If we set s = z, we obtain traditional local pooling as commonly employed in CNNs. If we set s < z, we obtain overlapping pooling. This is what we use throughout our network, with s = 2 and z = 3. This scheme reduces the top-1 and top-5 error rates by 0.4% and 0.3%, respectively, as compared with the non-overlapping scheme s = 2; z = 2, which produces output of equivalent dimensions. We generally observe during training that models with overlapping pooling find it slightly more difficult to overfit.

3.5 Overall Architecture

Now we are ready to describe the overall architecture of our CNN. As depicted in Figure 2, the net contains eight layers with weights; the first five are convolutional and the remaining three are fully-connected. The output of the last fully-connected layer is fed to a 1000-way softmax which produces a distribution over the 1000 class labels. Our network maximizes the multinomial logistic regression objective, which is equivalent to maximizing the average across training cases of the log-probability of the correct label under the prediction distribution.

4 Reducing Overfitting

4.1 Data Augmentation

4.2 Dropout

结合许多不同模型的预测是减少测试错误的一种非常成功的方法[1,3],但是对于已经需要几天训练的大型神经网络来说,这似乎太昂贵了。然而,有一个非常有效的模型组合版本,它在训练期间只花费大约2倍的成本。最近介绍的技术称为dropout[10],它将每个隐藏神经元的输出设置为0,概率为0.5。以这种方式丢弃的神经元不参与正向传递,也不参与反向传播。所以每次输入时,神经网络都会对不同的结构进行采样,但是所有这些结构都共享权重。这种技术减少了神经元之间复杂的相互适应,因为神经元不能依赖于特定的其他神经元的存在。因此,它被迫学习与其他神经元的许多不同随机子集结合使用的更健壮的特征。在测试时,我们使用所有的神经元,但将它们的输出乘以0.5,这是一个合理的近似值,近似于取由指数型多退出网络产生的预测分布的几何平均值。

我们在图2的前两个完全连接的层中使用了dropout。没有dropout,我们的网络显示出大量的过拟合。Dropout使收敛所需的迭代次数增加了一倍。

5 Details of learning

7 Discussion

关于计算机视讯监控论文引言?

计算机智慧视讯监控是计算机视觉领域一个重要的应用方向和备受关注的前沿课题,是电脑科学、机器视觉、影象工程、模式识别、人工智慧等多学科高技术的结晶。下文是我为大家蒐集整理的关于的内容,欢迎大家阅读参考!

浅析云端计算在视讯监控系统中的运用

随着新技术、新概念的发展,云端计算技术在现代的科学技术中的发展可谓是迅速,尤其云端计算技术的发展带来了技术上的一次大革命。为人们的生活带了不少乐趣和科技水平。云端计算也是新一代资讯科技的重要体现,其发展也是渗入到各行各业,为了各大企业带来了更大的利益和便捷。尤其近几年的安防事业的快速发展,云端计算技术在其中也得到了较快的应用。尤其云端计算在视讯监控的应用已经越来越受到广大厂商和人们的信赖和好评。

谈计算机网路技术在视讯监控联网中的应用

一、前言

近几年,随着国内经济的高速发展和人们物质生活水平的提高,人们自我保护、安全防范意识也在逐步加强;人们迫切的希望能有更多、更好的安全措施和手段来保障人身及财产的安全;计算机网路科技数字化、整合化、智慧化的迅猛发展,使得人们的这个希望成为了现实,其中这就包括通过计算机网路在视讯监控联网应用。

论计算机网路视讯监控实现工程专案远端管理

目前,我国工程量己名列世界首位,但是,工程专案管理水平及资讯化技术的运用与发达国家相比还存在着较大差距。近年来,异地、远端实现工程专案管理的创新方式,开始引起越来越多企业的高度重视和积极探索。国家建设部、许多省市建设主管部门发文推广,要求在重大重点专案中安装部署远端视讯监控系统,实现对施工现场过程的实时了解,对安全质量的实时监控,提升安全专案管理的工作效率,将远端建筑工地施工现场,实时地反馈到专案管理部门,实时监测施工现场安全生产措施的落实情况,对施工操作工作面上的各安全要素,如:井字架、施工电梯、中小型施工机械、安全网、外脚手架、临时用电线路架设、基坑防护,以及施工人员安全帽配戴等多个方面实施有效监控,杜绝和消除施工安全隐患。
以下是我带来的关于计算机视讯监控的论文,希望能帮到您!
浅谈计算机智慧视讯监控系统相关问题

计算机智慧视讯监控系统融合了视讯处理技术、计算机技术以及网路技术等,大大提高了视讯监控各项效能,因此被广泛应用在个生产领域,为各个行业的发展做出了突出贡献。有关计算机智慧视讯监控系统的研究,也因此受到越来越多业内专家的高度重视,经过多年的研究获得了丰硕的研究成果,一定程度上推动了我国在计算机智慧视讯监控系统的发展。

1 计算机智慧视讯监控系统技术

计算机智慧视讯监控系统应用了包括视讯压缩技术、运动目标检测,以及物体识别及跟踪等在内的多种技术。接下来对上述智慧视讯监控系统技术进行逐一探讨。

1.1 数字视讯压缩技术

数字视讯压缩技术是保证智慧视讯监控系统正常工作的基础,原因在于智慧视讯监控系统工作过程中涉及视讯资讯的上传、检索、下载等环节,这些环节需要传输大量视讯资讯,倘若不采用数字视讯压缩技术进行处理,一方面获得的视讯资讯量比较大会占据大量的储存空间,另一方面,会严重影响视讯资讯传输效率。例如,按照每秒25帧的速度传输gif352*288,4:2:2的影象资讯,则每秒钟将要传输38mb的资讯量,会耗费大量的网路资源。因此,无论从哪个方面分析,计算机智慧视讯监控的正常工作,需要数字视讯压缩技术的支援。

1.2 运动目标检测技术

运动目标检测技术主要用于监控出现异常行为的事物或人,从而判断可能出现的突发事件或潜在危险等。通常情况下,事物或人的异常多少表现在运动形式上,而计算机智慧视讯监控系统通过监控事物或人的运动形式达到监控的目的。另外,对智慧视讯监控系统捕获的视讯资讯进行分析时,需要从背景场景中将运动目标的变化区域加以提取,帮助工作人员分析、跟踪等。但视讯影象背景图形并非一成不变,而是随着时间的变化而处于不断的变化之中,因此,容易受阴影、光照、环境、天气等因素的影响,无形之中增加了监控的难度。为进一步提高检测技术水平,目前常用光流、EM演算法扩充套件、时间差分、背景减除等方法进行运动目标检测。

1.3 物体识别及跟踪技术

计算机智慧视讯监控系统性能优于传统视讯监控系统之处在于其能对影像进行智慧捕捉,并加以识别和跟踪。在科技发展推动下,人脸识别技术的出现进一步提升了智慧视讯监控系统的发展潜力。

物体识别及跟踪技术的实现主要涉及运动目标分类、运动目标跟踪、行为理解与描述三方面内容。其中对运动目标分类的目的在于识别运动目标所属类别,因为视讯监控内容非常繁多,对运动目标进行正确分类有助于工作人员迅速提取有用资讯,从而准确判断是否对其加以跟踪。目前来看,时间共生矩阵井下的分层分类、基于运动特性的分类、基于形状资料的分类是比较常用的分类方法。

所谓目标跟踪指在连续的视讯监控影象帧间建立以色彩变化、速度、位移等相关特性的对应问题。当前,基于特性、活动轮廓、模型的跟踪等最为常用。行为理解与描述指识别、分析物体的运动模式,并对其加以描述。在该过程中利用隐马尔可夫、动态时间规整技术等完成测试序列与现有标注好的行为参考序列进行匹配。另外,较为常用的实现时变资料匹配的方法为神经网路,其可辨别人的轨迹及运动模式,在径向基的函式网路加以识别。

2 计算机智慧视讯监控系统应用

计算机智慧视讯监控系统的应用由非安全与安全之分,其中非安全的应用集中在聚会场所、服务领域及零售领域等主要目的用于交通流量控制、人群控制,以及人数统计等,而安全应用主要为了检测车辆、人物、事物等从而及时发现异常,营造安全的社会环境。计算机智慧视讯监控的应用离不开各种组成部件的支援。例如,高清摄像机的作用在于采集视讯影象,光端机负责完成光讯号至电讯号间的转换,硬碟阵列用于储存采集到的资讯等。

从视讯监控系统的发展来看,未来其将朝着网路化、智慧化以及数字化方向发展,使视讯监控系统的智慧性得以进一步的提升。从当前来看,我国计算机智慧视讯监控系统发展与发达国家相比还存在一定的差距,因此,我国还需要加强核心技术的研究,并与发达国家展开亲密友好的合作,以提高我国智慧视讯监控系统研发水平。

3 结论
计算机智慧视讯监控系统在不同行业从事正常的生产经营活动,以及维护社会稳定方面发挥着极其重要的作用,因此有必要加强计算机智慧视讯监控系统相关问题研究,尤其应重视相关技术及其应用的研究,以促进我国智慧视讯监控行业的长远、稳步发展。

相关文章
学术参考网 · 手机版
https://m.lw881.com/
首页