中北大学2012届毕业论文 第1页 共47页 1 引言 1 课题的提出以及研究意义 使计算器具有人类的感知的能力,能够识图认字,能听话和说话,能与人们自然的进行信息交互,是人们长期以来的梦想。经过二十余年的奋斗,这些梦想已逐渐部分成真。赋予计算机识图认字的智能,能够解脱人们将汉字输入计算机的繁重劳动,克服计算机汉语信息的汉字输入困难的问题,对我国信息化发展更具有特殊重要的价值。随着计算机技术、通信技术、多媒体技术以及Internet的迅速发展,人们越来越深刻地感受到了计算机处理事情的便捷。提取并识别图像中的文字,在图像数据库的组织与管理、视频索引、公交、交通、旅游、摄影等方面将有着极其广泛的应用。随着电力系统的规模增大,电力设备也越来越多,且设备分布具有跨地域性的特点,因此怎样管理维护这些设备,并可随时查看这些设备的信息成为一个急需解决的问题。 图像中往往包含着丰富的文字信息,若能将图像中的文字进行自动检测、分割、提取和识别,则对图像高层语义内容的自动理解、索引和检索非常有价值。因此,90年代,随着多媒体技术的发展以及对基于内容的多媒体检索的需求,图像中的文字获取又逐渐成为研究热点之一。电力设备标牌图像中的文字获取对图像识别、检索有重要意义。从电力设备标牌图像中提取文字需要首先定位包含文字的图像区域,由于电力设备标牌中的文字在字体、大小、对齐方式和排列上变化多端,文字背景复杂,而许多应用场合还要求算法具有一定处理速度,这些都使得从其图像中有效地提取文字变得困难,对其深入研究很有意义。电力设备标牌图像中有丰富的文字信息,对图像中的文字信息的提取将是图像处理方面研究的一个重要方向。在电力系统中,电力设备种类繁多,通过对设备图像的采集,识别出电力设备标牌的文字信息,建立设备信息图文库,对电力设备的年检、统计等工作更加便捷、高效,对提高电力系统的设备管理水平非常重要。在电力管理上的技术需求越来越引起人们的关注和期待,而在此方向的技术研究目前还是一个空白点,因此,研究设备图片中的字符识别技术具有广泛的实际应用价值和重要的学术意义。 2 相关技术研究现状 中北大学2012届毕业论文 第2页 共47页 目前电力设备标牌识别的研究还是一个空白点。其相关技术包括车牌识别技术和对图像中的文字识别技术[1]。电气标牌字符的识别研究还很滞后,目前仍没有相对成熟的系统。随着电力系统的规模增大,电力设备也越来越多,怎样管理维护这些设备,是我们现在需要努力研究并有待应用的一门技术。 当前,图像作为一种重要的可视化信息媒体,已被应用到几乎所有的科学技术领域和日常生活的各个方面。随着图像信息的快速增长,从海量的图像资源中快速高效地提取并识别信息已成为人们迫切的需求。因此,20世纪90年代,基于内容的图像检索(CBIR)[2]技术应运而生,从可视化角度开辟了一条更为直观 、准确的途径,并很快成为智能信息处理领域的研究热点。 如今牌照定位是从一张图片中找到标牌的位置,将包括牌照的子图像从这张图片中切割出来。主要有边缘特征法[3]、神经网络法[4,5]、基于灰度的检测方法、基于数学形态学法、基于颜色的分割方法、基于区域特征的方法、小波变换的方法等。 文字识别技术已经广泛应用到了各个领域中,它作为计算机智能接口的重要组成部分,在信息处理领域中可以大大提高计算机的使用效率。字符识别的对象是汉字、字母和数字。我国牌照的独有的特点是包括汉字的识别。汉字因为其结构复杂,使得识别过程有别于数字和字母。目前主要的字符识别方法有:模板匹配法、统计特征字符识别法、结构特征字符识别法、人工神经网络法。模板匹配对噪声比较敏感,并对字符的字体变化具有不适应的特点。基于统计特征的字符识别法对于形近字符区分能力弱,而且需要寻找特征,特征有时随图像变化而失效。结构特征的描述和比较要占用大量的存储和计算资源,因此算法在实现上相对复杂、识别速度慢。神经网络法也存在找寻特征和计算量大的问题。光学字符识别(OCR)技术是计算机自动、高速地辨别纸上的文字,并将其转化为可编辑的文本的一项实用技术。它是新一代计算器智能接口的一个重要组成部分,也是模式识别领域的一个重要分支。因此,在电力标牌的字符识别中,OCR技术也得到了广泛的应用,是其进行识别不可或缺的技术力量。Lienhart等[6,7]先后开发出两个视频中的文字检测、分割和识别系统。这两个系统都是利用文字的单色性相对于背景的高对比度和视频字幕的简单纹理来进行图像分割。 近几年,国内学者也开始关注并积极投身到电力设备标牌的字符检测领域来,但中北大学2012届毕业论文 第3页 共47页 是都仅限于在进行基于内容的多媒体检索的研究时,附带地介绍了图像和视频中的文字获取,并没有进行系统深入的研究,也没有开发出相应可行的系统。如何识别图像中的文字仍然是一个有待研究解决的问题。 3 本课题主要内容 电力设备标牌字符识别涉及到的技术和车牌识别技术有些相似处,车牌识别技术已经较为成熟,但是,电力设备标牌识别与之有很多不同之处。主要包括: (1)图像的预处理技术。标牌中有很多钢印信息,通过二值化[8,9]提取标牌特征时,需要完整的提取其特征量。而车牌上的信息在提取时不存在上述问题。 (2)电力设备标牌中的信息识别技术。标牌中的字符很多,尤其是所涉及的汉字比较丰富,而车牌中字符构成比较简单。 本文对电力系统中设备标牌中的字符识别技术进行了研究,对设备标牌中的字符识别系统的每一个模块进行了研究及实现。电力设备图片在识别前首先需要对图像进行预处理,以更好的提取标牌中的信息。其次,分割图像。最后进行标牌上的字符识别。因此,本课题主要研究内容为: (一)电力设备标牌的图像预处理方法的研究。采集到的设备图片不可避免的会受到噪声的污染,需要对设备图片进行处理以及修正,突出图片中的标牌信息,增强图像,以便更好的进行字符识别。 (二)分析电力设备标牌特点,结合设备标牌特点研究适合标牌图像的二值化方法。 (三)研究边缘检测算子并对图像进行边缘检测处理,分析实验结果,并进行图像的分割。 (四)应用光学字符识别(OCR)[12,13,14,15]技术和字符识别技术进行电力设备标牌的识别[16,17,18,19]。 在拟采用的研究手段上分别从设备图像预处理、标牌的二值化算法以及标牌图像的分割和字符的识别四个方面进行阐述: 1)进行图像的滤波处理、经灰度直方图灰度修正以及灰度图像对比处理把我们感兴趣的部分突出出来。 2)为了进行有效的识别,采用阈值法进行标牌图像的二值化。通过对其标牌二值化,提取标牌图像中的钢印信息。 中北大学2012届毕业论文 第4页 共47页 3)进行标牌图像的边缘检测和分割。 4)采用基于光学字符识别(OCR)的技术以及MATLAB软件算法完成对标牌字符的识别。 中北大学2012届毕业论文 第5页 共47页 2 电力设备标牌图像预处理 电力设备标牌图像由于背景的灰度值介于标头字符的灰度值和钢印灰度值之间,所以用单一的一个阈值无法将标头字符和钢印同时提取出来。为了进行有效的识别,首先需要对数字图像进行处理。 二维物理图像被栅格划分成小的区域,这些小的区域称为数据元素(Picture Element),简称像素。对每个像素进行采样和量化,得到相应的整数值。这个值代表像素的明暗程度和颜色深浅等信息。 每个引入噪声。图像可以分为二值图像、灰度图像、彩色图像。灰度图像只含亮度信息,不含彩色信息。灰度值用8位(Bit)表示,从0到255,一共256级,从黑(0)到白(255)。二值图像就只有代表黑白两色的两个灰度值,归一化后灰度值是黑(0)到白(1)。彩色图像每个像素值都有三个分量,分别表示红色(R),绿色(G)和蓝色(B)。每个分量又按各分量的灰度分为0到255共256级。根据RGB的不同组合就可以表示256 ×256×256种颜色,也就是常说的24位真彩色。 2.1 图像的读取 clear; close all; I=imread('bae.jpg'); imshow(I);(结果见图2(a)) 2.2 去噪 在图像形成、传输或变换的过程中,由于受到其它客观因素诸如系统噪声、曝光不足或过量、相对运动等影响,获取图像往往会与原始图像之间产生某种差异(称为降质或退化)。退化后的图像通常模糊不清或者经过机器提取的信息量减少甚至错误,因此必须对其采取一些手段进行改善。图像增强技术正是在此意义上提出的,目的就是为了改善图像的质量。图像增强根据图像的模糊情况采用各种特殊的技术突出图像中的某些信息,削弱或消除无关信息,达到强调图像的整体或局部特征的目的。图像增强尚没有统一的理论方法。 利用巴特沃斯(Butterworth)低通滤波器对受噪声干扰的图像进行平滑处理: