场景文本提取方法的应用

摘要场景图像中的文本提供了重要的语义信息，它是图像内容的重要来源。针对当前的求解算法普遍存在提取文本精确度不高等缺点，本文提出了一种有效的文本提取方法。首先对原始图片进行模糊化处理，然后进行Laplacian边缘提取和二值化，再形态学变化，最后进行连通域分析，实现了场景文本的提取。

关键词文本提取；边缘检测；二值化；连通域分析

0　引言

随着计算机、多媒体以及通讯技术的飞速发展, 相当数量的文字信息正越来越多地以图像形式出现[1]。图像中的文字是图像内容的一个重要来源,如果这些文字能自动地被检测、分割、识别出来, 则对图像语义的自动理解、索引和检索是非常有价值的。图像文本可以分为人工文本和场景文本。人工文本是指人工加在图像上的文本，场景文本是图像上本身存在的文本，如广告牌或运动员球衣上的号码等。由于场景文本图像具有较为复杂的背景，同时受光线和文本的字体、颜色、位置等因素影响较大，往往很难被检测、提取和识别，因此自动从场景中提取文本是一项极具挑战性的工作。目前已有的文本区域提取方法大致可以分为三类:基于连通域的方法，基于纹理的方法和基于边缘的方法。基于连通域的方法速度快, 但是当背景复杂或文本与背景颜色相近时分割困难, 而基于纹理的方法非常费时而且处理复杂背景时误报比较多。

本文根据场景中的文本区域与背景对比度强, 存在丰富的边缘信息，因此选择基于边缘检测的文本提取方法对场景文本的提取进行研究。首先对原始图像进行模糊化处理，然后用Laplacian边缘提取降噪，再进行形态学变化，最后连通域分析，从而实现场景文本的提取。实验表明, 本文的文本提取方法具有较高的正确率, 边界定位较准确。

1　场景图像文本的提取过程

1.1　图像预处理

　　由于光照等环境因素的影响在图像上会产生许多噪声，又考虑到Laplacian算子去噪能力较差，因此本文在预处理时先对原始图像进行模糊化，滤除图像中的部分噪点。本文用的是3*3的卷积来进行连续模糊。

1.2　边缘检测与二值化

边缘检测是所有基于边界分割方法的第一步。两个具有不同灰度值的相邻区域之间总存在着边缘。由于场景中文本和背景视觉反差较大，且文本区域具有相当大的一个宽度，与此同时场景文本笔画边缘明显，所以利用边缘检测方法可以较好地提取出场景中的文本边缘。

本文采用的是基于二阶微分算子的Laplacian边缘检测算子。该方法对图像中的阶跃型边缘点定位准确且具有旋转不变性的特点，即各向同性的性质。而场景文本正好具有阶跃型边缘的特性，所以说Laplacian算子较适合场景文本的提取。

其表达式为：

　（1-1）

使用的Laplacian算子模板如图所示：

图1　拉普拉斯算子

从边缘检测结果来看，在引入经过模糊处理后的Laplacian算子能够在不影响文本边缘提取的前提下能取得很好的去噪效果。缺点是对光线影响较强和质量较差的图片处理过程中损失较大。

边缘图像的二值化是很重要的问题，如果阈值过大可能会漏掉一些文字边缘, 而阈值过小则可能会使较多的非文字边缘被当作文字边缘处理, 导致误检较多。本文针对不同图像采用整体阈值二值化，用最小误差方法求分割阈值。这主要是由于整体阈值算法简单，时间开销小，选择合适的阈值可以取得较好的效果。而且用最小误差方法求整体阈值的算法可以较好地分离背景和文字。

1.3　形态学运算

形态学将图像信号与几何形状联系起来，利用结构元素的探针收集图像的信息。形态学运算能够对图像上的物体做形状等方面的限制，常用于目标检测等。本文用形态学中的开闭运算和腐蚀膨胀的方法来检测二值边缘密度图像上的文本矩形区域。形态学运算包括以下两步：

(1) 对二值化的边缘密度图像做7个象素宽度的水平闭运算，连接字符笔画形成矩形区域；再做15个象素宽度的水平开运算，去除孤立的背景；

(2) 形态学后处理(即在连通域分析后进行的二次形态学运算)：对每个连通域做δ度的膨胀运算和度的腐蚀运算。ε其定义

δ＝min(ｈ,ｗ/8)　　（1-2）

ε＝ｗ/4 　　（1-3）

其中ｈ，ｗ分别对应连通域的高度和宽度。

通过第一步形态学运算去除部分背景区域，将相连的背景和文本分开；第二步形态学运算后图像上只剩下部分规则的矩形区域。实验表明，通过以上两步形态学运算能比较准确的得到文本矩形区域。

1.4　连通域分析

虽然以上方法可删除大量的非文本区域，但结果中可能还存在不包含文本的矩形区域。因此有必要对二值图像做连通域分析。连通域算法是指从二值图像中标记出所有像素连通的区域。本文的连通域分析指的是8连通。该方法步骤

(1)将原始图像变换为行连通单元图像，如图2(b)所示，此时不考虑不同行之间的连通，同一行中的不同连通域赋予不同的标号，背景置零。

(2)考虑不同行之间的连通情况，从上到下扫描图2(b)中结果，引入记录数组D，该数组用来记录连通的情况，约束是：数组下标和数组存储的内容表示两个连通域单元连通，应该合并为一个连通域，如 D(5)=3，则表示5和3实质上是一个连通域。现在使用数组 D记录连通的情况，如果下一行某个行连通单元和本行中不止一个连通单元连通，则记录本行中标号最小的单元与下一行此单元连通。按照 D的记录修改图2( b)，得到图2(c)中的结果。

(3)进一步考虑不同行之间的连通情况，修正图2(c)中结果。对图2(c)从下到上扫描，如果连通情况与 D的记录不符就修改 D。此时按照 D的记录修改图2(c)就可以得到最终结果。见图2(d)，可以看出相同的连通域已经有了相同的标号。

图2　连通域分析过程

对于各个标记的连通分量,文本区域的横宽比、密度、宽度、高度等均有一定的限制。在本文中取如下参数:　　

min(ｗ/ｈ,ｈ/ｗ) ≥0.25　 (1-4)

0.2 A/( ｈ·ｗ) ≤1 (1-5)

min（ｗ,ｈ）≥3　　(1-6)

其中A 表示连通分量的面积, ｗ表示宽度,ｈ表示高度。

2　实验结果与分析

本文的实验数据由150幅标志牌，海报，广告标语，新闻图片，球衣照片等组成。采用计算正确率，错误率和遗漏率的方法来评价实验结果。

正确率＝正确提取的文本区域个数/实际文本区域个数；

错误率＝错误提取的文本区域个数/实际文本区域个数；

遗漏率＝未被检测到文本区域个数/实际文本区域个数。

本文选择了较复杂的150幅图片作为测试数据，尽可能的包含了文本提取过程中可能出现的情况。实验结果为：正确率80.31％，错误率11.23％，遗漏率10.57％。出现错误和遗漏情况的原因是图像的分辨率太低或背景与文本区域对比度太小。

部分实验结果如图3所示：

图3　部分实验结果

3　小结

本文介绍了一个从场景图像中提取文本有效的方法。先通过模糊化处理进行除噪，并对传统的Laplacian边缘检测方法加以改进和二值化处理。通过对边缘图像的形态学运算，去除了非文本区域。最后进行连通域的分析，使得文本提取有较高的正确率。该方法较Canny算子处理的结果具有非文本连通区域少、定位准确等特点。但该方法在处理有光照等复杂背景的图像时效果不理想，阈值的依赖性较强，因此在设计算子和选取有效的阈值方法上需要进一步研究。

参考文献

[1]章毓晋.图象处理和分析基础.高等教育出版社.2001

崔莹莹,杨杰, 梁栋. 基于边缘的标志牌文本提取方法.影像技术.2006

王郑耀.数字图像的边缘检测.西安交通大学出版社.2002

张引.复杂背景下文本提取方法研究与应用.浙江大学博士学位论文.1999

何斌,马天予,王运坚等.Visual C++数字图像处理.人民邮电出版社.2001

K.C.Kim, H.R.Byun, Y.J.Song. Scene Text Extraction in Natural Scene Images using Hierarchical Feature Combining and verification. Proceedings of the 17th International Conference on Pattern Recognition. 2004

学术参考网 · 手机版
https://m.lw881.com/

首页