摘 要:本文在综合分析文字提取与图像修复算法的基础上,提出了一种新的基于CEMA的视频文字提取与背景修复算法。即应用垂直、水平、对角三个方向的彩色边缘检测算子(Color Edge)检测出相应的文字边缘信息,再运用形态学(Morphology)对每个方向的边缘图像进行处理,并运用与融合(And)提取出文字区域,最后运用纹理修复算法对文字遮挡的背景进行修复。实验证明,本文的算法具备较好的文字提取及修复效果,对图像中人工添加的倾斜文字有一定的鲁棒性。
关键词:文字提取;边缘检测;形态学;图像修复
中图分类号 TP391.1 文献标识码 A
Text Extraction and Background Restoration in Video Images based on CEMA
JI Liqin
(Electrical engineering college in SuZhou Chien-Shiung Institute of technology, Taicang,215411, Jiangsu,China )
Abstract: On the basis of comprehensive analysis of text extraction and image inpainting algorithm, this paper proposes a new method based on CEMA ,which is used for automatic extracting text regions and background restoration in video images. First, using vertical, horizontal and diagonal three directions of edge detection operator to detect corresponding text edge information in three directions, then, using morphology for each direction of edge images, also using “and” mergeing for text regions extraction. Finally, using texture inpainting algorithm for restoring the background sheltering by texts.Experiments show that the proposed method achieves good effect in text extraction and restoring, and it is robust to man-made tilt texts in images.
Keywords: Text Extraction; Edge Detection; Morphology; Image Inpainting
0 引 言
在互联网与多媒体技术飞速发展的背景下,大量的数字视频出现在电视广播和互联网上。这些视频中的多数均存在嵌入性的、含有丰富语义信息的文字,例如:电视画面中的字幕、滚动的文字新闻、运动员号码、时间等信息[1-3]。如果能自动提取出这些文字,将对视频的索引发挥关键作用,即能帮助用户快速、准确地从海量的视频中找到其感兴趣的内容[4]。在提取出文字信息之后,继续对文字区域所在的背景进行修复,并添加上不同语种的文字,这对于不同语种国家之间的文化交流也将起到积极的推进作用。
文字提取的方法大致可以分为基于边缘、基于纹理和基于连通区域三类方法。一类是由Keechul Jung[5]提出的定位方法,即综合运用文字纹理和连通组元分析的方法来定位文字,但整个算法复杂,训练样本大。Kim[6]等人提出用支持向量机的纹理分类器来检测视频中的文字,该方法的检测结果虽然较好,但是计算量大。Adrian[7]等人提出基于颜色聚类的方法进行文字定位,但主要针对于手机上的视频图像。图像修复方面,文献[8]提出一种基于改进的规范化卷积的图像修复算法,但主要针对大量数据连续缺失的图像,计算量也较大。另有文献[9]则提出基于PDE 的图像修复算法,该算法基于待修复区域的边缘信息,并利用纹理块匹配的方式对背景进行填充。
本文在综合分析文字提取与图像修复算法的基础上,提出一种基于CEMA的视频文字提取与背景修复算法。实验结果表明,该算法能较好地从复杂背景中提取出不同方向(包括横向、对角等)的文字信息,并能够修复文字的背景区域。
1 算法设计与实现步骤
1.1 算法设计方案
视频图像内的文字信息一般可分为两大类。一类是人工编辑加入到视频中的字幕文字,例如:新闻中的标题,电影和电视剧人物对话的字幕等;另一类是视频内的场景文字,即在视频拍摄时场景中所含带的文字信息,比如会场中横幅上的文字、参会人员的名字等。这些文字均呈现出一个特点,即文字大小适中,且与背景有着明显的对比,且含有较为丰富的边缘特征。基于上述特点,本文提出一种基于CEMA的文字提取与背景修复算法,算法流程如图1所示。
图1 基于CEMA的文字提取与背景修复流程
Fig.1 The flowchart of texts extraction and background restoration based on CEMA
1.2 三个方向的彩色边缘(Color Edge)提取
图像边缘信息的提取通常需要边缘检测来完成,目前,基本的、常用的检测算子有三种:一是Roberts边缘检测算子,特点是算子采用对角线方向相邻两像素之差近似梯度幅值检测边缘。检测水平和垂直边缘的效果要好于斜向边缘,定位精度高,对噪声敏感。二是Sobel边缘检测算子,根据像素点上下、左右邻点灰度加权差,在边缘处达到极值这一现象检测边缘。对噪声具有平滑作用,提供较为精确的边缘方向信息,边缘定位精度也不高。但当对精度要求也并不为高时,是一种较为常用的边缘检测方法。三是拉普拉斯算子,也称为二阶微分算子,是利用边缘点处二阶导函数出现零交叉原理检测边缘。不具方向性,对灰度突变敏感,定位精度高,同时对噪声也较为敏感,且不能获得边缘方向等信息。 针对目前视频图像一般为彩色图像及彩色图像边缘信息较丰富这一情况,本文研究刻画了图像色彩的综合信息,并在上述三个算子的基础上提出了一个新的检测垂直、水平、对角三个方向的彩色边缘算子(如图2所示)。
0 0 0
-4 4 0
0 0 0
0 -4 0
0 4 0
0 0 0
-4 0 0
0 4 0
0 0 0
(a)垂直方向 (b)水平方向 (c)对角方向
(a)Vertical (b)Horizontal (c)Diagonal
图2 三个方向的彩色边缘检测算子
Fig.2 Three color edge detection operators of different direction
1 1 1
1 1 1
1 1 1
图3 结构元素B
Fig.3 Structure element B
以像素点 为例,利用如下公式获取垂直方向的边缘图像。具体公式为:
(1)
(2)
(3)
其中, 为图2(a)中的垂直检测算子, 、 和 分别为检测算子在视频图像中
所扫描到的像素点 处及其八邻域内的红、绿、蓝分量。其他方向的边缘检测方法同上。
实验证明,这种模式能较精确地提取出三个方向的边缘图像。
1.3 形态学处理[10-12](Morphology)
利用开启运算,可删除目标区域以外的噪声;利用闭合运算可填补目标区域内的空洞;膨胀与腐蚀则具备扩大目标和缩小目标的作用。本文综合利用以上4个运算,设计了一个针对三个方向边缘图像的形态学处理方案,每个方向的边缘图像都经过下面的处理,具体步骤如下:
STEP1: 做一次闭合运算。利用 (A代表图像,B代表结构元素,B的结构如图3所示)填补边缘图像中的空洞。
STEP2: 做一次开启运算。利用 删除文字区域外的噪声。此处的B同STEP1中的B。
STEP3: 六次水平方向的膨胀。视频图像内文字普遍呈水平方向分布,为了有效地形成文字的连通域,本文采用水平方向的结构元素 。实验证明此结构大小适中,且能有效地形成文字连通域。
STEP4: 三次水平方向的腐蚀。同样采用结构元素 对膨胀后的文字连通域进行腐蚀,以此达到文字区域与原图中大小接近的目的。
1.4 与融合及文字区域的提取(And)
为了较精准地定位出文字区域,本文提出采用“与”融合的方法将垂直、水平、对角三个方向的文字连通域图进行相与运算。实验证明,采用与融合方法能去除很大部分的噪声区域,从而较准确地定位出文字区域。但同时,也发现了仍存在小部分的伪文字区域,因此,本文运用递归统计法进一步确定出最终的文字区域,实验证明,此方法简单且有效。
(a) 原图
(a) original image
(b)文献[5]提取的文字区域
(b) extracted text regions of literature 5
(c) 本文方法提取的文字区域
(c) extracted text regions of this thesis
图4 文字区域提取的比较
Fig.4 Comparation of text regions extration
图4给出了文字区域提取的效果及比较。可以看出,本文的文字提取算法较文献[5]的方法要更为优良、精准。
1.5 形成待修复区域
为了将文字所遮挡的背景区域进行修复,在提取出文字区域后,本文采用以下算法形成待修复区域。算法实现步骤为:
STEP1:采用八叉树颜色量化算法对文字区域进行二值化处理;
STEP2:利用结构元素B(如图3所示)对二值化的文字进行全方向膨胀的形态处理,以形成较大的待修复区域,从而避免文字部分的漏检。
STEP3:将膨胀后的待修复区域设置成绿色([R=0,G=255,B=0],其中R为红色分量、G为绿色分量、B为蓝色分量),并映射至原视频图像中,最终形成确定的待修复对象。
1.6 文字背景修复
在图像修复方面,Criminisi [10]等人提出基于纹理的修复算法,该算法的修复示意图如图5所示。其主要思想为:首先从待修复区域的边界上选取一个像素点p,并以该点为中心,选取最优先修复的纹理块 ,而后在待修复区域周围寻找到之最近似的纹理匹配块 来替代 。
图5 纹理修复示意图
Fig.5 Sketch Map of texture restoration
在选取 的时候,该算法利用以下公式求出以像素点P为中心的最优先修复的纹理块 。具体公式为:
(4)
(5)
其中, 为待修复模板 的置信度, 为 的数据信息项。
在寻找最近似纹理匹配块 的时候,该算法利用如下公式计算出与 最近似的纹理匹配块 ,计算公式为:
(6)
并且,
(7)
其中, 为视频图像中的非修复区域, 、 、 、 、 、 分别为待修复纹理块区域和匹配块区域的红、绿、蓝三个分量。
实验证明,该算法较好地修复了文字背景区域。
2 实验结果
本文的实验基于windows MFC环境下设计完成。图6为一段视频图像中倾斜文字的提取与背景修复的过程,实验证明,本算法定位的文字准确,且对倾斜文字的提取有一定的鲁棒性。 (a) 原图 (b) 文字区域的提取
(a) Original image (b) Extraction of Text regions
(c) 形成的待修复区域 (d) 修复后的图像
(c) Regions to be repaired (d) Image after repair
图6 倾斜排列的文字提取与修复
Fig.6 Tilt text extraction and restoration
3 结束语
本文提出的基于CEMA的文字提取与背景修复算法借鉴了“与”融合的思想,应用垂直、水平、对角三个方向的检测算子,较精确地提取出了文字区域,再利用纹理修复算法对文字的背景进行修复,取得了较为满意的修复效果。但纹理修复算法计算量较大,下一步将重点研究如何优化改算法,以期达到更为理想的效果。同时,也可以在算法的实现环境方面实现一个突破:基于visual C++6.0 MFC的开发环境下,结合开源计算机视觉库opencv进行相关代码的优化。
参 考 文 献
[1] 王琦,陈临强,梁旭.视频中的字幕提取[J],计算机工程与应用,2012,48(5):177-216.
[2] 曹喜信,刘京,杨旭东,等. 一种新的视频字幕提取算法[J]. 北京大学学报(自然科学版),2013,49(2):197-202.
[3] 吴进,视频帧中字幕信息提取的区域检测算法研究[J],电视技术,2011,35(11):118-120.
[4] 章毓晋, 基于内容的视觉信息检索[M]. 北京: 科学出版社,2003.
[5] JUNG K, HAN J H. Hybrid approach to efficient text extraction in complex color images[J].Pattern Recognition Letters, 2004, 25:679-699.
[6] KIM K I, JUNG K,et al. Support vector machines for texture classification[J]. IEEE Trans Image Processing, 2002,124(11):1542-1550.
[7] CANEDO-RODRIGUEZ A, KIM J H, KIM S H. Efficient Text extraction algorithm using color clustering for Language Translation in Mobile Phone[J]. Signal and Information Processing, 2012, 3: 228-237.
[8] 秦绪佳, 桑贤生, 程时伟,等. 改进的规范化卷积图像修复算法[J].计算机辅助设计与图形学学报, 2011,23(2):371-376.
[9] CRIMINISI A, PEREZ P, TOYAMA K. Region filling and object removal by exemplar-based image inpainting[J]. IEEE Transactions on Image Processing, 2004,13(9): 1200-1212.
. Engineering and Technology, 2010, 2(3): 200-206.
[11] 刘海波,沈晶,郭耸. Visual C++数字图像技术详解[M]. 北京:机械工业出版社,2010.