长久以来,美学(美感)一直作为哲学问题来讨论.美的作品由人来进行创造和评判,并带给人们难以言表的愉悦和快乐.人们每天接收的信息中有超过90%是来自视觉,人们往往根据美感来进行判断和决策.如今,面对日益激增的海量数据,人类已经无法胜任繁杂的处理工作,希望计算机能够帮助人类进行辅助美学处理.例如,人们在检索图像时,希望系统返回的是让人赏心悦目的图像,自动滤除那些质量低、美感差的图像;在拍照或编辑图像时,希望在机器的辅助和指导下获得更具美感的结果.
近年来,随着计算机视觉和模式识别等技术的快速发展,在计算机科学范畴提出了计算美学的概念,希望研究“美”的可计算方法,使计算机能模拟人类自主地理解、推导和计算“美”,并在相关应用中做出可行的美学决策.
图像美学可以定义为人们在观察图像时引发的美学兴趣.可计算的图像美学是计算美学在图像理解方面的重要探索,其研究目的是希望计算机能够模拟人类视觉及审美思维,进而对图像进行美学决策、建立计算机与视觉艺术作品之间的桥梁;使计算机能够自主地对图像的“美”进行定量的分析、计算和评价,比如评价美学指数、判断绘画的美学风格等;通过对图像的美学分析、计算和评估,理解用户的美学感受,帮助寻找到最适合用户心理需求、具有积极情感影响的目标和方案,这对于实现和谐的人机交互具有重要的意义.其研究结果可应用到融合主观感知的基于语义的图像检索、图像美学质量评估、摄影的美学预测与修正、艺术作品风格分析、人机交互,以及设计、摄影、广告等领域.相关研究涉及到艺术、认知科学、心理学、计算机科学等多个学科,属于多学科交叉的创新性前沿研究课题,具有重要的理论价值和应用前景.
由于审美的主观性和复杂性,可计算美学的研究存在一定的难度.1988年,李介谷撰写的《图像处理技术》一书中,曾提及Sasaki提出的关于美函数的概念,他认为图像之所以给人以美的印象与图像的总体布局有关,总体布局包括图像中各对象的布局和总体色调等.2005年,Hoening在计算机科学领域提出了可计算美学的研究,阐释了可计算美学的概念,推动了结合人类感知的可计算美学决策应用的发展.
针对图像美学分类与评价,宾夕法尼亚大学的Wang领导的研究小组,率先实现了图像视觉特征到图像美学判定的关联.他们基于摄影美学相关的一些简单规则,提取了包括图像的亮度、色彩分布、小波变换、景深等35个图像特征,并结合特征选择提取了最有效的15个特征,使用支持向量机方法(supportvectormachine,SVM)对高美感和低美感的图像进行分类;而后采用多元线性回归、利用图像特征评估图像美感分数值.虽然评估结果正确率不高,但显示出可计算图像美学分析是可行的.
不少专家学者在其成果上进一步开展与图像美学评价相关的研究,如Wong等[7]将视觉注意机制引人美学分类,提取出区域特征,获得了更好的分类效果;Wu等实现了图像美感标签(如beautifulvs.ugly)的自动标记,这实际上还是属于图像的美学分类问题;卡内基梅隆大学的Li等™从艺术美学的角度出发,设计了相应的艺术美学特征,实现了绘画作品的美学视觉质量高低两类别分类;Marchesotti等设计了一种图像低层局部特征描述子来评估图像美学质量,给出了一种自底向上的特征提取思路.
图像美学研究的另一个方向是基于美学规则的图像美化.Liu等利用三分法、对角占优等美学构图规则,通过调整原始图像的布局实现图像美化;Bhattacharya等将图像美学应用到图像修改和重建中,利用美学中的三分之一法则改变图像中的主体目标的位置或对图像进行空间重构,以提升照片的视觉美感.
总的来说,图像美学的相关研究在国内外刚刚兴起.在美学分类与评估方面,目前大部分研究只是简单地对图像的美感等级进行分类,其采用的图像特征相对简单,对包含重要信息的区域特征以及结合人类视觉感知的高层美学特征缺乏重视.
1.图像美感分类与评估方案设计
本文提出一种根据人类视觉及审美习惯来评价图像美学价值的可行方案,通过提取符合人类视觉审美的高层美学特征以及包含图像重要信息的区域特征,采用机器学习方法建立模型来实现模拟人类审美感知的图像美学自动评价.图1所示为本文图像美学自动评价系统的框架.
图像的关键区域包含了重要的、主导图像内容的有用信息,在很大程度影响了人们的审美决策.因此,本文不仅对图像整体区域进行分析,还提取了图像关键区域的特征.
此外,为了克服低层视觉特征难以表述人类对图像美感感知的缺陷,在计算低层视觉特征的基础上,引人图像的复杂度特征、色彩均衡性特征、图像能量和景深特征等图像高层美学特征,使之能有效地描述图像,更符合人类对图像美感的感知.
本文的可计算图像美学分析研究主要包括2部分:图像美感等级分类和美学分数评估.图像美感等级分类模型可自动将图像分为高美感和低美感2类,对应机器学习中的分类问题;图像美感分数评估模型可以自动给出图像美感的具体分值,对应于机器学习中的回归问题.本文分别采用SVM分类算法和支持向量回归(supportvectorregression,SVR)算法对图像特征数据进行训练学习,建立了图像美感等级分类模型和图像美感分数评估模型,实现了机器自动对图像的高、低美感进行分类,并给出与人的审美思维相近的美学分数.
2.图像关键区域提取
SteP2.图像分割.显著性计算是基于像素的计算,要提取出关键区域,还需要与图像分割方法相结合.
图像分割指的是将图像细分为多个图像子区域的过程.在图像分割问题中,MeanShift分割算法是一种比较成熟的算法,它基于区域进行分割,综合考虑图像的空间信息和色彩信息,依靠特征空间中的样本点进行分析,与人眼对图像的分析特性相近,无需任何先验知识,且具有收敛速度快的特点,分割效果好,且鲁棒性强.因此,本文采用MeanShift算法对显著图进行图像分割,得到分割块.
Step3.关键区域提取.根据分割块的平均显著性选择分割块,具体步骤如下:
计算每个分割块k的平均显著性St其中,为分割块々中像素总数,^为点j的像素值,/„是分割块6中所有像素的平均值.如果S*>2XS„,即分割块是的平均显著性大于整幅图像的平均显著性的2倍,标记出这个分割块;最后将所有被标记的分割块组合,得到显著区域提取图,将其作为图像的关键区域提取图.经过上述步骤所提取的图像关键区域,基本能代表图像的关键信息,具体示例如图3所示.为提取图像关键区域,主要包括显著性计算、图像分割和关键区域提取3个部分.图2所示为本文提取关键区域的框图.
Stepl.显著性计算.本文参考八(^1«3等的显著区域检测方法提取显著区域,并将其作为图像关键区域.该方法基于Lab颜色空间计算图像的显著性,对于一幅图像令h为图像7所有像素的平均值,乙为图像J高斯模糊后的图像,和L都用Lab颜色空间表示,通过计算L和込的欧氏距离来计算显著性,显著图得到图像显著图后,计算图像平均显著性
3.图像特征提取
目前从图像中提取低层客观特征(如颜色、纹理、形状等)的算法已经日趋成熟,但是以美学评估为目的的图像特征提取需要结合艺术、心理学和摄影的相关基础理论,寻找出与人的感知和美学密切联系的相关特征,并运用适当的方式进行描述.基于美学的图像特征提取是图像美学研究的核心部分.
本文所计算的图像特征包括低层视觉特征、高层美学特征和区域特征.
3.1低层视觉特征
低层特征具有直观的视觉表达意义,可以独立地、客观地描述图像内容.本文提取的常用低层视觉特征包括颜色特征、纹理特征和形状特征;其中颜色特征包括基于非均匀量化的HSV颜色空间的128维的颜色直方图/!〜/128,以及H,S,V3个分量的一、二、三阶矩(9维)/129〜/137.
本文采用Gabor特征、Tamura特征和灰度共生矩阵来表征图像的纹理特征.对每幅图像计算了6个方向、4个尺度的滤波后平均值和方差,形成48维的Gabor特征向量/us〜/iss.而Tamura特征中,提取了粗糙度、对比度、方向性、线性度、规则度和起伏度,共6维特征/186〜/191.对于灰度共生矩阵特征,提取了4个方向的5个纹理特征属性/192〜/2„,包括角二阶矩、熵、对比度、均匀度和相关度,共20维.对于形状特征,则是基于Sobel算法的图像边缘梯度幅值和方向,得到16维的边缘方向直方图212'.fin最终,从每幅图像提取了一个227维的低层视觉特征向量.
3.2 高层美学特征
由于低层视觉特征与人对图像的理解判断之间存在着较大的差异,基于美学的图像特征提取是图像美学研究的核心部分.本文总结了已有的研究成果,结合审美心理学、美学度量和摄影规则等与人类美学感知相关的各个方面,计算了图像复杂度特征、图像色彩均衡性特征、图像能量和景深特征作为图像高层美学特征.通过实验验证,本文所计算的高层美学特征能更好地表述图像信息和美感信息.
3.2.1图像复杂度特征
图像复杂度指的是图像本身所具有的色彩分布、形状分布、纹理分布以及结构分布等的复杂性程度,被认为是高度相关的审美测度之一.
1933年,美国数学家Birkhoff[14]就提出了著名的美学度量(aestheticmeasure,AM)公式
其中,O。表示事物内在的秩序,0。表示事物内在的复杂性.式(1)显示美学度量与事物内在的秩序与复杂性相关,它被认为是计算美学的雏形.虽然其缺少具体的计算方法,但这些理论对相关工作具有十分重要的指导意义.
Machado等[15]在式(1)的基础上针对图像的美学度量提出了美学公式,并将其中变量的计算具体化.他们认为图像的“美”的度量与图像复杂性(imagecomplexity,1C)成正比,与人脑对图像的处理复杂性(processingcomplexity,PC)成反比,内在重复性高的图像(如分形图像)虽然1C高,但是人在识别和理解时的处理却相对简单,即PC低,所以会感觉美.因此,他们给出美学公式M=IC/PC;其中1C用JPEG压缩图的误差与压缩率的比值表示,PC用分形图像压缩率来表示,并通过心理学绘画欣赏测试实验验证了其方法的有效性.
本文结合目前关于复杂度的研究成果,以信息理论、Kolmogorov复杂度、物理摘,以及图像处理等的基本知识为背景,归类并计算了PC复杂度(包括秩序复杂度和熵复杂度),以及1C复杂度(包括色彩复杂度和纹理复杂度)作为图像复杂度特征.
1) PC复杂度
复杂度的概念最早是由Kolmogorov提出的,其描述的是一维信号或序列的不规则程度,其最大的缺点是不可计算.Rigau等利用心理学理论的观点和思路拓展了Birkhoff的美学信息度量,给出了结合信息论和Kolmogorov复杂度的美学量化方法,包括利用色彩分布信息计算图像的Shanno摘来定义的测度iWB,利用Kolmogorov复杂度结合JPEG压缩比率定义的测度MK,以及从2肛吐的物理熵观点得到的测度Mz.通过在3种不同风格油画作品上的美学数字化分析,验证了这些量化测度的有效性.
借鉴Rigau等[17]的研究,本文采用JPEG编码后的文件大小K来近似Kolmogorov复杂度,并结合Zurek物理熵的观点定义图像的计算复杂度,包括秩序复杂度、熵复杂度,具体如下:
秩序复杂度.是从空间信息规律呈现角度来计算图像的构图复杂性.当图像越有秩序、越有规律时,进行】PEG压缩的压缩程度会越大•秩序复杂度Mk的计算式为
其中,为图像的最大信息熵,所得到的(JVXHmax)为图像JPEG编码前的大小,K为编码后的大小.这样,我们得到了秩序复杂度特征/228.Mk值越大,图像压缩量越大,说明图像具有秩序,越具有审美性.
熵复杂度.是基于Zurek的观点计算的,即采用物理熵来衡量图像的复杂度,是Sharmo熵和Kolmogorov复杂度的结合•即Mz= K;其中,为颜色分量的平均熵,K为编码后大小.Mz越小,图像越具有美感.这样,我们得到了熵复杂度特征.
2) 1C复杂度
本文计算的1C复杂度包括色彩复杂度和纹理复杂度.
色彩复杂度.基于HSV颜色空间的图像信息量和信息熵理论,定义图像的色彩复杂度.3个颜色通道的信息量分别为Hh,Hs,Hv;WH通道为例,色彩复杂度为
其中,iV为图像的像素总数,PH(;r)为图像H通道上第工维像素的概率.色彩复杂度越大,表明图像所含色彩信息越丰富,图像越具有美感.这样,我们提取了3个颜色通道H,S,V的色彩复杂度/23。〜/232.
纹理复杂度.图像纹理的有序性、规律性反映了图像本身的复杂情况.灰度共生矩阵能较好地描述图像灰度的空间分布情况和图像的整体纹理复杂信息,本文借鉴了高振宇等方法计算灰度共生矩阵的各个特征值并加权,用以衡量图像的纹理上的复杂度.
通过计算灰度共生矩阵的能量特征£:、对比度S、信息熵H、相关度C,以及图像边缘比率尺后,赋予各个特征不同的权重,对它们加权后构成纹理复杂度,其计算公式为MT=H+i?+S—C_E.这样,我们提取了纹理复杂度特征.
3.2.2图像色彩均衡性
色彩均衡是形式美的另一种构成形式,其表现为色彩强弱、轻重的均衡性,能够给人相对稳定的视觉生理和心理感受.色彩均衡是色彩给人重量感的对称性,是重色与轻色相互均衡.一般来说,色彩的重量感取决于色彩的明度,例如深色、浓色会给人重的感觉;而浅色、淡色会给人轻的感觉.人们在观察一幅图像时,均衡的色彩分布、稳定的视觉以及好的心理感受能增强图像的美感.
本文使用了2种衡量图像色彩均衡性的度量,包括色彩熵分布和色彩视觉平衡性.
色彩熵分布.本文从信息熵的角度考虑,通过色彩分布信息计算图像的Sharnio熵来定义色彩分WMB=(Hmax—其中,H咖x为图像的最大信息熵,为HSV各个颜色分量的平均信息熵,得到的为绝对冗余.MB越小,图像中各种色彩使用越均衡.这样,我们提取了色彩熵分布特征.
色彩视觉平衡性.推土机距离(earthmover’sdistance,EMD)是Rubner等提出的一种相似性度量,其采用求解最小运输成本的基本思路来求2个待匹配对象间相似性,这实质是一个双向网络最优路径的选择问题.EMD是一种反映计算机视觉感知相似性的距离度量,通过计算原图像与色彩均匀分布的理想图像之间的颜色EMD,可以衡量图像的色彩视觉平衡性.
对LUV色彩空间进行64等分均匀量化,对于色彩分布均匀的理想图像,其64个色彩分量值是相等的.一幅图像与理想图像之间的色彩分布相似性用EMD距离[4]表示,具体为EMDLuvsemcKD,,D2,{d(a,6)|0<a,6<63}),d(a,6)=||C„-CJ•其中,emd()表示EMD的计算函数,D,和D2分别表示理想图像和待求图像的色彩分布和6分别对应于和认分布中的某个直方图区间;和(^6分别是a和6的直方图区间高度,即相应色彩值出现的频数;rfU,6)是Ca与(:6间的欧氏距离,其为64X64的矩阵.这样,我们得到了图像的色彩视觉平衡性特征EMDh.
同时,参考在LUV空间的做法,在RGB空间中,我们也采用同样的方法计算得到图像的色彩视觉平衡性特征EMD^b.这样,我们提取了二维EMD距离特征.
3.2.3图像能量
图像能量是从统计特性上描述图像的一种基本属性,是图像信息丰富与否的体现,它与图像美感密切相关.
由于图像的小波系数代表了图像的主要能量,本文对单通道图像进行3层Daubechies小波变换,并计算每一层变换的HH,HL,LH频带能量和,以此作为图像的小波能量值.
对于3个单通道图像JH,JS,IV分别进行3层小波变换得到每一层的小波变换系数为0^,|_={1,2,3};当i=l时,表示第一层小波变换.因此,每个单通道的每一层的图像能量可以表示为
其中,S,=|丨+|W1|+|丨M.每个通道的3层平均小波系数之和表示该通道的小波能量,对应求得3个通道的小波能量分别为£gH,我们提取3个通道每一层的能量及其小波能量,共12维特征,即/Z37〜/248.
3.2.4图像景深
在摄影中,景深是当镜头对准某一点聚焦时其前后都仍可清晰的范围,它能决定是把背景模糊化来突出拍摄对象,还是拍出清晰的背景.专业摄影师往往通过设置小景深得到主体清晰、背景模糊的照片,从而达到中心明确、突出主题的目的,这样的图像往往更具美感.
参考文献[4]的做法,我们利用HSV图像的Daubechies小波变换来定义景深.首先对图像进行4X4的网格分割,得到16个矩形图像分块,按照从左到右、从上到下的顺序标明图像分块序号,依次是{M,,M2,-,M16},中心区域位置为{Ms,M7,M10,M„}.接着对图像3个单通道图像(JH,JS,JV)进行3层Daubechies小波变换,然后计算小波系数能量值用以衡量景深.景深(lowdepth,LD)定义[4]为
其中,W3(x,y)为单通道图像经过3层小波变换后像素p(x,y)的小波系数能量值;而M,G'=1,2…16)表示各个用于景深计算的图像分块.
为此,对HSV图像3个单通道图像JH,IS,JV计算的景深值分别为LDH,LDS,LDV,即特征f24s〜/251。
3.3 区域特征
图像的关键区域包含了图像最主要的信息内容.视觉心理学研究表明,在观察图像时,关键区域会吸引人们大部分的兴趣和注意力.因此,在美学分析中,关键区域相比其他区域更有价值.Wong等[7]利用视觉显著模型提取显著区域,并提取显著区域的区域特征,将其应用到图像美学分类中,提高了分类正确率.
对于图像的关键区域,人们往往更多地关注该区域的颜色分布、纹理情况、形状大小和形状比例等.因此,本文计算了关键区域的颜色矩和形状比特征,颜色矩包括H,S,V3个颜色通道的一、二、三阶矩(/252〜/26。),形状比(/m)为关键区域像素总数与原图像的像素总数的比率,得到10维的区域特征.
最终,对每一幅图像提取了包括低层特征、高层特征和区域特征共261维的特征向量.
4.学分类与评估模型建立
自动将图像分为高美感和低美感类别是一个分类问题.SVM算法是一种监督学习模型,由Cortes等[22]首次提出,它的基本思路是构造最优分类超平面,使类间间隔最大.它解决了神经网络中过学习与欠学习的问题,在高维空间的运算避免了“维数灾难”,泛化性能好,在解决小样本、非线性、高维模式识别问题中优势较为明显.在图像美学分类学习中有较多采用SVM算法,已有相关研究验证了其在该领域的有效性.所以,本文采用SVM算法对图像进行高、低美感分类,并使用基于混渚矩阵的分类准确度来衡量分类性能.在分类模型测试中,通过网格搜索技术寻找到SVM中RBF核函数的最优参数C=256,y=0.5.
图像美学分数评估是模拟人的感知自动给出图像的美学分数,属于回归问题.本文采用SVR算法,并选用RBF核函数对其进行训练学习,获得美感分数评估模型.通过将模型自动评分的结果与人类主观美感评分进行对比,计算相关系数、均方根误差(RMSE)、平均绝对误差、平均相对误差和剩余标准差等指标来衡量系统的性能.其中相关系数越高、各类误差越小时,说明回归性能越好.在评估模型测试中,通过网格搜索技术寻找到SVR中RBF核函数的最优参数C=l.0,7=0.0625,e=0.5类,共得到高美感图像750幅,低美感图像644幅,用于美学分类实验.
本文采用第3节方法提取了261维的图像特征,分别采用SVM算法实现美感等级(高美感与低美感)的图像分类,同时采用SVR算法实现图像美学分数的评估.
为了验证本文提取的各类特征的有效性,我们对比了不同类别特征(低层特征227维、高层特征24维、区域特征10维)的分类效果和回归性能,如表1〜2所示•
从表1我们可以看到,只采用低层特征的平均分类准确率为72.21%;加人高层特征和区域特征后的平均分类准确率提升为75.37%.表2所示为美学分数评估的回归模型结果对比,其反映了模型自动评估结果与人类主观美学评分之间的相符合的程度.从表2中可以看到,当只采用低层特征时,美学分数自动评估结果与人的主观美学评价分数的相关性为0.753;加人高层特征和区域特征后,相关系数提高到0.79,同时各类误差都更低.
表1和表2的数据说明,本文提取的与人类的视觉系统、审美思维相关的高层特征和区域特征是有效的.通过本文模型能自动分析出图像的美感等级和美学分数评估值,结果符合人对图像的美学感知.图5所示为本文方法的评价示例.
5.2与现有方法的对比
在图像美学分类与分数评估研究中,最有影响力的是宾夕法尼亚大学Datta等提出的方法,他们的工作可以说是图像美学分类的一个里程碑.