摘 要:本文介绍了一种基于相关反馈的图像检索算法,并实现系统与传统的图像检索系统进行性能比较。经实验证明,该方法有效提高检索效率。
关键词:
目前,基于内容检索的图像检索方法都是以计算机为中心的,一些查询结果系统计算认为是相似的,而用户却认为是不相似的,其主要原因是图像的低层特征和人类高层语义间存在“语义鸿沟”[1~3]。虽然计算机视觉、人工智能发展的程度远胜于前,但涉及高层语义概念和低层物理特征之间的映射还是很不尽如人意的。要解决这一矛盾,除了检索方法进行改进,尤其是低层特征的选取、表示及匹配,尽可能缩小其与高层丰富语义之间的差距就,更有效的方法即增进人机交互:计算机将查询的信息反馈给用户,由用户对查询结果进行评判并将信息反馈给系统,由系统做出相应调整进行再次检索[4]。这种反馈技术使计算机能够具有一定的学习能力,从而使检索结果逐步达到用户的要求
1 相关反馈技术概念
相关反馈技术最先是在文本检索领域中提出的。检索过程中,用户通常无法正确提出欲查询图片的检索关键字,进而无法检索到想要的图片。于是便产生了由用户自己通过不断修改查询表达以改进检索过程,称为查询优化(Query Reformulation)[5]。用户通过查看前一步检索结果,给出与用户提交的信息是否相关及相关程度,系统根据用户的反馈捕捉用户的实际查询意图,以此修正系统的查询策略如修改查询表达或者检索模型中的参数来提供更进一步的检索。由于相关反馈可以实时地修改系统的查询模型,从而为图像检索系统增加了自适应功能。
2 相关反馈交互过程
(1) 用户提交查询实例,可能是一幅或者一组图像;
(2) 系统获取查询实例的特征,并按照一定算法与图像库中其他图像进行特征的相似性匹配。如果计算出的相似度大于一个给定的阈值,就认为是相似的,并按照相似度进行排序,然后返回查询结果给用户;
(3) 用户从显示结果中挑选出一些自己比较满意即所谓的“符合图”或不满意的“不符合图”,提交给系统;
(4) 系统根据用户的交互信息转入另一个查询状态,直到用户找到目标为止。
基于迭代logistic回归的相关反馈
3 算法介绍
本文算法主要分为五部进行:
一、根据示例图像,由系统根据预设的方法检索出一组图像供用户标记;
二、用户根据个人判断其相关性对每个样本进行标记并将结果返回给系统;
三、对于返回的正负样本,系统根据logistic模型来建模特征向量里各分量的权重,并得到权重参数;
四、利用得到的权重参数来修改数据库中的图像特征向量的分量权重,并使用新的特征向量采用贝叶斯估计方法来计算数据库中图像的预测概率;
五、按照预测概率降序顺序输出排序前K幅图像。
这里着重介绍应用迭代logistic回归模型对图像检索中部分模块进行建模部分。
(1) 建模
在每一步迭代中,图像将分为两类:正样本和负样本。用户须将一个样本图像分别标记为两类中的其一。Y表示用户的标记,Y=1表示用户将此图像标记为正样本,Y=0表示用户将此图像标记为负样本。数据库中n幅图像都事先用一个低层特征来表示,每幅图像i都有p维特征向量。用xi表示第i幅图像的特征向量,yi表示用户对第i幅图像的标记,i=1,2,…,n,则图像相关数据可表示为(xi,yi)形式。
假设如上后,可应用logistic回归模型建模[6]。因为logistic回归是解决二进制变量分类响应的很有效模型。对于一个二进制响应变量Y和n个自变量x1,x2,…,xn,建立模型为,则
(1)
记,则上式可以表示为
(2)
当Y=1时,参数β表示xi对于logistic优势的影响,受其他xj的影响。
(2) 参数估计
模型的参数通过最大似然估计MLE函数来得到。求解步骤是:先由总体概率函数得到似然函数:;求出对数似然函数:;最后解方程 。由于所解方程是超越方程组,一般采用最小二乘法来拟合,由渐近的方法来得出。
(3) logistic回归模型
特征向量一般为高维向量,而图像样本个数较之维数数量较少,所以logistic回归模型无法一次性地很准确调整特征向量全部数值。故先对特征向量进行降维操作。常用方法是主成份分析法(Principal Component Analysis,PCA)。
处理小子集时多用基于迭代logistic回归的方法。将特征集分为K个小子集,每个子集可以有不同的元素。在每个小子集上分别使用该迭代模型来估计该小子集中元素的比例关系,K个子集的概率为α(1)(xi), α(2)(xi),…,α(k)(xi),每个子集中包含m个元素,则概率表示为; (3)
这K个子集组成一个特征向量,每个子集是其中的一个元素,再次使用模型进行建模:
(4)
用上上公式把代入到上公式,可得到最终公式为:(5)
使用上述公式可以实现降维。如果子集中特征向量的维数仍然较高,可以继续分成更小的子集。
(4) 特征向量划分
鉴于本文使用颜色和纹理结合的特征提取,两者所包含的语义不同,使用Logistic回归模型得到的权重参数值与其语义有关,所以先根据语义划分整个特征向量中两者的比例。
特征向量划分步骤:先分为两个子集:颜色子集为前15个颜色特征向量(xc1,xc2,…,xc15);纹理子集为后25个纹理特征向量(xl1,xl2,…,xl25)。由于在特征提取时将图像分为5个子区块,每个区块均代表一定语义,所以在每个子集中再分出5个更小的子集,则颜色子集表示为{(xc1,xc2,xc3), (xc4,xc5,xc6),…, (xc13,xc14,xc15)},纹理子集表示为{(xl1,xl2,xl3), (xl4,xl5,xl6),…, (xl23,xl24,xl25)}。
(1) 根据用户提交的示例图进行第一次检索,并将结果返回给用户标记;
(2) 对用户标记的正(负)样本,使用Logistic回归模型对图像的特征向量内部分量进行建模,计算出内部分量的权重β0,β1,…,βp;
(3) 修改数据库中图像相关特征向量的内部分量的权重;
(4) 用贝叶斯理论计算数据库图像的后验概率,得到下次图像出现的预测概率;
(5) 根据预测概率对图像进行排序,并输出前K幅图像。
4 实验内容与结果
本系统采用的测试图像数据库是从Wishington大小额的Groundtruth图像数据库(http://able,bus,flower,hill,horse ,building ,sea七大类,每类取100余幅图片。
实验结果
本实验分别对10名用户对10幅示例图进行检索,统计其性能。
传统无反馈法和本文相关反馈法查全率和查准率的比
较:
评价标准 | 查准率 | 查全率 | ||
传统无反馈 | 有反馈 | 传统无反馈 | 有反馈 | |
vegetable | 0.71 | 0.75 | 0.80 | 0.74 |
bus | 0.83 | 0.95 | 0.68 | 0.89 |
flower | 0.70 | 0.81 | 0.72 | 0.86 |
hill | 0.65 | 0.94 | 0.60 | 0.73 |
horse | 0.78 | 0.89 | 0.45 | 0.74 |
building | 0.42 | 0.65 | 0.63 | 0.72 |
sea | 0.90 | 0.97 | 0.75 | 0.93 |
根据以上数据可以看出,本文使用的相关反馈方法在一定程度上提高检索效能。
参考文献:
. International Journal of Information Technology, 2006,12(2): 97-105.