摘 要:随着因特网规模的不断增大,用户需要更加完善的信息检索工具。本文的研究范围主要是信息检索技术中的查询扩展算法,我们重点关注利用混合关系模型进行查询扩展的效果。
关键词:信息检索;查询扩展;混合关系模型
一、引言
在当前的信息检索模型与系统中,词不匹配成为影响信息检索效果的重要原因之一。解决这一问题,目前多采用查询扩展技术。查询扩展指在检索前,先根据扩展词表自动把用户查询关键词的同义、近义词扩展进来形成新的查询,再提交检索。其核心是从词的概念层次来认识和扩充用户的检索请求,以提高检索的查全率。
本文主要探讨混合关系模型进行查询扩展的效果。本文实验中使用的查询引擎是Indri。使用文本集为AQUAINT文档集,该文档集包含1033461个文档。
二、本文使用模型
本文当中使用Metzler的依赖模型来获得词的临近信息,它可以提高“词袋”模型下的查询精度。所谓“词袋”模型,就是文档的表示方法不显示词与词的位置关系和语义联系,只反映文档中包含什么词。下面以一个查询为例子,如查询“arrests bombing wtc”,我们从该模型中得到的加权结果是:
#weight (0.8 # combine(arrests bombing wtc))
0.1 # combine(#1(arrests bombing)
#1(bombing wtc)
#1(arrests bombing wtc))
0.1 # combine(#uw8(arrests bombing)
#uw8(arrests wtc)
#uw8(bombing wtc)
#uw12(arrests bombing wtc)))
类似的利用该模型就可以获得词的临近信息。这一信息在文档排序阶段可以起到十分重要的作用。
三、混合关系模型
Lavrenko提出的相关模型也可以帮助我们很容易的获得合适的查询语句。扩展词的来源是检索结果集中排在前面的文档,即相似度较大的文档。我们仍使用他的这一思想,现在我们引入多个文档集。本文使用的是贝叶斯方法:
我们把这一模型标注为Rc,其中c指文档集,Rc为文档集中文档的数量。将的值设为,而对于所有的Q,=P(c)。即对于所有的查询来说,混合的权值都是相等的。如果能够对和P(c Q)采取灵活的自适应的取值方法,也许会获得更好的效果。这也是我们下一步的研究方向。以上面的简单假设为基础,对查询语句可以获得以下估计:
现在我们拥有了一个查询语句的模型,并且该模型的基础是多个文档集而不是传统的单个文档集。查询扩展的过程非常简单:根据 P(wQ)的值找到与查询语句最相近的词,然后将其加入原查询。在本文中使用的混合文档集中包含两个文档集,AQUAINT和BIGNEWS以及TREC会议测试集(包含6160058个文档)。由于目前质量较高的中文文档集比较稀少,所以一般都采取英文文档集进行实验,并方便与现有的国外算法进行对比。
四、实验设置及结果
本文使用的方法如下:indriRdmT和indriRdmD方法只使用依赖模型,两者的不同之处在于一个是对标题文档集(T)一个是对摘要文档集(D)。而indriRdmeT和indriRdmeD则既使用依赖模型又使用混合相关模型。其中P(bignews)的取值为1,P(aquaint)的取值为0。而indriRdmmT方法也是采用两种模型,只不过P(bignews)的取值变为0.6,而P(aquaint)的取值为0.4。本文中使用的测评指标是MAP,GMAP和Area,这几种测评指标也是TREC会议等权威会议通常使用的测评指标。实验结果如表1,表2所示:
表1在标题文档集上的实验结果
RunID | MAP | GMAP | Area |
indriRdmT | 0.2159 | 0.1354 | 1.4250 |
indriRdmeT | 0.3204 | 0.1967 | 2.3777 |
IndriRdmmT | 0.3323 | 0.2061 | 2.6330 |
RunID | MAP | GMAP | Area |
indriRdmD | 0.1996 | 0.1015 | 0.9016 |
indriRdmeD | 0.2818 | 0.1611 | 1.9899 |