您当前的位置:首页 > 计算机论文>信息安全论文

基于混合关系模型的查询扩展

2015-12-14 14:32 来源:学术参考网 作者:未知

摘 要:随着因特网规模的不断增大,用户需要更加完善的信息检索工具。本文的研究范围主要是信息检索技术中的查询扩展算法,我们重点关注利用混合关系模型进行查询扩展的效果。

关键词:信息检索;查询扩展;混合关系模型
一、引言
  在当前的信息检索模型与系统中,词不匹配成为影响信息检索效果的重要原因之一。解决这一问题,目前多采用查询扩展技术。查询扩展指在检索前,先根据扩展词表自动把用户查询关键词的同义、近义词扩展进来形成新的查询,再提交检索。其核心是从词的概念层次来认识和扩充用户的检索请求,以提高检索的查全率。
  本文主要探讨混合关系模型进行查询扩展的效果。本文实验中使用的查询引擎是Indri。使用文本集为AQUAINT文档集,该文档集包含1033461个文档。
二、本文使用模型
  本文当中使用Metzler的依赖模型来获得词的临近信息,它可以提高“词袋”模型下的查询精度。所谓“词袋”模型,就是文档的表示方法不显示词与词的位置关系和语义联系,只反映文档中包含什么词。下面以一个查询为例子,如查询“arrests bombing wtc”,我们从该模型中得到的加权结果是: 

#weight (0.8 # combine(arrests bombing wtc))

0.1     # combine(#1(arrests bombing)

                        #1(bombing wtc)

                        #1(arrests bombing wtc))

            0.1 # combine(#uw8(arrests bombing)

                       #uw8(arrests wtc)

                       #uw8(bombing wtc)

                       #uw12(arrests bombing wtc)))

  类似的利用该模型就可以获得词的临近信息。这一信息在文档排序阶段可以起到十分重要的作用。
三、混合关系模型
  Lavrenko提出的相关模型也可以帮助我们很容易的获得合适的查询语句。扩展词的来源是检索结果集中排在前面的文档,即相似度较大的文档。我们仍使用他的这一思想,现在我们引入多个文档集。本文使用的是贝叶斯方法:

  我们把这一模型标注为Rc,其中c指文档集,Rc为文档集中文档的数量。将的值设为,而对于所有的Q,=P(c)。即对于所有的查询来说,混合的权值都是相等的。如果能够对和P(c Q)采取灵活的自适应的取值方法,也许会获得更好的效果。这也是我们下一步的研究方向。以上面的简单假设为基础,对查询语句可以获得以下估计:

  现在我们拥有了一个查询语句的模型,并且该模型的基础是多个文档集而不是传统的单个文档集。查询扩展的过程非常简单:根据 P(wQ)的值找到与查询语句最相近的词,然后将其加入原查询。在本文中使用的混合文档集中包含两个文档集,AQUAINT和BIGNEWS以及TREC会议测试集(包含6160058个文档)。由于目前质量较高的中文文档集比较稀少,所以一般都采取英文文档集进行实验,并方便与现有的国外算法进行对比。
四、实验设置及结果
  本文使用的方法如下:indriRdmT和indriRdmD方法只使用依赖模型,两者的不同之处在于一个是对标题文档集(T)一个是对摘要文档集(D)。而indriRdmeT和indriRdmeD则既使用依赖模型又使用混合相关模型。其中P(bignews)的取值为1,P(aquaint)的取值为0。而indriRdmmT方法也是采用两种模型,只不过P(bignews)的取值变为0.6,而P(aquaint)的取值为0.4。本文中使用的测评指标是MAP,GMAP和Area,这几种测评指标也是TREC会议等权威会议通常使用的测评指标。实验结果如表1,表2所示:
                          表1在标题文档集上的实验结果

RunID

MAP

GMAP

Area

indriRdmT

0.2159

0.1354

1.4250

indriRdmeT

0.3204

0.1967

2.3777

IndriRdmmT

0.3323

0.2061

2.6330

                        表2 在摘要文档集上的实验结果

RunID

MAP

GMAP

Area

indriRdmD

0.1996

0.1015

0.9016

indriRdmeD

0.2818

0.1611

1.9899

  通过实验发现与单独使用依赖模型相比,使用混合模式的实验效果有大幅度地提高。这也证明了该方法的可行性。而且通过实验可以看出,P(bignews)和P(aquaint)的取值对实验的效果也有明显的影响。下一步可以对权值设置这一问题作深入的研究。
参考文献:
[1]张敏,宋睿华,马少平. 基于语义关系查询扩展的文档重构方法.计算机学报, 2004, 27 (10) : 1395 - 1401
[2]Victor Lavrenko and W. Bruce Croft. Relevance-based language models. In Proceedings of SIGIR 2001,pages 120-127, 2001.

相关文章
学术参考网 · 手机版
https://m.lw881.com/
首页