基于本体的语义信息检索技术的研究

摘　要：基于关键词处理的传统检索技术会在检索过程中遗漏大量与检索概念相关或同义的内容。针对这种情况,提出了一种基于本体的Web信息检索模型。它利用领域本体知识库对用户的查询要求进行领域分类和语义扩展, 并且将检索到的文档在语义层次上进一步过滤, 从而克服了目前的检索工具仅提供基于关键字的检索, 而忽视关键字本身语义信息所造成的错检和漏检。

关键词：本体；信息检索；语义
1 引言
　　目前的搜索引擎所广泛使用的信息检索技术主要包括了以下两类:
　　(1)基于关键词匹配的条件检索通过对用户输入的检索条件切分后形成的关键词集合在Web 文档中寻求对应和匹配的结果进行检索, 检索的文档对象中只要存在和检索条件一致的关键词, 此文档就作为检索结果集的一部分返回给用户。
　　(2) 基于分类目录的导航式检索采用了一种直观的树型结构, 把待检索的信息按照其内容结构进行分类组织。用户只需要按照目录提供的检索信息的组织形式一步一步导航, 选择感兴趣的领域主题, 逐渐缩小查询的范围, 最终寻找到自己所要寻找的信息。
　　只通过关键词进行匹配,会遗漏大量与检索概念相关或同义的内容。检索的查准率和查全率都不能得到保证。因此, 把Web 信息检索从目前基于关键词层面提高到基于本体论的语义层面, 使检索过程由原来的关键词组匹配进化为语义匹配, 从而克服上述仅有关键词形式上的匹配所带来的种种缺陷, 是解决这些问题的根本和关键。本文借助于本体论, 提出了基于本体论的Web 信息检索原型系统, 在一定程度上实现了用户检索要求与网络文档的内容匹配, 进而提高了查全率和查准率。
2 本体的定义
　　Ontology最早是一个哲学上的概念,从哲学的范畴来说,Ontology是客观存在的一个系统的解释或说明知识库为信息源提供必要的语义标注信息, 从而使系统对领域内的概念、概念之间的联系及领域内的基本公理知识有一个统一的认识, 进一步提高了系统的联想能力和精确性, 为用户提供更有价值的信息。
如图1所示为基于本体的信息检索模型的基本框架, 该模型有四大部分组成：用户界面模块，查询语义扩展模块，概念层次过滤模块和自动摘要模块。

　　　　　　　　　　　　　　　　　　图1 基于本体的信息检索模型

　　（1）用户界面模块：用户界面模块为用户提供了与系统交互的接口, 接受用户的查询请求, 把查询请求提交给查询语义分析器去处理; 用本体论加以规范后查询领域本体知识库，从中找出出现该查询请求的各个领域，然后将其领域以及在该领域下查询请求的含义罗列给用户，用户此时可根据自己的意图, 在界面上确定所需查找的领域及含义。.
　　（2）查询语义扩展模块：查询语义扩展模块是系统实现的核心模块。查询语义分析器会对用户选择好查找领域的查询请求进行分析, 并且根据一定的查询扩展策略将用户的查询概念关系映射成为本体中的概念和关系, 并且以此作为语义扩展的基础, 生成新的检索表达式, 同时将其提交给推理机进行语义推理。推理机参照领域本体, 根据已有的公理、定理对语义元数据库当中的元数据进行推理, 加入新的检索词或短语。扩展的词汇是基于领域本体知识库原检索词的同义词以及相关词的, 也就是说最终的查询请求是基于用户原始查询请求中关键词的一系列同义词及相关词。
　　（3）概念层次过滤模块：概念层次过滤能够把搜索引擎返回的检索结果进行进一步处理, 主要是对检索到的网页进行主题概念提取, 如果提取出的主题概念和初始检索的主题概念不相匹配或者差距较大就将这些检索结果过滤掉, 从而减少返回网页中不符合用户请求的网页的数量, 提高检索系统的查准率。
　　(4) 自动摘要: 自动摘要是检索时返回网页的简要概述, 是建立在篇章理解和摘要生成相结合的基础上的。篇章理解, 就要对网页中的文本的每一个语句进行句法、语义分析, 对全文作篇章分析, 然后确定文章的主题思想; 摘要生成, 则要选择恰当的词汇和句法方式来表达这个主题思想。这对自然语言的要求很高, 实现较为困难。目前生成的文摘大多是摘录性的, 即把全文中能表达文章主要意思的句子挑选出来, 合在一起作为摘要。
5 主要的技术要点
5.1领域本体的构建
　　由于没有统一的原则,加上每个实际构建的本体的类型和应用情况也不同,几乎每一个系统的开发都会产生一些不同的本体构建方案。目前为止, 本体构建中比较有名的几种方法包括TOVE 法、METHONTOLOGY 法、骨架法、KACTUS法、SENSUS法、DEF5法和七步法等。但是, 目前本体工程中尚没有标准的权威的方法论,缺乏标准化的管理和制约。以上几种方法均是在各自相应的本体构建项目中总结出来的, 可以通过软件生命周期法IEEE107421995作为参照标准进行方法论成熟度的评价。7 种方法的成熟度依次为: 七步法、METHONTOLOGY 法> IDEFS 法>TOVE 法> 骨架法> SENSUS 法、KACTUS 法。
　　这里介绍一下七步法的思想和步骤，斯坦福大学开发的“七步法”主要用于领域本体的构建, 其具体步骤包括7个阶段： ①确定本体的领域和范围; ②考虑复用现有的本体; ③列出知识本体中的重要术语; ④定义类和类的等级体系; ⑤定义类的属性; ⑥定义属性的分面; ⑦创建实例。
5.2查询预处理技术
　　当前信息检索工具提供给用户的主要是基于关键词的检索接口，但是在很多情况下用户真正的检索意图很难用几个关键词清楚地表达，这是导致现有检索系统不能满足用户需求的主要原因之一。而另一方面用户在进行信息检索时，并不一定对他所检索的领域比较熟悉，有可能对其所查的内容不能按照领域内规范的表达方式进行表达，因此为了能够更好的让用户表达出他的检索意图，应提供给用户的检索接口是自然语言的表达方式。用户可以以自然语言的方式向系统提出问题，例如某个用户希望知道中国的人口数量，他可以提出问题：“中国的人口是多少?”，此时我们利用领域本体中的知识和一些简单的自然语言理解的技术对用户的问题进行查询预处理，得到用户真正的检索意图，然后再将预处理后的检索请求提交给系统的查询模块。问题处理过程，如图2所示
　　　　　　　　　　　　　　
　　图2
5.3语义推理
　　推理分为两种：关键词的语义匹配和相关性扩展。语义匹配的作用是对用户所输入的关键词进行语义的分析，针对具有一词多义的词条，语义匹配提高了检索结果的精确性。传统的收集引擎只是根据单纯的关键词匹配来检索结果，并不能区分同一词条的不同含义，而本体对同一个词的几个不同语义都进行了精确的定义，每一个语义都对应于一个独一无二的URI。相关性扩展的作用在于获得与该词相关的其他词，因为在本体中定义了众多的与此词条相关的其它概念，所以根据本体中所定义的知识，还可以获取更多的与此关键词语义关联的词。
当前比较典型的本体推理机系统有Racer, Pellet, FaCT + +。Racer是德国Franz Inc 公司开发的一个采用描述逻辑作为理论基础的本体推理机，Pellet是美国马里兰大学MINDSWA项目组专门针对OWL - DL开发的一个本体推理机，基于描述逻辑表算法实现，FaCT + +是FaCT 的新一代产品，FaCT是英国曼彻斯特大学开发的一个描述逻辑分类器。
6 结束语
　　基于关键词处理的传统搜索引擎只能搜索网页中直接表达的内容，难以进行推理、实现间接的信息内容检索。本文通过分析现有信息检索技术的缺陷，提出了一个基于本体的信息检索模型，通过与领域本体知识库的交互, 将用户提出的查询要求进行语义上的扩充, 有效地提高了系统的查全率; 规范了查询要求的领域范围，同时将搜索引擎返回的原网页通过概念层次过滤模块进行过滤, 筛选出在语义层次上能更好匹配检索要求的网页, 增加了检索结果的准确度, 使用户避免了大量无用信息的人工筛选。这样, 就能使检索结果在较大程度上符合用户的真正需求。
参考文献：
. Data and Knowledge engineering ,1998 , 25 (122) : 161-197.