1 网络信息资源导航的现状
遍布全世界的主机和服务器,错综相联的超媒体资源,这是互联网为我们所构建的一个巨大而丰富的电子信息空间。它无疑是现代社会最重要的信息获取手段,但是它的开放性、分布性、无序性以及惊人的发展速度也为人们对信息资源的利用带来了困难。正如在大海中行驶的船只需要导航系统确定方位一样,要想在茫茫的信息海洋中有效获取有用信息,也必须拥有便捷有效的信息导航技术。一般来说,www网络中常用的信息导航方式有三种:一是利用门户网站的分类索引;二是利用网络搜索引擎;三是利用网站的相关链接。但是目前这三种信息导航方式的效果都不尽如人意。分类索引所覆盖的网络站点范围太小,更新较慢,难以适应网络的快速增长,而且分类标准的不统一和不规范常常影响到用户对站点所属的判断,造成导航失败。搜索引擎虽然是目前主要的网络信息检索工具,但是通过简单的逻辑运算检索到的结果往往是数量庞大且鱼目龙杂,充斥着大量的无用和重复信息。网站的相关链接是指符合当前网站内容主题的内部和外部信息资源的超链接,这种导航方式虽然简单直接,但是信息量非常有限,而且对外部信息的链接常常出现错链和假链,即使是内部信息,也常常因为组织和描述方式的影响,造成用户的“资源迷向”。
用户在信息空间中的“迷航”会使他们感到厌倦而丧失获取信息的信心,分析其原因,主要包括以下几个方面[1,2]:
(1)网络的巨大信息量使人们必须依赖于自动化的处理技术。但是目前因特网的各个网端的技术支持环境比较复杂,信息资源的内容范围、组织结构和存储方式各不相同,呈现出分散、无序、变幻多端的特点,这使自动信息处理技术的应用困难重重。因此要提高信息导航的效率和质量,必须先解决资源异构的问题。
(2)网络信息空间中的数据大多以半结构化和非结构化的形式存在,对信息资源的内容缺乏形式化的语义描述,而且大部分资源间的链接也没有反映语义关系,这使得机器很难对网络信息空间进行深层次的理解和处理,对信息的自动导航也无法像人工操作那样准确有效。
(3)目前的网络导航系统缺乏个性化的信息服务。由于知识背景的差异和一词多义等方面的原因,不同的网络用户之间、用户与系统设计者之间对于问题和信息内容可能会具有不同的理解与认识,当用户按照自己的思路查找信息时,他所选择的导航路径可能是错误的或者低效的。因此信息导航必须考虑具体用户的特殊性,有针对性地提供导航服务。
(4)网络导航系统的设计缺乏规范。门户网站各自依据不同的标准建立自身的分类导航系统,网站的划分随意性较大,常常引起用户的困惑。一些着名的信息搜索引擎也各自采用不同的检索规则,有些系统不能利用历史信息或者不提供二次检索,给用户的使用带来不便。另外,在网站内部的导航系统设计上,也存在着导航结构不合理,导航要素不完整,导航界面不统一等问题。这些都可能造成用户的导航障碍。
由此可见,造成信息“迷航”问题的主要原因在于缺乏信息空间的合理组织和有效的导航机制,这也是第二代web网络技术难以克服的困难。为此,人们正在研制第二代web网络——Semantic Web,它以结构化信息表示为主,为网络导航研究开辟了新天地。
2 Semantic Web技术
Tim Berners Lee在1998年提出了Semantic Web的概念。2001年2月,W3C组织正式推出Semantic Web Activity,使网络环境下的语义处理技术研究渐入佳境。Semantic Web研究活动的目标是开发一系列可由计算机理解和处理的语义表示语言和技术,通过显式的语义表示和领域本体将网络信息空间编织成为一个巨大的机器可读的知识网络,以支持自动化的信息访问和知识管理,实现高质量的网络信息服务。目前关于Semantic Web的研究主要集中在网络信息资源及其内容的语义和语义关系表征,基于语义的数据自动分析、理解和处理,不同应用领域和系统间的数据自动交换、转换和复用。Semantic Web虽然是现有web网络的延续,但在信息导航方面具有许多普通web没有的优势。Semantic Web中的节点既可以代表物理页面,也可以代表知识实体;Semantic Web中网页的内容不但可以被人理解,而且可以被机器理解;Semafitic Web中的链接不再是任意的,而是遵循一定的语义关系。通过Semantic Web技术,可以改变现有网络松散的数据结构,将信息资源结构化并赋予含义,使网络信息的整合和自动处理都变得更加容易。
2.1 本体
所谓本体(Ontology),实质上是描述特定应用领域知识的公认的术语集。关于奉体的定义,比较着名的观点是“本体是概念模型的一个显式的规格说明”和“本体是共享概念的一个形式化的规格说明”,其中,“概念模型(Conceptualization)”是指通过对某个客观现象的相关概念进行辨析和提取而获得的关于该现象的抽象摸型;“显式(Explicit)”是指对所使用的概念的类型,以及这些概念在应用上的约束都给予明确的说明;“形式化(Formal)”表示本体以计算机可读的形式存在;“共享(Share)”表示本体中反映的是共同认可的知识”。
本体通常表达为一组对象(概念)、关系、函数、定理和实例。本体中的对象类按照等级关系组织成基本的结构体系。等级关系包括例化(is-a)关系、类属(kind-of)关系和整部关系(part-of)。上层的对象类为父类,下层的对象类为子类。对象类具有各自的属性,并可依据父子关系继承。对属性的取值对象、取值范围、取值基数等都可以加以限制,还可以对属性的交换性、对称性、传递性、唯一性等进行定义。除了等级关系,本体中的对象类间还可以具有其他语义关系,形成语义网络形式的概念模型。本体是机器自动推理和智能化高级信息服务的基础,对网络而言,一个简单的本体的典型例子就是网络的分类索引(如Yahoo!的分类目录)。本体的应用对于提高网络导航的精度和效率具有重要的意义[1,4)。
2.2 RDF和RDFS
RDF是由W3C开发的元数据描述机制,其目的主要是为元数据在网络上的编码、交换和重用提供一个基础。它允许在XML的基础上以一种标准化的、互操作的方式对数据语义进行定义,提供了一个描述web资源的数据模型。RDF包含描述资源的属性和关系的声明。资源是任何用URl(Uniform Resource Identifier)唯一标识的实体对象。资源具有属性,属性则具有一定的值,该值可能是简单的字符串或数字,也可能是自身也具有属性的其他资源。这样,资源、资源属性和属性值构成了RDF声明中的三元关系模式,任何本体或描述性元数据都是这种三元关系模式的具体体现”[1,7]。
为了描述元数据元素间的复杂语义关系,W3C进一步定义了RDFS(RDF Schema)。它可以看成是一个本体定义语言,用来建立概念类体系结构、属性层次和类关系。
3 基于Semantic Web的智能导航机制
Semantic Web的出现为网络信息导航提供了新的研究思路,Semantic Web技术是解决无序网络空间中“迷航”问题的关键技术。基于Semantic Web的智能导航是一种以结构化、语义化的概念知识网络为基础,自动形成个性化导航结构的方法。它分为两个方面,一是基于Semantic Web的信息组织,即利用参考本体对各信息源进行语义描述和整合;二是基于Semantic Web的个性化导航结构模型的构建,即在有序语义组织的基础上,构造用户语义模型,并据此建立导航结构。图1显示了基于Semantic Web的智能导航机制的概念结构。
3.1 基于Semantic Web的信息组织
基于Semantic Web的信息组织的基本思想是,将来自于多个异构信息源中的数据整合到一个语义统一的参考本体中。参考本体是通过分析领域中的各个信息资源集合,提取公共概念、属性和关系而构建的本体,它为所有信息资源提供统一的概念集合和通用语义。
信息整合的方法是先分别将各个信息源中的数据转换为通用的数据模型,然后建立各个数据模型和参考本体之间的映射关系。网络中的信息源具有各种各样的数据格式,其中大部分是HTML页面,有的包含表格和列表。另外还有XML文档、RDF文档以及关系数据库文档等。为了解决分布式异构信息源的语法相异问题,需要将数据转换为公用的数据模型格式,例如RDF。对于非RDF格式的信息数据,可以利用外覆包(wrapper)技术将其自动地转换为基于RDF的数据模型。外覆包对特定格式的数据文档进行解析,并采用RDF声明对其内容进行标注。下面是三种常用的外覆包:
(1)HTML外覆包。由于HTML页面属于半结构化的信息数据,因此HTML外覆包采用的是半指导性的标注方法。即预先手工标注一组HTML页面,然后对新的HTML页面进行结构分析,将新页面与标注页面进行比较,从中提取相关信息。HTML外覆包还可以处理异构的XML文件[1]。
(2)XML外覆包。根据DTD和Schema所定义的XML文档的内容结构和内容元素,建立概念集与DTD Schema之间的映射关系,从而自动地将XML文献中的DTD内容元素标记转换为对应的概念集元数据标记。
(3)关系数据库外覆包。将关系数据库中的数据元素和二维数据关系映射到概念集中,形成语义基础,以便从关系数据库中自动创建RDF声明。
由于不同的信息提供者可能会使用不同的词表来标注数据,因此在建立通用数据模型后,还必须在信息数据源和参考本体之间建立概念和关系的映射,以消除语义差别。根据RDF声明,在参考本体中注册相关内容的来源,使参考本体成为一个知识内容的集成文件。另外,采用基于本体的元数据发现和漫游技术,探测相关的RDF声明,可以自动地添加新的信息资源。
4 结束语
网络信息的利用状况不容乐观,迫使人们努力探索更为先进更为成熟的导航理论、方法和技术。第二代web技术——Semantic Web在信息服务中的应用,促进了网络导航新技术的发展。它作为导航系统的信息组织框架,能够使复杂的信息空间变得有序、清晰和直观,它采用机器可读的形式化的知识表示方式,有利于知识内容的自动获取。目前,Semantic Web技术正获得越来越多的应用,相信经过不断地研究和优化,以Semantic Web为基础的高级网络信息服务将逐步成熟,智能、高效、个性化的导航系统将成为开发网络信息资源的主流工具。
【参考文献】
1 丛敬军,阎辉.数字图书馆的知识信息导航技术研究.中国图书馆学报,2003,29(145):51~53
2 马瑞民,衣治安.Web上超文本数据导航方法的研究.情报学报,2001,20(5):538~544
3 张晓林.Semantic Web与基于语义的网络信息检索.情报学报,2002,21(4):413~420
4 刘柏嵩.基于知识的语义网:概念、技术及挑战.中国图书馆学报,2003,29(144):18~21
5 Mike Uschold,Michael Gruninger.Ontologies:Principles, Methods and Applications.Knowledge Engineering Review,1996,11(2):93~155
6 Jeff Heflinetal.Requirements for a web ontology language. http://www.w3.org/TR/webont-req/
7 张平,郭金庚.语义网描述语言分析.电脑开发与应用,2003,16(4):31~33
8 OntoWebber Model-Driven Ontology-Based Web Site Management.http://www-db.stanford.edu/pub/gio/2001/ Ontowebber01.pdf
9 Ontology-Based Personalized Search and Browsing.http:// www.ittc.ku.edu/~sgauch/selectedpapera/WLAS2003.pdf
10 毕强,刘早学.QUIC——一个智能超文本导航系统.情报学报,2002,20(12):1277~1281
11 杨卫东,施伯乐.基于状态图的Web导航模型及其特征分析.计算机研究与发展,2002,39(8):992~997
12 钟元生.面向对象的Web导航模型设计.计算机应用,2002,22(12):50~52