摘要:针对目前xml数据流处理中通常采用的查询语言xpath和xquery均不支持空间运算,无法应用到空间数据流处理技术中的问题,设计了一种通过扩展现有商业化xquery引擎功能基础上的空间数据流检索方法。
关键词:可扩展标记语言数据流; xquery;空间数据
随着web应用中数据交换越来越频繁,产生了大量不间断的数据流。由于xml已经成为internet环境中数据表示和交换的标准,数据流大量以xml格式表现。如何从不间断的xml数据流中匹配、抽取和转换部分数据流以满足商务应用的需求成为当前国际数据库领域的一个研究热点。目前针对xml数据流的处理研究有很多,但研究的对象均是普遍意义上的xml数据流,对于以xml格式表现的空间信息及查询中需要空间关系运算的数据流处理研究较少。研究如何在目前的xml数据流处理中支持空间运算有着重要意义。
1存在的问题
在目前针对xml数据流的研究中,其基本思想都是将用xpath表示的查询表达式转换为状态树型自动机,处理程序以流的方式接收并处理xml 文档,看其满足哪一个状态节点的要求以触发查询匹配操作。如果满足所有状态节点的要求,则向用户返回相关的文档或结果[1]。由于xpath表达复杂查询的局限性,w3c制定了专门针对xml的查询语言规范xquery。xquery 语言的核心是xpath 和flwor(for、let、where、order by和return) 表达式,复杂的xquery查询语句很难用合适的状态机来表达。Www.133229.cOm将xquery直接改造成xml数据流的查询语言也引出了大量研究[2~5]。目前标准的xpath和xquery规范均不支持空间数据类型及空间运算,且空间分析功能算法复杂。通过这些规范自身的数据类型定义和基本函数库来实现复杂空间数据类型以及空间分析功能的扩展很困难,使得这些研究很难应用到包含空间运算的数据流查询中。要在xml数据流查询中支持空间运算,需要先扩展xquery规范以支持空间数据操作函数。自定义实现支持空间运算的xquery引擎是理想的方法。文献[6,7]中已提出了直接扩展xquery以支持空间功能的方法。但自定义实现xquery引擎需要完整的词法分析、语法分析、查询规范化以及翻译执行等,使得这些方法均停留在理论阶段,很难实际应用。
针对这些问题,本文设计了一种在商业化引擎基础上扩展xquery空间功能的方法,然后以事件流处理方式接收xml文档以实现空间数据流查询的方法。
2xquery引擎空间功能的扩展
扩展xquery引擎以支持空间运算,除了自定义实现支持空间运算的xquery引擎方法外,还可以利用现有的xquery引擎进行扩展。目前的商业化xquery引擎均提供使用外部函数的功能扩展方法,如目前知名的商业化xquery引擎saxon提供的功能扩展机制可以允许在xquery查询语句中调用java或.net方法作为外部函数。其使用方法简单,只需要在xquery查询语句中声明外部函数所在的名称空间就可以调用外部方法。这为xquery引擎实现包括空间分析的查询提供了便捷的途径。
2.1空间数据类型的表达方法
采取调用外部方法来扩展xquery引擎的功能,不可避免地会产生空间数据作为参数传递的问题。以采用java语言实现扩展方法为例。虽然容易用java对象表达各种空间数据类型,但由于xquery引擎规范本身不支持直接以java对象表达的空间数据类型,为了使xquery语句中支持空间数据类型并能够使空间数据在java类和xquery引擎中传递,需要找到一种合适的空间数据表达方法。
gml是一个用xml schema描述的xml语法,用来进行空间和非空间的地理信息建模、传输和存储。gml已成为web应用中所接受并容易理解的一种空间信息的交换格式。由于gml文档本身也是一个xml文档,可以用dom对象document来表达,在saxon的xquery实现中能够支持dom对象的传递,采用gml表达空间数据以支持空间数据在xquery引擎与外部java类之间的传递成为自然的选择。将gml在xquery引擎与外部方法之间进行传递,需要引入gml的schema描述。在gml规范中,feature.xsd定义了抽象地理特征模型,geometry.xsd定义了具体的几何形状信息,提供了点(point)、线(line)、多边形(polygon)、点集(multipoint)、线集(multiline)和多边形集(multipolygon)等基本几何图形以及复合类型(complex type)的几何图形。在本方法中只用到了空间数据类型的几何定义,所以引入geometry.xsd即可。在xquery语句中定义如下:
import schema namespace gml="http://schemas.opengis.net/gml/"
at" geometry.xsd";
引入gml的schema后,可以将gml进行描述的空间变量定义为schema限制的element变量作为参数进行传递,定义如下:
let$p=doc(′test.xml′)/schema-element(gml:linestring)
2.2空间功能的扩展
定义了空间数据的表达方式后,对空间运算功能的实现在外部方法中进行。参照文献[6]中定义的空间方法,本文定义了spatial类封装,实现了部分空间方法。由于saxon的xquery 实现中,支持对java类的静态方法调用以及实例化对象方法调用,但对于需要实例化对象的方法调用相对复杂。为了方便调用,所有空间方法均定义为spatial类的静态成员方法。定义如下:
public class spatial{
public static boolean within(document a, document b){…}
public static boolean toughes(document a, document b){…}
public static boolean crosses(document a, document b){…}
……}
实现了上述定义空间方法后,通过该类就可以扩展saxon的xquery引擎。扩展方法很简单,只需在xquery语句中声明该空间类的名称空间,在查询语句中需要空间运算的地方调用该类的各种方法即可。比如要使用空间包含的方法,先声明名称空间:declare namespace spatial=“java:myclass.spatial”;然后只需在调用方法前加入名称空间即可,如spatial:disjoin(…)。
另外需要注意的是,如果扩展的方法返回值不是简单数据类型则需要进一步处理。本文方法只是返回空间的包含相交等关系是否为真,是简单的布尔类型,不需要进一步处理。
3基于扩展引擎的空间数据流查询方法
参考文献:
[1]高军,杨冬青,唐世渭,等.基于树自动机的xpath在xml数据流上的高效执行[j].软件学报,2005,16(2):223-232.
[2]koch c, scherzinger s, schweikardt n, et al. schema-based scheduling of event processors and buffer minimization for queries on structured data stream[c]//proc of the30th vldb conference. toronto:eprint arxiv, 2004:228-239.
[3]fegaras l. the joy of sax[c]//proc of the 1st international workshop on xquery implementation, experience, and perspectives. paris:maison de al chimie,2004:61-66.
[4]li xiao-gang, agrawal g. efficient evaluation of xquery over streaming data[c]//proc of the 31st vldb conference. trondheim, norway:[s.n.], 2005:265-276.
[5]bose s, fegaras l. data stream management for historical xml data[c]//proc of sigmod. new york:acm press,2004:239-250.
[6]guan ji-hong. gql: extending xquery to query gml documents[j].geospatial information science,2006,9(2):118-126.
[7]杨颖,韩忠明,杨磊. 数据流的核心技术与应用发展研究综述[j].计算机应用研究,2005,22(11):4-7.
[8]chung w. an extension of xquery for moving objects over gml[c]//proc ofinternational conference on information technology: coding and computing. las vegas:ieee computer society,2004:142-147.
[9]writing extension functions in java, saxon documentation[eb/ol].[2006]./documentation/extensibility/functions.html.
[10]russell g. typex:a type based approach to xml stream querying[c]//proc of international workshop on the web and databases (webdb).uk:acm sigmod,2003:55-60.
[11]於荔,鲍培明,张书亮.gml空间数据的对象化存储研究[j].南京师范大学学报:工程技术版,2006:6(1):67-71.
[12]兰小机,闾国年,刘德儿,等.基于xquery的gml查询语言研究[j].测绘科学,2005,30(6):99-102.