有图片的,这里发不了图片,满意我的论文加分后联系我,我发给你。 基于关系数据库的模式匹配技术研究 摘 要 随着 网络 技术的 发展 ,信息处理需要对大量的、异构的数据源的数据进行统一存取,多源异构数据的集成 问题 就显得十分重要。而模式匹配是数据集成领域的一个基本技术。文章提出一种解决关系数据库语义冲突问题的模式匹配技术,以实现异构数据的共享与互操作。 关键词 数据集成;模式匹配;语义冲突 1 引言 随着 计算 机及网络技术的快速发展,网络上的各种信息以指数级爆炸性增长,成为了一个巨大的信息库,同时各 企业 单位开发了大量的软硬件平台各异的 应用 系统,在各种应用系统下又积累了丰富的数据资源。这样就形成了成千上万个异构的数据源,多为传统的关系数据库数据。这些数据资源由于软硬件平台各异、数据模型各异而形成了异构数据,使各数据源间的互操作变得复杂。为了更好地利用这些异构信息,以及不造成企业应用系统的重复建设和数据资源的浪费,模式匹配技术吸引了众多关注。本文针对模式匹配过程中存在的语义冲突进行分类,并提出了相应的解决策略,以达到异构数据源的共享和互操作。 2 模式匹配中的冲突问题 在数据集成领域中,由于数据源系统多是独立开发,数据源是相对自治的,因此描述数据的数据模型或存储结构经常会出现模式的不一致,数据源的自治性和数据源模式的异构性使数据源在共享和互操作上存在了语义冲突。这些正是模式匹配的焦点问题,它们形式上的性质使得人们很容易想到要用模式匹配去解决逻辑、语义和知识的描述问题。 对于描述模式匹配中的语义冲突有两种较有代表性的分类[4]。第一种分类将冲突分为异类冲突、命名冲突、语义冲突和结构冲突。第二种分类主要是对第一类异类冲突概念的一个细致的改进,但和其它分类仍有细微的不同,它把异类冲突看作是语义不一致的一类(如语义冲突),把冲突分为命名冲突、域冲突、元数据冲突、结构冲突、属性丢失和硬件/软件不同。 模式匹配是一项复杂而繁重的任务,所能集成的数据源越来越多,上述冲突情况也会越来越普遍,想解决所有的模式冲突是不现实的。本文主要解决关系数据模式之间的语义冲突。 3 模式匹配中的语义冲突 本文所提出的模式匹配 方法 是根据关系数据库的特点设计的。关系数据库中关系的基本单位是属性,属性本身就包含着语义信息,因此异构数据源语义相似性就围绕着数据源模式中的属性来进行,并在匹配的过程中解决异构数据源模式之间的一系列语义冲突。 1 语义匹配体系结构 本文提出的语义匹配体系结构采用数据集成中的虚拟法数据集成系统的典型体系结构,采用将局部模式匹配到全局模式的语义匹配体系结构,自下而上地建立全局模式。首先进行模式转化,消除因各种局部数据模式之间的差异所带来的 影响 ,解决各种局部模式之间的语义冲突等,然后在转化后的模式的基础上进行模式匹配,其主要手段是提供各数据源的虚拟的集成视图。 数据仍保存在各数据源上,集成系统仅提供一个虚拟的集成视图和对该集成视图的查询的处理机制。系统能自动地将用户对集成模式的查询请求转换成对各异构数据源的查询。在这种体系结构中,中间层根本不实际存储数据,当客户端发出查询请求时,仅是简单地将查询发送到适当的数据源上。由于该方法不需要重复存储大量数据,并能保证查询到最新的数据,因此比较适合于高度自治、集成数量多且更新变化快的异构数据源集成。 本文中的语义匹配的体系结构如图1所示。 2 关系数据库模式中语义冲突问题分类及其解决策略 大多数数据库系统提供了一套概念结构来对现实世界的数据进行建模。每一个概念结构被认为是一个类型,它可以是一种复杂类型或一种基本类型。类型和它所表示的数据间的联系就称为语义[3]。 在关系数据库中,一个关系模式是一个有序对(R,c),其中R为模式所指向的关系(表)的名称,而c则为具有不同名称的属性的有限集。同时,属性也是一个有序对(N,D),其中N为属性的名称,而D则为一个域。可以看出关系模式的基本单位是属性。属性本身就包含着语义信息,因此模式语义相似性就围绕模式中的属性来进行,并在模式匹配的过程中解决异构数据库模式之间的一系列语义冲突。 根据语义的定义,在关系数据库系统中,语义系统是由模式、模式的属性、模式中属性之间的联系和模式间的属性之间的联系构成。这里将语义分为3级:模式级、属性级和实例级。下面将异构模式中存在的语义冲突问题进行了分类,并阐述了各种语义冲突的解决策略: 1)模式级冲突 (1)关系命名冲突。包括关系名同义词和关系名同形异义词。前者进行换名或建立关系名同义词表以记载该类冲突;后者进行换名或建立关系名同形异义词表以记载该类冲突。 (2)关系结构冲突。分为包含冲突和相交冲突。包含冲突是指在含义相同的两个关系 R1 和 R2 中一个关系的属性集是另一个的属性子集。相交冲突是指两关系属性集的交不为空,我们用 attrset 代表关系的属性集。对包含冲突:①如果两个关系的属性集相同即attrset(R1)=attrset(R2),则合并这两个对象,Merge(R1, R2)into R3;②如果 attrset(R1) attrset(R2),则 attrset(R2')=attrset(R2)-attrset(R1),attrset(R1') = attrset(R1);③对相交冲突:通常概括语义进行如下解决:generalize(R1,R2)其中 attrset(R3)=attrset(R1)∩attrset(R2), attrset(R1')= attrset(R1)-attrset(R3);attrset(R2')=attrset(R2)-attrset(R3)。 (3)关系关键字冲突:两个含义相同的关系具有不同的关键字约束。包括候选关键字冲突和主关键字冲突。解决候选关键字冲突的 方法 是,将两关系的候选关键字的交集作为两关系的候选关键字;解决主关键字冲突的方法是,从两关系的公共候选关键字中选一个分别作为两关系的主关键字。 (4)多对多的关系冲突:两个数据库中用不同数量的关系来表达现实世界的相同语义信息,就产生了多对多的关系冲突,这种冲突分3种:一对多,多对一和多对多。解决方法是在表示相同语义信息的数据库中关系之间建立映射来表示多对多的关系。 2)属性级冲突 (1)属性命名冲突:分属性名同义词冲突和属性名同形异义词。前者的解决方法是,换名或建立属性名同义词字典;后者的解决方法是,换名或建立属性名同形异义词字典。 (2)属性约束冲突:分属性类型冲突和属性长度冲突两种。当在两个相关的关系R1和R2的属性N1和N2具有不同的属性类型时,就发生属性类型冲突。解决方法是在全局模式中将发生属性类型冲突的属性统一到某种属性类型。对属性长度的解决方法是,在全局模式中将发生属性长度类型冲突的属性对统一定义为最大者就可。 (3)多对多的属性冲突:两个数据库中的关系分别用不同数量的属性来表达现实世界中相同的语义信息时,就发生了多对多的属性冲突,这种冲突分3种:一对多,多对一和多对多。解决方法是在表示相同语义信息的数据库中关系的属性之间建立映射来表示这种多对多的关系。 3)实例级冲突 (1)不兼容关系实例冲突:当含义相同的数据项在不同的数据库中存在不一致的数据值时就发生了不兼容关系实例冲突。其解决方法是:将关系实例的最近修改作为关系实例冲突部分的值,但不能保证数据的正确性。 (2)关系实例表示冲突:关系实例表示冲突是指用不兼容的符号、量纲和精度来表示相关关系实例中等价的数据元素,主要包括表达冲突、量纲冲突和精度冲突。表达冲突是指在两个相关的关系R1和R2中含义相同的属性N1和N2具有不同的数据表达时,这种冲突使用语义值的概念来解决,即将表示同一概念的多种表达在全局数据中进行统一即可。量纲冲突是指在两个相关的关系R1和R2和中含义相同的属性N1和N2具有不同的量纲表示。量纲冲突也可以语义值加以解决,解决过程如下:分别定义发生量纲冲突的局部数据源的语义值模式和语义值说明,然后再定义全局数据模式中相应的语义值模式和语义值说明,将发生量纲冲突的属性值在全局模式中进行统一。精度冲突是指在两个相关的关系 R1 和 R2 中含义相同的属性具有不同的精度。其解决方法是在全局模式中将发生精度冲突的数据项定义为最高精度即可。 4 总结 本文针对异构数据源管理自治和模式异构的特点,提出了数据源集成模式匹配的体系结构,制定了匹配策略, 研究 了基于语义的模式匹配过程。以关系模式为 参考 模式,对异构数据源关系模式间可能存在的语义冲突 问题 进行了分类,并阐述了解决这些语义冲突的策略。 参考 文献 [1] Bergamaschi S, Castano S, Vincini M Semantic Integration of Semistructured and Structured Data Sources [J] SIGMOD Record, 1999, 28(1): 54- [2] Li W, Clifton C, Liu S Database Integration Using Neural Network: Implementation and Experiences [J] Knowledge and Information Systems, 2000, 2(1) [3] Reddy M P, Prasad B E, GReddy P A Methodology for Integration of Heterogeneous Databases [J] Information System, 1999,24(5) [4] Rahm E,Bernstein PA Survey of Approaches to Automatic Schema Matching[J] The International Journal on Very Large Data Bases (VLDB),2001,10(4):334- [5] 孟小峰,周龙骧,王珊数据库技术 发展 趋势[J]软件学报,2004,15(12):1822-1835 [6] 邓志鸿,唐世渭,张铭,等Ontology研究综述[J]北京大学学报( 自然 科学 版),2002,38(5):730-738 [7] 郭志鑫基于本体的文档引文元数据信息抽取[J]微 计算 机信息,2006,22(6-3) 相关文献: 基于XML的多数据库系统集成数据模型 - 华中科技大学学报:自然科学版 - 卢晓蓉 陈传波 等 基于CORBA和XML的多数据库系统研究 - 郑州轻工业学院学报:自然科学版 - 张素智,钱慎一,卢正鼎, 集成数据库和文件系统的多数据库事务模型 - 华中理工大学学报 - 卢正鼎 肖卫军 基于主动规则对象的分布式多数据库系统集成 - 小型微型计算机系统 - 胡华,高济, 基于CORBA的多数据库系统 - 计算机科学 - 石祥滨 张斌 基于XML的文件系统与多数据库系统的集成 - 小型微型计算机系统 - 卢正鼎 李兵 等 基于CORBA/XML的多数据库系统的研究与实现 - 计算机研究与发展 - 卢正鼎 李兵 等 多数据库系统集成平台CMDatabase体系结构 - 计算机工程 - 魏振钢 郭山清 贾忠伟 多数据库系统的数据模式集成与查询处理 - 电脑开发与应用 - 陶世群 数据库网格:基于网格的多数据库系统 - 计算机工程与应用 - 任浩 李志刚 肖侬 高校学生收费系统基于多数据库系统集成的一种实践 - 昆明冶金高等专科学校学报 - 杨滨生,蒋涛勇,张中祥,谢静静, 基于RDBMS的地理信息集成数据库系统 - 计算机工程 - 江崇礼 王丽佳 等 基于CORBA的异构数据库系统集成模型的研究 - 现代计算机:下半月版 - 陈刚 基于分布式对象技术的多数据库系统 - 计算机工程与科学 - 韩伟红 隋品波 基于CORBA的多数据库系统互操作技术 - 计算机科学 - 肖明,肖毅,