摘要: 随着企业规模的不断扩大,各部门所需信息既相互交错,又相对独立。这就要求各部门所用的数据库既能高度自治地工作,又能进行信息共享。本文主要介绍多dm3数据库系统间的信息共享机制。 不同dm3数据库系统间的信息共享通过协调器实现。所有这些被协调器连接在一起的数据库系统组成了一个联邦数据库。这样既能较好地满足企业的需要,也能在保证效率的前提下,提高数据的可用性。
关键词: dbms 复制 联邦数据库
1.引言
随着经济的发展,企业的规模越来越大,其积累的信息也越来越多。存在着各部门所处理的信息多数只对本部门有效,仅有少数信息需给其它某些部门共享的问题。这种信息的分布性和独立性要求对所处理的数据进行分类,使各部门既能独立地处理本部门大多数数据,也使部门间能协调处理跨部门的事务。在这种情况下,对整个企业建立一个完全的紧密耦合的分布式数据库是很困难的,也是没必要的,特别是大型企业,这样的数据库的效率往往是很低的。
为解决这个问题,我们采用以下策略:每个部门使用一套紧密耦合的数据库系统,而在存在跨部门事务处理的数据库系统间用一个协调器联起来。这样就组成了一个横跨整个企业,各部门高度自治的联邦数据库系统。
dm2是由华中理工大学数据库多媒体技术研究所研制的数据库管理系统。它采用客户/服务器模型,客户机与服务器,服务器与服务器均通过网络互连,通过消息相互通讯,组成一个紧密耦合的分布式数据库系统。它的工作流程客户机登录到一台服务器上,这台服务器便成为它的代理服务器;它接收来自客户机的消息,然后根据全局数据字典决定是自己独立完成该操作,还是与其它服务器协作处理这条消息,处理完成之后,再由代理服务器将处理结果返回给客户机。
而数据字典,作为记录数据库所有元数据的系统表,它向以上过程中提供各类有用的信息,引导它们向正确的方向运行,起着“指南针”的作用。它分为局部数据字典和全局数据字典。其中,局部数据字典用于记录一个服务器站点中数据库的控制信息,如表的模式,视图的模式及各个数据区的的文件名等信息。全局数据字典用于记录分布式数据库系统中各个服务器站点上有关全局数据的控制信息,如服务器站点信息,各服务器站点的全局表名及表内码记录,各服务器站点上的全局数据视图名及视图内码记录,用户名及口令记录,用户权限记录等信息。各个局部数据字典可以各不相同,但为了保证在各个服务器上所看到的全局数据库是一致的,因此,全局数据字典必须一致。我们所关心的是全局数据字典中的基表控制块tv_ctrl_block,它的内容主要包括:全局基表总数,每个全局基表名和其对应的表内码,该基表所在的服务器站点的编号等信息。它的功能是将各个服务器站点号与存储在其上的表名及表内码联系起来。这样,代理服务器从客户消息中找到被处理的表名,然后通过查询基表控制块tv_ctrl_block,就能知道该表存在哪个服务器上,以便将相关消息发给该服务器。
由于dm2上各个服务器站点的全局字典完全相同,任何全局表的信息都会记入全局字典。若用它来构建一个企业的数据库系统,则大量只对企业某部门有用的信息将会充斥在各部门所有服务器的全局字典中,增加了冗余。而且,当对全局表进行ddl操作时,为了确保全局字典的一致性,须对所有服务器的全局字典进行加锁。dm2对全局字典的封锁方式是采用令牌环方式,即令牌绕虚环(非实环)传输,某个服务器想对全局字典进行操作,必须等令牌到达该服务器才可以执行。每个部门建立的全局表绝大多数只对本部门有用,当对这些表进行ddl操作时,却要对所有服务器的全局字典进行封锁,通过令牌来实现对全局字典的互斥访问。假如,两个部门都要分别对本部门的内部表进行ddl操作,这应该是可以并行处理的操作,现在却只能串行执行。而且,当服务器数目庞大时,每个服务器等待令牌的时间将会很长。这严重损害了数据库的效率。
为弥补以上不足,在dm2的改进版本dm3中增加了协调器,用以联接各个独立的dm3数据库子系统,并协调各子系统间的各种关系,使各子系统既能高度自治地工作,又能进行有效的信息共享。
2.体系结构
本系统可看作多个数据库子系统被协调器联起来的,高度自治的一个联邦数据库系统。其中,每个子系统独立处理本系统内部的事务,而子系统间的信息共享由复制技术提供,副本间的一致性由协调器协调处理,处理所需的信息在初始化时写入协调器的组间数据字典中。当对某子系统中的一份数据副本进行修改时,该子系统会将修改通知协调器,由协调器对该数据的其它副本进行修改,从而保证了所有副本的一致性。
由以上可知,子系统彼此并不直接接触,而是各自都与协调器直接相联,由协调器统一管理子系统间的通信。这样,当子系统对副本进行修改时,不必关心相应的子系统处于何种状态,也不必等待回应消息,以及异常处理,所有这些都由协调器进行管理。因此,既提高了系统运行的效率,也保证了子系统的独立性。其体系结构如下图所示。
协调器主要有三大功能,首先,它对协调器和服务器进行初始化,并将有关信息存入组间字典;其次,它管理不同子系统间的通信,维护副本的一致性;最后,它在子系统出现崩溃时,进行异常管理及恢复工作。
dm3多数据库系统体系结构
3.主要策略
多个dm3系统间的信息共享是通过副本实现的,副本的一致性是由协调器来维持的,是一种弱一致性。通常,多数据库系统间的一致性是通过协调器周期性地访问服务器的日志来完成的。由于副本的更新带有随机性,因此,若采用这种方法,可能数据被修改多次,但其相对应的副本仍未被修改,这样就损害了数据的一致性;也可能数据并未被修改,但协调器已多次访问了服务器的日志了,这样就降低了系统的效率。
所以,本系统采用的方法是当数据被修改时,由服务器通知协调器有关信息,再由协调器通知相关系统,修改相关数据。这样,数据的修改及时(仍然是弱一致性),而协调器也不会在数据未被修改的情况下访问服务器,提高了准确性。
为了使协调器正常工作,我们对底层数据库管理系统dm2进行了修改。在基表控制块tv_ctrl_block中增加一项isreplication。建表时,该项初始化为false;当为该表建立一个副本时,该项赋值为true。具体算法如下。
3.1初始化算法。
协调器
从用户或应用程序接收待连接的两个系统中的服务器名,需复制的表名;
分别登录到两个系统的服务器上;
向存有待复制表的服务器发预复制消息;
等待服务器消息;
若失败,发一条失败的消息给服务器和用户或应用程序,转11);
若成功,从消息中取出待复制表的有关信息,根据这些信息,发一条建表消息给另一个系统的服务器;
等待服务器消息;
若失败,发一条失败的消息给服务器和用户或应用程序,转11);
若成功,调数据转移程序,进行数据复制;
将有关信息写入组间字典。
退出。
服务器
当服务器收到预复制消息后,将基表控制块tv_ctrl_block中的isreplication赋为true。同时,取出待复制表的有关信息,组成应答消息发给协调器。
当服务器收到失败的消息后,将基表控制块tv_ctrl_block中的isreplication赋为false。
3.2维护算法。
协调器
从组间字典读出相关信息,根据这些信息,登录到相应系统上;
等待消息;
从某系统的服务器上收到一条修改消息后,通过查找组间字典,确定该消息的目的地,然后将它转发过去;
若失败,定时重发;
转2);
服务器
1)等待消息;
2)当收到某客户或应用程序的消息后,检查它是否是修改数据的操作(如delete,update或insert等);
若不是,转7);
若是,检查基表控制块tv_ctrl_block中的isreplication是否为true;
若不是,转7);
若是,向协调器发修改消息;
继续执行服务器程序的其它部分。
3.3恢复算法。
若协调器所联接的系统中有一个跨掉了,则对副本的修改无法及时地反映到跨掉的系统中来。这时,需要恢复算法来进行处理。
协调器
当协调器发现有一个系统已经崩溃后,采取以下步骤。
将与该系统相关的变量open赋值为false;
打开记时器;
等待消息;
若收到的消息是其它系统发出的修改崩溃了的系统上的副本的命令,则依次将这些消息存储起来,转3);
若收到的消息是记时器发出的时间到的消息,则向崩溃的系统发登录命令;
若登录成功,将open的值改为true;
将存储的消息依次发送过去,转9);
若登录失败,转3);
退出。
4.结论
我们曾在三个dm3数据库系统上,用两个协调器进行联接。结果,运行情况良好,各副本最终都能保证一致,且各副本间存在差异的时间间隔很短。另外,在出现异常的情况下,协调器也能正常工作。
主要参考文献
1.周龙骧等,分布式数据库管理系统实现技术,科学出版社,1998。
2.郑振楣,于戈,郭敏,分布式数据库,科学出版社,1998。
3.王珊等,数据仓库技术与联机分析处理,科学出版社,1998。