摘 要:通过对宣钢电信业务综合管理系统服务器运行中存在问题的分析研究,在不增加新设备的前提下,利用双机软件STEELEYE LifeKeeper 中“非共享磁盘阵列的扩展方式”,对两台DELL Poweredge 2950服务器进行了优化改造,达到了数据的安全保障,经过实践检验,优化后系统运行优良。
关键词:扩展镜像;服务器;同步
引言
2008年,宣钢电信业务综合管理系统异地搬迁并升级完工后,按照原技术方案,主用服务器由2006年底购进的两台DELL Poweredge 2950服务器和一台DELL 220S磁盘阵列柜组成,利用Lifekeeper做成双机热备,试运行过程中,发现主用服务器系统运行约一个月时间就出现“数据延缓写入失败”致服务器死机,使得各项电信业务时常出现暂时不能正常受理现象,经查,为磁盘阵列柜与服务器不配套所产生的,在不增加新设备的前提下,对宣钢电信业务综合管理系统进行服务器优化改造就显得十分重要和紧迫。
我们利用现有设备,充分利用Steeleye LifeKeeper双机软件中的“非共享磁盘阵列的扩展方式”功能,对两台DELL Poweredge 2950服务器进行了优化改造。
1 STEELEYE Extended Mirroring简介
STEELEYE 扩展镜像是一种软件产品,为局域网中的服务器之间提供完全基于软件的镜像,一个服务器被指定为主服务,另一个为从服务器。客户只能对主服务器上的镜像卷进行读或写,从服务器上相应的卷被锁定以防对数据的存取,除非在主服务器上检测到故障状态。
2 STEELEYE Extended Mirroring特性
在STEELEYE 扩展镜像环境下,一个镜像是主服务器上的一个卷,其内容与从服务器上的相关磁盘通过LAN同步。在卷镜像建立后,主服务器和从服务器上的驱动器已经同步,并且两个服务器都已启动运行,其特性如下:
2.1最初的镜像建立后,系统禁止所有用户存取从镜像卷,不允许对从服务器上的镜像卷读和写,主服务器镜像则可以进行读和写操作。
2.2 到达主服务器的所有镜像和非镜像卷的读操作被传递给卷后, 可以无干扰的正常完成。对从服务器上镜像卷不能以Standby模式读,也就是说,从服务器尚未承担主服务器发生故障时的角色。
2.3 无论何时主服务器收到一个写请求,系统首先决定这个请求是否针对某个镜像卷。如果不是,写操作可以完全正常的进行。如果主服务器写请求是针对镜像卷的,那么请求首先被送到从镜像卷去。从系统在自己的镜像卷上执行写请求后,向主系统发送写回状态。主服务器在收到这个写回状态前不做任何写操作。
2.4 当从系统返回一个成功状态时,主系统在自己的镜像卷执行写操作,并返回到请求方。如果从系统执行镜像卷写操作时发生错误,那么从系统上的写操作将被中止,主系统结束自己的镜像卷写请求,镜像状态从Normal 变为Broken。
3.STEELEYE Extended Mirroring运行机制
3.1通讯路径
“Heartbeat”是服务器间发出的周期性检测信息,它允许Lifekeeper 决定服务器的状态。当一个服务器向另一处服务器发送一个“Heartbeat”消息,并且在规定时间段里没有得到任何回应时,发送消息的服务器开始评测接收消息的服务器是否正在发生故障。多种“Heartbeat”检测信号保证故障检测的可靠性,以防止不必要的资源服务切换。LifeKeeper 为扩展镜像提供的“Heartbeat”通信路径有:Socket(TCP/IP )、千兆网线通信端口
3.2 主服务器发生故障
客户向Server1上运行的一个程序发送一个请求,而 Server1出现写错误时,使用带有STEELEYE 扩展镜像功能的Lifekeeper 能够检测出系统失败。然后, LifeKeeper执行恢复规则,试图关闭Server1上的应用,并且在Server2上重新启动它们。Server2现在承担主服务器的角色,镜像卷地址从Server1转移 Server2上去,这个转换过程对用户来说是透明的,客户一般不会发现系统曾经发生这样的故障。
一旦系统发生的故障被纠正过来,管理员必须重新同步镜像卷。重新同步这些卷并被锁定,目的是不接受任何客户的存取。在这个过程中,非镜像应用不会受到影响,因此这些应用可以毫无干扰的继续运行。系统管理员可以选择何时对镜像卷进行同步,通过提供选择时间的灵活性达到对整个系统的影响减为最小。
重新同步主服务器和从服务器上镜像的时间依赖于卷的大小。一般情况下,在100MB 以太网上,恢复1G的数据只需要10分钟。
3.3从服务器发生故障
当从系统发生故障时,受影响的镜像卷标志为Broken。有必要纠正这些故障,并重新同步有关的卷。当从系统发生故障时,任何写请求不会送给从系统。当从服务器发生故障后再次恢复时,扩展镜像管理器用来重新同步主镜像卷和从镜像卷。
4 在宣钢公司电信业务综合管理系统服务器中的应用
由于设备资源限制,我们由两台DELL Poweredge 2950服务器,利用lifekeeper软件,组成双机镜像,实现数据的双重备份。如下图:
5 结束语
此方法,目前已在河北钢铁集团宣钢公司电信业务综合管理系统服务器改造中应用,极大地提高了现宣钢电信业务综合管理系统运行的安全稳定性,以及数据的安全性,为宣钢电信业务的安全稳定运行程度提供了可靠的技术保障。