基于数据中心谈实现虚拟化灾难备份

摘　要：如何对基础设施、技术和网络进行灾难备份和恢复以保证业务连续性\"已经成为我们所面临的一大难题。本文通过对数据中心管理和虚拟化容灾需注意的问题进行分析和总结，为采用虚拟化方法提出了一些建议和思考。

关键词：数据中心；虚拟化；灾备

在信息时代，部分或全部的计算机软件、硬件设备、附属设备、文挡表格或机房环境损害以至于严重影响数据处理中心的事件，就如同一场灾难。数据的灾难备份是指利用技术、管理手段以及相关资源确保既定的关键数据，关键数据处理系统和关键业务在灾难发生后可以恢复的过程。一个完整的灾难备份系统主要由数据备份系统、备份数据处理系统、备份通信网络系统和完善的灾难恢复计划所组成。
　　1.关于灾难备份
　　灾难备份就是指利用技术、管理手段以及相关资源确保既定的关键数据、关键数据处理系统和关键业务在灾难发生后可以恢复的过程。一旦灾难发生，灾难备份中心就必须要在确定的时间内接替生产中心的运营、恢复既定范围内的业务运作、保障企业业务连续。
　　一个完整的灾难备份系统主要由：数据备份系统、备份数据处理系统、备份通信网络系统和完善的灾难恢复计划组成。在灾难备份系统建设中，数据备份是关键，如何将数据（包括系统、应用和业务等数据）完整、实时地复制到灾难备份中心，是灾难备份系统建设中首先要考虑的重点。
　　2.数据中心虚拟化灾备的必要性
　　在灾难备份系统建设中，虚拟化软件的优势很明显。虚拟化软件能快速把工作负载自动转移到其他资源；能够把操作系统和应用，转移到在远处的其他虚拟机，使应用快速恢复，所需成本低。因而，虚拟化技术在灾难发生时能使业务保持连续，成为信息化管理的重要工具。
　　可以说，对于政府、企业用户而言，在灾难恢复过程中应用虚拟化技术，可以提升灾难恢复服务水平，缩短灾难恢复时间，提升业务连续性和系统易管理性，最大限度的保护IT投资。
　　3.数据中心实现虚拟化灾备的特点与要点
　　3.1灾难备份的本质特点
　　3.1.1小概率，高风险
　　例如，尽管网络遭到病毒入侵很常见，但并不见得在重要系统中经常性的全面爆发，造成灾难性事件。但一旦爆发，风险无比巨大。2001年，红色病毒在东京国际机场航班系统里面爆发，短短几个小时内，几百架飞机上不了天，几千人困在机场里，场面非常混乱。“而很多领导生产任务都忙不过来，灾难几年也没有碰到过，对其高风险性自然认识不足。”
　　3.1.2高投入，低效率
　　灾备系统的投入并不是小钱，特别是对一些实效性很强的系统，怎样发挥效益，需要认真策划。
　　3.1.3建设易，维持难
　　从以往的经验来看，一些灾备系统在建立的时候，积极性相当高，但建了几年后，能人都走光了。为什么？在有灾难的时刻，灾备的效益和贡献立马就能体现出来；在没有灾难的时候，这个系统除了演练、检测、维修以后能干些什么，是值得思考的问题。
　　3.2使用虚拟化灾难恢复策略时的要点
　　3.2.1考虑恢复容量
　　制定虚拟化灾难恢复策略的时候很重要的一点是考虑容量。企业通常会认为恢复时容量利用率不会超过100%。事实上，由于恢复的启动阶段会将系统推向极致，所需容量可能会超过生产容量。此外，恢复过程中有大量的跟进工作，这些工作也需要容量。
　　3.2.2考虑配套资源
　　恢复能力虽然是需要考虑的重点，但其它各种支持生产环境的要素也要考虑在内。这些要素包括处理器资源(存储、设备界面等)、磁盘资源(存储阵列、存储场地网络SANs、磁盘簇等)、外围设备(控制单元、终端、刀片等)、基础设施(外部交换机)和网络连通性(交换机、带宽等)。
　　3.2.3确保资源独立、网络冗余和可测量性
　　避免灾难恢复失败的一个重点是确保虚拟化资源保持独立，而不需要依赖主生产环境。网络冗余是指不仅为内部用户，还必须为外部用户(如客户、业务伙伴、供应商等)提供接入。可测量性则是处理灾难恢复和生产运营的工作量峰值所必需的。
　　3.2.4恢复计划测试
　　制定虚拟化灾难恢复策略非常重要的一点是考虑对计划的有效测试。测试应在系统层面上全面进行，以有效地了解特定时间段内工作量对虚拟化资源的要求，同时验证业务的完整性和基础设施的有效性。虽然局部的功能测试更容易安排，但却无法保证测试结果的真实性，因此会导致测试的效果大打折扣。
　　3.2.5重设工作量计划
　　不论是真实情况下还是演练过程中，恢复时都应该制定详细的计划来管理整个过程中不断变化的工作量。该计划应该包括一份高层认可的正式时间表，一份恢复时资源分配的备选工作计划，一个对偏移工作量的日常备份流程，以及一份在备用场地复原这些工作的经过测试的恢复计划。
　　3.2.6灾难恢复风险控制
　　在制定虚拟化灾难恢复策略时应考虑到给业务带来的风险。由于虚拟化的固有弱点，距离可能会受到限制，但地理的多样性必须被考虑在内。恢复场所应该与企业已有的风险规避策略所明确的风险承受能力相符，而不应该是满足技术要求的结果。
　　3.2.7清晰明确的工作量
　　在确定构成虚拟池的具体资源之前，很重要的一点是要了解灾难恢复的工作量。明确业务的优先次序和临界点，制定出与处理流程、应用的集成和相互依赖性、以及IT支持模块相关的详细计划，从而保证虚拟化环境的可恢复性。
　　3.2.8保持完整性的规则
　　包括问题、变更、事件、配置和资产管理在内的严格的系统管理规则是实施任何新的虚拟化灾难恢复策略的前提。这对保持恢复环境的完整性是至关重要的，同时对虚拟化资源池的最终操作、监控和维护的有效性也是至关重要的。
　　3.2.9业务和IT报告
　　对灾难恢复项目进程的跟踪、状态的传递和结果的报告是所有灾难恢复项目的重要输出，对于判断IT功能虚拟化所进行的大量投入的效果是非常重要的。
　　3.2.10开展技术培训
　　技术培训主要分成两类：第一类是对灾备平台的备份容灾管理及运营维护培训；第二类是对接入单位用户的备份容灾管理培训。通过原厂家的技术培训，确保能对日常灾备平台系统的简单故障排查和日常的运营维护管理。
　　3.2.11健全灾备中心管理
　　应当建立健全的灾难恢复管理制度及灾备中心运营管理制度：主要包括有灾难报告制度，灾难恢复审批制度、灾难恢复处理流程、备份系统日常运行管理制度、备份系统替代运行状态下的运行制度、数据一至性认可程序、生产系统复原后的回切处理流程、备份系统测试、灾难演习制度等等，这些制度都是确保灾备业务正常运营的强有力的措施，为今后的灾备业务的价值发挥起到关键支撑作用。

参考文献：
[1]约瑟夫·E·斯达兹克，毛世健。美国虚拟化灾备的9个要点[J]，信息网络安全，2009年08期
[2]蒋宇翔。浅谈县级市数据容灾备份中心建设的设计思想[J]，信息化建设，2011年第6期
[3]熊海清。网络环境下企业数据备份与容灾问题的探讨[J]，铝加工，2010年第2期