离上篇文章认证加密(下)发表已经过去好久了,笔者一直在思考要不要继续写安全基础类的文章,直到本周日晚上陪孩子看朗读者节目的时候,特别是节目组邀请到了53岁的清华大学高等研究院杨振宁讲座教授王小云,介绍了她在密码学中的贡献。孩子和家人在观看节目的时候,对MD5是什么,为什么这么重要,特别是王教授谈到基于MD5设计的国家加密标准已经广泛应用到银行卡,社保卡等领域,让加密这个古老但年轻的领域走入更多人的视野。 咱们前边介绍的内容主要围绕对称加密,从这篇文章开始,我们的焦点shift到非对称加密算法上,非对称加密也称作是公钥加密算法,整个算法有个非常关键的环节:秘钥交换。秘钥交换“人”如其名,解决的本质问题是如何安全的交换秘钥。咱们还是请出老朋友爱丽斯女王和鲍勃领主来说明一下。假设爱丽丝女王和鲍勃领主要安全的通信,那么爱丽斯女王和鲍勃领主就把各自的秘钥发给对方。结果是通信的双方都持有这个共享的秘钥,这个共享的秘钥就可以被用来后续信息安全的交互。 为了让后续的讨论更加接地气,咱们假设爱丽斯女王和鲍勃领主从来都没有见过面,那么我们该如何让女王和领主安全的通信呢?这个问题也是秘钥交换算法适用的最原始应用场景。为了确保女王和领主之间通信的隐私性,双方需要一个共享的秘钥,但是安全的沟通共享秘钥并没有想象中那么简单。如果恶意攻击者窃听了女王和领主的电话通信,或者邮件通信(假设传输的明文信息),那么恶意攻击者会窃取到女王和领主共享的秘钥,后续双方所有的通信内容,都可以通过这个秘钥来破解,女王和领主的所有私密通信不安全了,通信内容已经成为整个王国茶余饭后的谈资。 如何解决这个问题呢?这是秘钥交换算法要解决的核心问题,简单来说,通过秘钥交换算法,爱丽丝女王和鲍勃领主就可以安全的实现共享秘钥交换,即便是有恶意攻击者在监听所有的通信线路,也无法获取双方通向的秘钥,女王和领主终于可以无忧无虑的八卦了。 秘钥交换从通信双方生成各自的秘钥开始,通常情况下非对称加密算法会生成两个秘钥:公钥和私钥(public key和private key)。接着通信的双方分别把自己的公钥发送给对方,公钥的”公“在这里是公开的意思,这就意味着恶意攻击者也可以获得通信双方生成的公钥信息。接着女王和领主分别用收到的公钥和自己持有的私钥结合,结果就是共享的通信秘钥。大家可以站在恶意攻击者的角度看这个公钥,由于恶意攻击者没有任何一方的私钥,因此恶意攻击者是无法获取女王和领主通信用的”共享“秘钥。关于共享秘钥在女王和领主侧产生的过程,如下图所示: 了解了秘钥交换算法的大致工作机制后,接着我们来看看秘钥交换算法是如何解决爱丽斯女王和鲍勃领主安全通信问题。如上图所展示的过程,女王和领主通过秘钥交换算法确定了可以用作安全通信的秘钥,这个秘钥可以被用作认证加密的秘钥,因此即便是MITM(中间人攻击者)截获了女王和领主通信的数据,但是由于没有秘钥,因此通信的内容不会被破解,这样女王和领主就可以安全的通信了,如下图所示: 不过这里描述的内容稍微不严谨,我们顶多只能把这种场景称作passive MITM,大白话是说恶意攻击者是被动的在进行监听,和active MITM的主要却别是,active中间人会截获秘钥交换算法交换的数据,然后同时模拟通信双方对端的角色。具体来说,中间人会actively来同时和女王以及领主进行秘钥交换,通信双方”以为“和对方对共享秘钥达成了共识,但是本质上女王和领主只是和中间人达成了共享秘钥的共识。大家可以思考一下造成这种错误认知的原因是啥? 其实背后的原因不难理解,因为通信的双方并没有其他手段判断收到的公钥和通信的对端的持有关系,我们也称作这种秘钥交换为”unauthentiated“秘钥交换,如下图所示: 那么如何解决active MITM攻击呢?相信大家能够猜到authenticated key exchange,咱们先通过一个具体的业务场景来看看,为啥我们需要这种authenticated的模式。假设我们开发了一套提供时间信息的服务,服务被部署在阿里云上,我了预防时间数据被恶意攻击者修改,因此我们使用MAC(message authentication code),如果大家对MAC没有什么概念,请参考笔者前边的文章。 MAC需要秘钥来对数据进行机密性和完整性保护,因此我们在应用部署的时候,生成了一个秘钥,然后这个秘钥被以某种方式非法给所有的客户端用户,应用运行的非常稳定,并且由于有秘钥的存在,守法遵纪的所有客户端都可以读取到准确的时间。但是有个客户学习了本篇文章后,发现这个秘钥可以用来篡改数据,因此我们的网站受到大量客户的投诉,说读到的时间不准确,造成系统的业务运行和数据处理出现问题。 你让架构师赶紧处理,架构师给出了每个用户都生成独享秘钥的方案,虽然能够止血,但是很快你会发现这种方案不可行,不可运维,随着用户数量激增,我们如何配置和管理这些秘钥就变成了一个大问题,还别说定期更换。秘钥交换算法在这里可以派上用场,我们要做的是在服务端生成秘钥,然后为每个新用户提供公钥信息。由于用户端知道服务端的公钥信息,因此MITM攻击就无法在中间双向模拟,我们也称这种模式为:authenticated key exchange。 我们继续分析这个场景,中间人虽然说也可以和服务进行秘钥交换,但是这个时候中间人和普通的客户端就没有差异了,因此也就无法执行active MITM攻击了。 随着科技的发展,互联网几乎在我们生活中无孔不入,如何安全的在通信双方之间确立秘钥就变得极其重要。但是咱们前边介绍的这种模式扩展性不强,因为客户端需要提前预置服务端的公钥,这在互联网场景下尤其明显。举个例子,作为用户,我们希望安全的和多个银行网站,社保网站进行数据通信,如果需要手机,平板,台式机都预置每个网站的公钥信息才能安全的进行访问,那么你可以考虑便利性会有多差,以及我们如何安全的访问新开发的网站? 因此读者需要理解一个非常重要的点,秘钥交换非常重要,但是有上边介绍的扩展性问题,而这个问题的解决是靠数字签名技术,数字签名和秘钥交换结合起来是我们后边要介绍的SSL技术的基础,要讲清楚需要的篇幅会很长,因此咱们后续用专门的章节来介绍SSL原理。不过为了后续介绍的顺畅性,咱们接下来聊几个具体的秘钥交换算法,以及背后的数学原理。 咱们先从笔者系列文章第一篇中提到的Diffie-Hellman秘钥交换算法说起,Whitfield Diffie和Martin E. Hellman在1976年发表了一篇开创新的论文来介绍DH(Diffie-Hellman)秘钥交换算法,论文中把这个算法称作”New Direction in Cryptography“。这篇论文被冠以开创性的主要原因是论文两个第一:第一个秘钥交换算法以及第一次公开发表的公钥加密算法(或者说非对称加密算法)。 DH算法的数据原理是群论(group theory),这也是我们今天所接触到的所有安全机制的基石。因为笔者并不是数学专业毕业,数学基础也不是太牢固,因此一直犹豫要如何继续在安全的角度继续深入下去。为了让这个算法更加容易被读者理解,因此后边的内容会稍微涉及到一些数据基础知识,相信有过高中数学知识的同学,应该都能看懂。 要介绍群论,首要问题是定义清楚什么是群(group)。笔者查阅了相关资料,群在数学领域中有如下两个特征: 1,由一组元素组成 2,元素之间定义了特殊的二元运算符(比如➕或者✖️) 基于上边的定义,如果这组元素以及之上定义的二元操作符满足某些属性,那么我们就称这些元素组成个group。对于DH算法来说,背后使用的group叫做multiplicative group:定义了乘法二元运算符的元素集合。读者可能会问,那么这个multiplicative group具体满足那些属性呢?由于这部分的内容较多,咱们来一一罗列介绍: - Closure(闭包)。集合中的两个元素通过定义的运算符计算后,结果也在集合中。举个例子,比如我们有集合M,M中有元素a,b和c(c=a*b),那么这三个元素就符合closure属性,集合上定义的运算符是乘法。 - Associativity(可结合性)。这个和中学数学中的结合性概念一致,你能理解数学公式a × (b × c) = (a × b) × c就行。 - Identity element(单位元素)。集合中包含单位元素,任何元素和单位元素经过运算符计算后,元素的值不发生变化。比如我们有集合M,包含的元素(1,a,b,c....),那么1就是单位元素,因为1*a = a,a和单位元素1通过运算符计算后,结果不变。 - Inverse element(逆元素)。集合中的任何元素都存在逆元素,比如我们有集合元素a,那么这个元素的逆元素是1/a,元素a和逆元素通过运算符计算后,结果为1。 笔者必须承认由于我粗浅的数学知识,可能导致对上边的这四个属性的解释让大家更加迷惑了,因此准备了下边这张图,希望能对群具备的4个属性有更加详细的补充说明。 有了前边关于群,群的属性等信息的介绍,咱们接着来具体看看DH算法使用的group具体长啥样。DH算法使用的群由正整数组成,并且大部分情况下组成群的元素为素数,比如这个群(1,2,3, ....,p-1),这里的p一般取一个很大的素数,为了保证算法的安全性。 注:数学上对素数的定义就是只能被自己和1整除的数,比如2,3,5,7,11等等。素数在非对称加密算法中有非常广泛的应用。计算机专业的同学在大学期间应该写过寻找和打印素数的程序,算法的核心就是按顺序穷举所有的数字,来判断是否是素数,如果是就打印出来。不过从算法的角度来看,这样穷举的模式效率不高,因此业界也出现了很多高效的算法,很快就能找到比较大的素数。 DH算法使用的群除了元素是素数之外,另外一个属性是模运算符,具体来说叫modular multiplication运算。咱们先从模运算开始,模运算和小学生的一些拔高数学题很类似,关注的是商和余数。比如我们设modulus为5,那么当数字大于5的时候,就会wrap around从1重新开始,比如数字6对5求模计算后,结果是1,7的结果是2,以此类推。对于求模计算最经典的例子莫过于钟表了,一天24个小时,因此当我们采用12小时计数的时候,13点又被成为下午1点,因为13 = 1*12 + 1(其中12为modulo)。 接着我们来看modular multiplication的定义,我们以6作例子,6 = 3 ✖️ 2, 如果modulo是5的话,我们知道6全等于(congruent to)1 modulo 5,因此我们的公式就可以写成: 3 × 2 = 1 mod 5 从上边的等式我们得出了一个非常重要的结论,当我们把mod 5去掉后,就得出3 × 2 = 1,那么3和2就互为逆元素。 最后我们来总结一下DH算法base的群的两个特征: - Commutative(交换律),群中两个元素计算具备交换律,也就是ab=ba,通常我们把具备交换律的群成为Galois group - Finite field(有限域),关于有限域的特征我们下边详细介绍 DH算法定义的group也被称作为FFDH(Finite Field Diffie-Hellman),而subgroup指的是group的一个子集,我们对子集中的元素通过定义的运算符操作后,会到到另外一个subgroup。 关于群论中有个非常重要的概念是cyclic subgroup,大白话的意思是通过一个generator(或者base)不断的和自己进行乘法运算,如下变的例子,generator 4可以了subgroup 1和4: 4 mod 5 = 4 4 × 4 mod 5 = 1 4 × 4 × 4 mod 5 = 4 (重新开始,这也是cylic subgroup的体现) 4 × 4 × 4 × 4 mod 5 = 1 等等 当我们的modulus是素数,那么群中的每个元素都是一个generator,可以产生clylic subgroup,如下图所示: 最后我们完整的总结一下群和DH定义的Galois群: - group就是一组定义了二元操作的元素集合,并具备closure, associativity, identity element, inverse element属性 - DH定义的群叫Galois group,组成群的元素是素数,并在群上定义了modular multiplication运算 - 在DH定义的群中,每个元素都是一个generator,重复和自己相乘后,产出subgroup Groups是很多加密算法的基础,笔者这是只是稍微的介绍了一点皮毛知识,如果读者对这部分感兴趣,可以查阅相关的材料。有了群的初步认识了,咱们下篇文章来介绍DH算法背后的工作原理,敬请期待!
安全管理创新参考论文篇2 浅谈县级供电企业网络信息安全管理创新 摘要:在接入县级供电企业信息网络平台的应用系统越来越多的背景下,基于确保网络信息 系统安全 运行的思想,提出了创新县级供电企业网络信息安全管理工作的思路和具体做法。 关键词:供电企业;网络信息;安全管理 随着电力系统信息化的全面推进,信息化已经成长为增强供电企业核心竞争力的重要驱动力。目前,“SG186”信息化工程不断完善,国家电网资源计划系统(ERP)上线运行,相继接入企业信息网络平台的应用系统越来越多,各应用系统间的数据交换日益频繁。因此确保供电企业内部网络信息系统的安全稳定运行,适应当前建设智能电网和“三集五大”体系建设新的工作要求,成为摆在我们面前的一个艰巨任务。为此,从九方面着手,来保障网络信息系统的安全运行。 一、完善机制,落实责任 企业的健康发展离不开严格的企业制度和明确的责任分工,信息安全保障工作的开展也不例外。为提高网络信息系统整体安全防护能力,强化公司内部信息安全,山东惠民供电公司成立了信息安全组织机构,组织机构分为领导小组和工作小组,其中领导小组的主要职责是:全面负责公司信息安全管理工作,领导实施各项信息安全各种 规章制度 ,指导公司各种信息安全工作的开展,确保本单位不发生重大信息泄露事故。工作小组的主要职责是:负责信息安全基础防护知识的宣贯、普及工作;负责做好公司信息安全防护体系建设准备及实施工作,落实信息安全“八不准”和“五禁止”,确保不发生任何信息安全事件;负责公司信息安全技术监控及运行、维护和管理工作,坚决贯彻执行各项信息安全规章制度和领导小组的各项指令。 二、统一部署、双网双机 按照国家电网公司要求和山东电力集团公司及市公司统一部署安排,公司实行信息外网统一出口,实现了集团公司层面的统一。信息内外网实现物理分开,双网双机,网络专用。严禁办公终端计算机私自使用拨号、移动无线连接等任何方式接入因特网。在信息外网出口安装IPS入侵防御设备,可以实时主动拦截各类黑客攻击和恶意行为,保护信息网络架构免受侵害,阻断非授权用户的使用,降低了不安全因素。 信息内网统一安装桌面管理系统,能有效控制内网计算机。计算机实名注册并进行IP地址和MAC地址绑定,计算机管理员可以实时查看内网计算机的应用情况,插件的安装以及杀毒软件的运行等。启用移动存储审计策略和违规外联策略,严格控制内网设备违规外联,对公司的移动存储介质进行实名注册,严格控制信息的流入流出。 三、分区分域、等级防护 对公司的信息系统分成生产控制大区和管理信息大区,并对所有的业务系统进行等级划分,实现不同安全域之间的独立化和差异化的防护。其中生产控制大区又可以分为控制区和非控制区,调度数据网络作为专用的数据网络,划分为安全区I,它使用不同的网段单独组网,它与安全区II之间采用国家指定部门检测认定的电力专用正向单向隔离装置。WEB服务与管理信息大区之间分别安装硬件防火墙,并严格控制相互之间访问。 四、注重口令设置和数据备份 口令设置是信息安全管理中重要的一环。要求所有的服务器和每一台办公计算机都要设置开机密码,密码长度不小于8位,并且是字母和数字或特殊字符混合而成,密码不得与用户名相同并要求定期更换。另外要求每台计算机都要设屏幕保护,屏保时间设在15分钟左右,并开启恢复时使用密码功能;关闭远程桌面。这样可以有效防止外来人员访问他人电脑或内部心怀不轨的人员通过远程访问他人电脑。数据备份和恢复计算机管理员必须定期对重要的数据进行备份,这是保护信息安全的重要手段,它可以有效防止病毒入侵、操作人员误删除和设备磁盘故障等带来的数据丢失,备份要保存在当地磁盘和异地磁盘两份。个人办公计算机中重要的文件资料可以加密存放,并形成备份。 五、加强防病毒软件部署及管理 根据公司的计算机数量,统一购买安装企业版杀毒软件。为避免防病毒软件之间的冲突导致一些插件不能正常安装和运行以及文件的误删除,要求一台机器只能安装一款防病毒软件,禁止使用任何规定之外的防病毒软件。公司设专人负责定期进行病毒库的更新,并通过桌面管理系统统一发放病毒库升级通知,对机器病毒库自动进行升级,能有效防范网络病毒、木马。 六、漏洞扫描和隐患排查 漏洞扫描系统是一个自动化的安全风险评估工具,对公司的信息系统进行定期、全面、系统的信息安全风险评估,发现和分析信息系统中存在的漏洞,并及时进行整改。定期开展自测评与整改。通过自测评,及时发现信息系统中存在的问题和隐患,针对发现的问题制定相应的措施进行整改,可以有效降低信息系统安全隐患,进而将风险评估工作常态化、制度化。这也充分印证了信息管理也是遵循PDCA的过程模式,是一个动态的持续改进的过程。信息安全管理流程图如下图1所示。 七、物理安全和主机安全 公司每位职工都有保护自己办公电脑的义务,要求下班后关闭主机和 显示器 ,这不仅可以增长机器的使用寿命也可以保护主机硬件设备,特别是雷雨天气,最好拔掉电源开关。对机房的服务器设备,首先,机房的环境应满足防风、防雨、防雷、防震等要求。其次,在机房出入口配置电子门禁系统,对进入机房的外来人员要严格登记,并有专人陪同。再次,在机房内安装机房环境监控系统,对机房的火灾自动报警,最好能够自动消防,如果不能也要配备足够的消防设备,保证机房设备的运行安全。最后,机房的温湿度也是影响设备安全运行的重要因素,因此配置温湿度调节设施,满足机房管理制度中规定的“夏季机房温度控制在23±2℃、冬季控制在20±2℃”的要求。 计算机管理员对机房服务器访问管理要严格控制,为 操作系统 和数据库系统的不同用户分配不同的用户名和访问权限,限制默认账户的访问权限。在不影响应用系统正常运行和访问的情况下,在服务列表中关闭有可能导致系统遭受侵害的一些服务。 八、应急响应和灾难恢复 建立切实可行的应急预案和灾难恢复预案,可有效预防和正确、快速应对网络及信息安全突发事件,最大限度地减少影响和损失,确保网络系统安全、稳定运行。 九、完善和落实规章制度 制定和完善网络信息安全相应管理制度及措施,并监督公司人员严格执行。与部室及员工签订信息 安全 责任书 ,确保责任落到实处。通过组织职工收看信息安全方面的 教育 片和邀请专家来公司做安全 报告 ,提高员工对信息安全的认知和增强员工遵守信息安全各项规章制度的自觉性。 猜你喜欢: 1. 关于安全管理创新论文范例 2. 安全管理创新方面论文 3. 有关安全管理创新类论文 4. 安全管理创新论文免费发表 5. 安全管理论文参考文献大全
大学数据中心机房运维风险的识别和应对论文
无论是身处学校还是步入社会,许多人都写过论文吧,论文是探讨问题进行学术研究的一种手段。还是对论文一筹莫展吗?下面是我整理的大学数据中心机房运维风险的识别和应对论文,欢迎阅读,希望大家能够喜欢。
摘要:
高校数据中心机房作为学校重要的场所,为学校日常教学办公提供重要的网络保障。如何保障数据中心的安全,已经变得越来越重要。本文通过研究风险管理在高校数据中心机房的应用研究。以我校数据中心机房运维项目为例,进行风险管理各方面的研究。旨在提高机房管理人员管理能力,保障数据中心机房安全。
关键词:
风险识别;风险应对;数据中心机房;
引言:
数据中心机房是学校数据汇聚交互的核心场所,所有接入校园网的数据都是通过数据中心机房进行交互。信息化大背景下,高校数据中心机房为师生提供更加便捷的服务,在教学、科研、办公等方面都有体现。
近些年来,随着数字校园,智慧校园的推进,全国各高校的数据中心机房规模不断发展。“一表通系统”上线,“最多跑一次”改革,高校越来越多的业务都转到校园网上,办公流程的简化,业务流程的电子化,极大地方便了广大师生。但同时,伴随着不断增长的业务,扩增的机房设备,我们对数据中心的要求不断提升,日常的运维管理面临的风险也越来越大。
1、高校数据中心运维引入风险管理的意义
数据中心机房是全校网络的核心区域,包括服务器,IPS设备,业务系统等,是一系列硬件软件设备的总和。一般高中小学校不会涉及数据中心机房,而大学的数据中心机房则不同,需要专人管理。数据中心机房的日常维护绝不是简单的设备维修,而是一项长期且细致的工作,涉及的内容很多,包括机房设备维修,系统升级,安防检查等。因此我们需要引入一整套科学合理的管理方法来应对风险。
数据中心机房的风险管理涉及内容很多有:风险识别,风险分析,风险应对等。其中,风险识别就是识别出潜在的风险,例如:机房火灾,漏水,停电等,是风险管理中最重要的内容之一,是确定潜在风险并分析找出应对方法的前提。所以一般对于风险识别的内容,我们会花费大量的时间来收集汇总,识别中会用到的德尔菲法,头脑风暴等方法。在数据中心日常运维中,针对识别出的高风险因素,我们需要制定相关的策略,包括消极和积极2方面的风险应对策略。风险存在是必然,我们需要积极引入风险管理机制,才能在出现问题时候迅速解决。
2、数据中心机房运维的风险识别
每个项目特性是千差万别,项目独特性决定项目实施过程存在很多不确定性,尽可能识别出不确定因素,是确保项目成功的重要因素[1]。风险识别不仅是风险管理的核心部分,更是基础内容。风险识别就是运用各种科学方法,识别项目的潜在风险,识别引发潜在风险的原因以及可能引发的`后果。特点:风险识别覆盖整个项目的生命周期。项目管理过程中,需要对风险进行反复地识别。风险识别的方法很多,包括德尔菲法,头脑风暴,专家判断等。
为了尽可能全面地识别出潜在的风险,结合实际情况,对数据中心机房风险识别步骤包括3步,第一步,进行工作分解结构WBS,目的就是为了更直观地进行风险识别。第二步,风险收集,针对运维项目,需要组织人员进行现场勘查,发现存在的问题,收集数据中心的资料。针对运维现状,组织全体人员进行头脑风暴法识别潜在的风险,再利用专家调查法对收集的潜在风险进行识别。第三步,风险确认,组织相关人员进行总结分析归纳,最终得到运维项目风险登记册。
(1)工作分解结构WBS
数据中心运维项目按照一定原则进行工作分解,其目的是为了给风险识别提供依据。首先,组织运维项目的各部门的负责人员,技术人员等进行现场勘查,摸清机房现状。按照整体机房运维的思路做好地勘工作,地勘需要记录各个领域的工作,并进行工作分解。
(2)风险收集
本次运维项目的风险收集采用头脑风暴会议。在会议之前,需要收集项目相关资料,包括项目技术文件,运维记录,机房资料,合同等。然后提前将地勘记录和收集到的项目资料发给参与会议的人员,确保参会人员能提前充分了解项目内容。会议针对运维项目期间可能存在的风险,进行充分的讨论和汇总。由项目经理担任本次会议支持人,在主持人的推动下,与参会人员就项目的风险集思广益。所有参与人员均有平等发言权,对潜在的风险提出自己的观点。最后将会议的内容进行整理汇总,初步得到机房运维的风险因素。
(3)风险确认
风险确认即将收集汇总的风险因素发给专家小组,由专家小组再次确认,记录整理并完成风险识别。专家小组包括各行业专家、部门负责人等。专家小组通过了解数据中心机房运维项目的基本情况,背景等,对头脑风暴会议收集的风险因素进行多次征询,直至达成一致意见,完成项目风险识别。
最终将运维项目风险分为5类,包括设备风险,业务风险,运维管理风险,自然风险,其他风险。设备风险包含:服务器风险,IPS设备风险,环控设备风险等。业务风险包括:特大网络故障风险,一般业务故障风险,业务质量下降风险等。运维管理风险包括:团队管理风险,沟通交流风险,人员管理风险等。自然风险包括:火灾,水灾,电磁干扰等,其他风险包括:合同风险,需求变化风险,人员技术风险等。
3、数据中心机房运维的风险分析
风险分析从2方面进行,第一个是定性风险分析,定性分析是指采取一定手段,综合评估分析存在的风险概率以及它的影响程度,并对风险按风险程度排序。同时为下一步分析提供依据。本次运维项目研究所用到的分析工具有概率-影响矩阵,风险分类,专家判断法等。定性风险分析过程作用是为了降低项目的不确定性,并重点关注高优先级的风险,有利于后续针对性开展风险应对。
概率-影响矩阵(P-I矩阵)是经常使用的工具,它是针对不同程度的风险,进行分级和排序,便于下一步进行定量分析及应对。在概率-影响矩阵中,一般将横坐标和纵坐标从低到高划分为5个标准,用数值0.1、0.3、0.5、0.7、0.9表示,一共划分为25个方格,方格内数字表示风险值R,公式为R=P*I。R数值越低,概率越小,影响程度越小。R数值越高,概率越高,影响程度越大。概率高,影响程度高的区域,一般在右上角,属于高风险,需要采取重点措施,并采取积极地应对策略。概率低,影响程度低的区域,一般在左下角,属于低风险区域,一般列入待观察风险清单,一般不需要采取积极管理措施,监测即可。
第二个是定量风险分析,它是对定性分析过程中,对项目影响很大,风险等级很高的风险进行更加具体的分析。它是对风险事件的影响程度分析,一般高风险事件分配高数值,低风险分配低数值。定量风险分析的目的是为了确定重大的风险,同时提醒管理人员对高风险,进行密切关注,做好应对准备。
4、数据中心机房运维的风险应对
风险应对过程是在风险分析之后,针对存在的风险,在分析风险概率及其影响程度基础上,制定一系列措施降低风险、提高有利机会。通过科学合理的管理理论和措施,可以有效规避和降低项目风险。风险应对措施必须及时有效,并制定多种应对方式,择优选择。
风险应对方法有很多,针对已总结的风险,结合数据中心项目的具体情况制定相关的应对策略包括:风险规避,风险转移,风险预防,风险减轻。
(1)风险规避:风险规避是为了达到项目目的,改变原来计划,从而规避风险,减少风险带来的影响。如:调试项目范围,利用多种手段达到目的等。在机房检修的时候,必须秉承着不影响机房正常运行的原则。检修UPS蓄电池,进行放电时,不能影响机房正常运行。检修空调时,应该要一个一个进行检查,不能同时关闭所有机房空调,否则会影响机房正常散热,导致服务器出现故障。维护业务服务器时,必须不能影响其他业务的运行。
(2)风险转移:风险转移目的是将风险转嫁给第三方人员,包括风险的影响和责任。在数据中心机房运维中,常见的风险转移就是第三方公司维保。因为数据中心机房的重要性,所以必须保证机房7*24小时都要稳定运行。单单依靠网络中心一个部门是无法保障机房的一年365天的安全,还必须要有其他部门和第三方运维公司的配合。现在高校的数据中心机房都会有第三方公司运维,包括服务器的维保,环境监控的维保,网络安全维保等。转移工具包括合同、履约保证协议、保密协议,保证书等。通过签署合同或协议,能将风险的责任转移给第三方。
(3)风险预防:风险预防就是针对存在的风险,制定应急预案,避免风险的发生。施工或运维过程中一旦出现风险或者发现目标与预期有较大偏差时,即可按照应急方案采取相应措施。机房定期进行应急演练是必要的,针对运维情况制定不同的应急演练内容,如:特大网络故障,一般业务故障,火灾等。有利于提高运维人员对突发安全事件的响应与处置能力,保障学校机房安全、持续和稳定运行。机房内不需要的设备必须及时清理,必须建立定期检查制度,对相关设备进行详细检查[2]。
(4)风险减轻:风险减轻就是减轻风险事件所带来的影响,减低风险发生的概率。它分为两个方面,第一个是已经发生的风险,要采取积极的措施减少风险带来的影响。第二个是还没发生的风险,要采取积极措施减少发生概率。例如:在机房整理线缆时候,必须按照行业规范,进行走线,并按照统一标准添加标签,确保线材整洁。这样能减少后期维护的成本,当出现线路问题时,能在第一时间找到问题线路。此外,在机房配备UPS电源,也是为了保护服务器设备,在断电情况下能继续工作一段时间,减少服务器突然断电引发的一系列问题。
5、结语
数据中心机房承担着高校全部的信息化业务,运维内容包括服务器,IPS设备,业务系统等软硬件设备,涉及多个部门和第三方运维公司。因此,高校数据中心机房运维是一个长期、复杂的项目,需要持续性地管理。
风险管理作为一种科学的管理手段,在数据中心机房的运维中的应用有着重要的意义,通过风险管理研究,识别、分析和应对等,我们可以清晰地了解整个运维项目存在的风险。识别潜在风险,通过科学的风险分析手段,应对不同程度的风险。
参考文献
[1]郑渝莎.浅谈通信机房搬迁项目的风险管理[J].江西建材,2017(13):261+263.
[2]王欣.信息机房运维及其管理的主要策略分析[J].计算机产品与流通,2020(01):131.
258 浏览 2 回答
180 浏览 3 回答
110 浏览 4 回答
168 浏览 5 回答
84 浏览 3 回答
213 浏览 2 回答
285 浏览 2 回答
312 浏览 2 回答
197 浏览 2 回答
238 浏览 3 回答
143 浏览 3 回答
354 浏览 2 回答
109 浏览 3 回答
299 浏览 2 回答
89 浏览 2 回答