摘要:本文介绍了计算机网络运行中维护人员所应掌握的一些基本知识,并对发生网络故障时的定位原则,常见故障分类、故障定位和排除的常用方法,以及日常维护中所应维护的内容和对维护人员的要求进行了讨论.
关键词:故障定位 常见故障 排除方法 维护
0 引言
随着计算机的广泛应用和网络的流行,目前单位内广大职工的很多日常工作(包括生产mis、oak、电力营销、视频监控、集群录音等各种系统)已经与网络密不可分,计算机网络系统,就是利用通讯设备和线路将地理位置不同的、功能独立的多个计算机系统互连起来,以功能完善的网络软件(网络通信协议、信息交换方式及网络操作系统等)实现网络中资源共享和信息传递的系统。它的主要功能表现在两个方面:一是实现资源共享,包括硬件资源和软件资源的共享;二是在用户之间交换信息.因此,如何有效地做好本单位计算机网络的日常维护工作,确保其安全稳定地运行,这是网络运行维护人员的一项非常重要的工作。本文对计算机网络的常见故障处理及维护进行讨论。
1 故障定位的基本思路
在排除比较复杂网络的故障时,我们常常要从多种角度来测试和分析故障的现象,准确确定故障点.在实际应用中,我们通常采用的分析模型和方法有:
1.1 七层的网络结构分析模型方法 从网络的七层结构的定义和功能上逐一进行分析和排查,这是传统的而且最基础的分析和测试方法.这里有自下而上和自上而下两种思路.自下而上是:从物理层的链路开始检测直到应用.自上而下是:从应用协议中捕捉数据包,分析数据包统计和流量统计信息,以获得有价值的资料。WwW.133229.Com
1.2 网络连接结构的分析方法 从网络的连接构成来看,大致可以分成客户端、网络链路、服务器端三个模块。
1.2.1 客户端具备网络的七层结构,也会出现从硬件到软件、从驱动到应用程序、从设置错误到病毒等的故障问题。所以在分析和测试客户端的过程中要有大量的背景知识,有时pc的发烧经验也会有所帮助,也可以在实际测试过程中询问客户端的用户,分析他们反映的问题是个性的还是共性的,这将有助于自己对客户端的进一步检测作出决定。
1.2.2 来自网络链路的问题通常需要网管、现场测试仪,甚至需要用协议分析仪来帮助确定问题的性质和原因。对于这方面的问题分析需要有坚实的网络知识和实践经验,有时实践经验会决定排除故障的时间。
1.2.3 在分析服务器端的情况时更需要有网络应用方面的丰富知识,要了解服务器的硬件性能及配置情况、系统性能及配置情况、网络应用及对服务器的影响情况。
1.3 工具型分析方法 有强大的各种测试工具和软件,它们的自动分析能快速地给出网络的各种参数甚至是故障的分析结果,这对解决常见网络故障非常有效。
1.4 综合及经验型分析方法 靠时间、错误和成功经验的积累.在大多数的网络维护工作人员的工作中是采用这个方法的,再依靠网管和测试工具迅速定位网络的故障。
2 计算机常见故障分类
2.1 某台计算机上不了网 对于某台计算机上不了网的故障,首先要分别确定此计算机的网卡安装是否正确,是否存在硬件故障,网络配置是否正确,例如在实际工作中我们一般采用ping 192.168.131.1来判断网卡硬件安装和tcp/ip协议的正确性。如果能ping通,即说明这部分没有问题.如果出现超时情况,则要检查计算机的网卡是否与机器上的其它设备存在中断冲突的问题.通过查看系统属性中的设备管理器,查看是否在网络适配器的设备前面有黄色惊叹号或红色叉号,如有则说明硬件的驱动程序没有安装成功,可删除后重新安装。另外,要确保tcp/ip协议安装的正确性,并且要绑定在你所安装的网卡上。如果重新安装后还是ping不通回送地址,最好换上一块正常的网卡试一试。由于在局域网中划分了vlan,所以连在不同vlan中的计算机都有各自不同的ip地址、子网掩码和网关.要在机器的网络属性中设定的ip地址等数据与连接的vlan相匹配,否则将出现网络不通的情况.当确保了计算机的硬件设备和网络配置正确后,接着就要查看计算机与交换机之间的双绞线,交换机的rj 45端口或交换机的配置是否有问题。此时我们要ping上网计算机所在vlan的网关,不通的话就要分段检查上面所说的各项,最简单的方法是检查双绞线,用线缆测试仪检测双绞线是否断开,双绞线没有问题,就要查看交换机的端口是否坏了。交换机每一个端口都有状态指示灯,检测到此,如果端口指示灯不亮,就只能是端口损坏了,可以把跳线接到正常使用的端口上排除其它原因,确定是端口的问题。另外还有交换机的配置问题,只有极少的几个人对交换机的配置有修改权限,所以询问一下其它网管人员就可以排除了,如果不放心可以对照查看.交换机的参数配置表也是网络管理员必备的资料之一,并且随着网络用户的变化要不断地修改。
2.2 多台计算机上不了网 对于同时有多台计算机上不了网的故障,首先要找到这些计算机的共性,如是不是属于同一vlan或接在同一交换机上的,若这些计算机属于同一vlan,且属于计算机分别连接于不同的楼层交换机,那么检查一下路由器上是否有acl限制,在路由器上对该vlan的配置是否正确,路由协议(如我局的ospf协议)是否配置正确.若这些计算机属于同一交换机,则应到机房检查该交换机是否有电源松落情况,或该交换机cpu负载率是否很高,与上一级网络设备的链路是否正常.通常某交换机连接的所有电脑都不能正常与网内其它电脑通讯,这是典型的交换机死机现象,可以通过重新启动交换机的方法解决.如果重新启动后故障依旧,则检查一下那台交换机连接的所有电脑,看逐个断开连接的每台电脑的情况,慢慢定位到某个故障电脑,会发现多半是某台电脑上的网卡故障导致的.故障通常是交换机的某个端口变得非常缓慢,最后导致整台交换机或整个堆叠慢下来.通过控制台检查交换机的状态,发现交换机的缓冲池增长得非常快,达到了90%或更多,原因及解决方法为:首先应该使用其它电脑更换这个端口上原来的连接,看是否由这个端口连接的那台电脑的网络故障导致的,也可以重新设置出错的端口并重新启动交换机,个别时候,可能是这个端口损坏了。
2.3 链路问题 当链路是光缆时,在开通新的网络时,应记录光缆的收发光功率、光缆长度和芯数,一旦出现问题应重新用光功率计、otdr等再次测试,并与原来数据进行比较后及时修复。若链路是网线,如办公室内的,则可通过网络一点通等网络测试仪确定办公室至交换机之间的哪段网线出了问题。
2.4 机柜接地问题 机柜接地不能忽略,曾经发生:市局为一台c2mft g703接口模块、更换cisco 6509,市局端更换cisco 3550的2m的连接端口,更换sdh的2m链路均无效的过程,最终在县局cisco6509采用wic 1t模块加外接协议转换器,网络互连恢复正常.准备再次采用vwic 2mft g703接口模块,在拆外接协议转换器时被触了一下电,再仔细查找机柜的接地线,没有找到,对机柜接上接地线后,再采用原来设备,一切恢复正常.分析结果:外接协议转换器输出信号的电压较高,所以抗干扰能力强,尽管没有接地,但因无接地而产生的干扰不对它产生影响,所以网络互连正常。而cisco的vwic 2mft g703接口模块输出信号的电压较低,和无接地产生的干扰差不多,从而因输出信号遭到破坏而导致sdh 2m误码告警;路由器的端口不断up和down。由此可见;机柜接地看似小问题;如果没做好;也会带来很大的麻烦。
3 故障定位及排除的常用方法
3.1 告警性能分析法 通过网管获取告警和性能信息进行故障定位.恩平供电局使用了btta网络网管,可以对全局的网络设备进行管理,平时多观察各设备cpu负载率和各线路的流量.当有人反映不能连接至网络或网速很慢时,可通过网管观察计算机与交换机的连接情况,是否有时断时通的现象,交换机cpu负载率是否很高,线路流量是否很大,通过观察设备端口状态,分析和观察交换机哪个端口所接的计算机发包量不太正常。
3.2 替换法 替换法就是使用一个工作正常的物体去替换一个工作不正常的物体,从而达到定位故障、排除故障的目的.这里的物件可以是一段线缆、一个设备和一块模块。
3.3 配置数据分析法 查询、分析当前设备的配置数据,通过分析以上的配置数据是否正常来定位故障.若配置的数据有错误,需进行重新配置。
4 计算机网络的维护
4.1 维护内容 计算机网络的维护内容包括:设备、链路、电源和配线架等附属设备的维护。具体要求如下:①保证设备工作条件,包括供电条件和环境条件等。②对系统故障进行判断和处理,根据故障现象和告警指示,利用网管及各种测试工具进行故障定位,找出故障原因,在最短时间内排除故障。③通常采用集中维护方式,将维护人员和必要的维护仪表集中在一个主要站。④经常检查交换机与路由器中的端口状态,尤其需要关注端口差错统计信息,对于出错包特别多的端口,应该检查其是交换机或路由器本身的、链路的原因,还是接入设备的原因。交换机或路由器主要查cpu利用率和mem利用率,接入设备若是计算机,则主要看网卡的设置是否正确、网卡的驱动程序是否和网卡匹配,查出原因后进行整改,检查完后对端口统计信息清零。⑤链路若是光缆,则主要检查现有衰耗和投运时的衰耗差,链路是网线则用专用仪器进行现场测试,光纤不允许小角度弯折,更不能出现直角。⑥网管监控系统和本地维护终端用的计算机是专用设备,禁止挪用,以免病毒侵害.
4.2 对维护人员的要求 ①对运行中的网络设备在进行变更设置的操作时,必须有两人同时在场方可进行,一人操作,一人监护,并做好如何在操作失败而导致网络设备异常的情况下的处理预案,履行必要手续。②处理光接口信号时,不得将光发送器的尾纤端面或上面活动连接器的端面对着眼睛,并注意尾纤端面和连接器的清洁。③熟练掌握所维护的设备的基本操作。④做好设备的日常巡视工作。⑤对外来人员(参观者或领导)应讲明道理,关照他请勿动手。
5 结束语
在电力系统中,计算机网络建设越来越庞大,且组网方式繁多而复杂,自然就加大了维护人员的工作量和故障定位、处理的难度,这就要求维护人员必须不断提高自身的业务水平和处理故障的能力,同时要针对实际情况,把以上的定位原则和处理方法做到灵活应用。