您所在的位置: 首页>建站知识>山东故障管理

山东故障管理

发表于:2021-11-14 阅读:0 关键词: 故障管理

故障管理的主要内容包括故障检测、故障诊断、故障修复和故障记录。用户都希望网络提供的服务是不间断地、可靠的,当网络中某个组件失效时,网络管理者必须迅速查找故障并及时重新提供网络服务,网络冗余备份系统就是基于这一要求而诞生的。

故障管理的主要内容包括故障检测、故障诊断、故障修复和故障记录。用户都希望网络提供的服务是不间断地、可靠的,当网络中某个组件失效时,网络管理者必须迅速查找故障并及时重新提供网络服务,网络冗余备份系统就是基于这一要求而诞生的。所以网络一旦发生故障,网络故障的首要任务是恢复网络提供的业务;第二步是找出故障的原因及出现故障的网络组件;第三步是及时、有效地修复故障;最后收集和分析故障管理的有效性(即业务中断时间和修复成本,分析的结果用于指导资源的分配,以达到业务和成本的最佳平衡)和记录故障解决方案。



故障管理的目的是检测、记录日志,并通知用户,尽可能地自动修复网络故障,保障网络的正常运行。故障管理侧重于故障发生后的诊断与处理,而性能管理侧重于预防故障,防患于未然。网络故障管理可以实现以下功能

(1)故障监测:主动探测或被动接收网络上的各种事件信息,并识别出其中与网络和系统故障相关的内容,对其中的关键部分保持跟踪,生成网络故障事件记录。

(2)故障报警:接收故障监测模块传来的报警信息,根据报警策略驱动不同的报警程序,以报警窗口/振铃(通知一线网络管理人员)或电子邮件(通知决策管理人员)发出网络严重故障警报。
 
(3)故障信息管理:依靠对事件记录的分析,定义网络故障并生成故障卡片,记录排除故障的步骤和与故障相关的值班员日志,构造排错行动记录,将事件一故障一日志构成逻辑上相互关联的整体,以反映故障产生、变化、消除的整个过程的各个方面

(4)排错支持工具:向管理人员提供一系列的实时检测工具,对被管设备的状况进行测试并记录下测试结果以供技术人员分析和排错根据已有的排错经验和管理员对故障状态的描述给出对排错行动的前提。

(5)检索/分析故障信息:浏览并且以关键字检索查询故障管理系统中所有的数据库记录,定期收集故障记录数据,在此基础上给出被管网络系统、被管线路设备的可靠性参数。