衡量可用性最简单也最直接的方法是根据硬件正常运行时间来计算它。使用简单的监控工具,在设备有问题时,可以捕获SNMP陷阱,这样组织就能够监控硬件基础设施,并且可以跟踪站点硬件何时有问题了。至于要计算某个时间段内的可用性,我们可以追溯监控日志,找出有多少服务器有问题以及问题持续了多久。一个简单的方法是用服务中断的总时长,乘以受影响的站点所占的百分比。用发生问题的服务器数量除以托管站点的所有服务器数量可以得到这个百分比。作为一个例子,我们假设一个存取交换机发生了故障,而且主机并没有
衡量可用性最简单也最直接的方法是根据硬件正常运行时间来计算它。使用简单的监控工具,在设备有问题时,可以捕获SNMP陷阱,这样组织就能够监控硬件基础设施,并且可以跟踪站点硬件何时有问题了。至于要计算某个时间段内的可用性,我们可以追溯监控日志,找出有多少服务器有问题以及问题持续了多久。一个简单的方法是用服务中断的总时长,乘以受影响的站点所占的百分比。用发生问题的服务器数量除以托管站点的所有服务器数量可以得到这个百分比。作为一个例子,我们假设一个存取交换机发生了故障,而且主机并没有备份机器,这样导致关联到它的12台Wcb服务器的服务中断了一个半小时,直到有人进人网箱,换了网络设备之后,服务才恢复。这个站点托管在120台Web服务器上。因此,整个停机时间是9分钟。计算方法如下:总的服务中断时间=1.5小时一90分钟受影响的服务器数量=12总服务器数量=120。
90分钟x12/120- 9分钟
有了停机时间,就可以计算可用性了。继续采用上面的例子,假设我们想街量一周的可用性,而这一-周内只发生了一次服务中断。在这一-周中,可能的可用性是7天x24小时厌x60分钟小时=10050分钟,由于这是我们本周中唯一的停机时间,所以正常运行时间是10080 9= 10071分钟。可用性就是正常运行时间占总时间的百分比,即10071 10 080= 99.91%。
如前所述,这是一个计算可用性最简单的方法。这样说的原因是,Web服务器的性能并不等同于客户体验。对客户来说,一台服务器不可用了,并不意味着站点就不可用了;事实上,如果你的站点架构设计正确,一台服务器发生故障,并不会引发影响客户的问题。衡量可用性最好的方法应该与最大化股东价值有着直接联系,而要最大化股东价值,就需要考虑到对客户体验的影响以及随之产生的对公司收入或成本的影响。
这并不是说,你就不应该衡量服务器或其他硬件的可用性。设备或者硬件的可用性只不过是这个目标树上的树叶,位于广告投放系统和注册系统的可用性之下。换句话说,虽然硬件的可用性会影响这些服务的可用性,但服务本身的可用性才是最重要的指标。你应该使用设备或硬件的可用性作为系统健康的关键指标,但你还需要更加精确的、以客户为中心的可用性衡量方法。
可能您还想看