故障容许度

更新时间:2024-05-07 16:16

故障容许度(英语:Fault tolerance)也称容错、容错性,是使系统在部分组件(一个或多个)发生故障时仍能正常运作的能力。

简介

如果系统的运行质量全面降低,降低的幅度与故障程度成正比,相反的,设计时未考虑故障容许度的系统,在发生很小的故障时也可能完全故障。高可用性生命攸关系统中尤为追求容错。

系统部分故障时维护功能的能力被称为优雅降级、柔性降级或从容退化(graceful degradation)。

相关概念

故障容许与极少故障的系统是不同概念。例如,西部电气交叉开关系统的失效率为每四十年两小时,因此具有高度的防故障能力。

但当故障发生时,它们将完全停止运行,因此并无故障容许。

衡量指标

故障容许度,是指软件检测应用程序所运行的软件或硬件中发生的错误并从错误中恢复的能力。

通常可以从以下几个方面来衡量:

1.系统的可靠性

2.系统的可用性

3.系统的可测性等

可靠性对于火箭发射之类关键性应用领域来说尤为重要。

而对于通用计算机来说,一个重要的指标就是系统的可用性。

可用性

可用性是指在一年的时间中确保系统不失效的时间比率。

可测性

可测性在容错系统的设计过程中也是一个非常重要的指标,如果我们无法对某个系统进行测试,又如何能保证它不出问题呢?此外还有MTBF(故障间的平均时间),即当系统正常运行后能坚持多长时间不失效。

可靠性

MTTR(故障修理的平均时间),即指系统要清除故障所需的时间。MTTR的大小直接影响着系统的可用性,而MTBF则反映了系统的可靠性。

举例

故障容许度即是Fault Tolerance,确切地说是容故障(Fault),而并非容错误(Error)。

例如在双机容错系统中,一台机器出现问题时,另一台机器可以取而代之,从而保证系统的正常运行。在早期计算机硬件不是特别可靠的情况下,这种情形比较常见。

现在的硬件虽然较之从前稳定可靠得多,但是对于那些不允许出错的系统,硬件容错仍然是十分重要的途径。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}