指系统在规定时间、规定环境条件下,完成规定功能的能力,即系统无故障运行的概率。
系统故障是指由于部件失效、环境的物理干扰、操作错误或不正确的设计引起的硬件或软件的错误状态。包括永久性(连续稳定的失效)、间歇性(不稳定的环境)、瞬时性(暂时的环境变化)

故障模型

1、逻辑级,固定型、短路、开路、桥接
2、数据结构级,独立差错、算数差错、单向差错
3、软件故障和软件差错,与设计说明不一样
4、系统级,功能错误,系统输出与系统设计说明不一样

可靠性模型

1、时间模型:
2、故障植入模型:以程序的错误数作为衡量可靠性的标准
3、数据模型:对于一个预先确定的输入环境,软件的可靠度定义为在n次连续运行中软件完成指定任务的概率

可靠性指标

1、MTTF(To Failure) 平均无故障时间,从t=0时到故障发生时系统持续运行的时间的期望值
2、MTTR(To Fix) 平均故障修复时间
3、MTBF(Between Failure) 平均故障间隔时间,MTBF = MTTR+MTTF

可靠性计算

串联系统

1、可靠性 R = R1R2…*Rn
2、失效率 r = r1+r2+…+rn

并联系统

1、可靠性 R = 1-(1-R1)(1-R2)….*(1-Rn)

模冗余系统

由m(2n+1个)相同的子系统+表决器组成,表决器表决后,m个子系统中占多数相同结果的输出作为系统输出

可靠性设计

1、避错:软件测试
2、容错:冗余

冗余技术

冗余是指所有对于实现系统规定功能来说多余的那部分资源,包括硬件、软件、信息和时间
1、结构冗余:静态冗余(模冗余系统)、动态冗余(热备、冷备)、混合冗余
2、信息冗余:实现正常功能外所需的信息,如纠错码
3、时间冗余:使用附加一定时间的方法来完成系统功能,如重复执行指令
4、冗余附加技术:为实现冗余所需要的技术和资源,包括程序、数据、存放空间、通道等

故障恢复

1、前向:当前技术继续下去
2、后向:恢复到前一个正确状态

软件容错

恢复快方法

(动态冗余)动态的故障屏蔽技术,后向恢复策略,主块+后备块,逐个执行验证,直至成功或全部失败

N版本程序设计

(静态冗余)静态的故障屏蔽技术,前向恢复策略,N个相同程序同时执行,表决多数

防卫式程序设计

程序中包含错误检查与错误恢复代码,发生错误时,主动撤销,恢复至正确状态

集群

1、高性能计算科学集群
2、负载均衡集群:使各节点的流量尽可能平均合理的分摊处理
3、高可用性集群:考虑容错性,当某节点故障,由另外的替代

集群配置

1、镜像服务器双机:配置两台服务器,都包括操作系统硬盘与数据盘,由网卡连接
2、双机与磁盘阵列柜:相比双机,多了磁盘阵列柜,使用SCSI相连,都从磁盘阵列中读取数据,数据一致性,但存在单点错的缺陷
3、光纤通道双机双控集群系统