指系统在规定时间、规定环境条件下,完成规定功能的能力,即系统无故障运行的概率。
系统故障是指由于部件失效、环境的物理干扰、操作错误或不正确的设计引起的硬件或软件的错误状态。包括永久性(连续稳定的失效)、间歇性(不稳定的环境)、瞬时性(暂时的环境变化)
故障模型
1、逻辑级,固定型、短路、开路、桥接
2、数据结构级,独立差错、算数差错、单向差错
3、软件故障和软件差错,与设计说明不一样
4、系统级,功能错误,系统输出与系统设计说明不一样
可靠性模型
1、时间模型:
2、故障植入模型:以程序的错误数作为衡量可靠性的标准
3、数据模型:对于一个预先确定的输入环境,软件的可靠度定义为在n次连续运行中软件完成指定任务的概率
可靠性指标
1、MTTF(To Failure) 平均无故障时间,从t=0时到故障发生时系统持续运行的时间的期望值
2、MTTR(To Fix) 平均故障修复时间
3、MTBF(Between Failure) 平均故障间隔时间,MTBF = MTTR+MTTF
可靠性计算
串联系统
1、可靠性 R = R1R2…*Rn
2、失效率 r = r1+r2+…+rn
并联系统
1、可靠性 R = 1-(1-R1)(1-R2)….*(1-Rn)
模冗余系统
由m(2n+1个)相同的子系统+表决器组成,表决器表决后,m个子系统中占多数相同结果的输出作为系统输出
可靠性设计
冗余技术
冗余是指所有对于实现系统规定功能来说多余的那部分资源,包括硬件、软件、信息和时间
1、结构冗余:静态冗余(模冗余系统)、动态冗余(热备、冷备)、混合冗余
2、信息冗余:实现正常功能外所需的信息,如纠错码
3、时间冗余:使用附加一定时间的方法来完成系统功能,如重复执行指令
4、冗余附加技术:为实现冗余所需要的技术和资源,包括程序、数据、存放空间、通道等
故障恢复
软件容错
恢复快方法
(动态冗余)动态的故障屏蔽技术,后向恢复策略,主块+后备块,逐个执行验证,直至成功或全部失败
N版本程序设计
(静态冗余)静态的故障屏蔽技术,前向恢复策略,N个相同程序同时执行,表决多数
防卫式程序设计
程序中包含错误检查与错误恢复代码,发生错误时,主动撤销,恢复至正确状态
集群
1、高性能计算科学集群
2、负载均衡集群:使各节点的流量尽可能平均合理的分摊处理
3、高可用性集群:考虑容错性,当某节点故障,由另外的替代
集群配置
1、镜像服务器双机:配置两台服务器,都包括操作系统硬盘与数据盘,由网卡连接
2、双机与磁盘阵列柜:相比双机,多了磁盘阵列柜,使用SCSI相连,都从磁盘阵列中读取数据,数据一致性,但存在单点错的缺陷
3、光纤通道双机双控集群系统