质量管理 - 故障预测与健康管理(PHM) - 《知识库1》

介绍
预测
- 方法
  - Physic-based
  - Data-driven
应用
挑战

数据科学，健康管理，机器学习

介绍

良好的维护策略对于保持复杂工程系统的安全至关重要。从历史上看，维护工作已经经历了从出问题后维护到预防性维护再到基于状态的维护（CBM, Condition-Based Maintenance）的发展。

对比预防性维护与基于状态的维护，前者昂贵而耗时，因为其无论系统健康状态如何都需要定期进行，对于具有高可靠性要求的现代复杂系统，预防性维护已经成为了许多工业公司的主要支出。因此，基于状态的维护因为由于其只需在需要时维护，成本较低，而受到了广泛的关注。

故障预测与健康管理(PHM) - 图1

预测与健康管理(PHM)是完成CBM的关键技术。PHM是一种新的工程方法，能够在系统的实际运行条件下对其进行实时健康评估，并根据最新信息预测其未来的状态。

PHM融合了各个学科，包括传感技术、故障物理学、机器学习、现代统计学和可靠性工程等。它使工程师能够将数据和健康状态转化为信息，从而提高我们对系统的认识，并提供一种策略来维持系统的原定功能。

虽然PHM起源于航空工业，但它现在在许多应用中得到了探索，包括制造、汽车、铁路、能源和重工业。

PHM的主要步骤包括数据采集、诊断、预测与健康管理。

故障预测与健康管理(PHM) - 图2

数据采集：从传感器种收集测量数据，并对其进行处理，从而提取诊断所需的特征。

诊断：在此过程中，故障/异常被检测，通过隔离以确定哪个部件出现故障，并确定其在故障方面的严重程度。

预测：即预测在当前的操作条件下，多久会发生故障。

健康管理：以最佳方式管理维修调度和后勤支持。

在这些步骤中，预测技术是关键的推动因素，它允许在实际的生命周期条件下评估系统的可靠性，可以预测一个系统或一个部件将不再执行其预期功能的时间，从而使用户有机会在延长其使用寿命的同时减轻系统层面的风险。

一般来说，预测方法可以分为基于物理模型的方法与基于数据的方法以及混合方法。

故障预测与健康管理(PHM) - 图3

基于物理模型的方法：假定有一个描述退化行为的物理模型，将物理模型与测量数据和使用条件相结合，以确定模型的参数并预测未来的行为。

这一方法的优势在于，其结果是准确且直观的，因为它们是基于物理模型的现象。并且，一旦模型确立，可以通过微调参数而在相近情景的场合反复使用该模型。此外，相比基于数据的方法，基于物理模型的方法往往计算效率更高。

相对的，其缺点在于，模型的开发需要对系统有全面的理解，任何遗漏的物理现象都有可能导致预测退化行为的失败，这一点对于高保真模型等计算密集型模型尤为致命。

基于数据的方法：数据驱动的方法使用从当前和以前的使用条件下收集到的数据信息（称为训练数据）来确定

当前测量的退化状态的特征，并预测未来的趋势。

这一方法的优势在于其可以很容易且快速地实现，例如，使用现成的软件包进行数据挖掘或机器学习，或是简单的多项式拟合，线性回归等。此外，该方法通过融合大量数据有可能确定以前没有考虑过的关系。

相应的，其缺点在于，第一，需要大量的包含了相同或类似系统的所有可能的故障模式的数据，这需要对系统有全面的理解。其次，这种方法由于不涉及到物理知识，其结果可能是违背直觉的，而在不了解问题原因的情况下接受这样的结果是十分危险的。

混合方法：在复杂系统中，单独运用上述两种方法可能并不奏效（数据驱动计算成本高，物理模型很少），但二者结合使用则往往可以提高预测的效果。例如，可以通过物理方面的知识来确定确定数学模型（例如，多项式模型或指数模型）。这种方法的使用方式取决于特定的应用领域。

预测

故障预测与健康管理(PHM) - 图4

RUL: Remaining useful life

EOL: End of life

PDF: Probability density function

上图说明了预测的过程。圆圈和方块是退化/损坏数据，如裂纹尺寸、磨损量和剥落尺寸在不同周期测量的数据。由于退化数据不能直接测量，在大多数情况下，健康监测数据是通过传感器/执行器获得的，其形式包括电信号、振动信号、声学信号等，然后这些信号在信号处理的基础上被转换成退化数据。

对于剩余寿命的预测，通常是存在一个退化/损坏程度的阈值，通过例如最小二乘法（或类似方法）将退化/损坏数据外插，当损坏数据达到阈值时认为是EOL。

评价标准：Prognostic Horizon (PH) & α-λ Accuracy & Relative error and convergence

故障预测与健康管理(PHM) - 图5

Prognostic Horizon:如图a，EOL为10.7cycles，在7cycles时，预测的EOL于真实EOL相符（在误差范围α内,α是个定值），则认为PH为3.7，该值越大越好。

α-λ Accuracy： 故障预测与健康管理(PHM) - 图6 ts为起始时刻，λ为0-1的系数，其实时刻为0，EOL时为1，α-λ为一个误差允许空间，会随着cycles的增加而变小（数据越多应该越准，例α*RUL）。如图b所示，λ=0.5，ts=2，tλ=2+0.5（10.7-2)=6.35，此时预测值落在α范围以外。λ越小时符合越好，与PH类似。

Relative error： 故障预测与健康管理(PHM) - 图7 Relative accuracy, 反过来就是相对误差。

convergence：如图c，在相对误差的基础上，原点（ts，0）到（tc，Ec）的欧几里得距离。

Centre of Mass算法：故障预测与健康管理(PHM) - 图8

距离越短，收敛越快。

不确定度：与系统噪声数据服从的分布有关，具体情况具体分析。

方法

Physic-based

待施工

Kalman filters

extended Kalman filters

unscrented Kalman filters

particle filter

Data-driven

数据驱动方法的步骤通常为以下4步：预处理及特征提取，健康评估，诊断，预测

预处理以及特征提取：

这部分包括数据质量评估，数据清洗，制度识别(regime identification)与分割(segmentation)。预处理不能直接提供可操作的信息，但它是一个关键步骤，需要领域知识和数据处理技能来保留有价值的数据，剔除不需要的数据。

预处理相关方法：

Method	Pros	Cons
数据质量检查	需要事先了解信号类型，例如，振动信号	需要一个阈值来确定是否将该信号用于分析
制度识别	制度识别对于发展各个操作环境下的基准数据集十分重要	如果系统的操作环境频繁变化，需要复杂的方法来进行制度识别
异常值剔除	离群值，常量等可能会对后续预测结果产生很大影响	需要领域知识来分辨异常值

特征提取相关方法：

Method	Pros	Cons
基于频率的特征提取	可以提取出部件具体的故障特征	要求高采样率，高成本的数据采集
基于残差的特征提取	适合低频信号，或有潜在关联的信号	会引入神经网络等算法，计算量大
基于每个过程片段/时间片段的统计数据	处理信号以及捕获测量信号的关键特征的理想方法	要求提供背景信息来识别处理信号的各个时间切片
时间统计	需要最少的领域知识，最容易实施	相比其他方法，提供的特征信息不够具体

健康评估

健康评估包括通过分析收集的数据来估计和量化系统的健康状态。如有故障情况的数据，则可以用置信度来表示系统故障的概率。

如果系统故障数据不可用，则健康评估转化为对系统的进阶性故障或突发性故障的退化监测。

健康评估方法：

Method	Pros	Cons
特征加权求和	易于实施，基于健康值设置阈值较为简单	没有考虑到特征间的相关性
与正常状态的距离	仅需要基准数据集，可以考虑到变量的协方差关系	距离无法反映特征值高或低于预期
统计假设检验	易于实施，可以测试系统是否是正常状态	数据可能不符合假设的分布
回归方法	提供了特征与损伤等级/健康值的映射	要求有贴好标签的样本进行训练
单分类分类器	支持向量数据描述算法可以提供一个用于探测异常值的边界	需要经验来选择合适的参数与核函数

健康诊断

在PHM中，诊断指通过从数据中提取不同的故障特征来对不同的故障模式进行分类。收集各种各种特征的集合可与聚类或分类算法一起用于开发一个用于系统故障诊断的数据驱动模型。

诊断方法：

Method	Pros	Cons
Fuzzy membership rules	可以在诊断算法中加入工程知识或经验	对经验有要求
机器学习分类算法	可以学习特征值与输出健康标签之间的关系	要求故障特征完备的训练集
Bayesian Belief Network贝叶斯网络	提供了特征值与各种健康状态的因果关系	要求数据的相关知识来确定贝叶斯网络

预测

预测的任务是指对资产健康状况的预测。如果需要短期预测，通常利用时间序列模型来预测机器何时会超出阈值。如果希望进行长期预测，那么问题就变成了使用现有统计方法以及机器学习对剩余使用寿命进行预测。

由于系统的状况高度依赖于使用以及维护方式，因此对于寿命的预测，需要一个置信区间。

预测方法：

Method	Pros	Cons
曲线拟合	易于实施，不需要很多的训练数据	需要选取正确的曲线拟合模型
神经网络	可以建立特征与剩余寿命的映射	需要许多run-to-failure数据集来学习这种关系
随机滤波Stochastic filtering methods	整合了故障的物理原因，并且可以建模与探测数据的不确定度	需要一个物理模型来描述故障的机制
基于相似度的预测	准确，且可以应用于不同的退化过程	要求许多run-to-failure数据集，来构成退化过程数据库

应用

航空航天

Model-based method

Celaya等人（Celaya, Saha, &Wysocki, 2009）证明了检测半导体设备行为中故障前兆的可行性，并使用粒子过滤（PF）这一智能预测框架来得出RUL估计值。

Bolander等人（Bolander, Qiu, Eklund, Hindle, & Rosenfeld,2009）提出了一个基于模型的飞机发动机轴承的RUL预测，该模型通过利用诊断数据作为额外的知识来源来更新，以减少RUL预测的不确定性。

Zhang等人(M. Y. Zhang et al., 2018)，通过设计一个物理模型来检测辅助动力单元（APU，auxiliary power unit）的启动退化。

Data-driven method

在（Goebel, Saha, Saxena, & Field, 2008）中，作者在航空航天环境中的旋转设备的试验台上，评估了基于NN的方法、RVM（relevance vector machines）和GPR（高斯过程回归）的预测能力。

Zhang等人(M. Y. Zhang et al., 2018)设计了设计了一个反向传播、前馈神经网络使用APU气体路径测量量来评估APU的启动退化。

Ma等人（Ma, Lu, Zerhouni, & Cheng, 2018）的论文中，作者提出了一种有效的深度学习方法，称为堆叠去噪自动编码器（SDA，stacked denoising autoencoder），用于对飞机发动机的健康状态进行分类。

Zhong等人（Zhong, Li, Lin, & Zhang, 2018）设计了一个GRU网络来预测涡扇航空发动机的排气温度。

在Baptista等人的论文中（Baptistaet al., 2018），作者将ARMA方法(autoregressive moving average model，自回归移动平均模型，用于时间序列的建模和预测)与数据驱动技术相结合，在一个真实的工业案例中预测故障事件。

Banghart等人（Banghart, Bian, Strawderman,& Babski-Reeves, 2017）利用贝叶斯网络（BN）来估计起落架系统的风险。

Hybrid method

在Daroogheh等人最近的一篇论文中（Daroogheh et al., 2015），作者提出了一个粒子滤波与神经网络的混合结构，用于非线性系统的健康监测。

（Xu和Xu，2011）通过结合数据驱动、基于模型和基于经验的PHM方法，为航空电子系统设计了一个融合预测模型。

波音AHM

AHM系统是一套以信息驱动的系统，可以帮助航空公司优化计划外维修工作的管理，能够极大地提高飞行运营的效率和可靠性。飞机健康管理系统含三个模块，包括：实时故障管理、性能监控和定制警示与分析。

1)实时故障管理模块将飞行中的信息传递给地面站进行诊断，为客户提供快速的排故决策，维修控制中心的工程师根据AHM系统提供故障等级和排故方案得以对排故停场时间进行评估，并对后续航班计划及时进行决策或调整，按需安排维修工作并提前部署必要的人员、航材、工装和设备;

2)性能监控模块使航空公司可以通过分析飞机性能数据，合理并精确改进飞机的燃油效率和签派放行规划;

3)系统通过自动监控、收集并传输飞机各舵面位置数据、胎压数据、燃油数据以及空调和增压系统、火警探测系统、液压系统、电源系统、导航系统、辅助动力装置和发动机滑油系统等监控信息，定制警示与分析，使航空公司可以解决逐步发展中的飞机系统问题，损耗趋势将有助于维修计划的制定并优化服务间隔期。

机器人

电池

船舶

汽车

挑战

最佳的传感器选择与定位：数据采集是预测技术的第一步。它通常需要使用传感器系统来测量一个系统的环境、操作和性能参数。不正确的传感器选择和位置导致的不准确的测量可能会降低预知性能。传感器应该能够准确测量与关键故障机制有关的参数变化，同时，传感器的可靠性与故障的可能性也必须被考虑在内。

特征提取：为了有一个有意义的预测，重要的是要收集与损害直接相关的数据，然而，在许多情况下，很难或不可能直接收集损坏数据。特别是对于复杂的系统，损坏只是系统的一小部分，与损坏相关的信号与系统响应相关的信号相比，往往非常小。因此，要从相对较大的噪声中提取与损害有关的小信号是很有挑战性的。

预测方法的选择：一般来说，预测的方法可分为基于物理学的方法和数据驱动的方法。基于物理学的方法利用故障机制模型的知识或其他的系统现象描述性模型来评估系统的EOL，它的优点是能够用少量的数据准确地预测RUL。然而，关于故障模式的足够信息是必须的，而在复杂的系统中，这些参数可能很难获得，此外，这些模型需要对导致失效的物理过程有深入的了解，因此在复杂的系统中很难找到这样的模型。

数据驱动的方法利用观察到的数据信息来确定退化过程的特征并预测未来的状态。因此，RUL预测的准确性在很大程度上取决于获得的数据，即训练数据。通常情况下，需要许多训练数据（尤其是失效前的数据）来识别退化进程，但由于时间和成本的原因，从在役系统中获得大量的训练数据是一个挑战。

因此，需要开发新的混合方法，利用每种方法的优势来弥补各自的局限性。

预测的不确定度以及准确率：另一个挑战是开发开发一种可以解决由于现实世界不确定度导致的预测不准确问题的方法。

预测中不确定度的来源主要有三方面：

(1) 由模型简化和模型参数引起的模型不确定度

(2)由环境和运行负荷条件引起的测量的不确定度

(3)主要由产品的几何形状和材料引起的固有不确定度

这些不确定因素可能会导致预测结果与实际情况的重大偏差，因此开发可用来描述不确定性界限和预测的置信度的方法是非常重要的。

另外，预测准确性的评估方法也是必要的，以便建立和量化预知系统的置信度。Leão等人（2008）提出了一套评估预测算法的性能的指标，包括预测命中率、误报率、漏估计、正确拒绝率、预言的有效性等。Saxena等人（2009）也提出了一个评估RUL预测关键方面的指标清单，如预测水平线、预测范围、相对精度、收敛性。

尽管已经涵盖了大多数PHM的要求，但随着预测技术的成熟，概念和定义将计随着预测学的成熟进一步完善。