Cloudwiz 的「智能报警」功能对任一指标参数的历史值进行分析,从而自动发现该参数的异常值。这个功能帮助运维人员及时发现将要但还没有引发故障的异常,或者发现 隐藏于系统中尚未引人注意的问题,从而能够在早期预测故障,是运维人员有足够的时间和信息来排除和预防故障的最终发生。

    健康指数是对该指标异常程度的一个定量的计算。异常量越高,该指标数值越低。

    智能报警 - 图1

    自动异常检测是不基于任何人为的规则的。它不仅是全面覆盖系统的指标,而且不需要定阈值来判断系统是否有问题,所以很灵活。

    它的实现是由应用健康分析引擎扫描所有的指标,自动分析历史数据找出指标的规律,然后根据指标规律判断指标的值是否出现异常。如果出现异常,应用健康分析引擎会把指标的异常点标识出来。

    进入功能点界面。用户可以看到所有最近一段时间 (默认 2 周)出现异常点的指标。指标分为两种:

    • 自动异常探测的指标:这些指标对健康值的有影响。默认状态下,新发现的 出现异常的指标都会归到这类。运维人员通过调查,如果判断一个指标即使出 现异常,对系统的健康没什么影响。他可以通过点击对应右边的“暂缓报警”按键 把它移到另一类。
    • 暂缓异常报警指标: 这些指标对健康值没有影响。用户可以通过点击相 对应右边的“修改”按键把它挪到另一类。
      应用健康分析引擎通过评估指标的异常情况,得出应用的健康值。