1.总览

总览页面显示当前系统中的触发报警的指标,触发的规则,触发报警的物理机或虚机,指标的阈值和当前值以及触发报警发生的时间。

实时报警 - 图1

2.报警历史

报警历史页面列出系统中曾经发生过的所有报警,用户可以按照时间区间进行搜索。

实时报警 - 图2

3.新建报警规则

用户点击“实时报警>>规则报警”,可选择相应的选项进行选择查看。点击“新建报警规则”则开始创建报警规则。以下为新建报警规则的菜单详情:

单指标报警

实时报警 - 图3

  • 报警名称: 未设置过的报警名称。
  • 报警描述: 该报警规则的描述信息。
  • 报警类型: 可选择“指标报警”或“日志报警”。
  • 指标报警: 包括单指标和多指标报警

    • 指标名称: 指标名称。是个下拉式菜单。还有根据前缀过滤指标的功能。
    • 聚合算法: AVG, SUM,等等
  • 报警条件(CRTICAL)

    • 阈值: 严重报警的极值。
    • 持续时间: 指标必须持续高于(低于)阈值多少时间才开始报警。
  • 警告条件(WARNING)

    • 阈值: 警告报警极值。
    • 持续时间: 指标必须持续高于(低于)阈值多少时间才开始报警。
  • Host list: 报警的机器具体名字,若要指定多台机器,请用逗号隔开
  • Host membership: 报警的机器的名字正则表达式。一般用“*”代表所有的机器。

多指标报警

实时报警 - 图4

  • 报警名称: 未设置过的报警名称。
  • 报警描述: 该报警规则的描述信息。
  • 报警类型: 可选择“指标报警”或“日志报警”。
  • 指标报警: 包括单指标和多指标报警

    • 指标名称: 指标名称。是个下拉式菜单。还有根据前缀过滤指标的功能。
    • 聚合算法: AVG, SUM等等
    • 计算上述指标值: 多个指标的计算规则,支持加减乘除运算。例:a+b。
  • 报警条件(CRTICAL)

    • 阈值: 严重报警的极值。
    • 持续时间: 指标必须持续高于(低于)阈值多少时间才开始报警。
  • 警告条件(WARNING)

    • 阈值: 警告报警极值。
    • 持续时间: 指标必须持续高于(低于)阈值多少时间才开始报警。
  • Host list: 报警的机器具体名字,若要指定多台机器,请用逗号隔开
  • Host membership: 报警的机器的名字正则表达式。一般用“*”代表所有的机器。

日志报警

实时报警 - 图5

  • 报警名称: 未设置过的报警名称。
  • 报警描述: 该报警规则的描述信息。
  • 报警类型: 可选择“指标报警”或“日志报警”。
  • 日志报警: 指定日志在阈值时间内出现次数

    • 日志类型: 对应日志分析功能中的“type”,例如:nginx/docker/mysql等。
    • 关系查询: AND, OR, NOT
    • 关键词类型: HOST/MESSAGE。可查询指定 host 或指定日志内容。
    • 预览日志查询条件: 当选择完日志报警内容,可以预览到该报警的查询语句。
    • 预览: 点击预览,可以查看到某段时间内的日志条数查询结果。
  • 报警条件(CRTICAL)

    • 阈值: 严重报警的极值。
    • 持续时间: 指标必须持续高于(低于)阈值多少时间才开始报警。
  • 警告条件(WARNING)

    • 阈值: 警告报警极值。
    • 持续时间: 指标必须持续高于(低于)阈值多少时间才开始报警。

4.报警规则列表/删除报警规则

列出当前系统中所有的规则,在列表页中,用户可以删除某个特定的报警规则。如下图

实时报警 - 图6

4.1 导入/导出报警规则

在报警规则列表中,用户可以选择导入或导出报警规则。导出报警规则将当前系统中的所有报警规则及其参数存入本地文件。导入报警规则这可以从本地文件中将报警规则加载到系统中。下图是导入报警规则的对话框。

实时报警 - 图7

5. 报警诊断分析

在报警列表中点击『诊断分析』按钮,即可查看指标报警的诊断报告

实时报警 - 图8

在总览页面中, 直接点击 「关联性分析」分析并产生与当前警报相关联,并可能是报警根源的指标 如下图.

「关联性分析」主要通过报警和自动异常检测来触发。运维人员发现报警以后,查看目前发生报警的指标状态。点击「关联性分析」就可以触发应用健康分析引擎进行关联分析。具体的结果如下图。

实时报警 - 图9

  • 调整阈值: 是个滑动栏。它定义了指标相似度的大小。默认的值是 100。用户可以移动滑动栏来调整相似度的阈值。

  • 过滤结果: 调整相似度阈值以后,点击这里就可以过滤掉与出问题的指标的 相似值大于阈值的指标。剩下的指标被认为是与出问题的指标相似。它们会 显示在图二十一的下部分。比如图中出问题的指标是 「df.bytes.percentused」, 相似值阈值为 高,则有 hadoop, hbase, mysql 等服务的多个指标与其关联。

  • 选择具体指标进行对比:每个指标前面都有一个选择框。用户可以任选 指标在图上进行对比。