1.发送 通道

考察点

  1. - 对接工作
  2. - 到达率
  3. - 高可用性
  4. - 多厂商对接
  5. - 消息队列解耦
  6. - l4/l7
  7. - etl
  8. - xiaoyi --> 158000000

邮件通知

  1. - 格式:邮件头 subject
  2. - 内容的格式: html、附件

短信

-状态报告

电话

  1. - 语音模板,语音长度 不能太长,不能太短(最基本的区别信息)
  2. - 重要报警才发语音

2 .即时通讯IM

飞书

image.png

钉钉

image.png

企业微信

image.png


3 考察点

  1. - 告警合并
  2. - 能否@ oncall的人
  3. - im 接口限速 比如 1分钟最多60
  4. - 快速看图 能否直接点击到对应的grafana 链接
  5. - 带告警图片,富文本
  6. - 个人消息和群消息
  7. - 快速屏蔽按钮, 交互式卡片 https://developers.dingtalk.com/document/chatgroup/message-template-interaction-card-process

image.png

回调

image.png

作用

  1. > 作用
  2. - 理想的流程:set alarm --> 人为处理几次 --> 处理方案写成服务 --> 配置 回调+通道 --> 回调处理 --> 发个通知
  3. - 和其他系统联动配合
  4. - 创建配件维修工单
  5. - 自动抓取火焰图
  6. - 重启服务等故障自愈

4. 告警触发参数

  1. - 触发条件
  2. - 连续发生 all
  3. - 发生次数 happen
  4. - 数据上报中断 nodata
  5. - 采集的agent失联对标 prometheus中的 `up==0告警`
  6. - prometheus absent函数

image.png

  1. - 是否支持与条件 (标签要一致)
  2. - A and B
  3. - 内存剩余率< 10% and 内存可用量 <10G采集
  4. - A and B or C
  5. - 发送间隔和时间 :执行动作
  6. - 60分钟内, 最多报警1
  7. - 告警发送间隔,如重复的报警 最低以5分钟发送,避免打扰正在处理故障的sre
  8. - 是否发送恢复的信息
  9. - 生效时间

image.png

  1. - 是否支持告警升级
  2. - 多久触发升级
  3. - 升级的告警发给谁
  4. - 升级的告警变成什么通道

image.png

5.告警集合

什么是告警聚合

  1. ### 什么是告警聚合
  2. > 举例1 钉钉信息聚合
  3. - 同一个rule产生的多条告警聚合成一条发出
  4. - 共享除了特征标签和vale之外的所有标签

image.png

  1. > 举例2 openfalcon中将低优先告警聚合生成一个text存入 db
  2. > 只发送一条链接信息
  3. - https://github.com/ning1875/falcon-plus/blob/master/modules/alarm/cron/combiner.go
  4. ### 为什么进行聚合
  5. - 告警信息爆炸
  6. - group下多个实例同时触发
  7. ### 如何进行聚合
  8. - 加大发送间隔
  9. - 多条消息合并成一条
  10. - inhibite
  11. ## 5. 告警订阅
  12. ## 6. 告警屏蔽

image.png