由于业务项目需要,搭建了一套完整监控告警系统用于对各个中间件,服务,基础设施等进行监控,以便及早预知系统的负载和瓶颈部分,提前做出调整以避免服务不可用;或服务器意外崩溃的时候,通过告警服务通知运维人员及时处理;收集相关引起故障的信息,做出决策以避免以后再次出现类似情况的发生。
监控告警采用目前微服务,服务网格,云原生等领域比较成熟的监控告警技术架构:
- Prometheus (一款基于时间序列数据库的监控和告警工具)
- Grafana (提供大量图表模板,用于展示各项服务指标的web服务)
- Alertmanager (基于 Prometheus 收集的指标,统一管理报警的服务)
本文没有采用 docker 等容器部署,而是用 二进制文件 直接部署 由于能力有限, 如有写得不好的地方,请多包涵额。