在搭建大数据平台的过程中,监控系统是不可或缺的一环。没有了监控系统,我们无法得知集群的健康状态,只能是等某一个地方出问题了去再去对应节点查看日志。监控系统除了可以第一时间通知你集群出现了故障、更为重要的是防范于未然。通过对监控数据的分析,我们可以监测到集群的亚健康状态,作出针对的措施。
    本文档采用Prometheus+Grafana来搭建监控体系。Prometheus前身是SoundCloud的告警工具包,现已演化成一个独立的开源监控系统。属于Kurberntes所在的Cloud Native Computing Foundation,采用go语言编写。
    Grafana 是一款采用 go 语言编写的开源应用,主要用于大规模指标数据的可视化展现,是网络架构和应用分析中最流行的时序数据展示工具,目前已经支持绝大部分常用的时序数据库。两者均可以说是各自领域最流行的应用,也比较容易使用,适合想要短时间搭建一套监控体系的用户。

    Prometheus下载地址
    Grafana下载地址