4 监控

CHAPTER 4

第四章

Monitoring

监控

监控包含许多类型的数据,包括度量指标,文本记录,结构化事件日志,分布式跟踪和事件自检。虽然这些指标和方法对监控都非常有价值,但是本章主要涉及指标和 结构化日志这两项。 根据我们的经验,这两个数据源最适合SRE的基本监控需求。

在最基本的层面上,监控可以让您了解系统,同时监控在系统出现异常时 是判断服务健康状况以及诊断服务的核心。 在第一本SRE书中第6章我们阐释了一些基本的监控的概念 并介绍了网站可靠性工程师可以对他们的系统采取以下的一些方式进行监控

  • 对需要注意和关注的指标进行报警通知

  • 排查和诊断这些问题。

  • 直观展示相关系统信息。
  • 了解较长时间跨度的系统资源使用情况和服务健康趋势
  • 比较更改前后系统的表现,或实验中两组之间差异。

The relative importance of these use cases might lead you to make tradeoffs when selecting or building a monitoring system.

这些用例的重要性可以引导您在选择或建立监控系统进行权衡。

本章讨论Google是如何管理监控系统的,同时对您在选择和维护监控系统时可能出现的问题提供一些指导。