4.6小结

Conclusion

小结

由于 SRE 负责生产环境系统的可靠性, 所以通常需要对服务的监控系统及其功能进行密切的关注和熟悉。没有这些知识, SREs 可能不知道在哪里看, 如何识别异常, 或者在紧急情况下如何找到他们所需要的信息。

我们希望通过指出我们认为有用的监控系统功能及其原因,可以帮助您评估监控策略以及您的需求的匹配程度,探索您可能能够利用的一些其他功能,并考虑您可能想要做出的更改。您可能会发现将一些指标源和登录监控策略结合起来很有用; 您需要的确切组合是高度依赖上下文性的。确保收集用于特定目的的指标。这样做的目的可能是更好地进行容量规划,协助调试或直接通知您有关问题的信息。

一旦您进行了监控,它就需要可见且有用的。为此,我们还建议您测试您的监控配置。良好的监控系统可以带来很多好处。对于最能满足您需求的解决方案进行实质性思考并进行迭代并不断完善,这是非常值得投入的。