Kong支持两种健康检查,可单独使用或联合使用:

  • 主动检查,目标中的特定HTTP端点定期被请求,目标的健康是根据其响应确定的。
  • 被动检查(也称为断路器),Kong分析正在访问的流量,并根据它们响应请求确定目标的健康状况。


健康的和不健康的目标

健康检查功能的目标,是动态地将目标标记为健康的或不健康的,对于给定的Kong节点。非集群范围的健康信息同步:每个Kong节点分别决定其目标的健康状况。这是可取的,因为在给定的点上,一个Kong节点可能能够成功地连接到一个目标,而另一个节点却无法到达它:第一个节点将认为它是健康的,而第二个节点将标记为不健康,并开始将流量路由到上游的其他目标。

要么是主动请求(在主动健康检查中),要么是一个被动请求(在被动健康检查中)产生的数据,用来确定一个目标是健康的还是不健康的。请求可能产生TCP错误、超时或产生HTTP状态码。根据这些信息,健康检查更新了一系列内部计数器:

  • 如果返回的状态码被配置为“健康”,它将增加目标的“成功”计数器,并清除所有其他计数器;
  • 如果连接失败,它将增加目标的“TCP故障”计数器,并清除“成功”计数器;
  • 如果超时,它将增加目标的“超时”计数器,并清除“成功”计数器;
  • 如果返回的状态码被配置为“不健康”,它将增加目标的“HTTP故障”计数器,并清除“成功”计数器。

如果任何“TCP失败”、“HTTP故障”或“超时”计数器达到它们配置的阈值,那么目标将被标记为不健康。

如果“成功”计数器达到其配置的阈值,目标将被标记为健康。

HTTP状态码的列表是“健康的”或“不健康的”,每个计数器的单独阈值都可以在每个上游的基础上进行配置。下面,我们有一个上游实体的配置示例,展示了用于配置健康检查的各种字段的默认值。管理API参考文档中包含了对每个字段的描述。

  1. {
  2. "name": "service.v1.xyz",
  3. "healthchecks": {
  4. "active": {
  5. "concurrency": 10,
  6. "healthy": {
  7. "http_statuses": [ 200, 302 ],
  8. "interval": 0,
  9. "successes": 0
  10. },
  11. "http_path": "/",
  12. "timeout": 1,
  13. "unhealthy": {
  14. "http_failures": 0,
  15. "http_statuses": [ 429, 404, 500, 501,
  16. 502, 503, 504, 505 ],
  17. "interval": 0,
  18. "tcp_failures": 0,
  19. "timeouts": 0
  20. }
  21. },
  22. "passive": {
  23. "healthy": {
  24. "http_statuses": [ 200, 201, 202, 203,
  25. 204, 205, 206, 207,
  26. 208, 226, 300, 301,
  27. 302, 303, 304, 305,
  28. 306, 307, 308 ],
  29. "successes": 0
  30. },
  31. "unhealthy": {
  32. "http_failures": 0,
  33. "http_statuses": [ 429, 500, 503 ],
  34. "tcp_failures": 0,
  35. "timeouts": 0
  36. }
  37. }
  38. },
  39. "slots": 10
  40. }

如果上游的所有目标都是不健康的,Kong将对上游的请求返回503服务不可用

提示:

1、健康检查只在活动目标上运行,并且不修改在Kong数据库中目标的活动状态。

2、不健康的目标不会从负载平衡器中移除,因此在使用散列算法时,不会对平衡器布局产生任何影响(它们只是被跳过)。

3、DNS警告和平衡器警告也适用于健康检查。如果为目标使用主机名,那么请确保DNS服务器总是返回一个名称的完整IP地址集,并且不会限制响应。如果不这样做,可能会导致健康检查没有被执行。

健康检查的类型

主动健康检查

如名所示,会主动检查目标的监控。当在上游实体中启用了主动健康检查时,Kong将间隔地向上游的每个目标发出HTTP请求。这使得Kong可以根据探测结果自动启用和禁用平衡器中的目标。

主键健康检查的间隔时间,可以在目标健康或不健康的情况下单独配置。如果两者的interval被设置为零,则在相应的场景中禁用检查。当两者都为零时,主动健康检查完全被禁用。

被动健康检查(断路器)

被动健康检查,也称为断路器,是根据香港提出的请求进行的检查,不产生额外的流量。当一个目标变得没有反应时,被动的健康检查器就会检测到这一点,并将目标标记为不健康的。环平衡器将开始跳过这个目标,因此不会有更多的流量被路由到它。

一旦解决了目标的问题,并且它已经准备好再次接收流量,那么Kong管理员可以通过一个管理API端点手动通知健康检查器,目标应该再次启用:

  1. $ curl -i -X POST http://localhost:8001/upstreams/my_upstream/targets/10.1.2.3:1234/healthy

该命令将“健康”状态传播到整个Kong集群。这将导致Kong节点重新设置运行的健康检查器的健康计数器,从而允许环平衡器再次将流量路由到目标。

被动健康检查的好处是不产生额外的流量,但他们无法自动将目标标记为健康的目标:“路由断了”,目标需要被系统管理员重新启用。

正反两方面的总结

  • 主动健康检查可以在恢复健康的时候自动重新激活环平衡器中的目标。被动健康检查则不能。
  • 被动健康检查不会给目标带来额外的流量。主动健康检查会产生额外流量。
  • 一个主动健康检查程序需要一个已知的URL,在目标中有一个可靠的状态响应,以便将其配置为探针(可能就像“/”一样简单)。被动健康检查不要求这样的配置。
  • 通过为一个主动健康检查器提供一个定制的探测端点,应用程序可以确定它自己的健康指标,并生成一个由Kong使用的状态码。即使一个目标继续为被动健康检查器提供看起来健康的流量,它也可以对主动探测的失败状态作出响应,本质上是请求从新的流量中解脱出来。

可以将这两种模式结合起来。例如,一个人可以让被动健康检查仅仅基于其流量来监控目标健康,并且只在目标不健康的情况下使用主动健康检查,以便自动重新启用它。

启用和禁用健康检查

启用主动健康检查

要启用主动健康检查,您需要在在上游对象配置中指定下面的配置项healthchecks.active。您需要指定必要的信息,以便Kong能够对目标进行周期性的探测,以及如何解释所得到的信息。

配置探头,您需要指定:

  • healthchecks.active.http_path - 在向目标发出HTTP GET请求时应该使用的路径。默认值是“/”。
  • healthchecks.active.timeout - 用于探测的HTTP GET请求的连接超时限制。默认值是1秒。
  • healthchecks.active.concurrency - 在主动健康检查中并发检查的目标数量。

你还需要为运行的探针指定间隔的值:

  • healthchecks.active.healthy.interval - 健康目标的主动健康检查间隔时间(以秒为单位)。0的值表明不执行对健康目标的主动探测。
  • healthchecks.active.unhealthy.interval - 对不健康目标的主动健康检查间隔时间(以秒为单位)。0值表示不应该执行不健康目标的主动探测。

这允许您调整主动健康检查的行为,无论您是否希望探测健康和不健康的目标在相同的时间间隔内运行,或者一个比另一个更频繁。

最后,您需要配置Kong应该如何解释探头,通过设置健康计数器上的各种阈值,一旦到达,就会触发状态变化。计数器阈值字段是:

  • healthchecks.active.healthy.successes - 在主动探测中成功的数量(由healthchecks.active.healthy.http_statuses定义)来确认目标的健康
  • healthchecks.active.unhealthy.tcp_failures - 在主动探测中TCP故障的数量,以确认目标是不健康的。
  • healthchecks.active.unhealthy.timeouts - 在主动探测中超时的数量,以确认目标是不健康的。
  • healthchecks.active.unhealthy.http_failures - 在主动探测中出现的HTTP故障数量(由healthchecks.active.healthy.http_statuses定义)来确认目标是不健康的。

启动被动健康检查

被动健康检查不包含探针,因为它们通过解释来自目标的持续流量来监测。这意味着,启用被动检查,您只需要配置它的计数器阈值:

  • healthchecks.passive.healthy.successes - 在被动探测中,通过代理流量中的成功数量(由healthchecks.passive.healthy.http_statuses定义)来确认目标的健康。
  • healthchecks.passive.unhealthy.tcp_failures - 如被动健康检查所观察到的TCP故障的数量,来确认目标是不健康的。
  • healthchecks.passive.unhealthy.timeouts - 如被动健康检查所观察到的,在被检测的超时的数量,以确认目标是不健康的。
  • healthchecks.passive.unhealthy.http_failures -如被动健康检查所观察到的,HTTP故障数量(由healthchecks.passive.unhealthy.http_statuses定义)来确认目标是不健康的。

禁用健康检查

禁用健康检查,需要配置healthchecks的相关属性。

要完全禁用上游的主动健康检查,您需要同时设置healthchecks.active.health.intervalhealthchecks.active.unhealth.interval为0。

要完全禁用被动健康检查,您需要在健康检查中设置所有的计数器阈值healthchecks.passive ,将各种计数器变为零。

在默认情况下,健康检查中的所有计数器阈值和间隔都是零,这意味着在新创建的upstreams中,健康检查是完全禁用的。