eurkea服务下线快速感知配置
参考: https://www.cnblogs.com/zhangs1986/p/10529815.html
https://blog.csdn.net/qq_35976271/article/details/102314965

Eureka的自我保护机制

Eureka服务端会检查最近15分钟内所有Eureka 实例正常心跳的占比,如果低于85%就会触发自我保护机制。触发了保护机制,Eureka将暂时把这些失效的服务保护起来,不让其过期,但这些服务也并不是永远不会过期。Eureka在启动完成后,每隔60秒会检查一次服务健康状态,如果这些被保护起来失效的服务过一段时间后(默认90秒)还是没有恢复,就会把这些服务剔除。如果在此期间服务恢复了并且实例心跳占比高于85%时,就会自动关闭自我保护机制。

为什么会有自我保护机制?

本身就是 cap理论里面的 ap
Eureka服务端为了防止Eureka客户端本身是可以正常访问的,但是由于网路通信故障等原因,造成Eureka服务端失去于客户端的连接,从而形成的不可用。

因为网络通信是可能恢复的,但是Eureka客户端只会在启动时才去服务端注册。如果因为网络的原因而剔除了客户端,将造成客户端无法再注册到服务端。

1、服务注册中心EurekaServer

先上要更改的配置:

  1. server:
  2. port: 8761
  3. spring:
  4. application:
  5. name: eureka-server
  6. eureka:
  7. instance:
  8. hostname: localhost
  9. client:
  10. #是否将该实例信息注册到其他eureka server上;如果设置为false,那么该server无法被其他server发现,但是仍然可以发现其他server
  11. #一般用于 eureka 集群
  12. register-with-eureka: false
  13. #是否检索服务。该应用为服务注册中心,职责为注册和发现服务,无需检索服务,设置为 false
  14. fetch-registry: false
  15. service-url:
  16. defultZone: http://${eureka.instance.hostname}:${server.port}/eureka/

server: #配置属性,但由于 Eureka 自我保护模式以及心跳周期长的原因,经常会遇到 Eureka Server 不剔除已关停的节点的问题
#服务端是否开启自我保护机制 (默认true)
enable-self-preservation: false
#扫描失效服务的间隔时间(单位毫秒,默认是60*1000)即60秒
eviction-interval-timer-in-ms: 2000
1.先要关闭自我保护 enable-self-preservation: false
2.eviction-interval-timer-in-ms 启用主动失效,并且每次主动失效检测间隔为5s
  Eureka Server会定时(间隔值是eureka.server.eviction-interval-timer-in-ms,默认值为0,默认情况不删除实例)进行检查,如果发现实例在在一定时间(此值由客户端设置的eureka.instance.lease-expiration-duration-in-seconds定义,默认值为90s)内没有收到心跳,则会注销此实例。
  有些文档指出还需要设置下面的两个参数(上下两种写法),但都测试后暂时没发现什么强关联性,这里暂时先不设置。

2、Eureka服务提供方、Eureka服务调用方修改如下配置:

  1. eureka:
  2. instance:
  3. hostname: localhost
  4. prefer-ip-address: true
  5. # 客户端向注册中心发送心跳的时间间隔,(默认30秒)
  6. lease-renewal-interval-in-seconds: 1 #每间隔1s,向服务端发送一次心跳,证明自己依然”存活“
  7. # Eureka注册中心(服务端)在收到客户端心跳之后,等待下一次心跳的超时时间,如果在这个时间内没有收到下次心跳,则移除该客户端。(默认90秒)
  8. lease-expiration-duration-in-seconds: 2 #告诉服务端,如果我2s之内没有给你发心跳,就代表我“死”了,将我踢出掉。
  9. client:
  10. serviceUrl:
  11. defaultZone: http://${eureka.instance.hostname}:8761/eureka/

客户端通过eureka.instance.lease-renewal-interval-in-seconds 每隔这个时间会主动心跳一次,默认值为30s,更新自己的状态。Eureka Server收到心跳后,会通知集群里的其它Eureka Server更新此实例的状态。
  lease-expiration-duration-in-seconds 设置服务过期时间配置,超过这个时间没有接收到心跳EurekaServer就会将这个实例剔除,一般是lease-renewal-interval-in-seconds的3倍。
  Eureka Server会定时(间隔值是eureka.server.eviction-interval-timer-in-ms,默认值为0,默认情况不删除实例)进行检查,如果发现实例在在一定时间(此值由eureka.instance.lease-expiration-duration-in-seconds定义,默认值为90s)内没有收到心跳,则会注销此实例。
经过测试设置4s上报一次心跳,12s内无跳就让注册中心剔除服务比较合理,上报时间若为2s,1000个服务会造成对注册中心请求的压力,且2s有可能网络抖动,整个时长6s无响应就判为下线会造成并发压力。
  消费端为了能快速响应服务请求会从Eureka Server拉取服务地址清单后缓存到本地(后面会增量获取),fetch-registry要设置为true,定期的更新客户端的服务清单时间 registry-fetch-interval-seconds: 8,这是消费端的设置。

3、测试总结

  • 只设置服务端Eureka Server的配置是无效的,还需要设置客户端来配合。
  • 调用方访问一个在注册中心不存在服务ID响应是非常快的,但如果访问一个ID还存在,但对应ip服务已经挂了的服务就是404,长时间无响应。
  • 服务提供者进程意外退出或服务完全卡住(是整个服务无法响应)情况是一样的,都是在指定服务的lease-expiration-duration-in-seconds时间内无心跳就会从注册中心剔除。
  • 注册中心把服务剔除后,调用方还需要时间刷新到本地缓存。