Hystrix简介

1. Hystrix介绍

  1. **Hystrix [hɪst'rɪks],中文含义是豪猪,因其背上长满棘刺,从而拥有了自我保护的能力。本文所说的Hystrix是Netflix开源的一款容错框架,同样具有自我保护能力。为了实现容错和自我保护。**
  2. **在Spring cloud中处理服务雪崩效应,都需要依赖hystrix组件。在 Application Client 应用的pom文件中都需要引入下述依赖:**
  1. <dependency>
  2. <groupId>org.springframework.cloud</groupId>
  3. <artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
  4. </dependency>

2. 降级

  1. **降级是指,当请求超时、资源不足等情况发生时进行服务降级处理,不调用真实服务逻辑,而是使用快速失败(fallback)方式直接返回一个托底数据,保证服务链条的完整,避免服务雪崩。**
  2. **解决服务雪崩效应,都是 _避免application client请求application service_ ,出现服务调用错误或网络问题。处理手法都是在application client中实现。**
  3. **我们需要在application client相关工程中导入hystrix依赖信息。并在对应的启动类上增加新的注解@EnableCircuitBreaker,这个注解是用于开启hystrix熔断器的,简言之,就是让代码中的hystrix相关注解生效。**

3. 熔断

  1. **当一定时间内,异常请求比例(请求超时、网络故障、服务异常等)达到阀值时,启动熔断器,熔断器一旦启动,则会停止调用具体服务逻辑,通过fallback快速返回托底数据,保证服务链的完整。**
  2. **熔断有自动恢复机制说,如:当熔断器启动后,每隔5秒,尝试将新的请求发送给Application Service,如果服务可正常执行并返回结果,则关闭熔断器,服务恢复。如果仍旧调用失败,则继续返回托底数据,熔断器持续开启状态。**

降级是出错了返回托底数据,而熔断是出错后如果开启了熔断将会一定时间不在访问application service

6. 熔断器Hystrix - 图1

4. 属性

  1. **熔断的实现是在调用远程服务的方法上增加@HystrixCommand注解。当注解配置满足则开启或关闭熔断器。**

@HystrixProperty的name属性取值可以使用HystrixPropertiesManager常量,也可以直接使用字符串进行操作。

  1. @HystrixCommand(
  2. // 指定降级方法
  3. fallbackMethod = "xxx_method",
  4. // 分组的key
  5. groupKey = "strGroupCommand",
  6. // 命令分组的key
  7. commandKey = "strCommarld",
  8. // 线程池key值,相同key共用一个线程池;这三个key都是划分线程池相关
  9. threadPoolKey = "strThreadPool",
  10. commandProperties = {
  11. //设置隔离策略,THREAD 表示线程她SEMAPHORE:信号他隔离
  12. @HystrixProperty(name = "execution.isolation.strategy", value = "THREAD"),
  13. //当隔离策略选择信号他隔离的时候,用来设置信号地的大小(最大并发数)
  14. @HystrixProperty(name = "execution.isolation.semaphore.maxConcurrentRequests", value = "10"),
  15. //配置命令执行的超时时间
  16. @HystrixProperty(name = "execution.isolation.thread.timeoutinMilliseconds", value = "10"),
  17. //是否启用超时时间
  18. @HystrixProperty(name = "execution.timeout.enabled", value = "true"),
  19. //执行超时的时候是否中断
  20. @HystrixProperty(name = "execution.isolation.thread.interruptOnTimeout", value = "true"),
  21. //执行被取消的时候是否中断
  22. @HystrixProperty(name = "execution.isolation.thread.interruptOnCancel", value = "true"),
  23. //允许回调方法执行的最大并发数
  24. @HystrixProperty(name = "fallback.isolation.semaphore.maxConcurrentRequests", value = "10"),
  25. //服务降级是否启用,是否执行回调函数
  26. @HystrixProperty(name = "fallback.enabled", value = "true"),
  27. @HystrixProperty(name = "circuitBreaker.enabled", value = "true"),
  28. //该属性用来设置在滚动时间窗中,断路器熔断的最小请求数。例如,默认该值为20的时候,
  29. //如果滚动时间窗(默认10秒)内仅收到了19个请求,即使这19个请求都失败了, 断路器也不会打开。
  30. @HystrixProperty(name = "circuitBreaker.requestVolumeThreshold", value = "20"),
  31. // 该属性用来设置在熔动时间窗中表示在滚动时间窗中,在请求数量超过
  32. // circuitBreaker.requestVolumeThreshold 的情况下,如果错误请求数的百分比超过50,
  33. //就把断路器设置为“打开”状态,否则就设置为“关闭”状态。
  34. @HystrixProperty(name = "circuitBreaker.errorThresholdPercentage", value = "50"),
  35. // 该属性用来设置当断路器打开之后的休眠时间窗。休眠时间窗结束之后,
  36. //会将断路器置为"半开”状态,尝试熔断的请求命令,如果低然失败就将断路器继续设置为"打开”状态,
  37. //如果成功就设置为"关闭”状态。
  38. @HystrixProperty(name = "circuitBreaker.sleepWindowinMilliseconds", value = "5009"),
  39. //断路器强制打开
  40. @HystrixProperty(name = "circuitBreaker.force0pen", value = "false"),
  41. // 断路器强制关闭
  42. @HystrixProperty(name = "circuitBreaker.forceClosed", value = "false"),
  43. //滚动时间窗设置,该时间用于断路器判断健康度时需要收集信息的持续时间
  44. @HystrixProperty(name = "metrics.rollingStats.timeinMilliseconds", value = "10000"),
  45. //该属性用来设置滚动时间窗统计指标信息时划分”桶"的数量,断路器在收集指标信息的时候会根据设置的时间窗长度拆分成多个"相"来累计各度量值,每个”桶"记录了-段时间内的采集指标。
  46. //比如10秒内拆分成10个”桶"收集这样,所以timeinMilliseconds 必须能被numBuckets 整除。否则会抛异常
  47. @HystrixProperty(name = "metrics.rollingStats.numBuckets", value = "10"),
  48. //该属性用来设置对命令执行的延迟是否使用百分位数来跟踪和计算。如果设置为false,那么所有的概要统计都将返回-1.
  49. @HystrixProperty(name = "metrics .rollingPercentile.enabled", value = "false"),
  50. //该属性用来设置百分位统计的滚动窗口的持续时间, 单位为毫秒。
  51. @HystrixProperty(name = "metrics.rollingPercentile.timeInMilliseconds", value = "60000"),
  52. //该属性用来设置百分位统计演动窗口中使用“桶”的数量。
  53. @HystrixProperty(name = "metrics.rollingPercentile.numBuckets", value = "60000"),
  54. // 该属性用来设置在执行过程中每个 “桶”中保留的最大执行次数。如果在滚动时间窗内发生超过该设定值的执行次数,就从最初的位置开始重写。例如,将该值设置为100,燎动窗口为10秒, 若在10秒内一 一个“桶 ” 中发生7500次执行,
  55. //那么该“桶”中只保留最后的100次执行的统计。另外,增加该值的大小将会增加内存量的消耗, 并增加排序百分位数所需的计算
  56. @HystrixProperty(name = "metrics.rollingPercentile.bucketSize", value = "100"),
  57. //该属性用来设置采集影响断路器状态的健康快照(请求的成功、错误百分比) 的间隔等待时间。
  58. @HystrixProperty(name = "metrics.healthSnapshot.intervalinMilliseconds", value = "500"),
  59. //是否开启请求缓存
  60. @HystrixProperty(name = "requestCache.enabled", value = "true"),
  61. // HystrixCommand的执行和时间是否打印日志到HystrixRequestLog中
  62. @HystrixProperty(name = "requestLog.enabled", value = "true"),
  63. },
  64. threadPoolProperties = {
  65. //该参数用来设置执行命令线程他的核心线程数,该值 也就是命令执行的最大并发量
  66. @HystrixProperty(name = "coreSize", value = "10"),
  67. //该参数用来设置线程她的最大队列大小。当设置为-1时,线程池将使用SynchronousQueue 实现的队列,
  68. // 否则将使用LinkedBlocakingQueue实现队列
  69. @HystrixProperty(name = "maxQueueSize", value = "-1"),
  70. // 该参数用来为队列设置拒绝阀值。 通过该参数, 即使队列没有达到最大值也能拒绝请求。
  71. //該参数主要是対linkedBlockingQueue 队列的朴充,因为linkedBlockingQueue
  72. //队列不能动态修改它的对象大小,而通过该属性就可以调整拒绝请求的队列大小了。
  73. @HystrixProperty(name = "queueSizeRejectionThreshold", value = "5"),
  74. }
  75. )

5. 请求缓存

  1. Hystrix为了降低访问服务的频率,支持将一个请求与返回结果做缓存处理。如果再次请求的URL没有变化,那么Hystrix不会请求服务,而是直接从缓存中将结果返回。这样可以大大降低访问服务的压力。

Hystrix自带缓存。有两个缺点:

  • 是一个本地缓存。在集群情况下缓存是不能同步的。

  • 不支持第三方缓存容器。Redis,memcached不支持的。

可以利用spring cache实现请求缓存。

6. 请求合并

  • 没有请求合并时:Application Service 负载是Application Client发送请求的总数量

6. 熔断器Hystrix - 图2

  • 有请求合并:把一段时间范围内的所有请求合并为一个请求。大大的降低了Application Service 负载。

6. 熔断器Hystrix - 图3

请求合并使用场景

  1. **在微服务架构中,我们将一个项目拆分成很多个独立的项目,这些独立的项目通过远程调用来互相配合工作,但是,在高并发情况下,通信次数的增加会导致总的通信时间增加,同时,线程池的资源也是有限的,高并发环境会导致有大量的线程处于等待状态,进而导致响应延迟,为了解决这些问题,我们需要来了解Hystrix的请求合并。**

请求合并缺点

  1. **设置请求合并之后,本来一个请求可能5ms就搞定了,但是现在必须再等10ms看看还有没有其他的请求一起的,这样一个请求的耗时就从5ms增加到15ms了,不过,如果我们要发起的命令本身就是一个高延迟的命令,那么这个时候就可以使用请求合并了,因为这个时候时间窗的时间消耗就显得微不足道了,另外高并发也是请求合并的一个非常重要的场景。**

@HystrixCollapser注解参数介绍

6. 熔断器Hystrix - 图4

7. 补充

什么是灾难性的雪崩效应

6. 熔断器Hystrix - 图5

造成灾难性雪崩效应的原因,可以简单归结为下述三种:

  • 服务提供者(Application Service)不可用。如:硬件故障、程序BUG、缓存击穿、并发请求量过大等。

  • 重试加大流量。如:用户重试、代码重试逻辑等。

  • 服务调用者(Application Client)不可用。如:同步请求阻塞造成的资源耗尽等。

  1. 雪崩效应最终的结果就是:服务链条中的某一个服务不可用,导致一系列的服务不可用,最终造成服务逻辑崩溃。这种问题造成的后果,往往是无法预料的。
  2. 解决灾难性雪崩效应的方式通常有:降级、熔断和请求缓存、请求合并。

如何解决灾难性雪崩效应

  • 降级

    • 超时降级、资源不足时(线程或信号量)降级,降级后可以配合降级接口返回托底数据。实现一个fallback方法, 当请求后端服务出现异常的时候, 可以使用fallback方法返回的值.
    • 保证:服务出现问题整个项目还可以继续运行。
  • 熔断

    • 当失败率(如因网络故障/超时造成的失败率高)达到阀值自动触发降级,熔断器触发的快速失败会进行快速恢复。通俗理解:熔断就是具有特定条件的降级。所以在代码上熔断和降级都是一个注解
    • 保证:服务出现问题整个项目还可以继续运行。
  • 缓存

    • 提供了请求缓存。服务A调用服务B,如果在A中添加请求缓存,第一次请求后走缓存了,就不在访问服务B了,即使出现大量请求时,也不会对B产生高负载。请求缓存可以使用Spring Cache实现。
    • 保证:减少对Application Service的调用。
  • 请求合并

    • 提供请求合并。当服务A调用服务B时,设定在5毫秒内所有请求合并到一起,对于服务B的负载就会大大减少,解决了对于服务B负载激增的问题。
    • 保证:减少对Application Service的调用。