导读:Hystrix中文含义是豪猪,因其背上长满棘刺,从而拥有了自我保护的能力。是Netlifx开源的一款容错框架,防雪崩利器,具备服务降级,服务熔断,依赖隔离,监控(Hystrix Dashboard)等功能。
一、背景
Hystrix是Netlifx开源的一款容错框架,防雪崩利器,具备服务降级,服务熔断,依赖隔离,监控(Hystrix Dashboard)等功能。
尽管说Hystrix官方已不再维护,且有Alibaba Sentinel等新框架选择,但从组件成熟度和应用案例等方面看,其实还是有很多项目在继续使用Hystrix中。
二、隔离策略
Hystrix的资源隔离策略有两种,分别为:线程池和信号量。说到资源隔离,那我们就要明白,我们为什么需要资源隔离?
在一个分布式系统中,服务之间都是相互调用的,如下图所示:
例如,我们容器(Tomcat)配置的线程个数为1000,服务A-服务I。
其中服务F的并发量非常的大,需要500个线程来执行,此时,服务I又挂了,那么这500个线程很可能就夯死了,那么剩下的服务,总共可用的线程为500个,随着并发量的增大,剩余服务挂掉的风险就会越来越大,最后导致整个系统的所有服务都不可用,直到系统宕机。这就是服务的雪崩效应。
Hystrix就是用来做资源隔离的,比如说,当客户端向服务端发送请求时,给服务I分配了10个线程,只要超过了这个并发量就走降级服务,就算服务I挂了,最多也就导致服务I不可用,容器的10个线程不可用了,但是不会影响系统中的其他服务。下面,我们就来具体说下这两种隔离策略:
▐ 线程池
线程池隔离的示意图如下:
信号量和线程池的区别
上图的左边2/3是线程池资源隔离示意图,右边的1/3是信号量资源隔离示意图,我们先来看左边的示意图。
当用户请求服务A和服务I的时候,tomcat的线程(图中蓝色箭头标注)会将请求的任务交给服务A和服务I的内部线程池里面的线程(图中橘色箭头标注)来执行,tomcat的线程就可以去干别的事情去了,当服务A和服务I自己线程池里面的线程执行完任务之后,就会将调用的结果返回给tomcat的线程,从而实现资源的隔离,当有大量并发的时候,服务内部的线程池的数量就决定了整个服务的并发度,例如服务A的线程池大小为10个,当同时有12请求时,只会允许10个任务在执行,其他的任务被放在线程池队列中,或者是直接走降级服务,此时,如果服务A挂了,就不会造成大量的tomcat线程被服务A拖死,服务I依然能够提供服务。整个系统不会受太大的影响。
▐ 信号量
信号量的资源隔离只是起到一个开关的作用,例如,服务X的信号量大小为10,那么同时只允许10个tomcat的线程
此处是tomcat的线程,而不是服务X的独立线程池里面的线程来访问服务X,其他的请求就会被拒绝,从而达到限流保护的作用。
▐ 二者比较
Hystrix提供两种资源隔离策略,线程池和信号量。它们之间的异同点如下:
|
线程池隔离 | 信号量隔离 | |
---|---|---|
线程 | 与调用线程非相同线程 | 与调用线程相同(tomcat线程) |
开销 | 排队、调度、上下文切换 | 无线程切换,开销低 |
异步 |
| 支持 | 不支持 | | 并发支持
| 支持(最大线程池大小) | 支持(最大信号量上限) |
三、总结
当请求的服务网络开销比较大,或者是请求比较耗时,我们最好使用线程隔离策略,这样的策略,可以保证大量的容器(tomcat)线程可用,不会因服务原因,一直处于阻塞或等待状态,快速失败返回;
而在使用缓存(本地内存缓存更适合该场景,Redis等网络缓存需要评估)时,我们可以使用信号量隔离策略,因为这类服务响应快,不会占用容器线程太长时间,而且也减少了线程切换的一些开销,提高了服务效率。
具体使用哪种策略,需根据业务场景综合评估。一般情况下,推荐使用线程池隔离。