一、Sentinel熔断概念介绍
官方文档网址:circuit-breaking | Sentinel
1、Sentinel熔断基本介绍
除了流量控制以外,对调用链路中不稳定的资源进行熔断降级也是保障高可用的重要措
施之一。一个服务常常会调用别的模块,可能是另外的一个远程服务、数据库,或者第
三方 API 等。
例如,支付的时候,可能需要远程调用银联提供的 API;查询某个商品的价格,可能需要
进行数据库查询。然而,这些被依赖服务的稳定性是不能保证的。如果依赖的服务出现了
不稳定的情况,请求的响应时间变长,那么调用服务的方法的响应时间也会变长,线程会
产生堆积,最终可能耗尽业务自身的线程池,服务本身也变得不可用。
服务间的依赖关系如下图所示:
微服务架构都是分布式的,由非常多的服务组成。不同服务之间相互调用,组成复杂的调用
链路。以上的问题在链路调用中会产生放大的效果。复杂链路上的某一环不稳定,就可能
会层层级联,最终导致整个链路都不可用。因此我们需要对不稳定的弱依赖服务调用进行
熔断降级,暂时切断不稳定调用,避免局部不稳定因素导致整体的雪崩。熔断降级作为保
护自身的手段,通常在客户端(调用端)进行配置。
2、熔断策略
Sentinel 支持下面几种熔断策略:
1)慢调用比例 (SLOW_REQUEST_RATIO
)
选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即请求最大的响应时间),
请求的响应时间大于该值则统计为慢调用。当单位统计时长(statIntervalMs
)内请求
数目大于设置的最小请求数目,并且慢调用的比例大于阈值,则接下来的熔断时长内新的
请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),
若接下来的第一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用
RT, 则会再次被熔断。
2)异常比例 (ERROR_RATIO
)
当单位统计时长(statIntervalMs
)内请求数目大于设置的最小请求数目,并且异常的
比例大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入
探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束
熔断,否则会再次被熔断。异常比率的阈值范围是 [0.0, 1.0]
,代表 0% - 100%。
3)异常数 (ERROR_COUNT
)
当单位统计时长内的异常数目超过阈值之后会自动进行熔断。经过熔断时长后熔断器会
进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误),
则结束熔断,否则会再次被熔断。
3、Sentinel熔断状态
Sentinel 支持三种熔断状态,分别为:OPEN、HALF_OPEN、CLOSED
1)OPEN(开启熔断)
表示熔断开启,拒绝所有请求
2)HALF_OPEN(探测恢复状态)
探测恢复状态,如果接下来的一个请求顺利通过则表示结束熔断,否则继续熔断
3)CLOSED(关闭熔断)
表示熔断关闭,请求顺利通过
4、Sentinel熔断规则属性解析
Sentinel在1.8.0版本对熔断降级做了大的调整,可以定义任意时长的熔断时间,引入了半
开启恢复支持。
Sentinel 新建熔断规则页面如下:
1)资源名(resource )
资源名,即规则的作用对象
2)熔断策略(grade )
熔断策略,支持慢调用比例/异常比例/异常数策略;默认值是慢调用比例
3)最大RT(count )
慢调用比例模式下为慢调用临界 RT(超出该值计为慢调用);
异常比例/异常数模式下为对应的阈值;如异常比例模式下对应的是“比例阈值”,
异常数模式下对应的是 “异常数”,如下图所示:
注意:这一点与”慢调用“模式下 比例阈值 的区别
4)比例阈值(slowRatioThreshold )
慢调用比例阈值,仅慢调用比例模式有效(1.8.0 引入)
5)熔断时长(timeWindow )
熔断时长,单位秒s,可以定义任意时长的熔断时间
6)最小请求数(minRequestAmount )
熔断触发的最小请求数,请求数小于该值时即使异常比率超出阈值也不会熔断
(1.7.0 引入);默认值是 5
7)统计时长(statIntervalMs )
统计时长(单位为 ms),如 60*1000 代表分钟级(1.8.0 引入);默认值是1000ms
二、Sentinel 熔断策略测试
1、慢调用比例 (SLOW_REQUEST_RATIO
)
选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即请求的最大的响应时间),
请求的响应时间大于该值则统计为慢调用。当单位统计时长(statIntervalMs
,默认是1s)内
请求数目大于设置的最小请求数目,并且其中慢调用的比例大于阈值,则接下来的熔断时长内
请求会自动被熔断。经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),
若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT ,
则会再次被熔断。
1.1、慢调用规则配置示例
1)环境准备,首先在 breakerTest() 方法中添加sleep休眠代码,模拟慢执行,如下图所示:
2)配置慢调用熔断规则
Sentinel 熔断触发流程如下所示:
3)测试
测试熔断最好使用JMater 工具,本人这个新电脑上没有安装JMater,所以最小请求数配
的比较小,然后在浏览器中快速访问 breakerA也能看到效果;
当请求触发熔断后,在熔断时间段内所有的请求都没拒绝,过了熔断时长,请求可以再
次被访问,如下图所示:
2、异常比例 (ERROR_RATIO
)
当单位统计时长(statIntervalMs
)内请求数目大于设置的最小请求数目,并且异常的比例
大于阈值,则接下来的熔断时长内请求会自动被熔断。经过熔断时长后熔断器会进入
探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束
熔断,否则会再次被熔断。异常比率的阈值范围是 [0.0, 1.0]
,代表 0% - 100%。
注意:
异常降级仅针对业务异常,对 Sentinel 限流降级本身的异常(BlockException
)不生效。
2.1、异常比例熔断配置示例
1)环境准备,创建方法 breakerTestB,并模拟异常,如下所示:
2)配置“异常比例” 熔断规则
为请求 /breakerB 配置异常比例熔断规则,如下所示:
异常比例触发熔断流程:
3)测试
当统计时长内,异常请求占比超过阈值后,后续在熔断时长内的请求会被直接拒绝,
如下图所示:
3、异常数 (ERROR_COUNT
)
当单位统计时长内的异常数目超过阈值之后会自动进行熔断。经过熔断时长后熔断器会进入
探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束
熔断,否则会再次被熔断。
注意:
异常降级仅针对业务异常,也是对 Sentinel 限流降级本身的异常(BlockException
)
不生效。
3.1、异常数规则配置示例
还是给请求 /breakerB 异常数的熔断规则,熔断规则配置如下:
异常数熔断触发流程如下所示:
测试:
在统计时长内,异常请求数超过配置的“异常数”,后续在熔断时长内的请求会被直接拒绝
测试结果如下图所示: