springboot + nacos + k8s 优雅停机

1 概念

优雅停机是什么?网上说的优雅下线、无损下线,都是一个意思。

优雅停机,通常是指在设备、系统或应用程序中止运作前,先执行一定的流程或动作,以确保数据的安全、预防错误并保证系统的整体稳定。

一般来说,优雅停机可以参考以下步骤以实现:

  1. 备份数据 :立即将内存中的所有未保存的修改、缓存等数据保存到数据库或磁盘中。

  2. 停止接收新的请求

  3. 处理未完成的请求

  4. 通知其他依赖组件

  5. 等待所有要素安全退出后,关闭系统

在具体实施时,不同的设备、不同的系统、不同的应用,所需要的优雅停机步骤也不尽相同,甚至需要根据不同的场景来选择不同的方法。

例如,在某些情况下,你可能需要让用户知道,系统即将关闭,并告诉他们应当保存所有的工作并退出系统;而在另一些情况下,你可能需要设计一种策略,能够让系统在无用户介入的情况下,自动保存所有的状态,并在下次启动时恢复之。

但是,无论在哪种情况下,优雅停机的目标都是保护数据,避免错误,并尽量减少到访用户或使用者的不便。

上面的步骤,其实还缺了不少基础的内容,比如,停止请求外,还要停止接收定时任务、停止接收mq消息,等待他们的完成,这2项都是我们微服务中必不可缺的能力。

因此,我希望通过本文,能够更清晰,更详细的讲解,在我已知的真实业务场景下,如何做优雅停机。

文中,很多内容不会讲得太详细,需要大家有一定的搜索能力或者经验!

基于 Spring Boot + MyBatis Plus + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

  • 项目地址:https://github.com/YunaiV/ruoyi-vue-pro

  • 视频教程:https://doc.iocoder.cn/video/

2 用案例说话

随着微服务的兴起,运维方式由docker -> k8s 变化,优雅停机涉及到的点就越来越多!下面,我们用一个案例,说明优雅停机中的问题和问题解决方案。

案例前:k8s 停机流程

当程序员执行 kubectl delete pod 命令时,两个过程开始:

网络规则即将生效:

  • Kube-apiserver 收到 pod 删除请求,并将 pod 的状态更新为 Extinating at Etcd;

  • 终结点控制器从终结点对象中删除 Pod 的 IP;

  • Kuber-proxy 根据 Endpoint 对象的更改更新 iptables 的规则,并且不再将流量路由到已删除的 pod。

删除容器:

  • Kube-apiserver 收到 pod 删除请求,并将 pod 的状态更新为 Extinating at Etcd;

  • Kubelet 清理节点处的容器相关资源,如存储、网络;

  • 添加 Prestop hook 钩子,等待流量不再发给pod;

  • Kubelet 将SIGTERM发送到容器;

  • 如果容器在默认的 30 秒内没有退出,Kubelet 将发送 SIGKILL 并强制其退出。

 

k8s + springboot + nacos 案例

 

PreStopHook 做了2件事情:

  1. nacos反注册

  2. 休眠35秒

通过信号量关闭springboot程序;

其中,k8s的 terminationGracePeriodSeconds(宽限期)设置为35s。

问题

springBoot程序关闭时间只有2s, 那么该程序就无法处理完一些线程任务、异步消息、定时任务等。为什么呢?

宽限期设置了35s,PreStop休眠了35s + 一个请求的时间,超过了宽限期,那么 kubelet 就会给与 pod 增加一次性2s的宽限时间。Pod 的生命周期,2s不管程序是否正常结束,都会被Kill -9。

为什么反注册之后需要休眠35s?

这里涉及到nacos服务发现原理,nacos服务变更响应时间:实时;ribbon 默认缓存刷新时间30s;因此,一开始是设置30s的,发现还有feign请求失败的情况,所以设置成了35s以解决这个问题!

nacos服务变更响应时间真的是实时吗?

其实并不一定,nacos服务发现是通过http和udp实现的,udp是实时的,http最大等待时间是10s,但是,udp端口生产环境可能没有开放!所以,案例中的nacos服务发现仅通过http定时轮询实现。

案例优化

上面的案例可以优化的点

  • nacos 反注册后休眠35s,是否可以减少;

  • terminationGracePeriodSeconds 设置多少合理?

优化点1

反注册后休眠的35s时候受到nacos服务发现 + ribbon 缓存刷新时间影响,正常应该是 服务发现时间 + 缓存刷新时间 40s才能在极端情况下保证服务停机时,不会再有feign 请求进入。

如果想要缩短这个时间

  • 启用udp,这个需要和运维同学商量,否则10s等待少不了;

  • 监听nacos服务变更通知,发现服务下线后,及时刷新ribbon缓存;

/** * 订阅 nacos 实例变更通知 * 手动刷新 ribbon 服务实例缓存 * nacos client 1.4.6 【1.4.1有重大缺陷,要注意】 */ @Component @Slf4j publicclass NacosInstancesChangeEventListener extends Subscriber<InstancesChangeEvent> { @Resource private SpringClientFactory springClientFactory; @PostConstruct public void registerToNotifyCenter(){ NotifyCenter.registerSubscriber(this); } @Override public void onEvent(InstancesChangeEvent event) { String service = event.getServiceName(); // service: DEFAULT_GROUP@@demo ribbonService: demo String ribbonService = service.substring(service.indexOf("@@") + 2); log.info("#### 接收到微服务nacos实例变更事件:{} ribbonServiceName: {}", event.getServiceName(), ribbonService); ILoadBalancer loadBalancer = springClientFactory.getLoadBalancer(ribbonService); if(loadBalancer != null){ ((ZoneAwareLoadBalancer<?>) loadBalancer).updateListOfServers(); log.info("刷新 ribbon 服务实例:{} 缓存成功", ribbonService); } } @Override public Class<? extends com.alibaba.nacos.common.notify.Event> subscribeType() { return InstancesChangeEvent.class; } /** * nacos 1.4.4 ~ 1.4.6 需要加这个方法的实现, 2.1.2以后版本修复了该问题 * 多注册中心时,变更事件没有隔离,因此需要实现该方法来判断事件是否需要处理 * @see <a href="https://github.com/alibaba/nacos/issues/8428">ISSUE #8428 - Nacos InstancesChange Event Scope</a> * **/ @Override public boolean scopeMatches(InstancesChangeEvent event) { returntrue; } }

优化点2

terminationGracePeriodSeconds 的值应该略大于 PreStop耗时 + springBoot 停机时间,springBoot 停机时间是由程序业务决定的(mq消息、定时任务、线程池任务、以及备份数据),网上的推荐做法是启用springBoot的优雅停机功能,并实现自定义的关闭逻辑。

springBoot优雅停机的默认缓冲时间是30s,因此,terminationGracePeriodSeconds的时间个人建议10 + 30s即可。

经过优化后

 

使用 actuator shutdown 方案

有些网贴推荐使用 actuator shutdown 进行优雅停机,那么看下其流程图:

 

其实,真正的情况并非如上图所示,因为调用shutdown后,springBoot就会进入优雅停机流程,但是这个流程没有结束,然后就会被kill -15 中断,如果线程池没有做好配置,线程池任务没有结束,服务就会关闭。

// 没有设置下面参数,在kill -15时,线程池没有执行结束,会被强制关闭 threadPoolTaskExecutor.setWaitForTasksToCompleteOnShutdown(true); threadPoolTaskExecutor.setAwaitTerminationSeconds(30);

基于 Spring Cloud Alibaba + Gateway + Nacos + RocketMQ + Vue & Element 实现的后台管理系统 + 用户小程序,支持 RBAC 动态权限、多租户、数据权限、工作流、三方登录、支付、短信、商城等功能

  • 项目地址:https://github.com/YunaiV/yudao-cloud

  • 视频教程:https://doc.iocoder.cn/video/

3 再次优化

mq 和 定时任务

上面的方案中,提到nacos反注册时,其他服务监听反注册事件,进行ribbon缓存刷新,那么,反注册的服务(停机服务)自身,是否可以也监听该事件呢?答案是可以的。

停机的服务监听nacos反注册事件,判断是自己反注册了,表示准备关机,那么就可以停止对mq消息的监听,停止定时任务,这样就比在优雅停机时,进行mq 和 定时任务的停止更完美。

 

流量控制

如果没有使用k8s进行pod节点的流量控制,那么大概率会使用 springCloud gateway作为服务网关,因此,gateway 服务也应该监听nacos的反注册事件,从而及时刷新ribbon的缓存,关闭停机服务的流量。

4 小结

经过大量的资料参考、学习,最终得到的一份自己认为合格的优雅停机方案,里面可能有较多的不专业表述,敬请谅解和指正,谢谢。

在本文的最后,还要说下,优雅停机最大的挑战并不是来源于这个优雅停机流程,机械化的流程前人都帮忙躺过了,剩下的是业务服务自身的逻辑:

  • 有没有包含超过30s的业务逻辑,如执行超过30s的请求,定时任务、线程池任务或mq消息;

  • 服务关闭时,如何保存未完成的任务、数据,实现自定义的关闭逻辑;

  • 接口逻辑是否做了幂等;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/909397.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 标准库之 math 模块

1. 前言 math 模块中包含了各种浮点运算函数&#xff0c;包括&#xff1a; 函数功能floor向下取整ceil向上取整pow指数运算fabs绝对值sqrt开平方modf拆分小数和整数fsum计算列表中所有元素的累加和copysign复制符号pi圆周率e自然对数 2. math.floor(n) 函数 math.floor(n) 的…

6.14星期六休息一天

Hey guys, Today’s Saturday, and I didn’t have to go to work, so I let myself sleep in a bit — didn’t get up until 8 a.m. My cousin invited me over to his place. He lives in a nearby city, about 80 kilometers away. But honestly, after a long week, I …

event.target 详解:理解事件目标对象

event.target 详解&#xff1a;理解事件目标对象 在 JavaScript 事件处理中&#xff0c;event.target 是一个关键属性&#xff0c;它表示最初触发事件的 DOM 元素。下面我将通过一个可视化示例详细解释其工作原理和使用场景。 <!DOCTYPE html> <html lang"zh-C…

Flutter 小技巧之:实现 iOS 26 的 “液态玻璃”

随着 iOS 26 发布&#xff0c;「液态玻璃」无疑是热度最高的标签&#xff0c;不仅仅是因为设计风格大变&#xff0c;更是因为 iOS 26 beta1 的各种 bug 带来的毛坯感让 iOS 26 冲上热搜&#xff0c;比如通知中心和控制中心看起来就像是一个半成品&#xff1a; 当然&#xff0c;…

Android工程中FTP加密传输与非加密传输的深度解析

详细的FTP传输实现方案&#xff0c;包括完整代码、安全实践、性能优化和实际应用场景分析。 一、FTP传输类型对比表&#xff08;增强版&#xff09; 特性非加密FTPFTPS (FTP over SSL/TLS)SFTP (SSH File Transfer Protocol)协议基础FTP (RFC 959)FTP SSL/TLS (RFC 4217)SSH…

C# 枚 举(枚举)

枚举 枚举是由程序员定义的类型&#xff0c;与类或结构一样。 与结构一样&#xff0c;枚举是值类型&#xff1a;因此直接存储它们的数据&#xff0c;而不是分开存储成引用和数据。枚举只有一种类型的成员&#xff1a;命名的整数值常量。 下面的代码展示了一个示例&#xff0c…

一文详解前缀和:从一维到二维的高效算法应用

文章目录 一、一维前缀和​1. 基本概念​2. C 代码实现​3. 应用场景​ 二、二维前缀和1. 基本概念​2. C 代码实现​3. 应用场景​ 三、总结​ 在算法竞赛和日常的数据处理工作中&#xff0c;前缀和是一种极其重要的预处理技术。它能够在常数时间内回答多次区间查询&#xff0…

windows 开发

文章目录 环境搭建数据库关键修改说明&#xff1a;在代码中使用该连接字符串&#xff1a;注意事项&#xff1a;实际使用 都说几天创造一个奇迹&#xff0c;现在是真的这样了&#xff0c;Just do it! 环境搭建 数据库 需要下载这个SQL Server数据库&#xff0c;然后每次Visua…

免费OCPP协议测试工具

免费OCPP 1.6J协议测试工具&#xff0c;简单实用。除加密功能外&#xff08;后续版本支持&#xff09;&#xff0c;支持所有消息调试。 后续将添加2.01和和2.1协议支持. 欢迎使用 Charge-Test

高等数学基础(行列式和矩阵的秩)

行列式主要用于判断矩阵是否可逆及计算特征方程 初见行列式 行列式起源于线性方程组求解 { a 11 x 1 a 12 x 2 b 1 a 21 x 1 a 22 x 2 b 2 \begin{cases} a_{11}x_1 a_{12}x_2 b_1 \\ a_{21}x_1 a_{22}x_2 b_2 \end{cases} {a11​x1​a12​x2​b1​a21​x1​a22​x2…

开心灿烂go开发面试题

1.给你单链表的头节点 head &#xff0c;请你反转链表&#xff0c;并返回反转后的链表。 示例1: 输入&#xff1a;head [1,2,3,4,5] 输出&#xff1a;[5,4,3,2,1] package main import “fmt” type ListNode struct { Val int Next *ListNode } func main() { l1 : &…

【Flutter】程序报错导致的灰屏总结

【Flutter】程序报错导致的灰屏总结 一、前言 在 Flutter 中&#xff0c;出现“灰屏”&#xff08;grey screen&#xff09;通常意味着 应用发生了未捕获的错误&#xff0c;导致框架无法正确构建 UI。 这也是在面试过程中常常问到的。 二、错误分类 常见的会导致灰屏的错误…

基于物联网设计的智慧家庭健康医疗系统

1. 项目开发背景 随着物联网&#xff08;IoT&#xff09;技术的发展&#xff0c;智能家居系统逐渐融入到我们的日常生活中&#xff0c;成为提高生活质量、增强家庭安全、提升健康管理的重要工具。特别是在健康医疗领域&#xff0c;借助物联网技术&#xff0c;智能家居不仅能够…

设计模式精讲 Day 1:单例模式(Singleton Pattern)

【设计模式精讲 Day 1】单例模式&#xff08;Singleton Pattern&#xff09; 文章内容 开篇 在软件开发中&#xff0c;设计模式是解决常见问题的通用解决方案。作为“设计模式精讲”系列的第一天&#xff0c;我们将深入讲解单例模式&#xff08;Singleton Pattern&#xff09…

【卫星通信】3GPP标准提案:面向NB-IoT(GEO)场景的IMS信令优化方案-降低卫星通信场景下的语音呼叫建立时延

一、引言 随着5G非地面网络&#xff08;NTN&#xff09;技术的演进&#xff0c;基于NB-IoT的卫星通信&#xff08;如GEO地球同步轨道卫星&#xff09;逐渐成为偏远地区语音服务的重要补充。然而&#xff0c;传统IP多媒体子系统&#xff08;IMS&#xff09;的信令流程在带宽受限…

软件测试之简单基础的安全测试方法(另外包含软测面试题库)

文章目录 前言安全测试是什么简单基础的安全测试方法密码安全操作权限验证SQL注入xss脚本攻击文件上传下载安全漏洞扫描Web扫描APP扫描 面试题库&#xff08;仅参考&#xff09;参考目录 前言 阅读本文前请注意最后编辑时间&#xff0c;文章内容可能与目前最新的技术发展情况相…

LCEL:LangChain 表达式语言详解与测试工程师的实践指南

引言 在 AI 应用开发中&#xff0c;如何高效地组合多个步骤&#xff08;如提示模板、模型调用、输出解析&#xff09;并优化执行流程&#xff0c;是开发者和测试工程师共同面临的挑战。LangChain Expression Language (LCEL) 作为 LangChain 的核心功能之一&#xff0c;提供了…

LeetCode面试经典150题—旋转数组—LeetCode189

原题请见&#xff1a;Leetcode189-旋转数组 1、题目描述 2、题目分析 首先容易想到的最简单的方案&#xff0c;是算出来移动K步之后&#xff0c;新数组的每一个坐标与原坐标的映射关系&#xff0c;然后根据映射关系放到一个全新的数组&#xff0c;再把新数组的值赋给原数组。…

2.5 Rviz使用教程

新建终端&#xff0c;键入命令 roslaunch wpr_simulation wpb_simple.launch 再新建终端&#xff0c;键入命令 rviz修改Fix Frame 为 base_footprint 点击add之后选择RobotModel 再增加一个LaserScan 选择激光雷达话题 可视化效果 配置的两种方法 1.在Gazebo运行的基础上&…

基于SpringBoot+JSP开发的招投标采购信息平台

角色&#xff1a; 管理员、普通用户 技术&#xff1a; 后端&#xff1a;Spring Boot Mybatis-Plus MySQL 前端&#xff1a;JSP 核心功能&#xff1a; 该平台是一个用于管理投标和招标信息的系统&#xff0c;主要提供信息发布、用户管理和交易管理等核心功能。 功能介绍…