雅菲奥朗SRE知识墙分享(六):『混沌工程的定义与实践』

混沌工程不再追求“永不宕机”的童话,而是主动在系统中注入可控的“混乱”,通过实验验证系统在真实故障场景下的弹性与自我修复能力。混沌工程不是简单的“搞破坏”,也不是运维团队的专属游戏。它是一种以实验为导向、以度量为核心、以文化为基石的工程实践,要求架构、开发、测试、运维、产品甚至业务方共同参与,把“可预期的故障”嵌入软件交付的每一个环节。

从 2010 年 Netflix 的 Chaos Monkey 开源,到如今阿里、腾讯、Amazon、微软等巨头的规模化落地,混沌工程已演进出一套方法论、一套工具链和一套组织治理模式。

一、SRE混沌工程的核心定义

混沌工程是一门通过在生产环境中主动注入可控故障,基于实验数据验证系统韧性,并持续改进自动化能力与可观测性水平的SRE核心学科。

二、SRE混沌工程价值主张

• 99.99%的可用性承诺无法回答"故障发生时系统能否真正保持业务连续性"

• 将被动应对黑天鹅事件转变为主动预演,将未知风险转化为已知的应急预案和修复动作。

三、SRE混沌工程实施框架(四步闭环)

第一步 稳态定义:基于SLI/SLO建立可观测的健康指标体系

第二步 实验设计:采用最小爆炸半径原则(确保可回滚、可观测、可隔离)

第三步 故障注入:按资源层→中间件层→应用层→业务层渐进式实施

第四步 效果评估:量化稳态偏离程度,完善监控、预案和容量规划

四、SRE混沌工程实施工具栈

• 平台工具:CMChaos、ChaosBlade、Chaos Mesh、Gremlin

• 故障类型:资源故障(CPU/内存)、网络故障(延迟/丢包)、容器故障(杀Pod)

• 管控能力:灰度发布、功能开关、自动回滚机制

五、SRE混沌工程核心原则

✅ 爆炸半径可控:通过流量染色、环境隔离等技术控制影响范围

✅ 主动运维文化:从"被动救火"转向"主动防火"的运维模式转型

✅ 无责文化:建立"故障复盘不追责"机制,鼓励透明化的事故分析

六、SRE混沌工程工程化检查清单

 核心业务链路梳理及降级方案验证

✓ 实时监控大盘具备稳态指标展示能力

✓ 支持一键注入常见故障类型(CPU满载/网络延迟/容器异常)

✓ 故障脚本与恢复脚本版本化管理,CI/CD流水线集成回归测试

✓ 每季度组织GameDay演练,新人入职需完成基础故障演练培训

七、SRE混沌工程专家视角

——混沌工程不是破坏性测试,而是通过可控实验建立对系统韧性的信心。它本质上是一种通过“主动失败”来预防“被动失败”的前瞻性工程实践。

成熟度演进

�� 初级:基础资源层故障注入

�� 中级:分布式依赖故障模拟

�� 高级:全链路故障演练与自动恢复

�� 专家:AI驱动的自适应故障注入与预测

雅菲奥朗专家刘峰老师总结:

1.“故障不是我们的敌人,对故障的无知才是”

2.混沌工程让我们在“安全环境”中学会如何与失败共处,从而构建真正可靠的系统。

雅菲奥朗 SRE 全栈认证培训

雅菲奥朗携手国际认证机构PeopleCert、 DevOps Institute,打造国内最全 SRE 认证全链路,覆盖从入门到专家、从传统监控到可观测性和 AIOps 的完整成长路径。从“救火队长”到“可靠性架构师”——雅菲奥朗 SRE 全栈认证培训,让运维人赢在 AI 时代的起跑线。

(1)SRE Foundation认证培训 (2 天)

关键词:SLI/SLO、错误预算、减少琐事、监控和服务水平指标、SRE工具及自动化、SRE的组织影响等;

适合人群:IT团队领导、SRE从业者、DevOps从业者、运维、开发、测试、项目经理、产品经理、系统集成商等;

课程收获:

  • 独立设计并落地符合业务场景的 SLI/SLO与错误预算。
  • 掌握“琐事识别—脚本化—自动化流水线”三步法。
  • 熟练使用 Prometheus、Grafana、Slack ChatOps 等主流工具。
  • 掌握可复制的 SRE 组织落地蓝图。
  • 获取PeopleCert和DevOps Institute颁发的SRE Foundation国际认证证书。

(2)SRE Practitioner认证培训(2 天)

关键词:SLO是客户满意度的代表、Chaos Engineering、容量预测、全栈可观测性、平台工程和 AIOps、SRE动手实验等;

适合人群:组织变革推动者、IT团队领导、SRE从业者、DevOps从业者、运维、开发、测试、项目经理、产品经理、系统集成商等;

学习基础:需具备至少2 年以上 SRE / 运维 / DevOps 从业经验

课程收获:

  • 把业务 KPI 量化成 SLO,用错误预算在需求评审“说 No”。
  • 现场 Chaos Mesh 演练,带回自动故障场景库。
  • 端到端打通 OpenTelemetry → Tempo → Loki → Grafana 链路。
  • 引入 AIOps 场景:利用 Prometheus + Thanos 数据训练异常检测模型,实现自动回滚、自动扩缩容、告警降噪。
  • 获取PeopleCert和DevOps Institute颁发的SRE Practitioner国际证书。

(3)SRE Observability认证培训(2 天)

关键词:可观测性三大支柱、OpenTelemetry、DataOps、AIOps 增强了可观测能力、异常检测、实时数据关联、从0到1构建系统可观测性等;

适合人群:企业IT负责人、CIO、组织变革推动者、IT团队领导、SRE从业者、DevOps从业者、运维、开发、测试、监控、平台、中间件工程师等;

课程收获:

  • 三支柱一体:Metrics/Logs/Traces 秒级关联定位
  • OpenTelemetry生产落地:Collector+SDK+规范一次搞定
  • DataOps :驱动的观测数据治理
  • 0→1 搭建企业级可观测平台
  • 获取PeopleCert和DevOps Institute颁发的Observability Foundation国际证书。


(4)SRE AIOps认证培训(2 天)
关键词:AIOps数据源、机器学习 (ML)、AIOps和运维指标、指标异常检测、
、根因分析、日志聚类分析、告警分析、智能自愈、AIOps动手实验等;

适合人群:SRE从业者、DevOps从业者、运维工程师、软件工程师、算法工程师、项目经理、产品经理、系统集成商等;

课程收获:

  • 自动汇聚日志、指标、事件等多源数据,实现 AI 预测与秒级自愈,显著降低故障与成本。
  • 系统掌握 AIOps 核心概念、算法与 DevOps/SRE 融合方法,成为数据驱动的运维专家。
  • 动手完成异常检测、根因定位、告警降噪与智能自愈全流程,带回可落地的脚本与模板。
  • 通过 AI 动态容量规划与资源优化,把 MTTR 缩至分钟级,释放人力投入创新。
  • 获取PeopleCert和DevOps Institute颁发的AIOps Foundation国际证书。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/95875.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/95875.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从0死磕全栈第五天:React 使用zustand实现To-Do List项目

代码世界是现实的镜像,状态管理教会我们:真正的控制不在于凝固不变,而在于优雅地引导变化。 这是「从0死磕全栈」系列的第5篇文章,前面我们已经完成了环境搭建、路由配置和基础功能开发。今天,我们将引入一个轻量级但强大的状态管理工具 —— Zustand,来实现一个完整的 T…

力扣29. 两数相除题解

原题链接29. 两数相除 - 力扣(LeetCode) 主要不能用乘除取余,于是用位运算代替: Java题解 class Solution {public int divide(int dividend, int divisor) {//全都转为负数计算, 避免溢出, flag记录结果的符号int flag 1;if(…

【工具类】Nuclei YAML POC 编写以及批量检测

Nuclei YAML POC 编写以及批量检测法律与道德使用声明前言Nuclei 下载地址下载对应版本的文件关于检查cpu架构关于hkws的未授权访问参考资料关于 Neclei Yaml 脚本编写BP Nuclei Template 插件下载并安装利用插件编写 POC YAML 文件1、找到有漏洞的页面抓包发送给插件2、同时将…

自动化运维之ansible

一、认识自动化运维假如管理很多台服务器,主要关注以下几个方面“1.管理机与被管理机的连接(管理机如何将管理指令发送给被管理机)2.服务器信息收集(如果被管理的服务器有centos7.5外还有其它linux发行版,如suse,ubunt…

【温室气体数据集】亚洲地区长期空气污染物和温室气体排放数据 REAS

目录 REAS 数据集概述 REAS 数据版本及特点 数据内容(以 REASv3.2.1 为例) 数据形式 数据下载 参考 REAS 数据集(Regional Emission inventory in ASia,亚洲区域排放清单)是由日本国立环境研究所(NIES)及相关研究人员开发的一个覆盖亚洲地区长期空气污染物和温室气体排放…

中州养老项目:利用Redis解决权限接口响应慢的问题

目录 在Java中使用Redis缓存 项目中集成SpringCache 在Java中使用Redis缓存 Redis作为缓存,想要在Java中操作Redis,需要 Java中的客户端操纵Redis就像JDBC操作数据库一样,实际底层封装了对Redis的基础操作 如何在Java中使用Redis呢?先导入Redis的依赖,这个依赖导入后相当于把…

MathJax - LaTeX:WordPress 公式精准呈现方案

写在前面:本博客仅作记录学习之用,部分图片来自网络,如需引用请注明出处,同时如有侵犯您的权益,请联系删除! 文章目录前言安装 MathJax-LaTeX 插件修改插件文件效果总结互动致谢参考前言 在当今知识传播与…

详细解读Docker

1.概述Docker是一种优秀的开源的容器化平台。用于部署、运行应用程序,它通过将应用及其依赖打包成轻量级、可移植的容器,实现高效一致的运行效果,简单来说,Docker就是一种轻量级的虚拟技术。2.核心概念2.1.容器(Contai…

GEE:基于自定义的年度时序数据集进行LandTrendr变化检测

本文记录了使用自己的年度时序数据集,进行 LandTrendr 变化检测的代码。结果输出变化年份、变化幅度以及变化持续时间。 结果如下图所示, 文章目录 一、核心函数 二、代码 三、代码链接 一、核心函数 var eeltgcm = require(users/949384116/lib:LandTrendr/getChangeMap)v…

PostgreSQL收集pg_stat_activity记录的shell工具pg_collect_pgsa

这是一个纯脚本工具,用于从PostgreSQL的pg_stat_activity视图中定期收集数据并保存到本地日志文件。 相关背景: 某个慢SQL打满内存,导致系统kill掉postgres的某个进程,进而导致postgres进程重启,没有现场排查不了具体…

通俗的话语解读《银行保险机构信息科技外包风险监管办法》

这份文件不是 “纸上规矩”,而是银行保险机构做信息科技外包的 “实操手册”—— 从要不要外包、选谁合作,到怎么管过程、防风险,再到出问题怎么应对,都给了明确方向。作为管理者,核心是把这些要求落地到日常决策和系统…

芯片ATE测试PAT(Part Average Testing)学习总结-20250916

目录 一、基本概念 二、静态PAT 三、动态PAT 四、参考链接: 一、基本概念 零件平均测试(Part Average Testing,PAT)是一种基于统计学的质量控制方法,主要用于半导体制造中筛选出与正常参数范围偏差较大的“异常值”芯片,以提高产品质量和可靠性; 二、静态PAT 静态…

【数据结构、java学习】数组(Array)

1,概念 数组一旦定义,其维数和维界就不再改变。 因此除了结构的初始化和销毁之外,数组只有存取元素和修改元素值的操作。Array可以存放对象类型、基本数据类型的数据。数组中元素在内存中按顺序线性存放,通过第一个元素就能访问随…

58-正则表达式

1. 概念正则表达式是一种用来匹配字符串的强有力的武器.设计思想:用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,就认为它"匹配"【合法】否则就是不匹配[不合法]举例:beijinglishao163.com2. 规则 1.…

图片木马制作的三种方法

本文转自:https://www.cnblogs.com/cybersecuritystools/p/14932567.html 0x01什么是图片木马? 图片木马在网络上没有统一的定义,在这里我给出自己的定义。图片木马是一张能正常显示又包含恶意代码(比如一句话木马)的…

【Redis】缓存的穿透、击穿和雪崩

引言要了解缓存的这几个相关问题,我们先以一个例子来引入:有一个get请求:api/news/getById/1正常情况下对其申请访问的流程如图:但若是如此,访问增多或者受到攻击时很容易受到以下问题1 缓存穿透1.1 造成原因当查询一个…

打造一款高稳定、低延迟、跨平台RTSP播放器的技术实践

一、引言 RTSP(Real Time Streaming Protocol)作为经典的实时流媒体协议,已经深深嵌入到安防监控、远程教育、工业巡检、低空经济、医疗影像传输等行业之中,可以说是这些场景的视频传输“基础设施”。一个稳定的 RTSP 播放器&…

C++_数据结构

数据结构是计算机存储、组织数据的方式,它使得数据能够被高效地访问和修改。根据数据元素之间关系的不同特性,数据结构可以分为多种类型。主要可以分为两大类:逻辑结构和物理结构(也称存储结构)。 一、逻辑结构&#x…

一个正常的 CSDN 博客账号,需要做哪些基础准备?

一个正常的 CSDN 博客账号,需要做哪些准备? CSDN(中国软件开发网)作为国内最具影响力的技术社区之一,不仅是开发者获取信息的重要平台,也是技术人建立个人品牌、输出知识、积累影响力的重要阵地。想要把一…

【Python基础】 17 Rust 与 Python 运算符对比学习笔记

一、算术运算符运算符Rust 🦀Python 🐍示例 (Rust)示例 (Python)说明加法加法let sum 5 3;sum 5 3-减法减法let diff 5 - 3;diff 5 - 3*乘法乘法let product 5 * 3;product 5 * 3/除法除法let quotient 5 / 3; → 1quotient 5 / 3 → 1.666...…