作者:来自 Elastic Drew Post
探索 Elastic Stack 告警的最新增强功能,包括改进的相关告警分组、将仪表盘链接到告警规则,以及将调查指南嵌入到告警中。
在 9.1 版本中,我们对告警进行了重大升级,帮助 SRE 和运维人员更快地过滤噪音,更快理解发生了什么,并在更少猜测的情况下采取有意义的行动。
以下是新功能:
改进的相关告警分组,带有相关性评分和推理
我们增强了相关告警检测,超越了表层的关联。告警现在基于相关性评分分组,该评分反映了它们在以下维度上的关系强度:
-
共享的实体或资源(例如相同的主机、pod 或服务)
-
时间上的接近(告警在可疑的短时间窗口内触发)
-
信号相似性(例如日志、指标和 traces 中的峰值指向相同的故障模式)
更重要的是,我们现在展示了原因。你会看到为什么一个告警被分组,不管是因为共享相同的 Kubernetes pod,具有相似的日志模式,还是由相同的上游异常触发。这让用户对分组逻辑更有信心,并加速了根因分析。
将仪表盘链接到告警规则并获得智能建议
你现在可以将仪表盘直接链接到告警规则,让响应者立即通过可视化方式查看该告警最重要的指标或日志。再也不用手忙脚乱地记住该检查哪个仪表盘 —— 只需点击即可。
而且我们让这一功能更智能:Elastic 现在会根据告警的来源、规则逻辑或被监控的实体,自动推荐相关的仪表盘,帮助用户无需事先配置就能快速进入正确的视图。
调查指南嵌入到告警中
现在每个告警都可以配置一个调查指南,即一组预配置的、具备上下文感知的指令或后续步骤,专门针对该告警进行定制。可以把它看作是一个嵌入在你需要的时间和位置的操作手册。
用它可以:
-
记录你团队的运行手册和标准分诊步骤,或链接到已有的运行手册
-
引导初级工程师或值班响应者处理不熟悉的情况
-
自动化根本原因分析的前几个步骤
为什么这很重要
这些改进的核心都是为了减少检测时间 (MTTD) 和解决时间 (MTTR)。通过:
-
更智能(且透明)地对告警分组
-
在你需要的时候给你所需的 dashboards
-
在每个告警中嵌入面向行动的指南
我们让你更接近真正精简的事件响应工作流;不需要来回切换,不需要猜测,只有清晰。
另外,请看看我们在 Elastic Observability Labs 里与分析相关的其他文章:
-
在 Elastic Observability 中使用 AI Assistant 加速根本原因分析
-
Elastic Observability 中的所有日志分析功能
-
我们在 Elastic Observability 中对 OpenTelemetry 支持的最新进展
原文:https://www.elastic.co/observability-labs/blog/reduce-mttd-ml-machine-learning-observability