机房断电后 etcd 启动失败的排查与快速恢复实录

背景与问题起因

报错分析

解决方案：删除 member 数据重新初始化

步骤 1：停止 etcd 容器或服务

步骤 2：删除 member 目录

步骤 3：重启 etcd 服务

附加提醒

总结与后续建议

机房断电后 etcd 启动失败的排查与快速恢复实录

背景与问题起因

在一次突发的 机房断电事件 后，我们所在的 Kubernetes 集群节点在重启过程中，发现 Milvus 无法正常启动。进一步排查发现，根因来自底层的 etcd 服务启动失败。etcd 是 Milvus 中关键的元数据协调组件，若其无法启动，会直接导致整个 Milvus 服务不可用。

启动 etcd 时出现如下典型日志输出：

starting an etcd server
etcd-version: 3.5.18
...
panic: freepages: failed to get all reachable pages (page 15493: multiple references (stack: [10971 15493]))

这类错误通常意味着 etcd 数据库文件损坏，可能是由于非正常关机导致写入中断、页索引混乱等原因。

报错分析

etcd 报错的关键信息：

panic: freepages: failed to get all reachable pages ...

这是一个由底层 BoltDB（etcd 存储引擎）在启动时进行页表校验时报出的 数据页引用错误，即同一页被多个地方引用，属于数据结构严重损坏的一种表现，无法通过常规手段自动修复。

解决方案：删除 member 数据重新初始化

经过快速评估和容灾权衡，我们采取了 “删除损坏 member 数据并重新初始化” 的方式进行恢复。操作步骤如下：

步骤 1：停止 etcd 容器或服务

docker stop etcd
# 或者 systemctl stop etcd

步骤 2：删除 member 目录

rm -rf /etcd/member

该目录下是 etcd 的成员节点数据（包含 WAL 日志和 snapshot 快照），此操作将等同于清空当前节点的全部 etcd 元数据。

⚠️ 风险提示： 本方法适用于非集群 / 单节点开发测试环境，或有其他节点或外部备份可用的情况下。生产环境建议先尝试 etcdctl snapshot restore 等官方推荐方式。

步骤 3：重启 etcd 服务

docker start etcd
# 或者 systemctl start etcd

观察日志，可以发现 etcd 成功初始化并以 initial-cluster-state=new 模式重新创建了一个新的集群。

附加提醒

日志中另有一条 check file permission 警告：

directory "/etcd" exist, but the permission is "drwxr-xr-x". The recommended permission is "-rwx------"

虽然这不会直接导致启动失败，但为确保 etcd 数据目录的安全性，建议将其权限调整为：

chmod 700 /etcd

总结与后续建议

问题根因： 非正常断电导致 etcd 数据库损坏；
恢复方式： 删除 /etcd/member 目录，强制重新初始化；
风险控制： 未尝试恢复数据，适用于开发或非核心环境；
建议： 生产环境应启用 etcd snapshot 定期备份机制，避免数据丢失风险。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.pswp.cn/bicheng/84428.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

机房断电后 etcd 启动失败的排查与快速恢复实录

机房断电后 etcd 启动失败的排查与快速恢复实录

背景与问题起因

报错分析

解决方案：删除 member 数据重新初始化

步骤 1：停止 etcd 容器或服务

步骤 2：删除 member 目录

步骤 3：重启 etcd 服务

附加提醒

总结与后续建议

相关文章

Linux上并行打包压缩工具

【K8S系列】K8S中Service 无法访问问题的深度分析

Leetcode 3577. Count the Number of Computer Unlocking Permutations

进行性核上性麻痹护理指南：全维度守护健康

【浅析赛题，国赛一等奖水平：思路+模型：】2025 年第八届河北省研究生数学建模竞赛：A 题基于图论的复杂网络分析与可视化建模

web3-去中心化金融深度剖析：DEX、AMM及兑换交易传播如何改变世界

【笔记】NVIDIA AI Workbench 安装记录

积累-Vue.js 开发实用指南：ElementUI 与核心技巧

【BUG】记STM32F030多通道ADC DMA读取乱序问题

Java - Mysql数据类型对应

今天刷SQL

【SQL学习笔记1】增删改查+多表连接全解析（内附SQL免费在线练习工具）

【计算机网络】SDN

量化面试绿皮书：9. 通往Offer的门

【杂谈】-递归进化：人工智能的自我改进与监管挑战

Ascend NPU上适配Step1X-Edit模型

WEB3全栈开发——面试专业技能点P8DevOps / 区块链部署

【题解-洛谷】B4292 [蓝桥杯青少年组省赛 2022] 路线

MySQL体系架构解析（四）：MySQL数据存储的揭秘

Solidity从入门到精通-Remix的基本使用和Solidity的基本数据类型