Dell PowerEdge R620 服务器内存和硬盘罢工了

文章目录

  • 前言
  • 调查原因
  • 查找解决方案
    • 硬盘问题
    • 内存问题
  • 总结

前言

月黑风高夜,服务宕机时。做服务端技术的,谁还没半夜遇到个服务挂掉的情况,而像我这种半兼职网管的工作,遇到机器问题的概率也就更大了,本来周五晚上写完总结准备撤离了,照例去我们那简易的“机房”转一圈,橙色的指示灯光芒闪的我有些睁不开眼,我知道这意味着我一时半会走不了了,又来活了。

调查原因

Dell PowerEdge R620 这款服务器,那个显示屏虽然小点,但是好在能展现出错误信息,本来我想着录个视频,到工位上慢慢分析的,但是无奈亮度对比对太强,录的视频一片亮光,无法正常看出错误文字,我只得在手机上将看到的文本记录下来,记性不太好,不得不从头多看一遍,内容如下:

MEM0702 Correctable memory error rate exceeded for DIMM_B2. Reseat memory.

在回工位的路上,瞄了一眼旁边的服务器,好家伙,又一台闪着橙色光芒的,真是“祸不单行”啊,要知道这些机器从我去年安装好还没出过问题,今天第一次出问题还一次就出现两台,真是难以置信,还是一个一个字母的记录了另一台机器的报错信息:

PDR1001 Fault detected on drive 0 in disk drive by bay 1. Check drive.

毕竟不是专业的,作为一个半吊子网管,初步判断为内存问题和硬盘问题。

查找解决方案

这时候还是把ChatGPT请出来,当然Deepseek和豆包也都要发表一下对这些问题的看法,经过分析得出的结论就是内存和硬盘坏了,无法与主板正常连通提供服务,最可能得原因是插口松动了,关于内存我还不太担心,那台机器有8个条子,大不了把这个坏的取下来,剩余的也能接着用;不过硬盘这个比较棘手,毕竟里面有数据,搞不好我又得花时间同步、搭建、还原等等,所以先来看看硬盘问题。

硬盘问题

PDR1001 Fault detected on drive 0 in disk drive by bay 1. Check drive.

  • PDR1001: 这是戴尔服务器关于物理磁盘(Physical Disk)的特定错误代码。
  • Fault detected on drive 0 in disk drive by bay 1: 这表示服务器在 1号硬盘托架(bay 1) 中的 第0号硬盘(drive 0) 上检测到了故障。
  • Check drive: 系统给出的建议是:检查该硬盘。

我首先通过戴尔的远程管理卡(iDRAC)在网页上查看了硬盘信息,这台机器的硬盘配置了RAID5(Redundant Array of Independent Disks, Level 5; 独立磁盘冗余阵列,第5级),一共由4块600G硬盘组成,其中一块是热备盘,另外3块构成了RAID5,原来的硬盘状态是0,1,2联机状态,3是就绪状态。这次再打开,显示1,2,3联机状态,0失败状态,也就是第一块盘读不到了。

因为之前就配置了RAID5,所以现在数据时完整的,热备盘3已经替换了原来的0号盘组成新的阵列,数据不受影响,这款硬件卡支持热插拔,通常的做法是买一块新的硬盘把0号盘换下来就行了,我查了下价格还挺贵,600G原装硬盘要1400块,所以我还是司马当活马医,测试下是不是插口松了。

PowerEdge R620 的硬盘比较好拆,点击硬盘上的按钮,弹出一个把手,一拽就出来了,因为故障的时间比较长了,我推测新的RAID5数据已经构建完成,所以我把擦拭好的硬盘又插了回去。

戴尔的远程管理卡(iDRAC)在网页上上的日志显示 “Copyback started from Disk 3 on Integrated RAID Controller 1 to Disk 0 on Integrated RAID Controller 1.”,表明戴尔的PERC控制器做出了一种最智能、最安全的响应。控制器自动将当前RAID成员(Disk 3)上的所有数据,完整地复制回现在物理状态良好的原盘(Disk 0) 上,当回拷完成后,Disk 0会重新成为RAID 5的正式成员,而Disk 3会自动解除成员身份,变回全局热备盘的状态,这是一个全自动的、完美的自我修复过程。

大约过了一个小时,日志显示:

The physical disk drive Disk 3 in Backplane 1 ofIntegrated RAlD Controller 1 is assigned as a dedicated hot-spare.

这是一个非常理想的结局。 它证明了您最初“3盘RAID 5 + 1热备”的配置是正确的,并且控制器的功能非常完善。

以后如果再次遇到硬盘故障报警(通过iDRAC邮件或管理界面),请先确认是哪块盘,然后如果怀疑是连接问题,最安全的方法是先正常关机(Shutdown),再检查线缆,最后开机。热插拔操作应保留给确认已故障的磁盘的更换。

切不可在Raid5一块硬盘掉线后,在数据没有重新构建完就尝试再插回去,如果确认硬盘坏了就买块新盘换上,如果买了一块二手盘,多数不能自动恢复,需要关机替换掉硬盘后,删除新购二手盘Raid信息才行。

内存问题

MEM0702 Correctable memory error rate exceeded for DIMM_B2. Reseat memory.

  • MEM0702: 这是戴尔服务器的特定错误代码,指内存可纠正错误。
  • Correctable memory error rate exceeded for DIMM_B2: 这表示服务器主板上的B2内存插槽中的内存条,发生了超过阈值数量的可纠正错误(CE)
  • Reseat memory: 这是系统给出的初步建议:重新插拔内存。

首先通过戴尔的远程管理卡(iDRAC)在网页上查看城内存信息,标记为DIMM B2的DDR3内存条状态栏写着,“已达可校正的内存错误日志上限”,重新插拔内存,这是错误信息直接建议的操作,有时可能只是因为金手指氧化接触不良,所以我决定试一试,执行 shutdown -h now 关机,然后打开服务器顶盖检查。

定位DIMM_B2:找到主板上的内存插槽。每个插槽旁边都有清晰的标签,如 A1, A2, B1, B2, C1, C2…。找到标有 B2 的插槽。

取出内存:按下插槽两端的卡扣,内存条会自动弹起,然后垂直将其拔出。

清洁金手指:使用一块干净的无绒布(如眼镜布),或专用的电子元件清洁剂,轻轻擦拭内存条金色的接触部分(金手指),不要用手直接触摸金手指,我是没找到眼镜布,就用面巾纸擦了擦。

重新插入:将内存条对准插槽(注意防呆口),用均匀的力垂直向下按压,直到两端的卡扣自动扣回并发出“咔哒”声。确保内存条已完全插入且没有歪斜。

重启服务器后,发现内存信息已经恢复正常,本来这活在常见的PC机上很普通,但是放到服务器上再亮哥橙色的警告灯,让人很紧张。

总结

  • Dell PowerEdge R620 这款服务器,顶盖上有个黑色的把手,扣开滑动即可,硬盘盒前面有个按钮,按下可弹出拖拽硬盘的把手
  • MEM0702 是戴尔服务器的特定错误代码,指内存可纠正错误,建议重新插拔内存
  • PDR1001 是戴尔服务器关于物理磁盘(Physical Disk)的特定错误代码,需检查硬盘,必要时替换出问题的硬盘,支持热插拔

==>> 反爬链接,请勿点击,原地爆炸,概不负责!<<==

人生总是一个不断交换的过程,拿你自己有的,去换自己想要的,不管这个过程是心甘情愿,还是被逼无奈,日子总要进行的。放大来看,又何止是人生啊,猫生、树生,万物生,哪些又是自己能完全掌控的呢?最近坍缩的方向过于明显了,就必须反着来吗?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/97819.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/97819.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025:SourceTree 启用/禁用Mercurial 或 Git,像素级细节

最近使用Git管理工具的时候&#xff0c;发现还是SourceTree好用些&#xff0c;但是使用SourceTree带来一个问题&#xff1a;就是每次在重新打开SourceTree的时候&#xff0c;都会重新下载Mercurial.zip文件&#xff0c;查了一下&#xff0c;一般情况下我们是不需要使用Mercuria…

安卓 Google Maps 的使用和开发步骤

文章目录1. main2. Android 谷歌地图3. 源码Reference1. main 在国内选择的SDK可以是高德、百度、腾讯、xxxx等&#xff0c;但在国外&#xff0c;你首选是谷歌&#xff0c;因此要进行Google地图的开发你首先要解决下面三个问题 VPN Google账号 信用卡American Express&#x…

Linux -- 应用层协议Http

1.HTTP背景知识 HTTP协议&#xff1a;HTTP&#xff08;HyperText Transfer Protocol&#xff0c;超文本传输协议&#xff09;的本质是运行在 TCP/IP 协议族之上的 “应用层协议”&#xff0c;核心作用是定义客户端&#xff08;如浏览器、APP&#xff09;与服务器之间的 “数据…

R 语言本身并不直接支持 Python 中 f“{series_matrix}.txt“ 这样的字符串字面量格式化(f-string)语法 glue函数

R 语言本身并不直接支持 Python 中 f"{series_matrix}.txt" 这样的字符串字面量格式化&#xff08;f-string&#xff09;语法。 在 R 中&#xff0c;要实现字符串拼接或格式化&#xff0c;你需要使用其他方法。下表对比了 Python f-string 和 R 中常见对应方法的主要…

【AI智能体】亮数据MCP Server × Dify:AI智能体获取实时影音数据就是这么简单

文章目录一、引言&#xff1a;AI 应用与实时影音数据的融合价值1、传统采集方式的痛点2、MCP Server 的创新价值二、亮数据 MCP Server 概览1、什么是 MCP Server&#xff1f;2、支持的影音平台和API接口3、产品特色亮点三、业务场景示例设计1、选定场景&#xff1a;竞品分析与…

从《Attention Is All You Need》深入理解Transformer

2017年的《Attention Is All You Need》论文提出的Transformer架构&#xff0c;不仅彻底改变了自然语言处理的格局&#xff0c;更为现代人工智能的发展奠定了坚实基础。本文将带你深入解析这一划时代模型的核心思想、技术细节及其深远影响。&#x1f504; 一、背景与动机&#…

【08】AI辅助编程完整的安卓二次商业实战-修改消息聊天框背景色-触发聊天让程序异常终止bug牵涉更多聊天消息发送优化处理-优雅草卓伊凡

【08】AI辅助编程完整的安卓二次商业实战-修改消息聊天框背景色-触发聊天让程序异常终止bug牵涉更多聊天消息发送优化处理-优雅草卓伊凡引言本次二开布局没有变&#xff0c;但是下一次整体布局会有变&#xff0c;不过本次开发发现朋友圈跳转功能的流程步骤也做了一定的变化。原…

心理调适与情绪管理实训室:支撑康养旅游人才心理能力培养

在康养休闲旅游服务专业的教学体系中&#xff0c;心理调适与情绪管理实训室作为关键教学场所&#xff0c;承担着培养学生心理服务能力、情绪疏导技能和人际沟通素养的重要任务。随着社会对康养旅游服务质量要求的提升&#xff0c;具备心理调适与情绪管理能力的专业人才日益受到…

Oracle sql tuning guide 翻译 Part 6 --- 优化器控制

第五部分优化器控制你可以用提示信息和初始化参数来影响优化器的判断和运作方式。Influencing the Optimizer Optimizer defaults are adequate for most operations, but not all.In some cases you may have information unknown to the optimizer, or need to tune the opti…

pthread_mutex_lock函数深度解析

摘要 pthread_mutex_lock是POSIX线程库中用于实现线程同步的核心函数&#xff0c;它通过对互斥锁的加锁操作来确保多个线程对共享资源的安全访问。本文从互斥锁的历史背景和发展脉络入手&#xff0c;详细解析了pthread_mutex_lock函数的设计理念、实现机制和使用场景。通过生产…

qt QBoxSet详解

1、概述QBoxSet 类代表箱形图中的一个条目。箱形条目是范围和由五个不同值构成的三个中值的图形表示。这五个值分别是&#xff1a;下极值、下四分位数、中位数、上四分位数和上极值。QBoxSet 提供了多种方法来设置和获取这些值&#xff0c;并且可以与 QBoxPlotSeries 和 QChart…

机器学习势函数(MLPF)入门:用DeePMD-kit加速亿级原子模拟

点击 “AladdinEdu&#xff0c;同学们用得起的【H卡】算力平台”&#xff0c;注册即送-H卡级别算力&#xff0c;80G大显存&#xff0c;按量计费&#xff0c;灵活弹性&#xff0c;顶级配置&#xff0c;学生更享专属优惠。 引言&#xff1a;从传统分子模拟到机器学习势函数的革命…

制作uniapp需要的storyboard全屏ios启动图

//锁定竖屏 plus.screen.lockOrientation("portrait-primary") // #endif首先准备启动图两个dc_launchscreen_portrait_background2x.png(750*1624)dc_launchscreen_portrait_background3x.png(1125*2436)LaunchScreen.storyboard文件内容如下<?xml version"…

OpenCV:答题卡识别

目录 一、项目原理 二、环境准备 三、核心代码实现 1. 导入必要库 2. 定义关键函数 坐标点排序函数 透视变换函数 轮廓排序函数 图像显示函数 3. 主程序实现 图像预处理 轮廓检测与答题卡定位 透视变换矫正 答案识别与评分 四、实现效果 本文将介绍如何使用 Ope…

机器宠物(以四足宠物为主)四肢与关节的系统化设计指南

1. 目标与约束先行 目标&#xff1a;自然步态&#xff08;走/小跑/小跳&#xff09;、安全亲和、低噪、跌倒不致损&#xff1b;支持地毯/木地板/瓷砖等家庭地面。约束&#xff1a;体重 1–6 kg&#xff1b;单次续航 ≥ 30–60 min&#xff1b;整机成本与可维护性&#xff1b;室…

spark hive presto doris 对substr函数的差异

Spark、Hive、Presto&#xff08;现更名为 Trino&#xff09;和 Doris&#xff08;原百度 Palo&#xff09;的 substr 函数在功能上都是用于截取字符串的子串&#xff0c;但在起始索引规则和参数含义上存在差异&#xff0c;这是导致结果不同的主要原因。以下是它们的具体区别&a…

开题报告之基于AI Agent智能问答的旅游网站

课题题目&#xff1a; 基于AI Agent智能问答的旅游网站 学生姓名&#xff1a; 学 号&#xff1a; 学 院&#xff1a; 专业年级&#xff1a; 指导教师&#xff1a; 开题报告word版&#xff1a; 开题报告word版 一、课题的研究目的和意义&#xff08;本…

HTB打靶复个小盘

文章目录jerrySauGoodGamesdevvotexpaper最近打了不少靶场&#xff0c;虽然难度都不算高&#xff0c;但也学到不少东西&#xff0c;中间去打了一周的实网渗透&#xff0c;打完后联系了一家企业准备面试&#xff0c;感觉面试准备的差不多了&#xff0c;回来继续打靶&#xff0c;…

云手机的技术架构可分为哪些

一、基础设施层为其提供计算、存储和网络资源&#xff0c;高性能的服务器 CPU 是关键&#xff0c;它需具备多核多线程处理能力&#xff0c;以同时支持多个云手机实例的运行&#xff0c;比如英特尔至强系列处理器&#xff0c;能够有效处理复杂的运算任务&#xff1b;通过虚拟化技…

[创业之路-585]:初创公司的保密安全与信息公开的效率提升

初创公司处于快速发展与资源有限的双重约束下&#xff0c;平衡保密安全与信息公开效率是生存与发展的关键。保密安全可保护核心资产&#xff08;如技术、客户数据、商业计划&#xff09;&#xff0c;避免被竞争对手模仿或恶意攻击&#xff1b;而信息公开的效率则直接影响团队协…