写在前面
对于DELL EMC存储系统Unity的一些深度的健康检查通过Web的Unisphere图形化界面是做不到的,图形化界面只能看到是否有告警,物理的东西是否有问题的,逻辑的Pool和LUN等是否ready,再深入的潜在的问题是查不到的。
另外,在对客户的控制器或者文件系统恢复以后,也需要做一些健康检查确保系统的正常运行。出了常见的使用UEMCLI来检查,还可以使用升级中的pre-upgrade的升级检查,都是很方便的。
但我们之类要share的是如何从底层命令行来做各种的深入健康检查,一些常用的命令,还有一些检查log中的潜在问题的命令。
下面所有的命令都是查询命令,对系统没有任何危害,请放心大胆使用。对了,这些命令有些应该是需要在root权限下运行。有问题就添加vx(StorageExpert)来沟通吧。
0. 基础信息
- 当前用户/主机名
whoami
cat /etc/hostname - 系统型号与软件版本
svc_diag
1. SP 状态检查
- 启动模式与服务状态
get_boot_mode
ps -e | grep iwd
期望:Normal Mode,且 iwd 存在(fully up)。
- 是否为 Primary(仅 Normal 模式)
ps -e | grep ECOM
期望:ECOM 存在 → Primary。
- Boot Control
svc_boot_control -l
期望:reboot:ON,softdog:ON。
- MCC Cache 丢失
grep -i "CACHE LOST" /EMC/C4Core/log/start_c4.log
svc_cache -q
期望:无 “CACHE LOST”,cache 查询正常。
- MCC Cache 未恢复
下面的三个是在service mode下查询的
grep -i "Waiting for the peer SP" /mnt/ssdroot/EMC/C4Core/log/start_c4.log
grep -i "MCC cache not recovered" /mnt/ssdroot/EMC/C4Core/log/start_c4.log
grep -i "DRAMCache: Valid CDR Image" /mnt/ssdroot/EMC/C4Core/log/start_c4.log
任意命中提示均是cache未恢复。
2. Panic / 安全日志
- rolling panic / ACL
svc_dc -lcd
zgrep -E "panic backtrace.*updateGpoServer" /EMC/C4Core/log/c4_safe_native.log* | head -10
3. 磁盘与重建
- 磁盘枚举
c4admintool -c enum_disks - 离线与重建记录
zgrep -E "Disk.*taken offline" /EMC/backend/log_shared/EMCSystemLogFile.*
zgrep -E "rebuilding due to the loss of a drive|finished rebuilding" /EMC/backend/log_shared/EMCSystemLogFile.*
4. Pool 健康与空间
- Pool 状态
MluCli.exe poll -pool | egrep "^Identification_Name |^State_Current_State |^State_Internal_State |^State_Status |^UsableSize |^Consumed Space " - Pool 空间不足迹象
zgrep -E "does not have enough free space available|available space of 0 blocks|has 0 slices available for use" /EMC/C4Core/log/c4_safe_ktrace.log* | head -10
5. LUN 状态与一致性
- LUN 状态
MluCli.exe poll -lu | egrep "^Identification_NiceName |^State_External_State |^State_Internal_State |^Status |^Replication Destination |^Host Access " - 数据一致性问题
run_dbg_ext.pl -n mlu | egrep "NiceName|LostExtentCount"
zgrep -E "FsRpt" /EMC/C4Core/log/c4_safe_ktrace.log* | head -10
zgrep -E "HasCorruptCrc|Read I/O error due to CRC error" /EMC/C4Core/log/c4_safe_ktrace.log* | head -10
6. 文件系统 (UFS64)
- 文件系统状态
MluCli.exe poll -sf | egrep "^Name |^State |^IsMountedReadOnlyToApplyPoolFullPolicy |^State_Status |^Recovery_Flag |^ExportedSize |^SizeUsed |^Thin |^Upper Deck File System Id |^IsReadOnly |^IsReplicationDestination " - 挂载检查
/nas/bin/server_df ALL
7. VDM (NAS Server)
MluCli.exe poll -sfs | egrep "^Name |^State |^State_Status |^Extended Status |^IsReplicationDestination |^IsPacketReflectEnabled "
8. 主机连接问题
zgrep "modified the HLU for host" /EMC/backend/log_shared/EMCSystemLogFile* | head -10
zgrep "iSCSI Authentication Failure" /EMC/backend/log_shared/EMCSystemLogFile* | head -10
grep -E "Can't expand filesystem which doesn't exist|matchedFsId: N/A" /EMC/CEM/log/cemtracer_host.log | head -5