Ceph报错scrub errors修复

问题现象:

ceph -s查看Ceph集群状态,发现集群处于HEALTH_ERR状态,错误信息如下图所示,提示有一个PG错误

问题原因:

Ceph集群默认从晚上10点到次日凌晨6点会对集群数据进行一致性校验,当发现有数据不一致时将会出现此错 误提示。造成数据不一致的情况可能是有硬盘坏道导致。

解决办法:

1、在Mon节点执行如下指令找到错误的PG和PG所在的OSD

ceph health detail

2、在Mon节点执行如下指令找到OSD所在的节点

ceph osd fine <id> #<id>替换为OSD的

3、登录OSD所在节点查看对应OSD的日志(/var/log/ceph/ceph-osd.<id>.log)和操作系统日志(/var/log/ message),还有内核日志(dmesg -T),看是否有出现硬盘损坏相关的报错。

4、如果硬盘没有问题,则在Mon节点上执行如下指令修复PG;如果硬盘损坏,走换盘流程进行处理。

ceph pg repair <pgid> #<pgid>替换为第1步中查看到的

验证步骤:

在MON节点执行ceph -s查看Ceph集群状态,若修复成功集群状态会恢复至HEALTH_OK状态

发表评论

电子邮件地址不会被公开。 必填项已用*标注