Ceph报错scrub errors修复

问题现象: ceph -s查看Ceph集群状态,发现集群处于HEALTH_ERR状态,错误信息如下图所示,提示有一个PG错误 问题原因: Ceph集群默认从晚上10点到次日凌晨6点会对集群数据进行一致性校验,当发现有数据不一致时将会出现此错 误提示。造成数据不一致的情况可能是有硬盘坏道导致。 解决办法: 1、在Mon节点执行如下指令找到错误的PG和PG所在的OSD ceph health deta[…]

继续阅读 …

Ceph_osd_应急权重调整

1. 问题背景 集群 pg 数量规划不合理,导致在集群存入大量的数据之后,osd 上的数据分布不均衡,部分 osd 的存 储百分比接近或超过 85% 告警阈值,在百分比达到 95% 之后,集群会停止 IO。 由于调整 pg 风险高,需要提前做评估和审核,所以需要使用临时解决方案调整 osd 权重的方式,降低 存储数量过高的 osd 权重,降低其 osd 中的存储数据量,避免 osd 使用率达到 9[…]

继续阅读 …