ceph架构和原理 https://www.jianshu.com/p/cc3ece850433
常用指令:
ceph -s :查看集群状态
ceph osd tree:查看 osd 结构
ceph health detail:查看健康状态细节
ceph pg dump:查看pg具体的pg状态
systemctl restart ceph.target:重启全部ceph相关服务。
一次ceph故障处理。
情景:ceph集群192.168.36.123/127/128/129。同时123、127、128是artifactory集群。对arti进行压力测试,有同时较多的仓库创建,制品上传下载的任务。
ceph正常情况是:
[admin@cluster2_control27 ~]$ sudo ceph -scluster:id: 4c3e120a-5f50-4b40-a886-ada8b7f3106fhealth: HEALTH_WARNservices:mon: 3 daemons, quorum cluster2_control23,cluster2_control27,cluster2_control28mgr: cluster2_control28(active), standbys: cluster2_control27, cluster2_control23mds: cephfs-1/1/1 up {0=cluster2_control28=up:active}, 2 up:standbyosd: 4 osds: 4 up, 4 indata:pools: 5 pools, 280 pgsobjects: 1.42M objects, 1.01TiBusage: 3.19TiB used, 5.54TiB / 8.73TiB availpgs: 280 active+clean[admin@cluster2_control27 ~]$ sudo ceph osd treeID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF-1 8.72839 root default-5 2.18210 host cluster2_computer291 hdd 2.18210 osd.1 up 1.00000 1.00000-3 2.18210 host cluster2_computer300 hdd 2.18210 osd.0 up 1.00000 1.00000-7 2.18210 host cluster2_control272 hdd 2.18210 osd.2 up 1.00000 1.00000-9 2.18210 host cluster2_control283 hdd 2.18210 osd.3 up 1.00000 1.00000
当进行压力测试时,会出现错误,有几种:
1 MDSs report slow metadata IOs
ceph Reduced data availability: 103 pgs inactive, 103 pgs peering
ceph handle_connect_reply connect got BADAUTHORIZER
pg 1.11 is stuck peering for 11738.801913
……
客户端的表现是文件类操作会卡住,如ls 、df等对ceph挂载的目录操作时,不可读写。
通过重启ceph相关服务或全部服务,等待20分钟左右,ceph的状态会恢复健康。
有时客户端能恢复读写可用性,但也出现过不能恢复,需要重启主机。
ceph集群问题,怀疑可能和硬件有关系,在重启硬件时,发现某内存条错误。
