ceph - 《存储知识》

ceph架构和原理 https://www.jianshu.com/p/cc3ece850433

常用指令：
ceph -s ：查看集群状态
ceph osd tree：查看 osd 结构
ceph health detail：查看健康状态细节
ceph pg dump:查看pg具体的pg状态
systemctl restart ceph.target：重启全部ceph相关服务。

一次ceph故障处理。
情景：ceph集群192.168.36.123/127/128/129。同时123、127、128是artifactory集群。对arti进行压力测试，有同时较多的仓库创建，制品上传下载的任务。

ceph正常情况是：

[admin@cluster2_control27 ~]$ sudo ceph -s
  cluster:
    id:     4c3e120a-5f50-4b40-a886-ada8b7f3106f
    health: HEALTH_WARN
  services:
    mon: 3 daemons, quorum cluster2_control23,cluster2_control27,cluster2_control28
    mgr: cluster2_control28(active), standbys: cluster2_control27, cluster2_control23
    mds: cephfs-1/1/1 up  {0=cluster2_control28=up:active}, 2 up:standby
    osd: 4 osds: 4 up, 4 in
  data:
    pools:   5 pools, 280 pgs
    objects: 1.42M objects, 1.01TiB
    usage:   3.19TiB used, 5.54TiB / 8.73TiB avail
    pgs:     280 active+clean
 [admin@cluster2_control27 ~]$ sudo ceph osd tree
ID CLASS WEIGHT  TYPE NAME                    STATUS REWEIGHT PRI-AFF 
-1       8.72839 root default                                         
-5       2.18210     host cluster2_computer29                         
 1   hdd 2.18210         osd.1                    up  1.00000 1.00000 
-3       2.18210     host cluster2_computer30                         
 0   hdd 2.18210         osd.0                    up  1.00000 1.00000 
-7       2.18210     host cluster2_control27                          
 2   hdd 2.18210         osd.2                    up  1.00000 1.00000 
-9       2.18210     host cluster2_control28                          
 3   hdd 2.18210         osd.3                    up  1.00000 1.00000

当进行压力测试时，会出现错误，有几种：
1 MDSs report slow metadata IOs
ceph Reduced data availability: 103 pgs inactive, 103 pgs peering
ceph handle_connect_reply connect got BADAUTHORIZER
pg 1.11 is stuck peering for 11738.801913
……

客户端的表现是文件类操作会卡住，如ls 、df等对ceph挂载的目录操作时，不可读写。

通过重启ceph相关服务或全部服务，等待20分钟左右，ceph的状态会恢复健康。
有时客户端能恢复读写可用性，但也出现过不能恢复，需要重启主机。
ceph集群问题，怀疑可能和硬件有关系，在重启硬件时，发现某内存条错误。