ceph架构和原理 https://www.jianshu.com/p/cc3ece850433

    常用指令:
    ceph -s :查看集群状态
    ceph osd tree:查看 osd 结构
    ceph health detail:查看健康状态细节
    ceph pg dump:查看pg具体的pg状态
    systemctl restart ceph.target:重启全部ceph相关服务。

    一次ceph故障处理。
    情景:ceph集群192.168.36.123/127/128/129。同时123、127、128是artifactory集群。对arti进行压力测试,有同时较多的仓库创建,制品上传下载的任务。

    ceph正常情况是:

    1. [admin@cluster2_control27 ~]$ sudo ceph -s
    2. cluster:
    3. id: 4c3e120a-5f50-4b40-a886-ada8b7f3106f
    4. health: HEALTH_WARN
    5. services:
    6. mon: 3 daemons, quorum cluster2_control23,cluster2_control27,cluster2_control28
    7. mgr: cluster2_control28(active), standbys: cluster2_control27, cluster2_control23
    8. mds: cephfs-1/1/1 up {0=cluster2_control28=up:active}, 2 up:standby
    9. osd: 4 osds: 4 up, 4 in
    10. data:
    11. pools: 5 pools, 280 pgs
    12. objects: 1.42M objects, 1.01TiB
    13. usage: 3.19TiB used, 5.54TiB / 8.73TiB avail
    14. pgs: 280 active+clean
    15. [admin@cluster2_control27 ~]$ sudo ceph osd tree
    16. ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF
    17. -1 8.72839 root default
    18. -5 2.18210 host cluster2_computer29
    19. 1 hdd 2.18210 osd.1 up 1.00000 1.00000
    20. -3 2.18210 host cluster2_computer30
    21. 0 hdd 2.18210 osd.0 up 1.00000 1.00000
    22. -7 2.18210 host cluster2_control27
    23. 2 hdd 2.18210 osd.2 up 1.00000 1.00000
    24. -9 2.18210 host cluster2_control28
    25. 3 hdd 2.18210 osd.3 up 1.00000 1.00000

    当进行压力测试时,会出现错误,有几种:
    1 MDSs report slow metadata IOs
    ceph Reduced data availability: 103 pgs inactive, 103 pgs peering
    ceph handle_connect_reply connect got BADAUTHORIZER
    pg 1.11 is stuck peering for 11738.801913
    ……

    客户端的表现是文件类操作会卡住,如ls 、df等对ceph挂载的目录操作时,不可读写。

    通过重启ceph相关服务或全部服务,等待20分钟左右,ceph的状态会恢复健康。
    有时客户端能恢复读写可用性,但也出现过不能恢复,需要重启主机。
    ceph集群问题,怀疑可能和硬件有关系,在重启硬件时,发现某内存条错误。