问题描述

  1. 客户反应,节点扩容报错,重启Cloudera Server后所有Service都无法启动

问题分析

  1. 集群规模目前是200台,其中很多主机是今天扩容的,扩容时会报错,重启Cloudera Server和Service后发现重启失败

  2. 在CDH6.1.0及更高版本中增加了对社区版托管agent数量的限制

    1. 如果扩容的节点加入后总结点数超过100台,就会扩容失败
    2. 如果总结点数大于100台,从CDH5.X或者CDH6.0升级到CDH6.1会失败
    3. 如果总结点数大于100台,从企业版降级到社区版,那么ClouderaManager会停用除停止集群外所有的集群管理功能

      问题解决

  3. 看客户是否有继续买license的意向,如果有可以先暂时申请一个临时license使用,如果没有购买意向,那么只能删除datanode节点 将集群节点总数量减少到100台了

其他问题

  1. 减少到100台后发现,重启Cloudera Service还是会报错,如下

image.png

  1. 这个问题暂时没有解决,目前的做法是将监控数据传到其他节点上,然后将相关service迁移过去