环境:
ZooKeeper 3.4.5+cdh6.3.2
背景:
2020-12-22 14:08 突然收到ZK服务故障的报警
查看堆内存使用情况
查看ZK中数据大小
问题定位
CDH有OOM相关的提示,ZK使用的默认堆内存1G,观察ZK服务宕机前内存突增,查看ZK大量日志如下:
2020-12-22 14:08:00,683 INFO org.apache.zookeeper.server.PrepRequestProcessor: Got user-level KeeperException when processing sessionid:0x270d2adecb6435e type:create cxid:0x1088 zxid:0x30717e896 txntype:-1 reqpath:n/a Error Path:/hive_zookeeper_namespace_hive/xxx/abc/event_day=20191201 Error:KeeperErrorCode = NodeExists for /hive_zookeeper_namespace_hive/xxx/abc/event_day=20191201
应该是Hive大量任务运行导致的ZK内存突增
解决方式:
将ZK堆内存调整至4G服务重启后正常