错误描述

  1. 调度在凌晨的时候显示批量作业报错

  2. 通过job id 查Yarn的日志,发现报错的作业都显示运行成功

  3. 找调度拿调度的日志,发现任务MR跑完成之后,会报Read Timed Out的错误,如下

image.png

问题分析

  1. 查询调度日志,可以看到MR都运行完成,所以说明集群Yarn是没有问题的,集群资源也是足够的

  2. 查看调度日志报错信息,可以看到是调用org.apache.hadoop.hive.ql.exec.DDLTask,也就是操作元数据的时候超时,SQL语句如下

    1. create table xxx AS select xxxxx;
  3. 进入CM查看Hive运行状况,发现在凌晨的时候HiveMetaStore运行异常,且Hive MetaStore Canary测试创建数据库也失败,猜测可能是元数据库出现问题了

  4. 通过CM查询日志,发现在凌晨2点左右一直报Oracle连接错误

image.png

问题解决

  1. 问题已经定位,就联系oracle数据库管理员进行问题解决