错误描述
调度在凌晨的时候显示批量作业报错
通过job id 查Yarn的日志,发现报错的作业都显示运行成功
找调度拿调度的日志,发现任务MR跑完成之后,会报Read Timed Out的错误,如下
问题分析
查询调度日志,可以看到MR都运行完成,所以说明集群Yarn是没有问题的,集群资源也是足够的
查看调度日志报错信息,可以看到是调用org.apache.hadoop.hive.ql.exec.DDLTask,也就是操作元数据的时候超时,SQL语句如下
create table xxx AS select xxxxx;
进入CM查看Hive运行状况,发现在凌晨的时候HiveMetaStore运行异常,且Hive MetaStore Canary测试创建数据库也失败,猜测可能是元数据库出现问题了
通过CM查询日志,发现在凌晨2点左右一直报Oracle连接错误
问题解决
- 问题已经定位,就联系oracle数据库管理员进行问题解决