线上问题排查实战

浏览 222 扫码分享 2022-10-13 17:02:28

背景：
波动分析诊断逻辑运行在 mapreduce任务上，任务耗时执行变长，偶发失败，经常不稳定。

排查思路：

查阅资料。一个reduce任务运行耗时超过10分钟，会重试重跑，一段时间后redunce节点一直没有发心跳给master。集群会自动把他kill掉，导致整体失败
dump数据到本地排查为什么reduce节点这么慢，开始怀疑是代码原因，debug
采用 JVM Mission Control，定位方法执行耗时
发现打印树的方法耗时占了最长时间。
原来是为了排查问题打印的，完全可以去掉。。
去掉后 10w量级的数据，秒速执行完成

总结

一开始总是怀疑是 mr任务本身资源紧张之类的问题。想在mr 参数上做优化，无果
想不清楚该子任务和其他子任务的区别在哪里（最近30天指标执行不成功，最近7天指标执行成功）
还是要往自己代码的问题上找原因，平台本身一般不会有问题
不要畏惧，不熟悉的东西也可以尝试去排查，技术排查是依赖经验的。经验多，遇到新问题也快。

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录