WebUI 相关
- Locality Level(数据的区域级别):标明任务所处理的数据是缓存在内存中的(PROCESS_LOCAL),还是本地读取(NODE_LOCAL),还是来自于集群中的任意节点(ANY)。以PROCESS_LOCAL级别处理数据是极快的。
- Shuffle Write: 为下一个依赖的stage提供输入数据,shuffle过程中通过网络传输的数据字节数/记录条数。应该尽量减少shuffle的数据量及其操作次数,这是spark任务优化的一条基本原则。
- JMC工具
- jvm-profiler
spark join知识
三种join方式
- Broadcast Hash Join
- Shuffle Hash Join
- Sort-Merge Join
参考网易大佬范欣欣的博客
http://hbasefly.com/2017/03/19/sparksql-basic-join/?bovcfe=vzu8p3
解决数据倾斜问题
http://www.jasongj.com/spark/skew/
https://zhuanlan.zhihu.com/p/86544656