WebUI 相关

  • Locality Level(数据的区域级别):标明任务所处理的数据是缓存在内存中的(PROCESS_LOCAL),还是本地读取(NODE_LOCAL),还是来自于集群中的任意节点(ANY)。以PROCESS_LOCAL级别处理数据是极快的。
  • Shuffle Write: 为下一个依赖的stage提供输入数据,shuffle过程中通过网络传输的数据字节数/记录条数。应该尽量减少shuffle的数据量及其操作次数,这是spark任务优化的一条基本原则。
  • JMC工具
  • jvm-profiler

spark join知识

三种join方式

  • Broadcast Hash Join
  • Shuffle Hash Join
  • Sort-Merge Join

参考网易大佬范欣欣的博客
http://hbasefly.com/2017/03/19/sparksql-basic-join/?bovcfe=vzu8p3

解决数据倾斜问题

http://www.jasongj.com/spark/skew/
https://zhuanlan.zhihu.com/p/86544656