Spark调优

浏览 401 扫码分享 2022-07-24 18:33:06

WebUI 相关
spark join知识
解决数据倾斜问题

WebUI 相关

Locality Level（数据的区域级别）：标明任务所处理的数据是缓存在内存中的（PROCESS_LOCAL），还是本地读取（NODE_LOCAL），还是来自于集群中的任意节点（ANY）。以PROCESS_LOCAL级别处理数据是极快的。
Shuffle Write: 为下一个依赖的stage提供输入数据，shuffle过程中通过网络传输的数据字节数/记录条数。应该尽量减少shuffle的数据量及其操作次数，这是spark任务优化的一条基本原则。
JMC工具
jvm-profiler

spark join知识

三种join方式

Broadcast Hash Join
Shuffle Hash Join
Sort-Merge Join

参考网易大佬范欣欣的博客
http://hbasefly.com/2017/03/19/sparksql-basic-join/?bovcfe=vzu8p3

解决数据倾斜问题

http://www.jasongj.com/spark/skew/
https://zhuanlan.zhihu.com/p/86544656

若有收获，就点个赞吧

上一篇:

下一篇:

让时间为你证明

展开/收起文章目录