Spark 性能调优 - 图1
    Spark 性能调优 - 图2

    hive性能调优可以从几方面:
    1、业务逻辑调优、模型设计
    2、调度调优,资源的合理分配
    3、参数调优、map-reduce数、map-join参数、并行开启、并行度调整、小文件大小
    4、数据倾斜、1是数据分布不均匀 2是join-key 可能有大量的空 ;从业务逻辑优化,参数优化,前者效果最明显
    5、分区、列剪裁、减少操作数据量
    6、并行执行,并行度
    7、map-join,小表广播
    8、小文件合并,减少文件数,减少io数,减少任务数
    9、算子类的,高性能算子,count(distinct) 转换为group